特斯拉以基礎模型重構 AI 技術路線！自駕車與機器人共用單一架構

特斯拉在 2025 年的國際電腦視覺會議（ICCV 2025）上，首度完整對外說明端到端 AI 基礎模型（Foundation Model）如何應用於未來的 Robotaxi 與人形機器人 Optimus。這場演講由 Autopilot 與 AI 軟體總監 Ashok Elluswamy 主講，內容涵蓋實際運作與技術細節。

本文主要內容

這套基礎模型大幅簡化自駕系統的架構，並讓特斯拉能透過軟體更新延長舊硬體壽命，同時為 Robotaxi 的商業化做準備。這代表未來的技術競爭將不再只是感測器與硬體的比拼，而是誰能蒐集更多真實駕駛數據，並訓練出更強大的 AI。

Ashok Elluswamy 領導特斯拉自駕技術轉型

Ashok Elluswamy 出生於印度清奈（Chennai），畢業於清奈工程學院（College of Engineering, Guindy），並在卡內基美隆大學（Carnegie Mellon University）取得機器人系統開發碩士學位。

他於 2014 年加入特斯拉，成為 Autopilot 團隊的首位工程師；2019 年升任軟體總監，2024 年起擔任 AI 軟體副總裁，負責端到端自駕技術與人形機器人 Optimus 的開發。

特斯拉將為 HW3 推出 FSD v14 輕量版！免費硬體升級時程揭曉

特斯拉 2025 Q3 財報重點一次看！Elon Musk 的下一步：機器人軍隊

特斯拉發佈 2025 Q3 安全報告：Autopilot 事故率僅為美國平均的九分之一

Ashok 主導了特斯拉自動駕駛系統從傳統模組化架構轉向端到端神經網路的技術轉型，也是本次 ICCV 會議的主要演講人之一。

Robotaxi 實際上線展現端到端 AI 實力

Ashok Elluswamy 表示，今年夏季，特斯拉已在美國奧斯汀（Austin）與灣區（Bay Area）開放 Robotaxi 無人車服務。在奧斯汀，當車速低於時速 40 英里時，車輛可在沒有安全員的情況下接送乘客。這些車輛並非原型車，而是量產版本，配備與一般車主相同的攝影機與電腦。

他同時提到另一項測試：新車從德州工廠下線後，能自動行駛至交車地點，全程約 20 至 30 分鐘，路線涵蓋市區道路、高速公路與停車場。這顯示端到端模型已具備應對真實環境複雜情境的能力，且無需仰賴高精度地圖。

特斯拉捨棄模組化架構改用單一 AI 模型

傳統自駕系統多半依循「感知 → 規劃 → 控制」三段式流程，以模組化架構分工處理不同任務。這種設計雖有助於除錯與調校，但資訊在模組間傳遞時容易出現損耗與延遲。特斯拉則選擇不同路線，改採單一大型神經網路（Neural Network），讓系統能直接依據攝影機影像、車速與導航資訊，輸出方向盤轉動與加減速等控制動作，大幅縮短反應時間並減少中間層處理。

這項技術方向其實早在 FSD v14 更新時便已現出端倪。當時，特斯拉針對端到端模型的注意力閾值與決策邏輯進行大幅調整，使模型能更直接回應外部環境。本次於 ICCV 的技術揭露，更清楚展現特斯拉將全面採用此架構，作為自駕車與機器人技術的核心基礎。

為什麼這很重要？

對車主而言，這代表配備 HW3 的車輛無須更換硬體，就能運行接近 HW4 等級的輕量化模型。對特斯拉而言，這不僅能延長舊車的使用壽命、降低升級成本，也有助於維持車主的黏著度。

車隊資料成為 AI 訓練的核心優勢

特斯拉車輛配備 7 至 8 支攝影機，僅 30 秒的行駛過程就可能產生超過 20 億筆資料（token）。特斯拉運用龐大的車隊資料，主動觸發並收集罕見或高風險情境，例如突發事故、行人違規穿越等，讓 AI 模型能學習更多真實場景，而不僅是筆直行駛在高速公路上的情況。

這項資料優勢不僅來自規模，更來自資料的多樣性與真實性。特斯拉的車隊遍布全球，能蒐集各種天氣與道路環境下的駕駛數據，形成其他車廠在短期內難以追趕的核心門檻，讓端到端模型得以持續優化，在真實環境中展現更高穩定性。

3D 場景重建讓端到端模型更透明

許多人對端到端模型仍抱持疑慮，其中最常被提出的問題之一，是模型的決策過程難以解釋。當系統不再經過傳統的感知與規劃模組時，工程師也無法像以往那樣逐層追蹤錯誤來源，這種「黑箱」特性在自駕技術領域特別敏感。特斯拉意識到這點，因此導入輔助可視化工具，讓模型的思考過程不再完全不可見。

透過 Gaussian Splatting（高斯潑灑技術），特斯拉能將行駛中蒐集的影像資料，快速重建為高品質的 3D 場景。工程師可從不同視角回放模型「當下所見」的畫面，並對照實際決策行為，以理解模型在關鍵時刻如何進行「判斷」與「反應」。這項技術為端到端模型的開發與驗證提供更透明、可檢視的技術途徑。

這項技術的關鍵價值

工程師可以直接「詢問模型」為什麼這樣轉彎、為什麼停下來，模型會以語意標註或自然語言回覆。這不只是技術上的展示，而是一項能大幅提升安全驗證與內部除錯效率的實用工具。

神經網路模擬器強化測試與對抗訓練

特斯拉開發的神經網路模擬器（Neural Simulator）能完整重現道路行駛情境，並支援多種進階測試模式。工程師不僅可重播過去發生的錯誤案例，也能主動注入對抗事件，例如突發車輛切入或障礙物出現，讓模型面對更多不可預期的狀況。此外，系統還能長時間生成多鏡頭影片，模擬真實交通環境下的動態變化。

這種「閉環訓練」（Closed-loop Training）方式，能在不依賴實體車輛的情況下，快速驗證模型在各種情境中的反應與穩定性。與實車測試相比，它能以更高效率進行大量實驗，縮短開發與驗證週期，讓模型更快完成迭代。

單一技術架構同步應用於車輛與機器人

Ashok Elluswamy 也在演講中談到特斯拉的長期策略，指出下一代 Cybercab 將採用與現有車輛相同的端到端神經網路，並針對 Robotaxi 場景進行最佳化設計，目標是在維持性能的同時降低營運成本。這代表特斯拉正將自駕技術從個人車輛擴展至商業化車隊，逐步建立可規模化運作的自駕服務。

同時，人形機器人 Optimus 也已在工廠導入相同技術，用於自主導航與執行基本任務。這代表未來特斯拉的車輛與機器人將「共用同一顆大腦」，在相同的 AI 架構下進行學習、感知與行動，形成跨產品線的統一技術生態系。

感測器編碼仍保留彈性但強調梯度貫通

在問答環節中，有與會者詢問是否仍需針對不同感測器進行獨立處理。Ashok Elluswamy 回應指出，各感測器確實可以保留自身的編碼方式，例如針對影像、雷達或其他輸入資料進行前置處理，但關鍵在於整個訓練流程的梯度必須貫穿所有感測器資料，才能維持端到端架構的一致性。

這項設計不僅兼顧即時性與運算效率，也能避免傳統模組化架構在資訊傳遞時產生延遲或遺失。同時，它也為未來支援更多感測器與硬體平台預留技術彈性，讓整體系統更具擴充性與適應力。

傳統模組化與基礎模型差異明確

以下整理了傳統模組化自駕系統與特斯拉端到端基礎模型（Foundation Model）的主要差異，可看出兩者在技術架構與訓練思維上的不同。傳統自駕仰賴人工規則與高精地圖，一旦遇到未預期情境便容易失效；端到端模型則依靠龐大資料訓練，透過演算法直接「學習」人類駕駛行為，並持續自我修正。

項目	傳統模組化架構	特斯拉基礎模型（Foundation Model）
架構設計	感知、規劃、控制分開，模組各自運作	以單一大型神經網路統一處理所有任務
訓練資料	以標準場景與人工收集資料為主	透過車隊自動觸發，蒐集罕見或高風險情境
場景重建	依賴高精地圖與人工建模	使用 Gaussian Splatting（高斯潑灑技術）快速重建
測試方式	以開放式道路實測為主，週期長且成本高	導入神經網路模擬器進行閉環測試，加速驗證流程
適用領域	僅限車輛	車輛與機器人共用單一 AI 架構

這兩種架構的主要差別在於：傳統自駕需要繁瑣的規則與人工調校，而端到端模型能透過資料與演算法自動學習駕駛邏輯，隨著車隊資料累積不斷進化。這讓特斯拉能在不依賴高精地圖或特定測試場景的情況下，更有效率地推進自駕技術規模化。

特斯拉端到端技術演進時間軸

下表整理了特斯拉端到端技術從雛形到全面導入的過程，顯示這並非突然切換架構，而是經過多年技術鋪陳與驗證。從最初的實驗模型，到今日 Robotaxi 實際上線，展現出長期的戰略布局。

年份	發展階段	重點技術與里程碑
2021	端到端模型雛形	初步整合影像輸入與動作輸出，建立單一神經網路架構
2023	FSD Beta 穩定運行	累積大量實駕資料，持續修正決策邏輯
2024	v12.5 輕量化模型	HW3 車輛開始支援端到端模型，模擬接近 HW4 的性能
2025	ICCV 技術發表	基礎模型全面導入 Robotaxi 與 Optimus 應用領域

這項技術演進的關鍵在於資料規模與訓練方式的轉變。特斯拉不再強調「寫規則」，而是透過龐大的資料池與模型訓練，讓系統持續貼近人類駕駛邏輯，並以同一套技術同步發展自駕車與機器人領域。

端到端技術成為特斯拉全球策略核心

在結語中，Ashok Elluswamy 強調特斯拉的技術策略已全面聚焦於端到端基礎模型，並將這套架構同時應用於 Robotaxi 與 Optimus。未來的競爭重點將不再是感測器的規格堆疊，而在於誰能掌握更龐大的資料規模、更高效的訓練能力，以及更成熟的演算法。這種技術集中化的策略，也讓特斯拉能在不同產品之間靈活共享進展與成果。