Boston Dynamics 人形機械人 Atlas 透過革命性的大行為模型(Large Behavior Model, LBM)技術,成功以單一 AI 模型同時控制行走與抓取動作,標誌著機械人技術從「分工專業」跨越至「全身統一」的重大里程碑。這項由 Boston Dynamics 與豐田研究院(Toyota Research Institute, TRI)合作開發的通用模型,除了展現出前所未見的「自發行為」能力,也被業界視為機械人領域即將經歷類似 ChatGPT 突破的重要訊號。本文將深入分析此技術突破的三大關鍵面向:技術架構創新、自主學習能力以及產業應用前景。
技術突破:從分割控制到統一智能
Atlas 最新展示的核心突破在於採用端對端(End-to-End)學習方式,徹底改變傳統機械人控制架構。過去機械人通常需要分別使用不同模型處理行走、跳躍與手部操作,但新的大行為模型能夠同時接收來自機身視覺感應器的影像、身體感應器的本體感知數據,以及任務相關的語言提示,進行統一決策。
豐田研究院機械人專家 Russ Tedrake 表示,新模型讓機械人的腳部被視為「第三、四隻手」,除了提升效能也令人驚艷。當 Atlas 執行彎腰撿取低處物品的任務時,會像人類一樣自然調整腳步來重新平衡重心,展現出前所未見的身體協調能力。這種整合式控制方式透過混合遠端操控、模擬訓練與示範影片的資料進行學習,讓機械人能以更貼近人類的方式控制整個身體。
自發行為:機械人展現「直覺反應」
最令研究團隊與外界專家興奮的突破是 Atlas 展現出的「自發行為」(emergent behavior)。當機械人手中物品意外掉落時,Atlas 會出現類似「本能」的反應,自動彎下腰將物品撿回,這種行為並未在訓練中明確教授。研究團隊將此現象稱為初步的自發行為,代表 AI 模型開始具備類似人類的直覺反應能力。
然而加州大學柏克萊分校機械人專家 Ken Goldberg 提醒,部分看似「自發」的行為可能仍能追溯至訓練資料的涵蓋範圍。雖然如此,這種現象仍被視為機械人智能發展的重要指標,顯示大行為模型正朝向更通用的智能方向發展。《WIRED》指出,這個現象類似於大型語言模型發展過程中出現的突現能力,預示著機械人技術可能即將迎來突破性進展。
產業應用:從娛樂展示轉向實務任務
與過去令人印象深刻的跑酷與舞蹈表演不同,Atlas 近期展示更聚焦於搬運零件、清理箱櫃等具有「物流感」的實務任務。在模擬工廠環境中,Atlas 僅憑一份箱子位置清單就能完成複雜的分類工作,精準定位箱子並規劃身體、手臂和三指手的協調動作。當遇到零件位置過高或動作失敗等突發狀況時,Atlas 能即時評估情況並調整策略,直到成功完成任務。
研究團隊向《IEEE Spectrum》表示,大型行為模型的核心在於蒐集來自不同任務、甚至不同機械人體態的資料,形成能夠執行多種任務的單一策略。這種通用策略將過去需要工程師分別調整參數、排程、避障與規劃的繁瑣工作,整合進統一的學習與推論流程。團隊認為,當神經網路接受更廣泛的資料、任務和機械人訓練時,通用能力就會更強,目前的經驗趨勢證實了這個方向的正確性。
技術發展脈絡與未來展望
回顧機械人發展歷程,從早期依賴精心編排的動作模板,到現在能夠自主決策的 AI 驅動系統,Atlas 的進化代表了機械人技術的範式轉變。2024 年 11 月,Boston Dynamics 首次展示 Atlas 的自主操作能力,不再需要人類遙控或預先編寫程式。2025 年 8 月,結合豐田研究院的大行為模型技術,Atlas 實現了端對端 AI 控制的重大突破。
業界專家認為,單純擴大訓練資料規模是否就能持續解鎖更多「意料之外」的行為,仍存在爭議。部分學者在國際會議中提醒,除了擴大資料,工程方法也將是機械人模型突破的關鍵要素。然而 Ken Goldberg 強調:「這絕對是一大進步,讓雙腿和雙臂能夠協調運作,這是非常重要的突破」。
Atlas 的技術突破為企業自動化和智慧製造帶來新機遇,但要實現能長時間、可重複、經濟且安全完成多樣作業的人形機械人,仍是機械人領域最艱難的挑戰之一。隨著大行為模型技術持續發展,未來人形機械人是否能像 ChatGPT 般帶來產業革命,值得持續關注。
資料來源: 利創智能IBCO