國產具身大模型首闖汽車工廠！終結工業機器人 “專機專用” 時代

http://kadhoai.com.cn 2026-04-11 00:57:22 來源：中國信息化周報

近日，東風柳州汽車有限公司（以下簡稱“東風柳汽”）與智平方（深圳）科技有限公司（以下簡稱“智平方”）簽署戰略合作協議，探索具身大模型在汽車製造全方位場景的首次深度應用。

搭載智平方全域全身VLA（GOVLA）大模型的通用智能機器人AlphaBot 2（愛寶）將進駐東風柳汽汽車工廠，在柔性裝配、油液加注、安全巡檢等多個場景執行智能化作業，覆蓋質量檢測、裝配作業、物流轉運、工廠運維等關鍵製造環節。這是通用智能機器人探索“進廠打工”的最新一例，標誌著國產具身大模型首次獲得汽車製造全場景驗證。

VLA（視覺-語言-動作模型）作為具身智能領域的關鍵新範式，能有效整合視覺信息、yuyanzhilingyuxingdongjuece，xianzhutishengjiqirenduifuzahuanjingdelijieheshiyingnengli，duituidongjiqirencongdanyirenwuzhixingxiangduoyanghuachangjingzizhujuecedekuayuezhiguanzhongyao。danzaishijiyingyongguochengzhong，VLA模型在泛化能力、精確性、多模態信息融合上仍存挑戰。

VLA僅是具身智能的起點

具身智能旨在讓智能體在物理世界中通過感知、決策和行動來實現目標，而視覺-語言-動作（VLA）模型作為其中的關鍵技術，近年來備受關注。

例如，在機器人任務中，VLA模型可以根據看到的場景（視覺）和接收到的任務指令（語言）來決定如何移動和操作（行動），其末端執行器或特定參考點在空間中所經過的路徑便是運動軌跡，通過VLA模型對多模態信息的處理和分析，能夠不斷優化和調整運動軌跡，使機器人能夠高效、準確、安全地完成各種任務。

2023年8月，穀歌DeepMind推出機器人模型Robotics Transformer 2(RT-2)，是全球第一個控製機器人的視覺-語言-動作大模型（Vision Language Action Models，VLAs），10月發布RT-X機器人大模型。

如今，VLA模型已廣泛擴散至輔助駕駛領域。3月18日，理想發布了下一代自動駕駛架構MindVLA，成功整合了空間智能、語言智能和行為智能；隨後的4月，小鵬披露其正在研發的720億參數自動駕駛大模型——小鵬世界基座模型，該模型以大語言模型為骨幹網絡，通過海量優質駕駛數據訓練而成，具備視覺理解、鏈式推理和動作生成三大核心能力；此外，吉利、奇瑞等車企也在積極研發布局VLA大模型。

而在6月6日的2025智源大會上，銀河通用機器人Galbot G1也亮相現場，機器人在語音指令下自主、精確的從現場搭建的貨架上抓取對應物品，全程無遙操、自主推理、且事先無采集場景數據。此次Galbot G1展示的貨架精準取貨，背後的技術正是銀河通用團隊最新研發的端到端具身大模型Grocery VLA。

對於VLA的泛化性，銀河通用創始人兼CTO（首席技術官）王鶴認為，“VLA是當下具身研究的熱點，但VLA隻是一個起點，要真正做到人類級別的具身智能，隻能是不斷融合新的模態。VLA麵對的很多任務，在工業、商業、服務等方麵都有非常廣泛的應用，如果把這樣的VLA做好，將見證具身智能第一次真正高峰的到來。”

中關村人才協會RWA工作委員會常務副主任及秘書長吳高斌向《中國信息化周報》記者表示：“盡管VLA模型在整合視覺信息、語言指令與行動決策方麵表現出色，但在實際應用中仍麵臨環多方麵挑戰，真實生產環境中存在諸多不確定性因素，如光照變化、噪聲幹擾等，這些因素可能影響VLA模型的準確性和穩定性。雖然VLA模型在處理簡單任務時表現出色，但在麵對複雜、長程任務時，如何有效規劃行動路徑、避免衝突等仍是需要解決的問題。如何提高模型的泛化能力，減少對特定環境依賴，是未來研究重點。”

天使投資人、資深人工智能專家郭濤接受《中國信息化周報》記者采訪時表示：“VLA模型在工業場景的深化應用仍麵臨多重技術挑戰。其一，多模態信息融合精度亟待提升，工業環境中的光照變化、部件遮擋等因素易造成視覺感知誤差，需進一步優化跨模態對齊算法；其二，長程任務規劃係統的魯棒性不足，麵對動態產線幹擾時，語言指令解析與動作執行的容錯機製仍需完善；其qi三san，數shu據ju獲huo取qu與yu處chu理li存cun在zai瓶ping頸jing，汽qi車che製zhi造zao領ling域yu數shu據ju樣yang本ben稀xi缺que且qie標biao注zhu成cheng本ben高gao昂ang，如ru何he通tong過guo小xiao樣yang本ben學xue習xi技ji術shu實shi現xian模mo型xing對dui不bu同tong車che型xing產chan線xian的de快kuai速su適shi配pei，成cheng為wei製zhi約yue技ji術shu規gui模mo化hua應ying用yong的de關guan鍵jian難nan題ti。”

機器人打工首獲汽車全場景驗證

近年來，人形機器人的發布會總少不了“太空步”“後空翻”等表演。而在東風柳汽的實際應用場景中，智平方愛寶展現出全方位的智能化作業能力。

例如，在上下料場景，愛寶能夠精準完成從料車搬箱、姿態調整到定位放置的全流程作業，同步完成取件、滅燈及轉身放置，顯著提升搬運效率和操作靈活性；在拖拽料車場景，基於全域環境感知技術，機器人可實時分析產線運行狀態，自主規劃最優路徑並安全介入，實現空料車的精準拖拽；在車門質檢與貼保護布環節，GOVLA大模型協調視覺、決策與動作係統，讓愛寶能夠自主執行車門識別、車門檢測、漆麵掃描、抓取保護布、保護布貼合等多步驟複雜任務，確保長程任務穩定操作。

這種能力的背後，是智平方大模型的革新。作為國內最早提出並係統性研發端到端VLA技術範式的企業，智平方於今年4月在原有具身大模型AI2R Brain基礎上正式發布全球首個自主研發的GOVLA大模型。該具身大模型具備從桌麵到開放環境的適應能力、從單臂到全身協同的操作能力，以及從簡單任務到長程複雜任務的推理能力。

“dongfengliuqibenciyuzhipingfangdehezuo，bujintixianlejishucongshiyanshidaogongyechangjingdeluodinengli，gengtongguozhenshishengchanhuanjingdeshujufankui，tuidonglejushenzhinengjishudekuaisudiedai。duiyuqichezhizaoyeeryan，zhinenghuashengjishitishengxiaolv、降低成本、增強競爭力的關鍵路徑，而此次合作正是這一趨勢的生動實踐。”北京市社會科學院副研究員王鵬向《中國信息化周報》記者說道。

郭濤認為，“這項創新應用開創了具身大模型在汽車製造全流程落地的先河，徹底打破傳統工業機器人‘專機專用’的技術桎梏。相較以往，本次技術升級實現三大維度突破：在任務執行層麵，憑借34+自由度全身協同控製係統，機器人可靈活切換裝配、檢測、巡檢等跨工序作業，顯著提升生產柔性；環境適應方麵，通過360°全域自主導航與多車型混線生產適配技術，有效解決傳統機器人部署周期長、產線調整效率低的行業痛點；決策能力維度，基於GOVLA模型構建的視覺-語言-動作閉環係統，賦予機器人自主完成油液加注等複雜複合任務的能力，較傳統示教編程模式大幅提升生產效率”。

近年來，機器人公司加速進入工業場景，如開普勒與全球前五大主機廠及頭部物流公司展開合作，優必選在極氪汽車5G智慧工廠完成多場景多任務機器人協同實訓，比亞迪通過工業人形機器人Walker S1yuwurenchexietongzuoyedatongchanpinconglailiaodaoshengchandewuliulianlu。jushenzhinengdejinhua，libukaihailiangzhenshishujudejuhe。tongguozaizhizaogongchangdechangjingyingyong，keyiweiguochanjiqirentigongzuijiade“實戰訓練場”。

國產具身大模型首闖汽車工廠！終結工業機器人 “專機專用” 時代

相關新聞

編輯精選

工控原創