http://kadhoai.com.cn 2026-04-11 00:57:22 來源:中國信息化周報
近日,東風柳州汽車有限公司(以下簡稱“東風柳汽”)與智平方(深圳)科技有限公司(以下簡稱“智平方”)簽署戰略合作協議,探索具身大模型在汽車製造全方位場景的首次深度應用。
搭載智平方全域全身VLA(GOVLA)大模型的通用智能機器人AlphaBot 2(愛寶)將進駐東風柳汽汽車工廠,在柔性裝配、油液加注、安全巡檢等多個場景執行智能化作業,覆蓋質量檢測、裝配作業、物流轉運、工廠運維等關鍵製造環節。這是通用智能機器人探索“進廠打工”的最新一例,標誌著國產具身大模型首次獲得汽車製造全場景驗證。

VLA(視覺-語言-動作模型)作為具身智能領域的關鍵新範式,能有效整合視覺信息、yuyanzhilingyuxingdongjuece,xianzhutishengjiqirenduifuzahuanjingdelijieheshiyingnengli,duituidongjiqirencongdanyirenwuzhixingxiangduoyanghuachangjingzizhujuecedekuayuezhiguanzhongyao。danzaishijiyingyongguochengzhong,VLA模型在泛化能力、精確性、多模態信息融合上仍存挑戰。
VLA僅是具身智能的起點
具身智能旨在讓智能體在物理世界中通過感知、決策和行動來實現目標,而視覺-語言-動作(VLA)模型作為其中的關鍵技術,近年來備受關注。
例如,在機器人任務中,VLA模型可以根據看到的場景(視覺)和接收到的任務指令(語言)來決定如何移動和操作(行動),其末端執行器或特定參考點在空間中所經過的路徑便是運動軌跡,通過VLA模型對多模態信息的處理和分析,能夠不斷優化和調整運動軌跡,使機器人能夠高效、準確、安全地完成各種任務。
2023年8月,穀歌DeepMind推出機器人模型Robotics Transformer 2(RT-2),是全球第一個控製機器人的視覺-語言-動作大模型(Vision Language Action Models,VLAs),10月發布RT-X機器人大模型。
如今,VLA模型已廣泛擴散至輔助駕駛領域。3月18日,理想發布了下一代自動駕駛架構MindVLA,成功整合了空間智能、語言智能和行為智能;隨後的4月,小鵬披露其正在研發的720億參數自動駕駛大模型——小鵬世界基座模型,該模型以大語言模型為骨幹網絡,通過海量優質駕駛數據訓練而成,具備視覺理解、鏈式推理和動作生成三大核心能力;此外,吉利、奇瑞等車企也在積極研發布局VLA大模型。
而在6月6日的2025智源大會上,銀河通用機器人Galbot G1也亮相現場,機器人在語音指令下自主、精確的從現場搭建的貨架上抓取對應物品,全程無遙操、自主推理、且事先無采集場景數據。此次Galbot G1展示的貨架精準取貨,背後的技術正是銀河通用團隊最新研發的端到端具身大模型Grocery VLA。
對於VLA的泛化性,銀河通用創始人兼CTO(首席技術官)王鶴認為,“VLA是當下具身研究的熱點,但VLA隻是一個起點,要真正做到人類級別的具身智能,隻能是不斷融合新的模態。VLA麵對的很多任務,在工業、商業、服務等方麵都有非常廣泛的應用,如果把這樣的VLA做好,將見證具身智能第一次真正高峰的到來。”
中關村人才協會RWA工作委員會常務副主任及秘書長吳高斌向《中國信息化周報》記者表示:“盡管VLA模型在整合視覺信息、語言指令與行動決策方麵表現出色,但在實際應用中仍麵臨環多方麵挑戰,真實生產環境中存在諸多不確定性因素,如光照變化、噪聲幹擾等,這些因素可能影響VLA模型的準確性和穩定性。雖然VLA模型在處理簡單任務時表現出色,但在麵對複雜、長程任務時,如何有效規劃行動路徑、避免衝突等仍是需要解決的問題。如何提高模型的泛化能力,減少對特定環境依賴,是未來研究重點。”
天使投資人、資深人工智能專家郭濤接受《中國信息化周報》記者采訪時表示:“VLA模型在工業場景的深化應用仍麵臨多重技術挑戰。其一,多模態信息融合精度亟待提升,工業環境中的光照變化、部件遮擋等因素易造成視覺感知誤差,需進一步優化跨模態對齊算法;其二,長程任務規劃係統的魯棒性不足,麵對動態產線幹擾時,語言指令解析與動作執行的容錯機製仍需完善;其qi三san,數shu據ju獲huo取qu與yu處chu理li存cun在zai瓶ping頸jing,汽qi車che製zhi造zao領ling域yu數shu據ju樣yang本ben稀xi缺que且qie標biao注zhu成cheng本ben高gao昂ang,如ru何he通tong過guo小xiao樣yang本ben學xue習xi技ji術shu實shi現xian模mo型xing對dui不bu同tong車che型xing產chan線xian的de快kuai速su適shi配pei,成cheng為wei製zhi約yue技ji術shu規gui模mo化hua應ying用yong的de關guan鍵jian難nan題ti。”
機器人打工首獲汽車全場景驗證
近年來,人形機器人的發布會總少不了“太空步”“後空翻”等表演。而在東風柳汽的實際應用場景中,智平方愛寶展現出全方位的智能化作業能力。
例如,在上下料場景,愛寶能夠精準完成從料車搬箱、姿態調整到定位放置的全流程作業,同步完成取件、滅燈及轉身放置,顯著提升搬運效率和操作靈活性;在拖拽料車場景,基於全域環境感知技術,機器人可實時分析產線運行狀態,自主規劃最優路徑並安全介入,實現空料車的精準拖拽;在車門質檢與貼保護布環節,GOVLA大模型協調視覺、決策與動作係統,讓愛寶能夠自主執行車門識別、車門檢測、漆麵掃描、抓取保護布、保護布貼合等多步驟複雜任務,確保長程任務穩定操作。
這種能力的背後,是智平方大模型的革新。作為國內最早提出並係統性研發端到端VLA技術範式的企業,智平方於今年4月在原有具身大模型AI2R Brain基礎上正式發布全球首個自主研發的GOVLA大模型。該具身大模型具備從桌麵到開放環境的適應能力、從單臂到全身協同的操作能力,以及從簡單任務到長程複雜任務的推理能力。
“dongfengliuqibenciyuzhipingfangdehezuo,bujintixianlejishucongshiyanshidaogongyechangjingdeluodinengli,gengtongguozhenshishengchanhuanjingdeshujufankui,tuidonglejushenzhinengjishudekuaisudiedai。duiyuqichezhizaoyeeryan,zhinenghuashengjishitishengxiaolv、降低成本、增強競爭力的關鍵路徑,而此次合作正是這一趨勢的生動實踐。”北京市社會科學院副研究員王鵬向《中國信息化周報》記者說道。
郭濤認為,“這項創新應用開創了具身大模型在汽車製造全流程落地的先河,徹底打破傳統工業機器人‘專機專用’的技術桎梏。相較以往,本次技術升級實現三大維度突破:在任務執行層麵,憑借34+自由度全身協同控製係統,機器人可靈活切換裝配、檢測、巡檢等跨工序作業,顯著提升生產柔性;環境適應方麵,通過360°全域自主導航與多車型混線生產適配技術,有效解決傳統機器人部署周期長、產線調整效率低的行業痛點;決策能力維度,基於GOVLA模型構建的視覺-語言-動作閉環係統,賦予機器人自主完成油液加注等複雜複合任務的能力,較傳統示教編程模式大幅提升生產效率”。
近年來,機器人公司加速進入工業場景,如開普勒與全球前五大主機廠及頭部物流公司展開合作,優必選在極氪汽車5G智慧工廠完成多場景多任務機器人協同實訓,比亞迪通過工業人形機器人Walker S1yuwurenchexietongzuoyedatongchanpinconglailiaodaoshengchandewuliulianlu。jushenzhinengdejinhua,libukaihailiangzhenshishujudejuhe。tongguozaizhizaogongchangdechangjingyingyong,keyiweiguochanjiqirentigongzuijiade“實戰訓練場”。