http://www.kadhoai.com.cn 2026-04-07 01:00:10 來源:科創板日報
科創板日報消息,人工智能和機器人,總是不可避免地產生交集:前有人形機器人Optimus在特斯拉AI日橫空出世,後有OpenAI投資挪威人形機器人公司1X。如今,穀歌旗下的AI團隊DeepMind也放出大招,當地時間6月20日,DeepMind展示了用於機器人的AI智能體“RoboCat”。

RoboCat可操控機械臂完成各種各樣的任務
穀歌稱之為機器人智能體(robotic agent),本質上是由AI賦能的軟件程序,相當於機器人的“大腦”,由其加持的機器人與傳統機器人不同之處在於,RoboCat機器人更具“通用性”,並可實現自我改進、自我提升。
DeepMind稱,RoboCat是全球第一個可以解決和適應多種任務的機器人AI智能體,並且它可以在各類真實的機器人產品上完成這些任務,“RoboCat的快速學習能力減少了對人類監督訓練的需求,是朝著創建通用機器人邁出的重要一步。”
▌兩大硬核科技支撐通用機器人研發
(1)自生成訓練數據
據DeepMind的介紹,隻需要通過100次左右的演示,RoboCat就(jiu)可(ke)以(yi)學(xue)會(hui)操(cao)控(kong)機(ji)械(xie)臂(bi)來(lai)完(wan)成(cheng)各(ge)式(shi)各(ge)樣(yang)的(de)任(ren)務(wu),然(ran)後(hou)通(tong)過(guo)自(zi)生(sheng)成(cheng)的(de)數(shu)據(ju)來(lai)進(jin)行(xing)迭(die)代(dai)改(gai)進(jin)。要(yao)知(zhi)道(dao),構(gou)建(jian)通(tong)用(yong)機(ji)器(qi)人(ren)的(de)進(jin)展(zhan)速(su)度(du)較(jiao)慢(man),部(bu)分(fen)原(yuan)因(yin)是(shi)收(shou)集(ji)真(zhen)實(shi)世(shi)界(jie)的(de)訓(xun)練(lian)數(shu)據(ju)需(xu)要(yao)時(shi)間(jian)。
在DeepMind演示視頻中,RoboCat可已經以通過自主學習操控機械臂,完成“套圈”“搭積木”“抓水果”等任務。這些任務看似簡單,但考驗了機械臂操作的精準度、理解力以及對於形狀匹配難題的解決能力。目前RoboCat完成一項新任務的成功率已經從初期的36%提升至74%。


值得注意的是,不論是它操控的機械臂還是它要完成的任務,RoboCat之前從來沒見過。
這種“通用性學習能力”對於加快機器人領域的研究有重要意義。DeepMind認為,RoboCat獨立學習技能、快速自我提升的能力,以及對於不同硬件設備的快速適應能力,將對新一代通用機器人AI智能體的發展起到重要推動作用。
(2)基於多模態模型
RoboCat用到的關鍵技術之一,是一種多模態模型Gato,而Gato在西班牙語裏意為“貓”(cat),這也是“RoboCat”這一命名的由來之一。
Gato模型可以在模擬環境和物理環境中處理語言、圖像和動作,研究人員將Gato的架構與一個大型訓練數據集進行了結合,這個數據集包含100-1000個各種機械臂完成任務的演示。
基於原始數據集和新訓練產生的數據,RoboCat的數據集將包含數百萬次的訓練軌跡數據。它學習的新任務越多,它就能更好地學習和解決額外的新任務。

RoboCat的訓練過程圖解

模擬演示RoboCat的訓練過程
依托於多模態模型,RoboCat完成現實世界訓練任務的成功率要遠高於傳統基於視覺的模型方案。
▌科技巨頭同台比拚 中國產業鏈凸顯性價比優勢
其實,在生成式AI風靡全球之前,特斯拉、亞馬遜、英偉達、騰訊等眾多科技巨頭已經劃撥了專門團隊進行機器人研發。該階段,機器人智能化水平不足,難以商業化。
如今,AI加持的機器人化身具身智能,再次煥發生機。一方麵,AI大模型的出現以及多模態技術的迭代,使得機器人具備自然語言交互與自動化決策能力,大大提升其智能化水平、增強用戶體驗感;另一方麵,工程師也可以通過AI對其進行肢體的模擬訓練,大大降低了其開發成本。
穀歌RoboCat隻是AI賦能機器人的優秀案例之一。僅將視線聚焦在今年:2023年年初,穀歌推出視覺語言模型PaLM-E,並運用到工業機器人上;4月份阿裏巴巴將千問大模型接入工業機器人;5月,特斯拉人形機器人Optimus展示了精準的控製、感知能力,同月英偉達發布全新自主移動機器人平台。
再結合OpenAI投資挪威人形機器人公司1X,以及三花智控與綠的諧波在墨西哥合資設立諧波減速器公司,近期多家機構認為AI+機器人已經到達產業爆發前夜。
招商證券分析師胡小禹預計Optimus在未來2-3年內會進入量產階段。如果以100億台空間以及2萬美元單機售價測算,市場空間200萬億美元。另據高盛的研究報告,人形機器人市場規模有望在2035年超過1500億美元。
中銀證券分析師陶波稱,國產機器人產業鏈有望在自動化、智能化的浪潮中,憑借產品性價比優勢獲得廣闊的發展空間。
▌發展初期硬件先行 運動模塊價值量最高
中信證券分析師袁健聰表示,OpenAI、騰訊、小米、穀歌、英偉達等科技企業持續加注機器人領域,推動機器人技術創新與降本量產進程加快,機器人目前處發展初期,存在“硬件先行”規律。
機器人硬件主要包括控製、感知、運動、動力、散熱和總裝五大模塊,運動模塊價值量最高。根據Ofweek機器人網,工業機器人運動模塊約占整體成本的47%。
以人形機器人為代表的AI機器人相較工業機器人結構更為複雜,運動模塊的成本相應更高。以特斯拉的人形機器人Optimus為例,其運動模塊和部分感知模塊被整合為一體化關節,這部分成本占比高達整機的50%。基於此,廣發證券分析師代川及華泰證券分析師倪正洋均看好一體化關節投資價值。
