中國自動化學會專家谘詢工作委員會指定宣傳媒體
新聞詳情

具身智能進入“數據之年”

http://www.kadhoai.com.cn 2026-04-07 21:34:41 來源:中國電子報

對於具身智能產業而言,2026年注定是“數據”之年。從“數據孤島”到“數據底座”,從“炫技表演”到“務實應用”,行業正在經曆一場深刻而艱難的蛻變。數據的規模化、標準化、高質量化,將助力人形機器人跨越“泛化性”的天塹,真正成為賦能千行百業、走進千家萬戶的智能基礎設施。

這場關於數據的攻堅戰,才剛剛拉開序幕。作為連接數字智能與物理世界的橋梁,具身智能數據正成為這場產業變革的“新石油”。

“數據”將是最後一道壁壘?

如果說大語言模型(LLM)的成功依賴於互聯網海量文本數據的“湧現”,namejushenzhinengdejinhuazeyilaiyugaozhiliangdezhenshiwulijiaohushuju。jushenzhinengshuju,bingfeijiandandetuxianghuowenben,tashijiqirenzaiyuwulihuanjingjiaohuguochengzhongchanshengdeduomotai、時空對齊的複雜信息集合,涵蓋了視覺、動作、力/觸覺、環境以及交互等多個維度。這些數據共同構成了智能體學習在真實世界中感知、決策與執行的基礎。

上(shang)海(hai)交(jiao)通(tong)大(da)學(xue)助(zhu)理(li)教(jiao)授(shou)穆(mu)堯(yao)指(zhi)出(chu),從(cong)目(mu)前(qian)趨(qu)勢(shi)看(kan),數(shu)據(ju)是(shi)重(zhong)要(yao)的(de),其(qi)中(zhong)高(gao)質(zhi)量(liang)數(shu)據(ju)是(shi)最(zui)重(zhong)要(yao)的(de)。他(ta)指(zhi)出(chu),硬(ying)件(jian)發(fa)展(zhan)已(yi)到(dao)一(yi)定(ding)高(gao)度(du),但(dan)機(ji)器(qi)人(ren)手(shou)部(bu)操(cao)作(zuo)的(de)成(cheng)熟(shu)度(du)遠(yuan)低(di)於(yu)人(ren)類(lei),模(mo)型(xing)架(jia)構(gou)也(ye)基(ji)本(ben)夠(gou)用(yong),因(yin)此(ci)“優質數據”是解決問題的重要因素。

行業人士深知,機器人本體質量雖在提升,但“泛化性不足”導致機器人進入千行百業總還有“最後一公裏”距離。讓模型理解物理規律、掌握靈巧操作本領,海量且真實的帶物理模態的數據是唯一解藥。IDCzhongguoyanjiujinglilijunlanbiaoshi,dangqianjushenzhinengjiqirenzhengchuyujishugaodufuzaqieqianlijudadejiaohuidian。xushirongheshujutixichengweichixujinhuadehexinjichu,fangzhenhechengshujuchengweiguimohuaxunlianzhuti,shipinxuexizhengzaichengweiqianzaikuozhanlujing,yaocaozuoshicaishujuzuoweigaozhiliangbuchong,tongguobihuanxunlian、仿真微調與在線反饋,支撐機器人在低成本條件下實現能力擴展與持續進化。

在這場關乎行業未來主動權的競賽中,誰掌握了數據,誰就掌握了行業定義權。今年以來,產業界對此的響應速度空前。

3月16日,京東集團宣布,依托其超級供應鏈和海量真實業務場景,將建成全球規模最大、場景最全的具身智能數據采集中心,並在未來兩年內積累超1000萬小時優質數據。據悉,京東將開放這些數據,助力具身智能產業從算法仿真邁向真實數據驅動的新階段。

接著,帕西尼感知科技繼去年建成全球最大的天津數據工廠後,再次宣布在江蘇宿遷、湖北武漢、四川自貢、江西贛州新建4座超級數據采集工廠,形成覆蓋全國五大區域的具身智能數據集群,目標是以“百億級”實采數據為產業築牢高質量底座。帕西尼創始人、CEO許晉誠表示:“高質量多模態數據的稀缺是製約智能進化的瓶頸,目前行業數據儲備與實際訓練需求之間存在指數級差距。”

3月27日,宇樹科技開源了麵向全球開放的高質量全身遙操作真機數據集UnifoLM-WBT-Dataset,旨在構建場景覆蓋“最廣”、任務複雜度“最高”、操作多樣性“最豐富”的(de)人(ren)形(xing)機(ji)器(qi)人(ren)真(zhen)機(ji)數(shu)據(ju)體(ti)係(xi)。此(ci)外(wai),北(bei)京(jing)人(ren)形(xing)機(ji)器(qi)人(ren)創(chuang)新(xin)中(zhong)心(xin)的(de)數(shu)據(ju)基(ji)地(di)也(ye)已(yi)成(cheng)為(wei)國(guo)內(nei)數(shu)據(ju)采(cai)集(ji)的(de)重(zhong)要(yao)力(li)量(liang)。據(ju)悉(xi),該(gai)基(ji)地(di)已(yi)牽(qian)頭(tou)製(zhi)定(ding)國(guo)內(nei)首(shou)個(ge)具(ju)身(shen)智(zhi)能(neng)數(shu)據(ju)集(ji)行(xing)業(ye)標(biao)準(zhun)《人工智能具身智能數據采集規範》,對外市場化交付超數萬小時高質量實采數據,整體數據合格率穩定在95%以上,有望迎來全球首個采集完成百萬小時高質量具身智能機器人數據的裏程碑。

密集的行業動作表明,2026年,已然成為具身智能數據規模化生產與應用的“元年”。

數據之困,瓶頸在哪?

盡管行業熱情高漲,但具身智能數據的工程化落地之路並非坦途,在業內專家看來,當前行業麵臨以下幾大核心挑戰。

首先,數據孤島與“方言”問題嚴重。不同構型的機器人本體,其傳感器布局、關節自由度、控製接口各不相同,導致采集的數據天然帶有“機器人形態烙印”,難以跨本體遷移和複用。這直接構成了數據共享與複用的巨大障礙。

北京人形機器人創新中心數據基地負責人蔣未來指出:“數據異構形成數據孤島是行業大問題,需要積累到大語言模型內置級別湧現智能的數據等級,否則單個企業的數據量有限。”智源研究院院長王仲遠也表達了同樣的擔憂:“數shu據ju孤gu島dao下xia,大da家jia各ge做zuo各ge的de數shu據ju,格ge式shi都dou不bu一yi樣yang。重zhong複fu采cai集ji數shu據ju,訓xun練lian各ge自zi的de模mo型xing,也ye很hen難nan部bu署shu在zai不bu同tong款kuan型xing的de機ji器qi人ren上shang。這zhe就jiu意yi味wei著zhe大da家jia都dou在zai重zhong複fu造zao輪lun子zi,資zi源yuan出chu現xian重zhong大da浪lang費fei。”

其(qi)次(ci),數(shu)據(ju)采(cai)集(ji)成(cheng)本(ben)高(gao)昂(ang)。真(zhen)機(ji)數(shu)據(ju)質(zhi)量(liang)最(zui)高(gao),其(qi)成(cheng)本(ben)也(ye)最(zui)為(wei)昂(ang)貴(gui)。賽(sai)迪(di)智(zhi)庫(ku)分(fen)析(xi)報(bao)告(gao)指(zhi)出(chu),單(dan)台(tai)設(she)備(bei)產(chan)生(sheng)一(yi)萬(wan)小(xiao)時(shi)訓(xun)練(lian)數(shu)據(ju)要(yao)消(xiao)耗(hao)上(shang)百(bai)萬(wan)元(yuan)。同(tong)時(shi),人(ren)員(yuan)成(cheng)本(ben)也(ye)居(ju)高(gao)不(bu)下(xia),一(yi)個(ge)數(shu)采(cai)員(yuan)一(yi)天(tian)隻(zhi)能(neng)采(cai)集(ji)300-500條數據,複雜任務產出更低。蔣未來坦言,真機數采的成本構成包括資產折舊、人員效率和數據損耗。“如果有效率在95%以上和75%以上,成本會差很多。”他說。

再次,數據質量與有效性參差不齊。數據質量不僅關乎采集的精度,更關乎其是否能為模型訓練提供有效“養分”。劣質數據不僅浪費資源,更可能誤導模型。

最後,數據標準體係缺失。這是行業最底層的痛點。無論是數據采集的格式、biaozhudeguifan,haishishujuzhiliangdepinggu,douquefatongyidebiaozhun。zhuanjiabiaoshi,shujubiaozhunbuyizhi,shiyongdezuzhijiuxuyaoyongdaliangjingliquzuohouduandegongjuliankaifa。ciwai,xianzaibutongjigoudekaiyuanshujujizaishujugeshi、標注體係等方麵存在顯著差異,導致數據難以跨項目集成與複用。

破局之道,從何出發?

麵對重重挑戰,產業界並未卻步,而是從多個維度積極探索破局之道。

首先是對數據采集的範式進行革新。帕西尼重塑數據集第一性原理,創建了“以人為中心”(Human-Centered)的數采體係,讓人做回數據的“生產者”。以自研的高精度自主物理感知硬件為觸點,帕西尼開發了高精度多維觸覺采集終端 PMEC,配合空間視覺矩陣,共同構建起“以人為中心”的含稀缺觸覺模態的全模態感知高精度實采具身數據體係。此外,它石智航也提出了“以人為中心”的數據采集範式,思路是“好的數據範式是你工作、你生活,而我記錄你”。這(zhe)一(yi)理(li)念(nian)的(de)核(he)心(xin)在(zai)於(yu),構(gou)建(jian)通(tong)用(yong)物(wu)理(li)智(zhi)能(neng)的(de)關(guan)鍵(jian)是(shi)讓(rang)模(mo)型(xing)學(xue)習(xi)人(ren)類(lei)在(zai)真(zhen)實(shi)環(huan)境(jing)中(zhong)的(de)自(zi)然(ran)行(xing)為(wei),而(er)不(bu)是(shi)用(yong)遙(yao)操(cao)或(huo)仿(fang)真(zhen)數(shu)據(ju)得(de)到(dao)一(yi)個(ge)頭(tou)重(zhong)腳(jiao)輕(qing)、不能在真實複雜環境用的VLA模型。為此,它石智航自主研發了SenseHub數據采集套件,去規避遙操作難以規模化的瓶頸,彌補仿真數據與現實之間的鴻溝。

同tong時shi,為wei了le在zai數shu據ju規gui模mo與yu成cheng本ben之zhi間jian找zhao到dao平ping衡heng點dian,行xing業ye也ye在zai積ji極ji探tan索suo無wu本ben體ti數shu據ju采cai集ji和he高gao質zhi量liang仿fang真zhen數shu據ju生sheng成cheng。比bi如ru,無wu本ben體ti采cai集ji不bu跟gen具ju體ti機ji器qi人ren綁bang定ding,理li論lun上shang可ke以yi擴kuo大da規gui模mo、降低投入,並解決數據孤島問題,但有效性還需更多檢驗和證明。專家表示,無本體、shijiemoxingluxianchangshijieoushujuhejixing,xuyaoyanfatupo,xianzhengmingzhexieshujuxunlianxiaoguohezhenjiyiyanghao,zaijiejuegouxingbangdingwenti,cairongyixingchengtongyishichang、方便交易。

三是加速數據標準製定,打通產業“任督二脈”。標準化是解決數據孤島、降低行業成本、促進生態繁榮的根本途徑。去年年末,工信部人形機器人與具身智能標準化技術委員會正式成立,我國首個覆蓋全產業鏈、全生命周期的《人形機器人與具身智能標準體係(2026版)》隨之發布,標誌著行業進入規範化、係統化發展新階段。專家指出:“現在人形機器人的標準在全世界範圍內都是沒有的,這給了我們一個很好的契機,讓中國標準成為世界標準。”

最後是構建數據生態,開放共享,協同進化。數據作為新型生產要素,其價值在於流通與複用。京東、宇樹科技、帕西尼等企業紛紛選擇開源或開放數據,正是看到了這一點。

從京東的千萬小時數據布局,到帕西尼的全國數據集群,再到行業標準的逐步落地,2026年的具身智能產業,已經告別“炫技式”發展的浮躁,穩步邁入務實落地的深水區。未來,隨著數據生態的不斷完善、技術範式的持續革新,具身智能終將憑借堅實的數據底座,真正走進千家萬戶、賦能千行百業,開啟人機共生的全新篇章。

版權所有 工控網 Copyright©2026 Gkong.com, All Rights Reserved