http://kadhoai.com.cn 2026-04-07 11:55:30 來源:中國電子報
對於具身智能產業而言,2026年注定是“數據”之年。從“數據孤島”到“數據底座”,從“炫技表演”到“務實應用”,行業正在經曆一場深刻而艱難的蛻變。數據的規模化、標準化、高質量化,將助力人形機器人跨越“泛化性”的天塹,真正成為賦能千行百業、走進千家萬戶的智能基礎設施。
這場關於數據的攻堅戰,才剛剛拉開序幕。作為連接數字智能與物理世界的橋梁,具身智能數據正成為這場產業變革的“新石油”。

“數據”將是最後一道壁壘?
如果說大語言模型(LLM)的成功依賴於互聯網海量文本數據的“湧現”,那(na)麼(me)具(ju)身(shen)智(zhi)能(neng)的(de)進(jin)化(hua)則(ze)依(yi)賴(lai)於(yu)高(gao)質(zhi)量(liang)的(de)真(zhen)實(shi)物(wu)理(li)交(jiao)互(hu)數(shu)據(ju)。具(ju)身(shen)智(zhi)能(neng)數(shu)據(ju),並(bing)非(fei)簡(jian)單(dan)的(de)圖(tu)像(xiang)或(huo)文(wen)本(ben),它(ta)是(shi)機(ji)器(qi)人(ren)在(zai)與(yu)物(wu)理(li)環(huan)境(jing)交(jiao)互(hu)過(guo)程(cheng)中(zhong)產(chan)生(sheng)的(de)多(duo)模(mo)態(tai)、時空對齊的複雜信息集合,涵蓋了視覺、動作、力/觸覺、環境以及交互等多個維度。這些數據共同構成了智能體學習在真實世界中感知、決策與執行的基礎。
上(shang)海(hai)交(jiao)通(tong)大(da)學(xue)助(zhu)理(li)教(jiao)授(shou)穆(mu)堯(yao)指(zhi)出(chu),從(cong)目(mu)前(qian)趨(qu)勢(shi)看(kan),數(shu)據(ju)是(shi)重(zhong)要(yao)的(de),其(qi)中(zhong)高(gao)質(zhi)量(liang)數(shu)據(ju)是(shi)最(zui)重(zhong)要(yao)的(de)。他(ta)指(zhi)出(chu),硬(ying)件(jian)發(fa)展(zhan)已(yi)到(dao)一(yi)定(ding)高(gao)度(du),但(dan)機(ji)器(qi)人(ren)手(shou)部(bu)操(cao)作(zuo)的(de)成(cheng)熟(shu)度(du)遠(yuan)低(di)於(yu)人(ren)類(lei),模(mo)型(xing)架(jia)構(gou)也(ye)基(ji)本(ben)夠(gou)用(yong),因(yin)此(ci)“優質數據”是解決問題的重要因素。
行業人士深知,機器人本體質量雖在提升,但“泛化性不足”導致機器人進入千行百業總還有“最後一公裏”距離。讓模型理解物理規律、掌握靈巧操作本領,海量且真實的帶物理模態的數據是唯一解藥。IDC中zhong國guo研yan究jiu經jing理li李li君jun蘭lan表biao示shi,當dang前qian具ju身shen智zhi能neng機ji器qi人ren正zheng處chu於yu技ji術shu高gao度du複fu雜za且qie潛qian力li巨ju大da的de交jiao彙hui點dian。虛xu實shi融rong合he數shu據ju體ti係xi成cheng為wei持chi續xu進jin化hua的de核he心xin基ji礎chu,仿fang真zhen合he成cheng數shu據ju成cheng為wei規gui模mo化hua訓xun練lian主zhu體ti,視shi頻pin學xue習xi正zheng在zai成cheng為wei潛qian在zai擴kuo展zhan路lu徑jing,遙yao操cao作zuo實shi采cai數shu據ju作zuo為wei高gao質zhi量liang補bu充chong,通tong過guo閉bi環huan訓xun練lian、仿真微調與在線反饋,支撐機器人在低成本條件下實現能力擴展與持續進化。
在這場關乎行業未來主動權的競賽中,誰掌握了數據,誰就掌握了行業定義權。今年以來,產業界對此的響應速度空前。
3月16日,京東集團宣布,依托其超級供應鏈和海量真實業務場景,將建成全球規模最大、場景最全的具身智能數據采集中心,並在未來兩年內積累超1000萬小時優質數據。據悉,京東將開放這些數據,助力具身智能產業從算法仿真邁向真實數據驅動的新階段。
接著,帕西尼感知科技繼去年建成全球最大的天津數據工廠後,再次宣布在江蘇宿遷、湖北武漢、四川自貢、江西贛州新建4座超級數據采集工廠,形成覆蓋全國五大區域的具身智能數據集群,目標是以“百億級”實采數據為產業築牢高質量底座。帕西尼創始人、CEO許晉誠表示:“高質量多模態數據的稀缺是製約智能進化的瓶頸,目前行業數據儲備與實際訓練需求之間存在指數級差距。”
3月27日,宇樹科技開源了麵向全球開放的高質量全身遙操作真機數據集UnifoLM-WBT-Dataset,旨在構建場景覆蓋“最廣”、任務複雜度“最高”、操作多樣性“最豐富”derenxingjiqirenzhenjishujutixi。ciwai,beijingrenxingjiqirenchuangxinzhongxindeshujujidiyeyichengweiguoneishujucaijidezhongyaoliliang。juxi,gaijidiyiqiantouzhidingguoneishougejushenzhinengshujujixingyebiaozhun《人工智能具身智能數據采集規範》,對外市場化交付超數萬小時高質量實采數據,整體數據合格率穩定在95%以上,有望迎來全球首個采集完成百萬小時高質量具身智能機器人數據的裏程碑。
密集的行業動作表明,2026年,已然成為具身智能數據規模化生產與應用的“元年”。
數據之困,瓶頸在哪?
盡管行業熱情高漲,但具身智能數據的工程化落地之路並非坦途,在業內專家看來,當前行業麵臨以下幾大核心挑戰。
首先,數據孤島與“方言”問題嚴重。不同構型的機器人本體,其傳感器布局、關節自由度、控製接口各不相同,導致采集的數據天然帶有“機器人形態烙印”,難以跨本體遷移和複用。這直接構成了數據共享與複用的巨大障礙。
北京人形機器人創新中心數據基地負責人蔣未來指出:“數據異構形成數據孤島是行業大問題,需要積累到大語言模型內置級別湧現智能的數據等級,否則單個企業的數據量有限。”智源研究院院長王仲遠也表達了同樣的擔憂:“數(shu)據(ju)孤(gu)島(dao)下(xia),大(da)家(jia)各(ge)做(zuo)各(ge)的(de)數(shu)據(ju),格(ge)式(shi)都(dou)不(bu)一(yi)樣(yang)。重(zhong)複(fu)采(cai)集(ji)數(shu)據(ju),訓(xun)練(lian)各(ge)自(zi)的(de)模(mo)型(xing),也(ye)很(hen)難(nan)部(bu)署(shu)在(zai)不(bu)同(tong)款(kuan)型(xing)的(de)機(ji)器(qi)人(ren)上(shang)。這(zhe)就(jiu)意(yi)味(wei)著(zhe)大(da)家(jia)都(dou)在(zai)重(zhong)複(fu)造(zao)輪(lun)子(zi),資(zi)源(yuan)出(chu)現(xian)重(zhong)大(da)浪(lang)費(fei)。”
其qi次ci,數shu據ju采cai集ji成cheng本ben高gao昂ang。真zhen機ji數shu據ju質zhi量liang最zui高gao,其qi成cheng本ben也ye最zui為wei昂ang貴gui。賽sai迪di智zhi庫ku分fen析xi報bao告gao指zhi出chu,單dan台tai設she備bei產chan生sheng一yi萬wan小xiao時shi訓xun練lian數shu據ju要yao消xiao耗hao上shang百bai萬wan元yuan。同tong時shi,人ren員yuan成cheng本ben也ye居ju高gao不bu下xia,一yi個ge數shu采cai員yuan一yi天tian隻zhi能neng采cai集ji300-500條數據,複雜任務產出更低。蔣未來坦言,真機數采的成本構成包括資產折舊、人員效率和數據損耗。“如果有效率在95%以上和75%以上,成本會差很多。”他說。
再次,數據質量與有效性參差不齊。數據質量不僅關乎采集的精度,更關乎其是否能為模型訓練提供有效“養分”。劣質數據不僅浪費資源,更可能誤導模型。
最後,數據標準體係缺失。這是行業最底層的痛點。無論是數據采集的格式、biaozhudeguifan,haishishujuzhiliangdepinggu,douquefatongyidebiaozhun。zhuanjiabiaoshi,shujubiaozhunbuyizhi,shiyongdezuzhijiuxuyaoyongdaliangjingliquzuohouduandegongjuliankaifa。ciwai,xianzaibutongjigoudekaiyuanshujujizaishujugeshi、標注體係等方麵存在顯著差異,導致數據難以跨項目集成與複用。
破局之道,從何出發?
麵對重重挑戰,產業界並未卻步,而是從多個維度積極探索破局之道。
首先是對數據采集的範式進行革新。帕西尼重塑數據集第一性原理,創建了“以人為中心”(Human-Centered)的數采體係,讓人做回數據的“生產者”。以自研的高精度自主物理感知硬件為觸點,帕西尼開發了高精度多維觸覺采集終端 PMEC,配合空間視覺矩陣,共同構建起“以人為中心”的含稀缺觸覺模態的全模態感知高精度實采具身數據體係。此外,它石智航也提出了“以人為中心”的數據采集範式,思路是“好的數據範式是你工作、你生活,而我記錄你”。這zhe一yi理li念nian的de核he心xin在zai於yu,構gou建jian通tong用yong物wu理li智zhi能neng的de關guan鍵jian是shi讓rang模mo型xing學xue習xi人ren類lei在zai真zhen實shi環huan境jing中zhong的de自zi然ran行xing為wei,而er不bu是shi用yong遙yao操cao或huo仿fang真zhen數shu據ju得de到dao一yi個ge頭tou重zhong腳jiao輕qing、不能在真實複雜環境用的VLA模型。為此,它石智航自主研發了SenseHub數據采集套件,去規避遙操作難以規模化的瓶頸,彌補仿真數據與現實之間的鴻溝。
tongshi,weilezaishujuguimoyuchengbenzhijianzhaodaopinghengdian,xingyeyezaijijitansuowubentishujucaijihegaozhiliangfangzhenshujushengcheng。biru,wubenticaijibugenjutijiqirenbangding,lilunshangkeyikuodaguimo、降低投入,並解決數據孤島問題,但有效性還需更多檢驗和證明。專家表示,無本體、世(shi)界(jie)模(mo)型(xing)路(lu)線(xian)嚐(chang)試(shi)解(jie)耦(ou)數(shu)據(ju)和(he)機(ji)型(xing),需(xu)要(yao)研(yan)發(fa)突(tu)破(po),先(xian)證(zheng)明(ming)這(zhe)些(xie)數(shu)據(ju)訓(xun)練(lian)效(xiao)果(guo)和(he)真(zhen)機(ji)一(yi)樣(yang)好(hao),再(zai)解(jie)決(jue)構(gou)型(xing)綁(bang)定(ding)問(wen)題(ti),才(cai)容(rong)易(yi)形(xing)成(cheng)統(tong)一(yi)市(shi)場(chang)、方便交易。
三是加速數據標準製定,打通產業“任督二脈”。標準化是解決數據孤島、降低行業成本、促進生態繁榮的根本途徑。去年年末,工信部人形機器人與具身智能標準化技術委員會正式成立,我國首個覆蓋全產業鏈、全生命周期的《人形機器人與具身智能標準體係(2026版)》隨之發布,標誌著行業進入規範化、係統化發展新階段。專家指出:“現在人形機器人的標準在全世界範圍內都是沒有的,這給了我們一個很好的契機,讓中國標準成為世界標準。”
最後是構建數據生態,開放共享,協同進化。數據作為新型生產要素,其價值在於流通與複用。京東、宇樹科技、帕西尼等企業紛紛選擇開源或開放數據,正是看到了這一點。
從京東的千萬小時數據布局,到帕西尼的全國數據集群,再到行業標準的逐步落地,2026年的具身智能產業,已經告別“炫技式”發展的浮躁,穩步邁入務實落地的深水區。未來,隨著數據生態的不斷完善、技術範式的持續革新,具身智能終將憑借堅實的數據底座,真正走進千家萬戶、賦能千行百業,開啟人機共生的全新篇章。