http://www.kadhoai.com.cn 2026-04-07 07:46:53 來源:中國工業新聞網
近日,具身智能領域的真實數據采集技術迎來重要突破。螞蟻數科天璣實驗室團隊推出了一款名為AoE(Always-OnEgocentric)的持續性第一人稱視頻采集框架,以低成本、輕量化的方式,為具身智能的數據采集提供了全新解決方案。隻需一部手機和一個成本低於20美元的頸掛式支架,即可替代以往動輒數萬美元的專業采集設備,有效化解了具身數據采集成本高昂、規模化難的行業難題。相關技術論文已在Arxiv平台發布。
隨著基礎模型的持續演進,模型的泛化能力與跨場景適應性愈加依賴於真實世界交互數據的規模、質量與覆蓋廣度。AoE的核心創新在於將“人+手機”轉(zhuan)化(hua)為(wei)可(ke)持(chi)續(xu)運(yun)行(xing)的(de)輕(qing)量(liang)數(shu)據(ju)節(jie)點(dian)。其(qi)載(zai)體(ti)是(shi)一(yi)款(kuan)符(fu)合(he)人(ren)體(ti)工(gong)學(xue)的(de)頸(jing)掛(gua)式(shi)支(zhi)架(jia),通(tong)過(guo)機(ji)械(xie)夾(jia)具(ju)或(huo)磁(ci)吸(xi)等(deng)方(fang)式(shi)將(jiang)手(shou)機(ji)穩(wen)固(gu)於(yu)胸(xiong)前(qian),持(chi)續(xu)采(cai)集(ji)貼(tie)近(jin)用(yong)戶(hu)視(shi)角(jiao)的(de)第(di)一(yi)人(ren)稱(cheng)畫(hua)麵(mian),從(cong)而(er)完(wan)整(zheng)記(ji)錄(lu)人(ren)類(lei)在(zai)自(zi)然(ran)交(jiao)互(hu)過(guo)程(cheng)中(zhong)的(de)操(cao)作(zuo)細(xi)節(jie)。
在技術表現上,AoE方案實現了毫米級的軌跡跟蹤精度與超過90%的手部關鍵點識別準確率,並支持數千台設備並行采集與雲端自動化處理。以宇樹G1機器人執行關電腦任務為例,僅依靠50條遙操作數據時成功率為45%,引入200條AoE采集的真實數據後,成功率提升至95%。在數據匱乏的情況下,AoE發揮了關鍵的“啟動學習”作用,有效支撐模型從零開始構建基礎能力。
低成本采集僅為起點。研究團隊進一步攻克了“長視頻轉化為訓練數據”的技術難關。該方案依托端側輕量級視覺模型,自動識別手物交互行為並觸發錄製;隨後借助大語言-視覺模型,將連續視頻切分為帶有語義標簽的原子動作片段;最終通過雲端自動標注、清洗與過濾,將原始視頻轉化為高質量、標準化的訓練數據集。
此外,AoE構建了一套完整的端雲協同體係,實現了從數據采集、預處理、清洗、篩選到調度的全流程自動化,有效降低人工介入的同時,大幅提升了整體數據處理的吞吐量與效率。