智元機器人發布行業首個機器人世界模型開源平台——Genie Envisioner

http://www.kadhoai.com.cn 2026-04-07 07:32:28 來源：智元機器人

智元機器人重磅推出麵向真實世界機器人操控的統一世界模型平台 --- Genie Envisioner（GE）。不同於傳統“數據—訓練—評估”割裂的流水線模式，GE將未來幀預測、策略學習與仿真評估首次整合進以視頻生成為核心的閉環架構，使機器人在同一世界模型中完成從“看”到“想”再到“動”的端到端推理與執行。基於3000小時真機數據，GE-Act不僅在跨平台泛化和長時序任務執行上顯著超越現有SOTA，更為具身智能打開了從視覺理解到動作執行的全新技術路徑。

🔹 Project pagehttps://genie-envisioner.github.io/

🔹 Arxivhttps://arxiv.org/abs/2508.05635

🔹Githubhttps://github.com/AgibotTech/Genie-Envisioner

當前機器人學習係統普遍采用分階段開發模式——數據收集、模型訓練、策ce略lve評ping估gu，每mei個ge環huan節jie相xiang互hu獨du立li，並bing需xu要yao專zhuan門men的de基ji礎chu設she施shi和he任ren務wu特te定ding調tiao優you。這zhe種zhong碎sui片pian化hua架jia構gou增zeng加jia了le開kai發fa複fu雜za度du，延yan長chang了le迭die代dai周zhou期qi，限xian製zhi了le係xi統tong的de可ke擴kuo展zhan性xing。GE平台通過構建統一的視頻生成世界模型，將這些分散的環節集成到一個閉環係統中。基於約3000小時的真實機器人操控視頻數據，GE建立了從語言指令到視覺空間的直接映射，保留了機器人與環境交互的完整時空信息。

01/核心創新：視覺中心的世界建模範式

GE的核心突破在於構建了基於世界模型的以視覺中心的建模範式。不同於主流VLA（Vision-Language-Action）方法依賴視覺-語言模型將視覺輸入映射到語言空間進行間接建模，GE直接在視覺空間中建模機器人與環境的交互動態。這種方法完整保留了操控過程中的空間結構和時序演化信息，實現了對機器人-環境動態更精確、更直接的建模。這一視覺中心的建模範式帶來了兩個關鍵優勢：

高效的跨本體泛化能力

基於強大的視覺空間預訓練，GE-Act僅需極少量數據即可實現跨平台遷移。在Agilex Cobot Magic和Dual Franka等全新機器人平台上，GE-Act僅使用1小時（約250個演示）的遙操作數據就實現了高質量的任務執行。相比之下，即使是在多本體數據上有大規模預訓練的π0和GR00T模型，在相同數據量下的表現也不如GE-Act。

這種高效泛化源於GE-Base在(zai)視(shi)覺(jiao)空(kong)間(jian)中(zhong)學(xue)習(xi)到(dao)的(de)通(tong)用(yong)操(cao)控(kong)表(biao)征(zheng)。通(tong)過(guo)直(zhi)接(jie)建(jian)模(mo)視(shi)覺(jiao)動(dong)態(tai)而(er)非(fei)依(yi)賴(lai)語(yu)言(yan)抽(chou)象(xiang)，模(mo)型(xing)能(neng)夠(gou)捕(bu)捉(zhuo)到(dao)跨(kua)平(ping)台(tai)共(gong)享(xiang)的(de)底(di)層(ceng)物(wu)理(li)規(gui)律(lv)和(he)操(cao)控(kong)模(mo)式(shi)，從(cong)而(er)實(shi)現(xian)快(kuai)速(su)適(shi)配(pei)。

長時序任務的精確執行能力

更重要的是，視覺中心建模賦予了GE強大的未來時空預測能力。通過在視覺空間中顯式建模時序演化，GE-Act能夠規劃和執行需要長時序推理的複雜任務。

在折疊紙盒等超長步驟任務中，GE-Act展現出了遠超現有SOTA方法的性能。以紙盒折疊為例，這項任務需要精確執行超過10個連續子步驟，每個步驟都依賴於前序動作的準確完成。GE-Act達到了76%的成功率，而專門針對柔性物體操控優化的π0僅為48%，UniVLA和GR00T則完全無法完成（0%成功率）。

這種長時序執行能力的提升不僅源於GE的視覺世界建模，同時也得益於我們創新設計的sparse memory模(mo)塊(kuai)。通(tong)過(guo)這(zhe)樣(yang)的(de)模(mo)塊(kuai)設(she)計(ji)，能(neng)夠(gou)幫(bang)助(zhu)機(ji)器(qi)人(ren)選(xuan)擇(ze)性(xing)地(di)保(bao)留(liu)關(guan)鍵(jian)曆(li)史(shi)信(xin)息(xi)，從(cong)而(er)在(zai)長(chang)時(shi)序(xu)任(ren)務(wu)中(zhong)保(bao)持(chi)精(jing)確(que)的(de)上(shang)下(xia)文(wen)理(li)解(jie)。通(tong)過(guo)預(yu)測(ce)未(wei)來(lai)的(de)視(shi)覺(jiao)狀(zhuang)態(tai)，GE-Act能夠"預見"動作的長期後果，從而生成更連貫、更穩定的操控序列。相比之下，基於語言空間的方法在長時序任務中容易出現誤差累積和語義漂移。

02/技術架構：三大核心組件

基於視覺中心建模理念，GE平台包含三個緊密集成的組件：

GE-Base：多視角視頻世界基礎模型

GE-Base是整個平台的核心基礎，采用自回歸視頻生成框架，將輸出分割為離散的視頻塊（video chunks），每塊包含N幀。模型的關鍵創新在於其多視角生成能力和稀疏記憶機製。通過同時處理來自頭部相機和雙臂腕部相機的三路視角輸入，GE-Basenenggoubaochikongjianyizhixingbingbuzhuowanzhengdecaokongchangjing。xishujiyijizhitongguosuijicaiyanglishizhenlaizengqiangchangshixutuilinengli，shimoxingnenggouzaibaochishixulianguanxingdetongshichulichangdashufenzhongdecaokongrenwu。

訓練采用兩階段策略：首先在3-30Hz的多分辨率采樣下進行時序適應訓練（GE-Base-MR），使模型對不同運動速度具有魯棒性；隨後在5Hz固定采樣率下進行策略對齊微調（GE-Base-LF），與下遊動作建模的時序抽象保持一致。整個訓練基於AgiBot-World-Beta數據集的約3000小時、超100萬條真機數據，使用32塊A100 GPU訓練約10天完成。

GE-Act：平行流匹配動作模型

GE-Act作為即插即用的動作模塊，通過160M參數的輕量級架構將GE-Base的視覺潛在表征轉換為可執行的機器人控製指令。其設計巧妙地與GE-Base的視覺主幹平行設計，采用與GE-Base相同網絡深度的DiT塊(kuai)但(dan)使(shi)用(yong)更(geng)小(xiao)的(de)隱(yin)層(ceng)維(wei)度(du)以(yi)提(ti)高(gao)效(xiao)率(lv)。通(tong)過(guo)交(jiao)叉(cha)注(zhu)意(yi)力(li)機(ji)製(zhi)，動(dong)作(zuo)路(lu)徑(jing)能(neng)夠(gou)充(chong)分(fen)利(li)用(yong)視(shi)覺(jiao)特(te)征(zheng)中(zhong)的(de)語(yu)義(yi)信(xin)息(xi)，確(que)保(bao)生(sheng)成(cheng)的(de)動(dong)作(zuo)與(yu)任(ren)務(wu)指(zhi)令(ling)保(bao)持(chi)一(yi)致(zhi)。

GE-Act的訓練分為三個階段：動作預訓練階段將視覺表征投射到動作策略空間；任務特定視頻適應階段更新視覺生成組件以適應特定任務；麵向特定任務的動作微調完整模型以捕捉細粒度控製動態。特別值得注意的是其異步推理模式：視頻DiT以5Hz運行進行單步去噪，而動作模型以30Hz運行進行5步去噪，這種"慢-快"雙層優化使得係統能在機載RTX 4090 GPU上以200毫秒完成54步動作推理，實現實時控製。

GE-Sim：層次化動作條件仿真器

GE-Sim將GE-Base的生成能力擴展為動作條件的神經仿真器，通過層次化動作條件機製實現精確的視覺預測。該機製包含兩個關鍵組件：Pose2Image條件將7維末端執行器姿態（位置、姿態、夾爪狀態）投影到圖像空間，通過相機標定生成空間對齊的姿態圖像；運動向量計算連續姿態間的運動增量，編碼為運動令牌並通過交叉注意力注入到每個DiT塊中。

這種設計使GE-Sim能夠精確地將低層控製指令轉換為視覺預測，支持閉環策略評估。在實際應用中，策略模型生成的動作軌跡被GE-Sim轉換為未來的視覺狀態，這些生成的視頻再反饋給策略模型產生下一步動作，形成完整的仿真閉環。通過分布式集群並行化，GE-Sim可實現每小時數千次的策略rollout評估，為大規模策略優化提供了高效的評估平台。更重要的是，GE-Sim還能作為數據引擎，通過在不同初始視覺環境下執行相同動作軌跡來生成多樣化的訓練數據。

這三個組件緊密協作，構成了完整的視覺中心機器人學習平台：GE-Base提供強大的視覺世界建模能力，GE-Act實現從視覺到動作的高效轉換，GE-Sim支撐大規模策略評估和數據生成，共同推動了具身智能的發展。

EWMBench: 世界模型評測套件

此外，為了評估麵向具身任務的世界模型質量，團隊在GE核心組件之外開發了EWMBench評測套件。它從場景一致性、軌跡精度、運動動力學一致性，到語義對齊，全方位打分。多名專家的主觀評級與GE-Bench排名高度一致，驗證了其對機器人任務相關性評測的可靠性。在與Kling、Hailuo、OpenSora等先進模型的對比中，GE-Base在多項體現視覺建模質量的關鍵指標上均取得最優成績，且與人類判斷高度一致。

開源計劃與未來展望

團隊將開源全部代碼、預訓練模型和評測工具。GE通過視覺中心的世界建模，為機器人學習開辟了新的技術路徑。GE的發布，標誌著機器人從被動執行向主動‘想象—驗證—行動’的轉變。未來，將擴展更多傳感器模態，支持全身移動與人機協作，持續推動智能製造與服務機器人的落地應用。

智元機器人發布行業首個機器人世界模型開源平台——Genie Envisioner

相關新聞

編輯精選

工控原創