中國自動化學會專家谘詢工作委員會指定宣傳媒體
新聞詳情

通過深度學習技術提升立體深度估計

http://www.kadhoai.com.cn 2026-04-06 23:47:02 來源:TELEDYNE

概述

立體深度估計在機器人技術、AR/VR和工業檢測中至關重要,它為諸如箱體拾取、自動導航和質量控製等任務提供了精確的3D感知。Teledyne IIS的Bumblebee X立體相機既具備高精度,又能夠提供實時性能,能夠在1024×768分辨率下以38幀每秒(FPS)的速度生成詳細的視差圖。

Bumblebee X基於半全局塊匹配(SGBM)算法,在紋理豐富的場景中表現穩定。然而,像許多傳統立體方法一樣,在低紋理或反射表麵上,特別是沒有圖像投影儀的情況下,Bumblebee X可能會出現視差缺失或深度數據不完整的情況。

近期,深度學習(DL)技術的進展為提高視差精度、準確性和完整性提供了有力的解決方案。本文將通過實際測試,探討這些方法的優勢、局限性,並分析它們在嵌入式係統中的適用性。

在評估這些方法之前,我們首先需要了解傳統立體技術所麵臨的實際挑戰。

立體深度估計:挑戰與局限性

傳統的立體算法,如內置SGBM,提供了快速高效的視差估計,非常適合嵌入式和實時應用。這些方法在表麵紋理良好的場景中表現穩定,不需要GPU加速或訓練數據。

然而,在更複雜的環境中,尤其是具有反射或低紋理表麵的場景中,它們可能會生成不完整或不準確的深度圖。

以yi下xia的de倉cang庫ku場chang景jing說shuo明ming了le這zhe些xie挑tiao戰zhan。長chang且qie重zhong複fu的de貨huo架jia減jian少shao了le視shi差cha線xian索suo,而er光guang滑hua的de環huan氧yang地di板ban反fan射she了le周zhou圍wei光guang線xian,頂ding燈deng的de鏡jing麵mian高gao光guang則ze引yin入ru了le匹pi配pei錯cuo誤wu。

場景左右兩側出現空白區域是因為SGBM算法的MinDisparity被設置為0,並結合256級視差範圍,導致係統無法測量超出可測深度窗口的物體,特別是距離大約1.6米以內的物體。為了捕捉這些近場物體,用戶可以選擇增加最小視差值(Scan3D坐標偏移)或切換到四分之一分辨率模式。

如以上視差圖像所示,SGBM在內置視差引擎方麵的缺陷十分明顯。

為了解決這些問題,在立體視覺應用中常用兩種互補的深度學習方法:

混合深度學習方法:

這種方法通過輕量化神經網絡模型增強SGBM生成的初始視差圖。CVLAB-Unibodeshenjingshichaxihuamoxingjiushiyigelizi,tongguoliyongkongjianheyansexiansuolaitigaoshenduwanzhengxing,jianshaopipeiweiying。zuoweiyizhonghunhefangfa,tazaitigaojingdudetongshibaochilejisuanxiaolv,tebieshiheshishihuoqianrushixitong。

端到端深度學習方法:

這種方法采用端到端的深度學習模型(如 Selective-Stereo 和 FoundationStereo),直接從立體圖像對中計算視差,而不依賴傳統的SGBM算法。這些網絡從大規模數據集中學習語義和上下文特征,使其即使在複雜的場景中(如遮擋或反射表麵)也能生成密集、準確的視差圖。這一方法的缺點是對GPU要求較高,因此可能限製其在實時或資源受限環境中的使用。

接下來的章節將深入分析每種方法,評估它們在實際場景中的精度、運行表現和覆蓋效果。

混合深度學習方法(神經視差細化模型)

方法描述

CVLAB-Unibo的神經視差細化方法通過傳統方法(如SGBM)提升生成的現有視差圖質量。該方法使用帶有VGG-13骨架的深度卷積神經網絡(CNN),並采用U-Net架構,旨在:

根據空間和色彩一致性填補視差空白

通過學習的空間背景信息銳化邊緣

減少常見的立體匹配偽影,如條紋

網絡架構

神經細化網絡處理兩個輸入:

來自立體相機的左側RGB圖像

Bumblebee X生成的原始視差圖

U-Net架構利用跳躍連接有效地將粗略的視差估計與來自RGB輸入的細節融合,顯著提高深度圖的完整性。

性能

NVIDIA RTX 3060 GPU上神經視差細化的推理速度約為3FPS,適用於異步實時增強。

在zai同tong一yi個ge倉cang庫ku場chang景jing中zhong,我wo們men通tong過guo將jiang從cong內nei置zhi視shi差cha引yin擎qing獲huo得de的de輸shu出chu與yu左zuo側ce校xiao正zheng圖tu像xiang一yi起qi輸shu入ru到dao神shen經jing視shi差cha細xi化hua模mo型xing中zhong,以yi優you化hua視shi差cha。結jie果guo如ru下xia所suo示shi:

從視差圖像中可以看出,應用該網絡後,倉庫場景中的空洞減少,地麵匹配誤差也得到了修正。然而,由於細化依賴於SGBM的先驗數據,在SGBM沒有數據的區域(如場景的左右邊緣),仍然可以觀察到一些空洞。

若要重現這些結果,請訪問GitHub上的深度學習示例。

端到端深度學習方法(Selective-Stereo)

方法描述

Selective-Stereo和Foundation-Stereo是兩種先進的深度學習框架,直接從立體圖像對計算視差圖,無需依賴傳統的匹配算法(如SGBM)。它們在架構中采用了自適應頻率選擇,將高頻邊緣與低頻平滑區域區分開,從而優化了不同區域的處理。

網絡架構

Selective-Stereo基於IGEV-Stereo架構,並結合門控遞歸單元(GRU)進行迭代細化。該方法根據圖像頻率特征動態調整計算重點:

高頻分支增強邊緣和細節

低頻分支維持平滑區域輪廓並避免過擬合

性能

盡管這種方法具有高精度和完整性,但計算量大,基於NVIDIA RTX 3060 GPU的幀率約為0.5FPS。

基於以下所示結果,端到端深度學習方法提供了較為廣泛的視差覆蓋範圍,並且能保持精細的結構細節:例如,清晰渲染的天花板燈具,同時避免了由燈具反射引起的斑點偽影。

總體而言,完全端到端的視差估計網絡在視差覆蓋和結構細節保留方麵優於原始內置SGBM輸出和神經細化係統流程,盡管其運行時間較長,且對更強大的GPU有一定要求。

若要重現這些結果,請訪問GitHub上的深度學習示例。

其他考慮因素

與內置視差結果類似,距離小於1.6米的表麵(超出0-256視差範圍)無法準確處理。右下角的儲物箱就展示了這一問題:由(you)於(yu)它(ta)距(ju)離(li)相(xiang)機(ji)非(fei)常(chang)近(jin),應(ying)該(gai)位(wei)於(yu)極(ji)紅(hong)範(fan)圍(wei)內(nei),但(dan)網(wang)絡(luo)為(wei)其(qi)分(fen)配(pei)了(le)較(jiao)小(xiao)的(de)視(shi)差(cha),導(dao)致(zhi)其(qi)被(bei)置(zhi)於(yu)比(bi)實(shi)際(ji)更(geng)遠(yuan)的(de)位(wei)置(zhi)。這(zhe)種(zhong)局(ju)部(bu)誤(wu)差(cha)會(hui)破(po)壞(huai)深(shen)度(du)圖(tu),在(zai)該(gai)區(qu)域(yu)生(sheng)成(cheng)不(bu)準(zhun)確(que)的(de)點(dian)雲(yun)。

某(mou)些(xie)深(shen)度(du)學(xue)習(xi)模(mo)型(xing)提(ti)供(gong)了(le)調(tiao)整(zheng)最(zui)小(xiao)視(shi)差(cha)的(de)選(xuan)項(xiang),從(cong)而(er)正(zheng)確(que)捕(bu)捉(zhuo)近(jin)距(ju)離(li)物(wu)體(ti),而(er)其(qi)他(ta)模(mo)型(xing)則(ze)不(bu)支(zhi)持(chi)此(ci)功(gong)能(neng)。如(ru)果(guo)所(suo)選(xuan)的(de)深(shen)度(du)學(xue)習(xi)模(mo)型(xing)不(bu)允(yun)許(xu)調(tiao)整(zheng)最(zui)小(xiao)視(shi)差(cha),可(ke)以(yi)將(jiang)右(you)圖(tu)像(xiang)向(xiang)左(zuo)平(ping)移(yi)所(suo)需(xu)的(de)最(zui)小(xiao)視(shi)差(cha)像(xiang)素(su),再(zai)將(jiang)該(gai)值(zhi)加(jia)回(hui)每(mei)個(ge)輸(shu)出(chu)視(shi)差(cha)中(zhong)。

另ling外wai,有you些xie深shen度du學xue習xi模mo型xing會hui限xian製zhi其qi操cao作zuo的de視shi差cha範fan圍wei。在zai這zhe種zhong情qing況kuang下xia,需xu要yao調tiao整zheng輸shu入ru的de校xiao正zheng圖tu像xiang大da小xiao,以yi適shi應ying相xiang同tong的de可ke測ce深shen度du範fan圍wei,但dan這zhe會hui犧xi牲sheng一yi些xie深shen度du精jing度du。

許多深度學習模型還需要根據特定場景進行微調(盡管高級的“基礎”立體網絡可以實現零樣本泛化),而SGBM和基於SGBM的混合模型則無需任何調優,並能在各種場景中提供可靠的即用型性能。

比較實驗分析

我們使用已知距離為5米的隨機圖案進行了實驗基準測試。相機以1024×768分辨率(四分之一模式)運行。在精度測試中,定義了感興趣區域(ROI),確保它完全位於紋理清晰的圖案部分,隻有明確定義的特征才會影響深度統計。覆蓋評估分為兩個階段:首先評估紋理區域,然後評估相鄰的無紋理光滑白色表麵。下圖展示了所得到的視差圖。

測試結果包括:

           

有紋理區域的覆蓋率(%)

無紋理區域的覆蓋率(%)

中值深度(m)

中值誤差(m)

中值誤差(%)

幀率(FPS)

SGBM (板載)

100.00

18.48

5.052

0.052

1.03

38

SGBM + 神經網絡精化 (Neural Refinement)

100.00

100.00

5.058

0.058

1.17

3

Selective-Stereo

100.00

100.00

4.988

-0.012

-0.24

0.5

觀察結果:

神經細化方法顯著提高了視差的完整性,略微增加了中間誤差。

Selective-Stereo提供了出色的完整性和較小的偏差,表明其在精度要求較高的應用中表現良好。

實際應用指南

針對特定應用場景的建議:

高速實時應用(≥30FPS):使用Bumblebee X內置的SGBM算法,必要時結合圖案投影儀,以提高完整性。

平衡覆蓋與延遲:將神經視差細化與內置SGBM異步結合,增強覆蓋範圍。

出色精度與完整性:當低幀率可接受且高精度至關重要時,選擇Selective-Stereo。

結論

深度學習方法在複雜環境中顯著提升了Bumblebee X內置SGBM的de表biao現xian。輕qing量liang級ji細xi化hua方fang法fa能neng夠gou在zai普pu通tong硬ying件jian上shang進jin行xing實shi時shi改gai善shan,而er端duan到dao端duan網wang絡luo則ze在zai速su度du要yao求qiu較jiao低di時shi提ti供gong更geng高gao的de質zhi量liang。與yu許xu多duo受shou限xian於yu固gu定ding係xi統tong流liu暢chang或huo缺que乏fa內nei置zhi處chu理li的de立li體ti相xiang機ji不bu同tong,Bumblebee X同時支持這兩種方法,賦予用戶在精度、速度和計算能力之間優化的靈活性,適用於各種應用場景。

版權所有 工控網 Copyright©2026 Gkong.com, All Rights Reserved