通過深度學習技術提升立體深度估計 - 工控新聞自動化新聞中華工控網

返回工控網首頁

中國自動化學會專家谘詢工作委員會指定宣傳媒體

免費注冊

中華工控網

廣告服務 | 客服中心

新聞詳情

通過深度學習技術提升立體深度估計

http://www.kadhoai.com.cn 2026-04-07 06:15:24 來源：TELEDYNE

概述

立體深度估計在機器人技術、AR/VR和工業檢測中至關重要，它為諸如箱體拾取、自動導航和質量控製等任務提供了精確的3D感知。Teledyne IIS的Bumblebee X立體相機既具備高精度，又能夠提供實時性能，能夠在1024×768分辨率下以38幀每秒（FPS）的速度生成詳細的視差圖。

Bumblebee X基於半全局塊匹配（SGBM）算法，在紋理豐富的場景中表現穩定。然而，像許多傳統立體方法一樣，在低紋理或反射表麵上，特別是沒有圖像投影儀的情況下，Bumblebee X可能會出現視差缺失或深度數據不完整的情況。

近期，深度學習（DL）技術的進展為提高視差精度、準確性和完整性提供了有力的解決方案。本文將通過實際測試，探討這些方法的優勢、局限性，並分析它們在嵌入式係統中的適用性。

在評估這些方法之前，我們首先需要了解傳統立體技術所麵臨的實際挑戰。

立體深度估計：挑戰與局限性

傳統的立體算法，如內置SGBM，提供了快速高效的視差估計，非常適合嵌入式和實時應用。這些方法在表麵紋理良好的場景中表現穩定，不需要GPU加速或訓練數據。

然而，在更複雜的環境中，尤其是具有反射或低紋理表麵的場景中，它們可能會生成不完整或不準確的深度圖。

以(yi)下(xia)的(de)倉(cang)庫(ku)場(chang)景(jing)說(shuo)明(ming)了(le)這(zhe)些(xie)挑(tiao)戰(zhan)。長(chang)且(qie)重(zhong)複(fu)的(de)貨(huo)架(jia)減(jian)少(shao)了(le)視(shi)差(cha)線(xian)索(suo)，而(er)光(guang)滑(hua)的(de)環(huan)氧(yang)地(di)板(ban)反(fan)射(she)了(le)周(zhou)圍(wei)光(guang)線(xian)，頂(ding)燈(deng)的(de)鏡(jing)麵(mian)高(gao)光(guang)則(ze)引(yin)入(ru)了(le)匹(pi)配(pei)錯(cuo)誤(wu)。

場景左右兩側出現空白區域是因為SGBM算法的MinDisparity被設置為0，並結合256級視差範圍，導致係統無法測量超出可測深度窗口的物體，特別是距離大約1.6米以內的物體。為了捕捉這些近場物體，用戶可以選擇增加最小視差值（Scan3D坐標偏移）或切換到四分之一分辨率模式。

如以上視差圖像所示，SGBM在內置視差引擎方麵的缺陷十分明顯。

為了解決這些問題，在立體視覺應用中常用兩種互補的深度學習方法：

混合深度學習方法：

這種方法通過輕量化神經網絡模型增強SGBM生成的初始視差圖。CVLAB-Unibo的(de)神(shen)經(jing)視(shi)差(cha)細(xi)化(hua)模(mo)型(xing)就(jiu)是(shi)一(yi)個(ge)例(li)子(zi)，通(tong)過(guo)利(li)用(yong)空(kong)間(jian)和(he)顏(yan)色(se)線(xian)索(suo)來(lai)提(ti)高(gao)深(shen)度(du)完(wan)整(zheng)性(xing)，減(jian)少(shao)匹(pi)配(pei)偽(wei)影(ying)。作(zuo)為(wei)一(yi)種(zhong)混(hun)合(he)方(fang)法(fa)，它(ta)在(zai)提(ti)高(gao)精(jing)度(du)的(de)同(tong)時(shi)保(bao)持(chi)了(le)計(ji)算(suan)效(xiao)率(lv)，特(te)別(bie)適(shi)合(he)實(shi)時(shi)或(huo)嵌(qian)入(ru)式(shi)係(xi)統(tong)。

端到端深度學習方法：

這種方法采用端到端的深度學習模型（如 Selective-Stereo 和 FoundationStereo），直接從立體圖像對中計算視差，而不依賴傳統的SGBM算法。這些網絡從大規模數據集中學習語義和上下文特征，使其即使在複雜的場景中（如遮擋或反射表麵）也能生成密集、準確的視差圖。這一方法的缺點是對GPU要求較高，因此可能限製其在實時或資源受限環境中的使用。

接下來的章節將深入分析每種方法，評估它們在實際場景中的精度、運行表現和覆蓋效果。

混合深度學習方法（神經視差細化模型）

方法描述

CVLAB-Unibo的神經視差細化方法通過傳統方法（如SGBM）提升生成的現有視差圖質量。該方法使用帶有VGG-13骨架的深度卷積神經網絡（CNN），並采用U-Net架構，旨在：

根據空間和色彩一致性填補視差空白

通過學習的空間背景信息銳化邊緣

減少常見的立體匹配偽影，如條紋

網絡架構

神經細化網絡處理兩個輸入：

來自立體相機的左側RGB圖像

Bumblebee X生成的原始視差圖

U-Net架構利用跳躍連接有效地將粗略的視差估計與來自RGB輸入的細節融合，顯著提高深度圖的完整性。

性能

NVIDIA RTX 3060 GPU上神經視差細化的推理速度約為3FPS，適用於異步實時增強。

zaitongyigecangkuchangjingzhong，womentongguojiangcongneizhishichayinqinghuodedeshuchuyuzuocexiaozhengtuxiangyiqishurudaoshenjingshichaxihuamoxingzhong，yiyouhuashicha。jieguoruxiasuoshi：

從視差圖像中可以看出，應用該網絡後，倉庫場景中的空洞減少，地麵匹配誤差也得到了修正。然而，由於細化依賴於SGBM的先驗數據，在SGBM沒有數據的區域（如場景的左右邊緣），仍然可以觀察到一些空洞。

若要重現這些結果，請訪問GitHub上的深度學習示例。

端到端深度學習方法（Selective-Stereo）

方法描述

Selective-Stereo和Foundation-Stereo是兩種先進的深度學習框架，直接從立體圖像對計算視差圖，無需依賴傳統的匹配算法（如SGBM）。它們在架構中采用了自適應頻率選擇，將高頻邊緣與低頻平滑區域區分開，從而優化了不同區域的處理。

網絡架構

Selective-Stereo基於IGEV-Stereo架構，並結合門控遞歸單元（GRU）進行迭代細化。該方法根據圖像頻率特征動態調整計算重點：

高頻分支增強邊緣和細節

低頻分支維持平滑區域輪廓並避免過擬合

性能

盡管這種方法具有高精度和完整性，但計算量大，基於NVIDIA RTX 3060 GPU的幀率約為0.5FPS。

基於以下所示結果，端到端深度學習方法提供了較為廣泛的視差覆蓋範圍，並且能保持精細的結構細節：例如，清晰渲染的天花板燈具，同時避免了由燈具反射引起的斑點偽影。

總體而言，完全端到端的視差估計網絡在視差覆蓋和結構細節保留方麵優於原始內置SGBM輸出和神經細化係統流程，盡管其運行時間較長，且對更強大的GPU有一定要求。

若要重現這些結果，請訪問GitHub上的深度學習示例。

其他考慮因素

與內置視差結果類似，距離小於1.6米的表麵（超出0-256視差範圍）無法準確處理。右下角的儲物箱就展示了這一問題：由(you)於(yu)它(ta)距(ju)離(li)相(xiang)機(ji)非(fei)常(chang)近(jin)，應(ying)該(gai)位(wei)於(yu)極(ji)紅(hong)範(fan)圍(wei)內(nei)，但(dan)網(wang)絡(luo)為(wei)其(qi)分(fen)配(pei)了(le)較(jiao)小(xiao)的(de)視(shi)差(cha)，導(dao)致(zhi)其(qi)被(bei)置(zhi)於(yu)比(bi)實(shi)際(ji)更(geng)遠(yuan)的(de)位(wei)置(zhi)。這(zhe)種(zhong)局(ju)部(bu)誤(wu)差(cha)會(hui)破(po)壞(huai)深(shen)度(du)圖(tu)，在(zai)該(gai)區(qu)域(yu)生(sheng)成(cheng)不(bu)準(zhun)確(que)的(de)點(dian)雲(yun)。

某mou些xie深shen度du學xue習xi模mo型xing提ti供gong了le調tiao整zheng最zui小xiao視shi差cha的de選xuan項xiang，從cong而er正zheng確que捕bu捉zhuo近jin距ju離li物wu體ti，而er其qi他ta模mo型xing則ze不bu支zhi持chi此ci功gong能neng。如ru果guo所suo選xuan的de深shen度du學xue習xi模mo型xing不bu允yun許xu調tiao整zheng最zui小xiao視shi差cha，可ke以yi將jiang右you圖tu像xiang向xiang左zuo平ping移yi所suo需xu的de最zui小xiao視shi差cha像xiang素su，再zai將jiang該gai值zhi加jia回hui每mei個ge輸shu出chu視shi差cha中zhong。

另(ling)外(wai)，有(you)些(xie)深(shen)度(du)學(xue)習(xi)模(mo)型(xing)會(hui)限(xian)製(zhi)其(qi)操(cao)作(zuo)的(de)視(shi)差(cha)範(fan)圍(wei)。在(zai)這(zhe)種(zhong)情(qing)況(kuang)下(xia)，需(xu)要(yao)調(tiao)整(zheng)輸(shu)入(ru)的(de)校(xiao)正(zheng)圖(tu)像(xiang)大(da)小(xiao)，以(yi)適(shi)應(ying)相(xiang)同(tong)的(de)可(ke)測(ce)深(shen)度(du)範(fan)圍(wei)，但(dan)這(zhe)會(hui)犧(xi)牲(sheng)一(yi)些(xie)深(shen)度(du)精(jing)度(du)。

許多深度學習模型還需要根據特定場景進行微調（盡管高級的“基礎”立體網絡可以實現零樣本泛化），而SGBM和基於SGBM的混合模型則無需任何調優，並能在各種場景中提供可靠的即用型性能。

比較實驗分析

我們使用已知距離為5米的隨機圖案進行了實驗基準測試。相機以1024×768分辨率（四分之一模式）運行。在精度測試中，定義了感興趣區域（ROI），確保它完全位於紋理清晰的圖案部分，隻有明確定義的特征才會影響深度統計。覆蓋評估分為兩個階段：首先評估紋理區域，然後評估相鄰的無紋理光滑白色表麵。下圖展示了所得到的視差圖。

測試結果包括：

	有紋理區域的覆蓋率（%）	無紋理區域的覆蓋率（%）	中值深度（m）	中值誤差（m）	中值誤差（%）	幀率（FPS）
SGBM (板載)	100.00	18.48	5.052	0.052	1.03	38
SGBM + 神經網絡精化 (Neural Refinement)	100.00	100.00	5.058	0.058	1.17	3
Selective-Stereo	100.00	100.00	4.988	-0.012	-0.24	0.5

觀察結果：

神經細化方法顯著提高了視差的完整性，略微增加了中間誤差。

Selective-Stereo提供了出色的完整性和較小的偏差，表明其在精度要求較高的應用中表現良好。

實際應用指南

針對特定應用場景的建議：

高速實時應用（≥30FPS）：使用Bumblebee X內置的SGBM算法，必要時結合圖案投影儀，以提高完整性。

平衡覆蓋與延遲：將神經視差細化與內置SGBM異步結合，增強覆蓋範圍。

出色精度與完整性：當低幀率可接受且高精度至關重要時，選擇Selective-Stereo。

結論

深度學習方法在複雜環境中顯著提升了Bumblebee X內置SGBM的de表biao現xian。輕qing量liang級ji細xi化hua方fang法fa能neng夠gou在zai普pu通tong硬ying件jian上shang進jin行xing實shi時shi改gai善shan，而er端duan到dao端duan網wang絡luo則ze在zai速su度du要yao求qiu較jiao低di時shi提ti供gong更geng高gao的de質zhi量liang。與yu許xu多duo受shou限xian於yu固gu定ding係xi統tong流liu暢chang或huo缺que乏fa內nei置zhi處chu理li的de立li體ti相xiang機ji不bu同tong，Bumblebee X同時支持這兩種方法，賦予用戶在精度、速度和計算能力之間優化的靈活性，適用於各種應用場景。

相關新聞

編輯精選

工控原創

版權所有工控網 Copyright©2026 Gkong.com, All Rights Reserved