http://www.kadhoai.com.cn 2026-04-21 09:08:04 來源:今日光電
zaikehuanxiaoshuozhong,jiqirenyaomeshiyurenleiduili,yaomeshibianyichenghuairen。danrujinxianshishenghuozhongjiqirendeyingyongdaweibutong。jiqizhengdaitirenyanlaikanshijiebingjiayixingdong,tamensuodaozhichurangshenghuobiandezhihuihua。
通過攝取圖像模擬人眼的視覺功能,提取信息然後加以分析處理,機器視覺已成為智慧城市過程中不可或缺的“第三隻眼睛”,其應用領域也從食品生產流程管理、農業種植控製、yixuejiancedengfangmiandegetixuqiudaojiaotongjianfangdenggonggongxiangmu。qizhongwosishenzhenlangruizhikeshiyeyouxiangongsiyanfadejidanshoujixianjishuqi,jiubeitoufangdaojiaqinyangzhichangshiyong,zaishiyongguochengzhongkeyitigaoxiaolvhejiangdichengben。
隨著機器視覺的發展與進步,3D機器視覺迎來了自動化行業的巨大機遇,主要用於質量保證和檢測。據數據預測,2017年到2022年期間的複合年增長率將達到11.07%,2022年全球3D機器視覺市場規模有望達到21.3億美元。
在機器視覺頂會中,差不多會有半壁江山那麼多的論文都是跟3D有關。前沿探索可謂瘋狂進行,那麼有哪些三維圖像+機(ji)器(qi)視(shi)覺(jiao)的(de)新(xin)技(ji)術(shu)趨(qu)勢(shi),今(jin)天(tian)正(zheng)隱(yin)藏(zang)在(zai)未(wei)知(zhi)迷(mi)霧(wu)中(zhong)眺(tiao)望(wang)這(zhe)個(ge)世(shi)界(jie)?今(jin)天(tian)我(wo)們(men)來(lai)說(shuo)幾(ji)種(zhong)很(hen)有(you)科(ke)幻(huan)感(gan)的(de)技(ji)術(shu)突(tu)破(po)點(dian)。說(shuo)不(bu)定(ding)這(zhe)些(xie)能(neng)力(li)明(ming)年(nian)就(jiu)會(hui)出(chu)現(xian)在(zai)你(ni)的(de)手(shou)機(ji)、VR設備和無人機中,又或許即將成為某個被資本瘋狂親吻的創業熱潮。
超大場景的3D數據感知
3D機器視覺包括很多方麵,既有讓智能體去理解3D數據,也包括如何通過機器視覺的解決方案,去獲取3D模型數據。
傳統意義上的3D數據獲取,或者稱其為3D感知技術,一般來說可以利用多角度拍照或者深度傳感器的方式實現3D數據收集。這種技術的局限在於,收集的3D數據不能太大。
然而在3D資料要求不斷升級的今天,對於超大場景的3D數據感知,正在成為一個熱門議題。比如無人駕駛中使用的城市高精地圖,就可以看做一個個超大3D場景的拚接。智能城市領域運用到的很多城市數據推演,也要根植於對城市3D場景的收集。
機器視覺正在為超大場景的3D數據感知提供很多新的方法。比如自動化的成像方法,像視覺SLAM在線處理連續幀的圖像,實現實時重建巨大3D場景。再比如說對航拍數據進行點雲分割和點雲數據的語義理解,幫助快速低成本獲取城市3D數據。
總體來看,今天超大場景的3D數據感知,有三個主要應用方向,很可能分別成為各自技術領域中新的投資和創業熱點:
1、建築物的3D高精度模型,運用在工程監理、智能設計、物流和智能城市領域。
2、高精地圖與3D數據感知的結合,這是無人駕駛的重要一環。
3、室內外一體的3D建模,這對於智能家居設計、環境監控、VR/AR體驗來說都有重要幫助。
手機與3D視覺進入蜜月期
目前,智能手機已經成為AR/AR以及計算視覺等先進技術發展的最大載體,人臉識別、AR功能成為當前智能手機發展的熱點,其實無論是在AR/VR領ling域yu還hai是shi識shi別bie技ji術shu,都dou離li不bu開kai計ji算suan視shi覺jiao。計ji算suan視shi覺jiao領ling域yu其qi實shi就jiu是shi運yun用yong計ji算suan機ji技ji術shu對dui生sheng物wu視shi覺jiao的de一yi種zhong模mo擬ni,其qi中zhong深shen度du識shi別bie和he多duo維wei成cheng像xiang使shi其qi核he心xin技ji術shu。
深度識別是計算視覺的關鍵前提,能夠對生物視覺進行識別,其中包括當前流行的蘋果人臉識別技術,多維成像將包括目前的3D顯示結局即對圖片以及視頻等進行3D畫(hua)麵(mian)的(de)再(zai)現(xian)。利(li)用(yong)深(shen)度(du)識(shi)別(bie)和(he)多(duo)維(wei)成(cheng)像(xiang)技(ji)術(shu),除(chu)了(le)還(hai)原(yuan)我(wo)們(men)肉(rou)眼(yan)所(suo)能(neng)看(kan)到(dao)的(de)畫(hua)麵(mian),未(wei)來(lai)隨(sui)著(zhe)技(ji)術(shu)的(de)不(bu)斷(duan)融(rong)合(he),深(shen)度(du)識(shi)別(bie)技(ji)術(shu)還(hai)能(neng)是(shi)立(li)體(ti)的(de)展(zhan)示(shi)我(wo)們(men)肉(rou)眼(yan)所(suo)看(kan)不(bu)到(dao)的(de)東(dong)西(xi)。例(li)如(ru),未(wei)來(lai)的(de)智(zhi)能(neng)手(shou)機(ji)可(ke)以(yi)在(zai)陽(yang)光(guang)下(xia)利(li)用(yong)深(shen)度(du)識(shi)別(bie)技(ji)術(shu)和(he)人(ren)工(gong)智(zhi)能(neng)技(ji)術(shu)的(de)分(fen)析(xi),識(shi)別(bie)紫(zi)外(wai)線(xian)的(de)強(qiang)度(du),提(ti)醒(xing)我(wo)們(men)的(de)防(fang)曬(shai)護(hu)膚(fu)。
AR/VR中的眼球追蹤技術
隨著技術的進步,我們現在已經能夠利用人類眼睛進行虹膜識別,虹膜識別相較麵部識別、指紋識別都更加有效和安全,很多手機廠商開始開發使用虹膜識別功能。
chulehongmoshibiezhiwai,haiyouyanqiuzhuizongjishu。suoweiyanqiuzhuizong,shizhiyixiangjishunenggouzhuizongyanqiudeyundong,bingliyongzhezhongyanqiuyundonglaizengqiangmougechanpinhuofuwudetiyan。
眼球追蹤技術曾經在智能手機領域火了一陣,這可能要追溯到2013年Galaxy S4手(shou)機(ji)率(lv)先(xian)搭(da)載(zai)了(le)眼(yan)球(qiu)追(zhui)蹤(zong)功(gong)能(neng),這(zhe)項(xiang)功(gong)能(neng)主(zhu)要(yao)應(ying)用(yong)在(zai)視(shi)頻(pin)播(bo)放(fang)上(shang)麵(mian)。舉(ju)個(ge)例(li)子(zi),如(ru)果(guo)你(ni)正(zheng)在(zai)觀(guan)看(kan)一(yi)個(ge)視(shi)頻(pin),然(ran)後(hou)你(ni)身(shen)後(hou)的(de)同(tong)學(xue)拍(pai)了(le)一(yi)下(xia)你(ni)肩(jian)膀(pang),在(zai)你(ni)轉(zhuan)過(guo)頭(tou)的(de)時(shi)候(hou),由(you)於(yu)你(ni)的(de)眼(yan)睛(jing)已(yi)經(jing)不(bu)再(zai)看(kan)著(zhe)屏(ping)幕(mu),視(shi)頻(pin)會(hui)自(zi)動(dong)暫(zan)停(ting),而(er)當(dang)你(ni)回(hui)過(guo)頭(tou)來(lai),視(shi)頻(pin)會(hui)自(zi)動(dong)繼(ji)續(xu)播(bo)放(fang)。不(bu)需(xu)要(yao)你(ni)用(yong)手(shou)去(qu)點(dian)擊(ji)暫(zan)停(ting)和(he)播(bo)放(fang);或者你在手機上看網頁,當你眼睛看到屏幕底部的時候,網頁會自動翻頁。同年,LG也推出了一款擁有眼球追蹤功能的LG Optimus G Pro手機。
可惜,眼球追蹤未能在手機領域掀起大風大浪,原因大概有兩點。首先用戶沒有需求,一款智能手機的平均尺寸大約隻有5英寸,在這麼一丁點兒大的地方,人們更喜歡直接用手指進行交互,何況手機絕大部分功能都是使用手指進行交互,所以也不多播放/暫停這個環節;第二個原因就是,當時技術不太成熟,分辨率低,識別不夠精準,導致有用戶覺得眼睛累。
3D視覺助力機器人產業智能化轉型
3D視覺作為一項激動人心的新技術,早已經出現在微軟Kinect、英特爾RealSense等消費級產品中。近幾年,隨著硬件端技術的不斷進步,算法與軟件層麵的不斷優化,3D深度視覺的精度和實用性得到大幅提升,使得“3D深度相機+手勢/人臉識別”具備了大規模進入移動智能終端的基礎。作為全球手機當之無愧的龍頭,蘋果率先大規模采用3D視覺技術,將徹底激活3D視覺市場,開啟全新時代。
3D視覺技術不僅僅在識別精度方麵大幅提升,更重要的是打開了更加廣闊的人工智能應用空間。隨著機器視覺、人工智能、人機交互等科學技術的發展,各種高智能機器人開始走進現實,3D視覺技術成為助力製造業實現“智能化”轉型的好幫手。
大家耳熟能詳的深度攝像頭技術和應用有英特爾的RealSense、微軟的 Kinect、蘋果的 PrimeSense、以及穀歌的Project Tango等。不過可以看到這一技術的研究和開發多為國外公司,國內計算視覺方麵的公司或創業團隊屈指可數,技術上的壁壘依舊較大。
關於目前市場上的深度相機的技術方案主要有以下三種: 雙目被動視覺、結構光、TOF。雙(shuang)目(mu)被(bei)動(dong)視(shi)覺(jiao)主(zhu)要(yao)是(shi)利(li)用(yong)兩(liang)個(ge)光(guang)學(xue)攝(she)像(xiang)頭(tou),通(tong)過(guo)左(zuo)右(you)立(li)體(ti)像(xiang)對(dui)匹(pi)配(pei)後(hou),再(zai)經(jing)過(guo)三(san)角(jiao)測(ce)量(liang)法(fa)來(lai)得(de)到(dao)深(shen)度(du)信(xin)息(xi)。此(ci)算(suan)法(fa)複(fu)雜(za)度(du)高(gao),難(nan)度(du)很(hen)大(da),處(chu)理(li)芯(xin)片(pian)需(xu)要(yao)很(hen)高(gao)的(de)計(ji)算(suan)性(xing)能(neng),同(tong)時(shi)它(ta)也(ye)繼(ji)承(cheng)了(le)普(pu)通(tong)RGB攝像頭的缺點:在昏暗環境下以及特征不明顯的情況下並不適用。
jiegouguangdeyuanlishitongguohongwaijiguangfashexiangduisuijidanyougudingdebandiantuan,zhexieguangbandazaiwutishanghou,yinweiyushexiangtoujulibutong,beishexiangtoubuzhuodaodeweizhiyebujinxiangtong。ranhouxianjisuanpaidaodetudebandianyubiaodingdebiaozhuntuanzaibutongweizhideweiyi,yinrushexiangtouweizhi、傳感器大小等參數計算出物體與攝像頭的距離。
微軟在Kinect二代采用的是ToF的技術。ToF是Time of flight的簡寫,直譯為飛行時間的意思。所謂飛行時間法3D成像,是通過給目標連續發送光脈衝,然後用傳感器接收從物體返回的光,通過探測光脈衝的飛行(往返)時間來得到目標物距離。相比之下,結構光技術的優勢是比ToF更加成熟,成本更低,更加適合用在手機等移動設備上。
shendushexiangtoushisuoyouxuyaosanweishijiaoshebeidebixumokuai,youleta,shebeijiunenggoushishihuoquzhouweihuanjingwutisanweichicunheshenduxinxi,gengquanmiandedudongshijie。shendushexiangtougeishineidaohangyudingwei、避障、動作捕捉、三維掃描建模等應用提供了基礎的技術支持,成為現今行業研究熱點。如今iPhone X搭載3D深度攝像頭勢必會大力推動機器視覺領域的發展,助力機器人產業實現完美“智能化轉型”。
更好的深度傳感器解決方案
還有一個機器視覺技術和3D的交彙,主要發生在無人機領域。
無wu人ren機ji今jin天tian進jin行xing測ce繪hui和he航hang拍pai時shi,必bi須xu附fu帶dai對dui空kong間jian的de理li解jie能neng力li,否fou則ze拍pai照zhao不bu準zhun事shi小xiao,撞zhuang了le南nan牆qiang事shi大da。而er這zhe個ge能neng力li主zhu要yao來lai自zi於yu攝she像xiang頭tou和he傳chuan感gan器qi進jin行xing空kong間jian閱yue讀du。
隨著消費級無人機的不斷升級,人們對無人機拍攝效果要求也不斷升高。無人機必須不斷在更遠的距離、更極端的天氣、更複雜的運動中拍攝畫麵。然而傳統的傳感係統解決方案已經快要跟不上用戶的期許。
今天的消費級無人機,一般采取兩種感知解決方案,一種是雙目視覺技術,比如大疆的某些產品;一種是結構光傳感器,比如微軟的Kinect。而(er)這(zhe)兩(liang)種(zhong)主(zhu)流(liu)方(fang)案(an)都(dou)是(shi)有(you)一(yi)定(ding)局(ju)限(xian)的(de),比(bi)如(ru)感(gan)知(zhi)範(fan)圍(wei)都(dou)有(you)限(xian),難(nan)以(yi)完(wan)成(cheng)遠(yuan)距(ju)離(li)作(zuo)業(ye)。再(zai)比(bi)如(ru)雙(shuang)目(mu)視(shi)覺(jiao)技(ji)術(shu)在(zai)黑(hei)夜(ye)中(zhong)會(hui)失(shi)靈(ling),所(suo)以(yi)無(wu)人(ren)機(ji)夜(ye)拍(pai)一(yi)直(zhi)是(shi)個(ge)大(da)坑(keng),然(ran)而(er)結(jie)構(gou)光(guang)技(ji)術(shu)應(ying)對(dui)不(bu)來(lai)強(qiang)光(guang),一(yi)到(dao)中(zhong)午(wu)無(wu)人(ren)機(ji)就(jiu)石(shi)樂(le)誌(zhi)也(ye)是(shi)很(hen)心(xin)塞(sai)的(de)。
更geng好hao的de解jie決jue方fang案an,在zai於yu將jiang傳chuan感gan器qi與yu智zhi能neng攝she像xiang頭tou結jie合he起qi來lai,達da成cheng可ke以yi適shi應ying不bu同tong天tian候hou與yu天tian氣qi,並bing且qie可ke以yi長chang距ju離li感gan知zhi的de新xin型xing傳chuan感gan係xi統tong解jie決jue方fang案an。
今天,用機器視覺技術中的很多算法,協調不同的傳感設備工作,讓無人機變成“多眼無人機”,zhengzaichengweiliuxingdejiejuefangan。jiqishijiaosuanfadaliangjiaruwurenjichuanganqi,haikenengdailaiguijipaishenenglitisheng,rangwurenjihuodepaishezhengtihuanjing,huozhejingzhunbuzhuodongtaiwuti,birushuoyundongzhongdedongwuhecheliangdenengli。
yishangjigejishuqushi,doukenengchengweijiqishijiaohetuxingxueyingyongdexiayiburedian。zhegelingyukansipianmen,shishishangquenengyingxiangjintiankejishichangzhongdefengchuicaodong。
讓機器看到立體世界的遊戲才剛剛開始,機器與人類在某一天可以用同樣的視角相互凝視,或許才是這個故事的終點。