http://www.kadhoai.com.cn 2026-04-06 23:39:21 來源:阿丘科技
前言
我自己是做算法出身,喜歡思考問題的本質。比如,AI對(dui)於(yu)我(wo)們(men)整(zheng)個(ge)工(gong)業(ye)視(shi)覺(jiao)的(de)本(ben)質(zhi)到(dao)底(di)是(shi)什(shen)麼(me)。今(jin)天(tian)我(wo)把(ba)這(zhe)個(ge)不(bu)僅(jin)是(shi)我(wo)的(de)思(si)考(kao),也(ye)是(shi)阿(e)丘(qiu)科(ke)技(ji)整(zheng)個(ge)公(gong)司(si)的(de)思(si)考(kao)分(fen)享(xiang)給(gei)大(da)家(jia),供(gong)大(da)家(jia)參(can)考(kao)。但(dan)這(zhe)也(ye)是(shi)一(yi)個(ge)比(bi)較(jiao)初(chu)級(ji)的(de)思(si)考(kao),要(yao)在(zai)以(yi)後(hou)的(de)實(shi)踐(jian)中(zhong)深(shen)化(hua)。
今天我講的內容包含三個主題,第一個是講AI對於工業視覺到底意味著什麼;第二個是我們從整個技術發展周期的角度,看一看工業AI視覺發展的一個大的路線圖;第三個,也是必不可少的,要談一談我們對未來的一個趨勢和觀點的一些理解。
AI重構工業視覺
➔ 算法

首先我們來看第一個主題,AI對於工業視覺算法到底有什麼價值?
傳統算法,我用兩個關鍵詞來定義它,就是定量分析和特征工程。特征工程就是算不同的特征。後麵做判斷的時候,一堆的if···else···是傳統算法的一個特點。那AI這塊的話大家已經很了解了,基於樣本來做學習。我認為這是很本質的一個東西。
從功能角度出發,工業視覺算法可分為圖像處理、定位、檢測、測量、識別;從算法實現技術角度就是分類、識別、測量三大類。本質上,工業視覺算法將會或正在被AI全部重構,當然如果涉及到測量技術,即定量分析技術,傳統算法依然不可或缺。
AI重構工業視覺算法的價值體現在以下 3 個方麵:
1. 升維
AI通過升維來解決我們的一些複雜的分類和識別問題。包括複雜的背景、低對比度、柔性電子、一些強幹擾。這些東西原來傳統方法是沒問題的,但是用AI的話,我覺得能更加好。這個點大家是能夠肉眼可見的。後麵第二點和第三點可能未必肉眼可見,但實際上是更關鍵的。
2. 簡化、通用化
AIdeyidayoushishikeyiduisuanfawentizuojidudechouxiang,chouxiangzhihoujiaoweifuzadegongyeshijiaowentijiuhuibiandebijiaojiandan,haiyouyigejiushitongyonghua。henduogongyeshijiaolimianbijiaofuzadesuanfawenti,yongliangdaosangebijiaotongyongdesuanfamokuaiquxunlianshuju,jieguojiuchulaile,bingqiezhegezhibiaohaifeichangyouxiu。
3. 降本
大家聽到這個東西好像有點反直覺,覺得AI對算力有要求,怎麼還能降本?
我wo們men舉ju一yi個ge所suo有you做zuo傳chuan統tong算suan法fa的de人ren都dou能neng夠gou理li解jie的de一yi個ge例li子zi。比bi如ru幾ji何he形xing狀zhuang匹pi配pei,這zhe個ge屬shu於yu是shi整zheng個ge機ji器qi視shi覺jiao裏li麵mian,傳chuan統tong算suan法fa繞rao不bu過guo的de這zhe樣yang的de一yi個ge算suan法fa,它ta需xu要yao設she置zhi非fei常chang多duo的de參can數shu。如ru果guo要yao用yong好hao,工gong程cheng師shi需xu要yao理li解jie幾ji何he匹pi配pei算suan法fa的de基ji本ben原yuan理li、參(can)數(shu)的(de)物(wu)理(li)含(han)義(yi),這(zhe)需(xu)要(yao)較(jiao)為(wei)專(zhuan)業(ye)的(de)圖(tu)像(xiang)處(chu)理(li)背(bei)景(jing)知(zhi)識(shi),門(men)檻(kan)要(yao)求(qiu)高(gao)。如(ru)果(guo)你(ni)理(li)解(jie)不(bu)到(dao)位(wei),可(ke)能(neng)定(ding)位(wei)的(de)結(jie)果(guo)不(bu)是(shi)你(ni)想(xiang)要(yao)的(de),或(huo)者(zhe)達(da)不(bu)到(dao)一(yi)個(ge)非(fei)常(chang)精(jing)準(zhun)的(de)效(xiao)果(guo)。要(yao)做(zuo)到(dao)這(zhe)一(yi)點(dian)的(de)話(hua),是(shi)需(xu)要(yao)有(you)圖(tu)像(xiang)處(chu)理(li)算(suan)法(fa)背(bei)景(jing)的(de)。所(suo)以(yi)說(shuo)我(wo)原(yuan)來(lai)做(zuo)傳(chuan)統(tong)圖(tu)像(xiang),就(jiu)是(shi)我(wo)在(zai)原(yuan)來(lai)東(dong)家(jia)的(de)時(shi)候(hou),我(wo)們(men)帶(dai)著(zhe)底(di)下(xia)的(de)應(ying)用(yong)工(gong)程(cheng)師(shi)都(dou)是(shi)碩(shuo)士(shi),這(zhe)個(ge)成(cheng)本(ben)是(shi)非(fei)常(chang)高(gao)的(de)。
而我們用 AI 來做,比如說我們隻是訓練三、五(wu)個(ge)樣(yang)本(ben),甚(shen)至(zhi)是(shi)一(yi)個(ge)樣(yang)本(ben),後(hou)麵(mian)整(zheng)個(ge)定(ding)位(wei)的(de)精(jing)度(du)跟(gen)效(xiao)率(lv)都(dou)能(neng)夠(gou)達(da)到(dao),甚(shen)至(zhi)超(chao)過(guo)傳(chuan)統(tong)算(suan)法(fa)的(de)精(jing)度(du)。當(dang)然(ran),整(zheng)個(ge)魯(lu)棒(bang)性(xing)肯(ken)定(ding)也(ye)比(bi)傳(chuan)統(tong)算(suan)法(fa)要(yao)好(hao)。那(na)這(zhe)樣(yang)使(shi)用(yong)的(de)成(cheng)本(ben)就(jiu)可(ke)以(yi)降(jiang)到(dao)非(fei)常(chang)低(di)。
➔ 解決方案

這個解決方案的範疇是什麼?可以說是視覺係統範疇,也可以說是視覺檢測設備範疇。叫解決方案,就是基於算法疊加的一個完整方案。我們內部的觀點是,AI不(bu)僅(jin)僅(jin)是(shi)一(yi)個(ge)技(ji)術(shu)模(mo)塊(kuai),它(ta)是(shi)一(yi)種(zhong)新(xin)的(de)認(ren)知(zhi)框(kuang)架(jia),本(ben)質(zhi)上(shang)是(shi)基(ji)於(yu)數(shu)據(ju)和(he)標(biao)準(zhun)驅(qu)動(dong)的(de)。首(shou)先(xian)我(wo)們(men)要(yao)有(you)這(zhe)麼(me)一(yi)個(ge)認(ren)知(zhi)框(kuang)架(jia),再(zai)往(wang)下(xia)看(kan)我(wo)們(men)的(de)視(shi)覺(jiao)解(jie)決(jue)方(fang)案(an),核(he)心(xin)包(bao)括(kuo)哪(na)些(xie)部(bu)分(fen)?對這些部分意味著是什麼?
我抽取了裏麵三個核心部分:
1. 成像模組
成像模組就是整個機器視覺裏麵成像的所有器件跟方案,它背後的基本原理是什麼?是基於傳統算法,而傳統算法基於定量分析。所以說我們基於傳統算法來做的成像方案,它的底層要求是“定量、高對比度”。
這個會導致什麼樣的後果?比(bi)如(ru)說(shuo)我(wo)們(men)要(yao)檢(jian)測(ce)一(yi)個(ge)表(biao)麵(mian)很(hen)多(duo)不(bu)同(tong)類(lei)型(xing)的(de)缺(que)陷(xian)。為(wei)了(le)要(yao)達(da)到(dao)高(gao)對(dui)比(bi)度(du)的(de)定(ding)量(liang),可(ke)能(neng)我(wo)需(xu)要(yao)打(da)若(ruo)幹(gan)場(chang)光(guang)。可(ke)能(neng)每(mei)場(chang)光(guang)對(dui)應(ying)兩(liang)種(zhong)缺(que)陷(xian),後(hou)麵(mian)才(cai)能(neng)把(ba)這(zhe)些(xie)缺(que)陷(xian)完(wan)整(zheng)的(de)呈(cheng)現(xian)出(chu)來(lai),成(cheng)像(xiang)的(de)效(xiao)率(lv)非(fei)常(chang)低(di)。
而我們進入AI時代以後,我們對成像的要求變了,隻要是目視可見即可。當前基於傳統算法構建的成像方案,本質上還隻是一個“光電轉換器”。隻(zhi)是(shi)把(ba)一(yi)個(ge)關(guan)鍵(jian)信(xin)號(hao)轉(zhuan)換(huan)成(cheng)圖(tu)像(xiang),距(ju)離(li)我(wo)們(men)所(suo)說(shuo)的(de)眼(yan)睛(jing)差(cha)的(de)太(tai)遠(yuan)了(le)。當(dang)然(ran),我(wo)們(men)也(ye)不(bu)可(ke)能(neng)一(yi)步(bu)躍(yue)成(cheng)眼(yan)睛(jing),那(na)至(zhi)少(shao)階(jie)段(duan)性(xing)的(de)目(mu)標(biao)我(wo)們(men)是(shi)不(bu)是(shi)可(ke)以(yi)達(da)到(dao)攝(she)影(ying)水(shui)準(zhun)。這(zhe)個(ge)做(zuo)到(dao)了(le)有(you)什(shen)麼(me)好(hao)處(chu)呢(ne)?一方麵是能夠提高我們整個成像的空間效率,更重要的是它簡化了、通用化了、成本低了。這是很重要的一個根本變化。
2. 算法模組
客觀來說,當前落地的各種項目,成本還是比較高的。根源在於大部分隻是把AI作為一個算法模塊,把它疊加到原來的體係裏麵,就比較低效。後續算法方案一定要以AI為中心,打通和優化整個計算流和數據流,這個才是最優的方式,能夠提高訓練推理效率、降低部署維護成本。
3. 自動化模組
在傳統算法時代,由於成像有很多約束,自動化能發揮的作用非常受限。AI其實是打破了算法的束縛,本質上也打破了我們成像的束縛。可以自動化幫我們拍圖,各種“凹姿勢”“擺造型”。隻(zhi)要(yao)能(neng)將(jiang)缺(que)陷(xian)拍(pai)清(qing)楚(chu)就(jiu)可(ke)以(yi),並(bing)不(bu)需(xu)要(yao)那(na)麼(me)明(ming)亮(liang)的(de)成(cheng)像(xiang)。如(ru)果(guo)這(zhe)麼(me)來(lai)做(zuo)的(de)話(hua),極(ji)大(da)地(di)降(jiang)低(di)了(le)自(zi)動(dong)化(hua)複(fu)雜(za)度(du),提(ti)高(gao)了(le)自(zi)動(dong)化(hua)通(tong)用(yong)性(xing)。並(bing)且(qie)能(neng)夠(gou)比(bi)較(jiao)簡(jian)單(dan)高(gao)效(xiao)地(di)解(jie)決(jue)產(chan)品(pin)異(yi)形(xing)、多型號小批量等成像難題。
從大的維度來看,工業視覺解決方案會按兩個極端方向演進:
工業AI視覺進化論

任何技術導入都有它的一個生命周期,每個階段有不同的特點。基於落地多個項目的思考,我們將AI工業視覺發展路徑劃分為三個階段:早期市場時期(2019)、保齡球道時期(2024)、龍卷風時期(2029)。
這是一個大概的判斷,時間周期有可能會早或晚,僅供大家參考。
➔ 早期市場時期(2019):技術創新

我們首先來看一下早期市場有什麼特點?
核心還屬於是技術創新的一個時期。換句話說,AI這個東西在工業視覺裏麵到底能不能用,比較專業的說法就叫技術創新導向。
那麼工業AI算法跟我們自然場景(比如人臉識別、自動駕駛)的技術到底有什麼差別?一是小樣本,大家知道缺陷是由非受控因素產生的,獲取成本很高,所以需要小樣本;二是高精度,包括尺寸小、對比度低、過檢率和漏檢率指標嚴格,特別是關鍵缺陷要達到零漏殺;三是低算力,本質上是由於工業產品對成本有約束。
正是基於這些洞察,我們構建了自主底層算法框架、上層算法工具,即大家耳熟能詳的工業 AI 視覺軟件平台AIDI。
在推AIDI的過程中,有兩個比較有意思的點,在這裏與大家分享下:
1、設備廠商甚至集成商大部分都有自研基礎AI算法的衝動,基本都無疾而終。甚至這個公司可能隻有五六個人,他也安排一個人來自研。核心原因就兩個:一是有很多開源的框架;二是確實把這些數據拉到框架裏充分跑一跑能看到不錯的指標。但是真正上線時會受三個約束,即小樣本、高精度、低算力。所以很多人可能做到後麵無法突破這三個約束,慢慢地就悄無聲息了。
通過和客戶的交流和我個人的思考,我認為其實它是一個經濟學問題,不是一個技術問題。我們在傳統算法時代,用OpenCV去做項目也能做一部分,但是大部分的係統和設備,還是一定要用專業的平台軟件來做。在AI這個時代我認為也是一樣的。能不能自研AI算法呢?我認為是比自研傳統算法更難的。主要是三個方麵:第一個方麵,自然場景跟工業場景的問題特性有非常大的差別;第二個方麵是AI算法的參數維度更多;第三個,要達到低算力,需要對算法做高性能優化,優化複雜度是非常高的。如果一個公司真的要自研AI算法,投入的強度要很高,要有很多工程師,所以我覺得最終它實際上是一個經濟學問題。
zongdelaishuo,ruguodajiatouruziyuandeqiangduzugou,worenweiyenenggouzuoyigezhishaonengyongdedongxi,danruguoyaozuodaogenghao,jiukanniyoumeiyoutianhuabanzugougaodeyanfarenyuan。
2、有些人問我,做傳統算法的視覺廠商來做AI算法是更容易還是更難?針(zhen)對(dui)這(zhe)個(ge)問(wen)題(ti)我(wo)還(hai)真(zhen)是(shi)進(jin)行(xing)了(le)深(shen)度(du)的(de)思(si)考(kao),這(zhe)也(ye)是(shi)我(wo)想(xiang)給(gei)大(da)家(jia)分(fen)享(xiang)的(de)第(di)二(er)個(ge)點(dian)。其(qi)實(shi)我(wo)認(ren)為(wei)是(shi)更(geng)難(nan),可(ke)能(neng)比(bi)一(yi)個(ge)完(wan)全(quan)初(chu)創(chuang)的(de)公(gong)司(si)還(hai)更(geng)難(nan)。為(wei)什(shen)麼(me)?本質上AI算法和傳統算法的架構和迭代方式完全不同,研發理念也是天壤之別。要從傳統算法的方式切換到AI,我不是說沒有可能,隻是概率較小。
阿丘落地的第一個項目是3C模組外觀檢測,這個項目是有一定複雜度的。其中涉及注塑件、金屬件等多種材料組合,產品異形,缺陷種類多達70餘種、形態多變。 檢測要求漏檢率低於0.1%,過檢率3%左右,以傳統算法視角看來該項目基本無解。我們從方案到樣機上線花了超過6個月的時間,在項目進行過程中,我們發現 POC指標和上線指標之間存在巨大鴻溝。為什麼會有這個鴻溝?我認為主要有四個方麵:
第一個就是對AI的認知。它到底能解決什麼問題?不能解決什麼問題?所謂AI是不論複雜度的,隻要學習過的,再複雜也可以解決,沒學習過的再簡單也無法解決。
第二個是對需求邊界的認知,AI本身無法分辨正確與錯誤,這意味著你給它錯誤的樣本,它也會學習。從這個角度,他對標準是有很嚴格的要求的。
disangeshiduishujudeguanli。hexinzhuyaoshilianggedian,ruhebawobiaozhudebiaozhunyijiruheshaixuanduidiedaimoxingyouxinxiliangdeshuju。biaozhubiaozhuntaiyanke,chengbentaigao;不夠嚴苛,標準對AI來說又不明確。
最後一個是模型相關的問題。如何保證指標的穩定性和在產線間進行複製。比如,不同的產品型號該如何做到兼容。
為了解決這些問題,我們基於項目經驗,提煉出了AI落地方法論,比較成熟的方法,就會成為AIDI產品功能的一個組成部分。
該階段客戶的特征:擁抱新技術、有痛點、有一定支付能力。我認為這三個特征缺一不可。這樣來看,早期我們項目落地在3C行業是有其必然性的,因為以Apple為主驅動的3C供應鏈是最早擁抱新技術的行業之一。並且在3C供(gong)應(ying)鏈(lian)中(zhong),自(zi)動(dong)化(hua)程(cheng)度(du)最(zui)低(di)的(de)就(jiu)在(zai)質(zhi)檢(jian)環(huan)節(jie)。前(qian)幾(ji)年(nian)疫(yi)情(qing)引(yin)起(qi)的(de)人(ren)員(yuan)受(shou)限(xian)等(deng)問(wen)題(ti)更(geng)加(jia)推(tui)動(dong)了(le)檢(jian)測(ce)自(zi)動(dong)化(hua)。由(you)於(yu)檢(jian)測(ce)問(wen)題(ti)的(de)複(fu)雜(za)性(xing),傳(chuan)統(tong)算(suan)法(fa)時(shi)代(dai)實(shi)現(xian)檢(jian)測(ce)自(zi)動(dong)化(hua)可(ke)能(neng)性(xing)非(fei)常(chang)小(xiao)。當(dang)然(ran)也(ye)做(zuo)了(le)一(yi)些(xie)AOI,但實現的效果不太好,沒有一個真正的解決方案。可能你上了一台設備,但還需要更多的人來維護這台設備。AI提供了全新的強力的技術手段,和更多的可能性!
➔ 保齡球道時期(2024):產品創新

早期市場階段,我認為是找一些場景落地,後麵到了保齡球道時期,一定是在細分市場。
zhelimiandeyigejiaodianjiushichanpinchuangxin。congsuanfaweidulaikanjiushisuanfadebiaozhunhua,baokuogongjulianbiaozhunhua。baqianmianshuodenataoluodifangfalunchouxiangchengyitaogongju,jichengdaochanpinzhong,rangdajiagengfangbiandishiyong。congjiejuefanganweidu,hexindianzaiyuchuangxinjianhua。fajueAI特性,在提高檢測性能的同時,簡化成像、算法、自動化解決方案,縮短產品上市周期,降低產品生命周期綜合成本。
該階段客戶的特征:有痛點且關注性價比。我們認為這個階段還需要延續兩到三年的時間。
➔ 龍卷風時期(2029):行業價值鏈重構
下一個時期就是龍卷風時期,重點在於重構行業價值鏈。
gaishiqideqianzhitiaojianshishashoujichanpindechuxian,gaishashoujichanpinbaxingyejiazhilianjuanyibian,zaibaofengguohou,jianghuichengxianxindejiazhiliangeju。biru,yidonghulianwangshidaideshashoujichanpinjiushiiPhone。視覺行業的殺手級產品是康耐視的VisionPro,有了這個產品才定義了我們現在提到的很多術語。那AI時代的殺手級產品是什麼?這個還是需要由市場來選擇。
龍卷風時期的重要特征:大量“偽AI公司出現”。特別是傳統視覺公司沒有涉及AI也紛紛披上AI的外衣,因為大家都感知到暴風即將來臨,想跟上風潮的同時又恐懼被暴風卷走。
演進趨勢觀點

最後我來分享下我們對未來3-5年AI演進趨勢的一些觀點。
第一個是算法方麵:第一個是非監督,這個主要針對輕量級場景;第二個是大模型,前麵提到對於複雜場景,大模型是最佳機會;最後一個是輕量化,即低算力,低成本是工業視覺永恒的關鍵維度。
第二個趨勢屬於解決方案。第一個核心還是簡化和通用化,前麵提到的成像、算法自動化都是屬於簡化、通用化。還有一個是全鏈路的成本優化。這是什麼意思?一個行業要達到最大化普及,成本是很關鍵的一個因素。整個鏈條包括硬件、算力、開發成本、部署成本、維護成本,如何實現整體最低。
disangeworenweishizhenggexingyedadequshi。weilaiwunianzuoyou,yidinghuichuxianshashoujichanpin。zhegechanpindechuxiankaonengli,yeyaokaodianyunqi,zuizhongtashiyoushichangshaixuanchulai。zhenggexingyejianghuiyinweizhegeshashoujichanpinzhongxinxipai。zhegeshashoujichanpindechuxianjiangyingxiangshenme?我分享一下我個人的觀點:第一個就是不了解AI的de工gong程cheng師shi可ke能neng將jiang被bei淘tao汰tai。還hai有you一yi個ge就jiu是shi傳chuan統tong的de視shi覺jiao公gong司si從cong業ye者zhe能neng不bu能neng在zai大da的de圖tu景jing裏li麵mian創chuang造zao價jia值zhi,否fou則ze也ye會hui被bei淘tao汰tai。這zhe個ge我wo們men可ke以yi用yong時shi間jian來lai檢jian驗yan。

以上所有內容整理自阿丘科技研發VP 鍾克洪博士於2023 VisionChina 北京大會演講