中國自動化學會專家谘詢工作委員會指定宣傳媒體
新聞詳情

中國工業互聯網研究院發布麵向製造業場景的人工智能語料數據質量評估體係

http://www.kadhoai.com.cn 2026-04-07 07:31:08 來源:能源工業互聯網聯合創新中心

高質量數據是提升模型應用效能、增強模型泛化能力、保bao障zhang模mo型xing穩wen定ding可ke信xin的de關guan鍵jian基ji礎chu,是shi發fa展zhan以yi大da模mo型xing為wei代dai表biao的de人ren工gong智zhi能neng技ji術shu的de重zhong要yao支zhi撐cheng。為wei加jia速su新xin質zhi生sheng產chan力li賦fu能neng新xin型xing工gong業ye化hua,推tui動dong人ren工gong智zhi能neng大da模mo型xing技ji術shu進jin步bu,更好地發揮數據要素價值,中國工業互聯網研究院聯合香港科技大學,在進行深入調研和充分交流的基礎上,共同構建麵向製造業場景的人工智能語料數據質量評估體係。

(一)評價體係

針對工業語料的特點,在通用數據質量評價標準的6個指標的基礎上(GB/T 36344-2018),提出專業性、通用性、稠密性、均衡性、安全合規性、全麵性、可回溯性、可解釋性等8個工業語料指標,形成麵向工業語料的質量評價體係。

專業性等新增工業語料測評方法如下:zhuanyexingzhishujuyunhanmianxiangtedinggongyexingyelingyudeyouxiaoxinxi,keyongyujiejuezhuanyelingyuwenti,jutibiaoxianweishujuneirongyusuozailingyudezhishitixiheyewuliuchenggaodupipei,jubeiqingxi、準確、shenrudexingyezhuanyezhishitezheng。ceshizhong,zhuanyexingfencaiyongbaifenzhi,jiyucaiyangshujushifouweixingyezhuanyeyuliaodebilijinxingjisuan,hexinmudeshipingguyuliaozhongfeixiangguanxingshujudebili。

通用性指數據具有跨部門、跨企業、跨場景的廣泛適用性,能夠為不同業務決策提供有效支撐,具有較強的可遷移性。測試中,將通用性分為三個等級:企業級,集團級和行業級、通用級。企業級為企業自製數據和語料,僅適用特定單一企業,如自製設備操作手冊等;集團級適用於企業集團內部或具有緊密合作關係的關聯企業,但不具備全行業範圍內的通用性;行業級為通用數據,適用於行業內通用的設備和工藝,如行業工業知識等;通用級為跨行業通用語料,如熱力學、傳熱學、電磁學等跨行業語料。

稠(chou)密(mi)性(xing)指(zhi)數(shu)據(ju)內(nei)容(rong)高(gao)度(du)集(ji)中(zhong)且(qie)重(zhong)複(fu)率(lv)低(di),數(shu)據(ju)記(ji)錄(lu)的(de)條(tiao)目(mu)密(mi)度(du)和(he)信(xin)息(xi)價(jia)值(zhi)密(mi)度(du)較(jiao)高(gao),單(dan)位(wei)數(shu)據(ju)所(suo)含(han)的(de)信(xin)息(xi)量(liang)豐(feng)富(fu)且(qie)多(duo)樣(yang)化(hua)。測(ce)試(shi)中(zhong),基(ji)於(yu)隨(sui)機(ji)采(cai)樣(yang)後(hou)數(shu)據(ju)詞(ci)嵌(qian)入(ru)的(de)餘(yu)弦(xian)相(xiang)似(si)度(du)計(ji)算(suan),根(gen)據(ju)相(xiang)似(si)度(du)估(gu)算(suan)數(shu)據(ju)的(de)重(zhong)複(fu)比(bi)率(lv)。

均衡性指數據采集在時間、空間、類別等各個維度上分布均勻,不存在明顯偏差或不平衡現象。數據的均衡性確保了模型訓練和評估過程中數據覆蓋全麵、客觀,避免因數據偏斜而導致的決策失誤或預測偏差,提高模型泛化性能和決策結果的可靠性。測試中重點對數據的采集時間、設備來源等進行考察。

安全合規性指數據中應避免涉及危化品製造、毒品製作工藝、違規操作指導、個人企業隱私等敏感、危險、隱(yin)私(si)信(xin)息(xi),對(dui)於(yu)工(gong)業(ye)領(ling)域(yu),應(ying)明(ming)確(que)界(jie)定(ding)敏(min)感(gan)內(nei)容(rong)邊(bian)界(jie),對(dui)可(ke)能(neng)存(cun)在(zai)安(an)全(quan)隱(yin)患(huan)的(de)數(shu)據(ju)進(jin)行(xing)及(ji)時(shi)標(biao)注(zhu)和(he)嚴(yan)格(ge)管(guan)控(kong)。安(an)全(quan)合(he)規(gui)性(xing)的(de)要(yao)求(qiu)可(ke)防(fang)止(zhi)因(yin)數(shu)據(ju)安(an)全(quan)問(wen)題(ti)引(yin)發(fa)的(de)事(shi)故(gu)或(huo)違(wei)法(fa)風(feng)險(xian)。

quanmianxingzhiceshineirongfugaishifouquanmian,duiyumianxiangxingyedetongyongleizhishiyuliaoshuju,quanmianxingzhishifoukefugaigaixingyexuekezhishiheshengchanzhizaogehuanjie。duiyumianxiangtedingchangjingdeshujuji,zanbujinxingquanmianxingceshi。ceshizhong,caiyongbaifenzhi,duishujufugaidequanmianxingjinxingpinggu。

可回溯性指是否包含數據的來源,數據是否能夠追溯到其來源、生成過程、以及任何中間轉換步驟。對於問題診斷、數據審計和合規性至關重要。測試中,檢查數據是否標注來源、轉換等。

可解釋性指數據是否易於被用戶理解和準確解釋,體現為數據的含義、數字、單位是否清晰明確,便於用戶直觀把握數據所表達的信息和價值。具備良好可解釋性的數據應具備明確的定義、規(gui)範(fan)的(de)表(biao)示(shi)方(fang)法(fa),以(yi)確(que)保(bao)數(shu)據(ju)使(shi)用(yong)者(zhe)能(neng)夠(gou)快(kuai)速(su)準(zhun)確(que)地(di)理(li)解(jie)數(shu)據(ju)的(de)內(nei)涵(han)與(yu)邊(bian)界(jie),從(cong)而(er)避(bi)免(mian)因(yin)數(shu)據(ju)模(mo)糊(hu)或(huo)歧(qi)義(yi)帶(dai)來(lai)的(de)誤(wu)解(jie)或(huo)決(jue)策(ce)偏(pian)差(cha)。測(ce)試(shi)中(zhong),通(tong)過(guo)專(zhuan)家(jia)對(dui)采(cai)樣(yang)數(shu)據(ju)進(jin)行(xing)理(li)解(jie),評(ping)價(jia)其(qi)可(ke)解(jie)釋(shi)性(xing),每(mei)條(tiao)語(yu)料(liao)使(shi)用(yong)是(shi)否(fou)表(biao)述(shu)清(qing)楚(chu)進(jin)行(xing)評(ping)價(jia),然(ran)後(hou)采(cai)用(yong)百(bai)分(fen)製(zhi)進(jin)行(xing)彙(hui)總(zong)評(ping)分(fen)。麵(mian)向(xiang)製(zhi)造(zao)業(ye)場(chang)景(jing)的(de)人(ren)工(gong)智(zhi)能(neng)語(yu)料(liao)數(shu)據(ju)質(zhi)量(liang)評(ping)估(gu)體(ti)係(xi)是(shi)一(yi)套(tao)全(quan)麵(mian)覆(fu)蓋(gai)數(shu)據(ju)集(ji)指(zhi)標(biao)體(ti)係(xi)、評測工具及評測實施方案的綜合性測評體係,目的是通過科學、係統的方法,對數據集的質量進行客觀、公gong正zheng的de評ping測ce,確que保bao數shu據ju集ji的de數shu據ju質zhi量liang,為wei大da模mo型xing研yan發fa提ti供gong可ke靠kao的de數shu據ju集ji支zhi持chi。促cu進jin數shu據ju要yao素su的de流liu通tong和he利li用yong,推tui動dong技ji術shu創chuang新xin和he服fu務wu升sheng級ji,共gong同tong應ying對dui大da模mo型xing時shi代dai對dui數shu據ju集ji質zhi量liang的de挑tiao戰zhan。

(二)工作計劃

下(xia)一(yi)步(bu),中(zhong)國(guo)工(gong)業(ye)互(hu)聯(lian)網(wang)研(yan)究(jiu)院(yuan)結(jie)合(he)人(ren)工(gong)智(zhi)能(neng)技(ji)術(shu)發(fa)展(zhan)趨(qu)勢(shi)和(he)行(xing)業(ye)高(gao)質(zhi)量(liang)數(shu)據(ju)集(ji)建(jian)設(she)需(xu)求(qiu)持(chi)續(xu)完(wan)善(shan)人(ren)工(gong)智(zhi)能(neng)數(shu)據(ju)集(ji)評(ping)估(gu)體(ti)係(xi),開(kai)展(zhan)數(shu)據(ju)集(ji)測(ce)評(ping),誠(cheng)邀(yao)各(ge)位(wei)行(xing)業(ye)專(zhuan)家(jia)共(gong)同(tong)參(can)與(yu)。

版權所有 工控網 Copyright©2026 Gkong.com, All Rights Reserved