http://www.kadhoai.com.cn 2026-04-08 12:51:02 來源:《周末畫報》
這不是夢想。
一場由自然用戶界麵帶來的革命,
不僅改變我們和計算機交互的方式,
更將徹底變革計算機的未來。

想想當你拿起鋼筆記筆記、拿起鉛筆畫素描、拿(na)起(qi)刀(dao)刻(ke)下(xia)字(zi)母(mu)的(de)時(shi)候(hou),手(shou)裏(li)怎(zen)麼(me)握(wo)觸(chu)這(zhe)些(xie)工(gong)具(ju)?微(wei)軟(ruan)亞(ya)洲(zhou)研(yan)究(jiu)院(yuan)的(de)年(nian)輕(qing)研(yan)究(jiu)員(yuan)曹(cao)翔(xiang)發(fa)現(xian)其(qi)中(zhong)的(de)差(cha)異(yi)很(hen)有(you)門(men)道(dao),人(ren)們(men)使(shi)用(yong)不(bu)同(tong)工(gong)具(ju)的(de)握(wo)姿(zi)各(ge)不(bu)相(xiang)同(tong),有(you)可(ke)能(neng)改(gai)變(bian)長(chang)期(qi)以(yi)來(lai)困(kun)擾(rao)計(ji)算(suan)機(ji)輸(shu)入(ru)的(de)一(yi)個(ge)問(wen)題(ti)。
這(zhe)位(wei)專(zhuan)門(men)從(cong)事(shi)人(ren)機(ji)交(jiao)互(hu)研(yan)究(jiu)的(de)小(xiao)夥(huo)子(zi)製(zhi)造(zao)了(le)一(yi)個(ge)數(shu)字(zi)筆(bi),上(shang)麵(mian)附(fu)加(jia)了(le)多(duo)點(dian)觸(chu)摸(mo)和(he)方(fang)向(xiang)感(gan)應(ying),可(ke)以(yi)識(shi)別(bie)用(yong)戶(hu)握(wo)持(chi)筆(bi)的(de)方(fang)式(shi)。於(yu)是(shi),在(zai)用(yong)戶(hu)變(bian)換(huan)握(wo)持(chi)數(shu)字(zi)筆(bi)的(de)方(fang)式(shi)時(shi),這(zhe)支(zhi)筆(bi)可(ke)以(yi)根(gen)據(ju)其(qi)手(shou)勢(shi),自(zi)然(ran)而(er)然(ran)地(di)實(shi)現(xian)鋼(gang)筆(bi)、畫筆、素描鉛筆、刀和圓規等不同工具、不同功能之間的切換,無需切換按鈕,如同使用實際工具一樣自然。
在一年一度素有“計算機研究領域的盛宴”之zhi稱cheng的de微wei軟ruan技ji術shu節jie上shang,計ji算suan機ji領ling域yu內nei的de各ge路lu專zhuan家jia圍wei著zhe曹cao翔xiang這zhe個ge簡jian單dan又you巧qiao妙miao的de項xiang目mu嘖ze嘖ze稱cheng讚zan。曹cao翔xiang則ze稱cheng自zi己ji的de點dian子zi來lai自zi人ren們men的de實shi際ji需xu求qiu。盡jin管guan如ru曹cao自zi己ji坦tan承cheng,這zhe個ge被bei稱cheng為wei“所握即所得的數字筆”的小項目尚不能被稱為“革命”,但是無數類似的,從人的本身需求出發、強調人與計算機進行更自然互動的交互方式,正推動計算機科學處在一場徹底變革的前夕。
感同身受
“計算機領域的下一個重大趨勢和革命將會是自然用戶界麵(Natural User Interface,簡稱NUI)。”微軟首席研究及戰略官Craig Mundie最近在清華大學發表演講時指出。Mundie所言的“自然用戶界麵”,其宗旨是讓計算機用戶能夠綜合地使用語音、觸摸和手勢等行為與計算機進行更自然的交互。
這確實是一場曆時長久的發展。計算機行業一直積極開發一種更加自然的用戶界麵,來取代統治這個行業已十多年的圖形用戶界麵(GUI)。zaituxingjiemianshidai,renmenliyongjianpanheshubiaoshixianyujisuanjijiandehudong。erzaiziranyonghujiemianshidai,renmenyujisuanjidehudong,yinggaixiangrenyurendajiaodaoyiyangqinqieerziran,keyishishoushi、語音或者簡單的觸摸。
Mundie在清華大學演講時,現場布置了一台演示樣機。Mundie通過樣機演示了在自然用戶界麵下,未來的建築設計師的工作界麵:建築設計圖紙投影在桌麵,設計師可以用手隨意翻動投影在桌麵的“圖紙”,用手撥動圖紙上的線條來改變設計,甚至可以隨手“拽取”部分數據,組成圖表,用三維的形式投影在工作台上。一切宛如《少數派報告》裏的場景。
盡管這台樣機更多用於虛擬演示,但其中很多技術已經得以實現。Mundie訪問中國前不久,微軟剛剛慶祝體感遊戲設備Kinect銷售突破1000萬台,成為微軟旗下新的一個銷售額超過10億美元的產品,也是迄今為止整個科技行業銷售速度最快的消費類電子產品。

Kinect體感控製遊戲(圖片來自網絡)
zhegechanpintupoleyiwangdeyouxijidouyaoqiuyouxirentongguoshoubingkongzhiyouxidemoshi,zhuanerrangyouxicanyuzhetongguojiandandeshoushiyudongzuocanyuyouxi。liru,zaisaicheyouxizhong,youxirenzhixumoniwozhefangxiangpan,zuochuxiangyingdezhuandongfangxiangpandedongzuo,jiukeshixianzaiyouxizhongcaokongqichedezhuanxiang;在球類遊戲中,遊戲人隻需做出撲地動作,便可以在遊戲中救起排球,或揮動手臂,便可以在遊戲中舉拍擊球。
利用手勢和語音這種自然的行為控製遊戲機,顯然已經是人機互動一個巨大的突破。Kinect采用的自然用戶界麵技術不僅能夠運用到各種類型的產品中,而且也能實現計算機感知、互動和預測的新方式。
從“感”到“知”
讓計算機擁有像人類一樣的“感覺”,隻是自然用戶界麵需要解決的一部分內容。更關鍵的,是計算機如何對從各種傳感器獲得的信息進行分析,從而像人類一樣可以“識別”和“理解”各種信息。
“以Kinect為例,最困難的部分不是獲取3D圖像信息,而是如何處理這些信息,如何界定這些3D信息代表什麼意思。”微軟高級副總裁、微軟研究院院長Rick Rashid對《周末畫報》說,“人們往往把目光集中到Kinect的3D攝像頭上,但這個攝像頭是不能獨立工作的。”在他看來,Kinect這種用手勢及體感與計算機交互的方式,實質是一種實時3D計算機視覺技術。

幾年前,來自微軟Xbox遊戲機產品組的同事找到Rashid。他們希望利用微軟研究院的一些技術雛形,把3D攝像頭投入使用,使之成為遊戲控製器,開發一種新型的體感遊戲機。但他們麵對一個難題:如何將來自3D攝像頭的原始圖像信息轉化成可靠的控製器用於視頻遊戲,而且下至兒童上至老人都能使用。
這其中的技術難點在於,如何界定這些3D信息:是誰站在3Dxinxixitongzhiqian?tashentidenayibufenzaizuohezhongdongzuo?ruguojialidexiaogouturantiaodaoyouxizhemianqian,xitongnengfouzhengquepanduantashibushiyouxizheshentideyibufen?ruguozhikaochaqidicengde3D信息,是無法區分各種情景的。“這實際上是一個非常複雜的機器學習問題。”Rashid介紹說,因為它必須識別身體的不同部分、處於遊戲場景中的玩家身份、連續不斷地實時跟蹤身體各個部位的運動狀態,並且不被其他物體幹擾。
例如,微軟亞洲研究院在身份識別方麵的技術,讓3D攝像頭識別出遊戲人成為可能。“其中不僅靠人臉來識別,我們還要考慮到穿著的衣服、身高等信息。”微軟亞洲研究院院長洪小文介紹說,目前正式發布的Kinect已經可以在同一場景下識別出4個不同的遊戲者,但實際上,微軟亞洲研究院的技術可以讓同一場景下識別8個不同人成為可能。
“我們大量運用機器學習的技術才能讓Kinect如此成功。而也正是這些能夠讓計算機像人類一樣看得見、聽得到的技術讓計算機識別出不同的場景和情境,從而讓計算機擁有人類的感官,能夠像我們一樣互動和思考。”Rashid說。
“想”你所想
從“識別”和“感知”出發,計算機除了能提供自然互動之外,微軟的研究團隊希望走得更遠,讓計算機的角色越來越多地從“執行你的命令”,轉變為“代表你來工作”。
Eric Horvitz是微軟研究院從事人工智能研究的工程師,在他位於微軟總部雷德蒙的辦公室外有一個機器“助理”。那看上去是一台顯示器,顯示的是一個3D模擬的女性形象——關鍵是,“她”可以和前來拜訪Horvitz博士的每個人自如對話,和你談論天氣、確認與Horvitz博士約定的會議是否準時。更神奇的是,如果是多人一同到達前台,“她”甚至可以從人們的行為舉止判斷出其中幾個人是否是同伴,把來客區分成不同的組別,依次問候並安排相應的事務——這儼然具有人類的模糊判斷能力。
“很hen多duo人ren一yi談tan到dao自zi然ran用yong戶hu界jie麵mian,就jiu認ren為wei他ta們men需xu要yao明ming確que地di指zhi示shi計ji算suan機ji去qu做zuo某mou些xie事shi情qing,或huo者zhe去qu控kong製zhi什shen麼me設she備bei。一yi直zhi以yi來lai,計ji算suan機ji的de主zhu要yao任ren務wu是shi執zhi行xing人ren們men的de直zhi接jie命ming令ling。”微軟高級副總裁Rashid說,“實際上,我們可以通過提高計算機對人類意圖的理解能力,使它們的行為更像人類的‘助手’,甚至接近人類本身——能夠了解人們的想法,預測人們的需求,並妥善執行任務。”而這一切隨著計算機計算能力的極大提升,以及雲計算和社交計算的普及而成為可能。
微軟亞洲研究院院長洪小文指出,計算機有可能從收集到的大量用戶行為、習xi慣guan信xin息xi和he數shu據ju上shang進jin行xing分fen析xi和he判pan斷duan,從cong而er識shi別bie出chu特te定ding請qing求qiu是shi在zai何he種zhong情qing境jing下xia提ti出chu的de,並bing根gen據ju這zhe種zhong情qing境jing,預yu想xiang到dao用yong戶hu的de需xu要yao,做zuo出chu適shi當dang的de反fan應ying。
“人機一體”正逐漸成為現實。微軟有一個研究小組專門考察人們的駕駛習慣。研究人員發給測試者GPS定(ding)位(wei)器(qi),用(yong)於(yu)跟(gen)蹤(zong)他(ta)們(men)駕(jia)駛(shi)汽(qi)車(che)的(de)動(dong)向(xiang)等(deng)信(xin)息(xi)。在(zai)獲(huo)得(de)這(zhe)些(xie)信(xin)息(xi)的(de)基(ji)礎(chu)上(shang),研(yan)究(jiu)人(ren)員(yuan)開(kai)發(fa)出(chu)了(le)一(yi)套(tao)係(xi)統(tong),當(dang)用(yong)戶(hu)啟(qi)動(dong)車(che)輛(liang)後(hou),係(xi)統(tong)就(jiu)能(neng)迅(xun)速(su)推(tui)測(ce)出(chu)用(yong)戶(hu)想(xiang)去(qu)的(de)地(di)方(fang)。其(qi)實(shi)原(yuan)理(li)並(bing)不(bu)複(fu)雜(za),就(jiu)如(ru)同(tong)一(yi)對(dui)夫(fu)婦(fu)共(gong)乘(cheng)一(yi)輛(liang)汽(qi)車(che),即(ji)便(bian)開(kai)車(che)的(de)丈(zhang)夫(fu)不(bu)告(gao)訴(su)乘(cheng)車(che)的(de)妻(qi)子(zi)汽(qi)車(che)開(kai)向(xiang)何(he)方(fang),通(tong)過(guo)汽(qi)車(che)經(jing)過(guo)的(de)橋(qiao)梁(liang)、高速公路等標誌性地標,並結合丈夫的駕車習慣,妻子通常可以推測出目的地是哪裏。
yanjiurenyuankaifadezhetaoxitongzhengshizheyang,tongguogezhongxinxijiyonghuxiguanpanduanchuyonghuxiangqudedifang。zaifenxichumudedizhegeguanjianxinxizhihou,xitonghenrongyigenjushishijiaotongxinxi,xiangjiashizhetuijianzuijialuxian——在今天顯然是種非常成熟的應用,但是對於主動判斷出目的地方向,則是一個極大的進步。
在Rashid看來,“如ru果guo我wo們men能neng夠gou讓rang係xi統tong更geng聰cong明ming地di理li解jie用yong戶hu,並bing建jian立li良liang好hao的de人ren類lei行xing為wei模mo型xing,係xi統tong就jiu能neng夠gou更geng好hao地di執zhi行xing使shi命ming,為wei人ren類lei服fu務wu,這zhe樣yang自zi然ran用yong戶hu界jie麵mian也ye會hui有you更geng顯xian著zhu的de現xian實shi意yi義yi。