從AlphaGo 人機大戰談起

http://www.kadhoai.com.cn 2026-04-08 16:00:55 來源：祈飛科技

最近Google DeepMind 公司的AlphaGo與李世石的人機大戰引起了全球新聞媒體和公眾對於人工智能的高度關注，其影響力遠遠超出了圍棋領域。

QQ截圖20160525140007

DeepMind 是一家什麼樣的公司

DeepMind 是一家英國的人工智能公司，2014年1月被Google以5億英鎊收購。該公司在人工智能方麵最有名的成果當首推2013年提出的DQN（Deep Q Network，一種深度學習和強化學習相結合的深度強化學習算法模型），在隻有原始像素和遊戲係統的打分作為輸入的情況下，人工智能係統成功的通過38天的自學習掌握了Atari遊戲，到目前為止在至少49種Atari 2600 遊戲上達到甚至超過了人類頂級玩家的水平。其成果先後發表在NIPS和Nature上，在人工智能領域引起震動。目前DeepMind除了AlphaGo外，還有健康醫療項目。

計算機圍棋與人工智能

國際象棋較容易設計局麵評價函數（以擒王為目的，不同棋子有不同的權重），變化和搜索的深度相對有限，可采用Alpha-Beta剪枝算法進行有效搜索。IBM的“深藍”在1997年就擊敗了卡斯帕羅夫。

而圍棋的變化總數極大，宋代沈括在夢溪筆談中提到的算法結果為3的361次方，即“連書‘萬字’四十三”（棋盤19x19, 每個點都有黑子，白子，空白三種可能）。最近美國普林斯頓大學的研究人員計算出精確的合法棋局總數為2.08x10的170次ci方fang，這zhe個ge數shu值zhi比bi宇yu宙zhou中zhong的de基ji本ben粒li子zi總zong數shu還hai要yao多duo。並bing且qie圍wei棋qi很hen難nan建jian立li明ming確que的de局ju麵mian評ping價jia函han數shu，同tong時shi局ju麵mian評ping價jia函han數shu又you及ji其qi不bu平ping滑hua。這zhe兩liang點dian導dao致zhi簡jian單dan的de暴bao力li搜sou索suo在zai圍wei棋qi上shang不bu適shi用yong。

在深度學習引入計算機圍棋領域前，最好的結果是基於蒙特卡洛樹搜索（MCTS）的UCT算suan法fa。通tong俗su的de說shuo就jiu是shi計ji算suan機ji進jin行xing大da量liang的de模mo擬ni對dui局ju，隨sui機ji走zou子zi直zhi到dao對dui局ju結jie束shu，根gen據ju勝sheng率lv統tong計ji決jue定ding當dang前qian局ju麵mian的de最zui佳jia選xuan擇ze。這zhe樣yang就jiu避bi開kai了le局ju麵mian評ping價jia函han數shu的de建jian立li。然ran而er人ren類lei對dui局ju時shi對dui於yu當dang前qian局ju麵mian的de棋qi形xing是shi有you“棋感”的，這種“棋感”很大程度上幫助棋手評估局麵並判斷預測重點的行棋選擇，即相當於快速有效的減小了搜索空間。這種“棋感”所對應的特征選取和模式識別讓人自然的聯係起近年來在AI領域如日中天的深度學習技術。這次的AlphaGo實際上是整合了MCTS，深度學習和強化學習三項技術。

深度學習是在傳統神經網絡基礎上的發展，其主要特征之一是網絡層數相比傳統淺層（受製於計算能力，數據量以及BP算法的梯度衰減等原因，一般為3層）神經網絡增多，模型複雜度大大提高，故有更強的非線性表達能力。

深(shen)度(du)學(xue)習(xi)的(de)最(zui)大(da)優(you)勢(shi)之(zhi)一(yi)是(shi)無(wu)監(jian)督(du)的(de)特(te)征(zheng)學(xue)習(xi)，傳(chuan)統(tong)的(de)機(ji)器(qi)學(xue)習(xi)麵(mian)臨(lin)的(de)一(yi)個(ge)最(zui)大(da)問(wen)題(ti)就(jiu)是(shi)特(te)征(zheng)的(de)人(ren)工(gong)設(she)計(ji)和(he)選(xuan)取(qu)，深(shen)度(du)學(xue)習(xi)則(ze)能(neng)通(tong)過(guo)大(da)量(liang)數(shu)據(ju)學(xue)習(xi)出(chu)有(you)效(xiao)的(de)抽(chou)象(xiang)特(te)征(zheng)表(biao)達(da)。

深度學習的出現和蓬勃發展有其內部和外部因素的推動。內因就是包括前述的網絡模型（如DNN，DCNN，SAE，RBM，DBN等）的改進，以及訓練算法的改進。外部因素包括海量數據（防止過擬合，並且可以使用無標簽數據）的獲得和高性能計算的發展。自2006年Hinton提出深度學習的概念後尤其是2012年在ImageNet上獲得巨大突破以來，以深度卷積神經網絡為代表的深度學習以催枯拉朽之勢橫掃計算機視覺、語音識別、自然語言處理等領域。在互聯網加大數據的時代背景下，已成為處理非結構化數據的一大利器。

強化學習（Reinforcement Learning)是(shi)一(yi)個(ge)目(mu)標(biao)驅(qu)動(dong)的(de)連(lian)續(xu)決(jue)策(ce)過(guo)程(cheng)。即(ji)學(xue)習(xi)怎(zen)樣(yang)根(gen)據(ju)當(dang)前(qian)的(de)狀(zhuang)態(tai)決(jue)定(ding)動(dong)作(zuo)，以(yi)最(zui)大(da)化(hua)所(suo)獲(huo)得(de)的(de)回(hui)報(bao)信(xin)號(hao)。學(xue)習(xi)算(suan)法(fa)並(bing)未(wei)被(bei)告(gao)知(zhi)如(ru)何(he)執(zhi)行(xing)動(dong)作(zuo)，而(er)是(shi)通(tong)過(guo)試(shi)驗(yan)去(qu)發(fa)現(xian)怎(zen)樣(yang)選(xuan)擇(ze)動(dong)作(zuo)以(yi)獲(huo)得(de)最(zui)大(da)的(de)回(hui)報(bao)，這(zhe)個(ge)回(hui)報(bao)是(shi)對(dui)動(dong)作(zuo)好(hao)壞(huai)的(de)評(ping)價(jia)。通(tong)常(chang)情(qing)況(kuang)下(xia)，動(dong)作(zuo)不(bu)僅(jin)獲(huo)得(de)當(dang)前(qian)即(ji)時(shi)的(de)回(hui)報(bao)，而(er)且(qie)會(hui)影(ying)響(xiang)下(xia)一(yi)個(ge)狀(zhuang)態(tai)乃(nai)至(zhi)所(suo)有(you)後(hou)續(xu)狀(zhuang)態(tai)的(de)回(hui)報(bao)。

強qiang化hua學xue習xi的de最zui終zhong目mu的de是shi決jue策ce過guo程cheng中zhong整zheng體ti的de回hui報bao函han數shu期qi望wang最zui大da化hua。通tong過guo試shi錯cuo進jin行xing搜sou索suo以yi及ji延yan時shi的de回hui報bao是shi強qiang化hua學xue習xi的de兩liang個ge最zui顯xian著zhu的de特te征zheng。強qiang化hua學xue習xi已yi在zai包bao括kuo機ji器qi人ren控kong製zhi，通tong信xin，金jin融rong，博bo弈yi等deng在zai內nei的de眾zhong多duo領ling域yu獲huo得de成cheng功gong應ying用yong。

回到計算機圍棋上，AlphaGo 通過深度卷積神經網絡的訓練，建立了行棋策略網絡（Policy Network）和價值網絡（Value Network）。訓練數據集采用了十數萬的人類棋譜，形成3千萬的局麵數據作為輸入。AlphaGo通過策略網絡決定行棋判斷（著棋點可按分值排序），通過價值網絡進行局麵判斷。有趣的是，AlphaGo還能通過大量的自我對弈（對弈的行棋法則是根據策略網絡決定的），根據對弈結果，應用強化學習獲得更新的策略網絡和價值網絡。這就是所謂AlphaGo通過雙手互博而得到自主學習能力。根據DeepMind 的CEO Demise Hassabis 透露，他們下一步還有一個更大膽的計劃，即不需要任何人類棋譜的輸入，單純由“BetaGo” 通(tong)過(guo)自(zi)我(wo)對(dui)弈(yi)和(he)強(qiang)化(hua)學(xue)習(xi)，獲(huo)得(de)更(geng)優(you)的(de)行(xing)棋(qi)網(wang)絡(luo)模(mo)型(xing)。這(zhe)是(shi)因(yin)為(wei)人(ren)類(lei)的(de)圍(wei)棋(qi)下(xia)法(fa)未(wei)必(bi)是(shi)最(zui)優(you)的(de)，利(li)用(yong)它(ta)訓(xun)練(lian)出(chu)的(de)初(chu)始(shi)化(hua)行(xing)棋(qi)網(wang)絡(luo)模(mo)型(xing)有(you)可(ke)能(neng)陷(xian)入(ru)到(dao)局(ju)部(bu)極(ji)值(zhi)。

策略網絡使得AlphaGo隻zhi需xu針zhen對dui少shao數shu有you價jia值zhi的de可ke能neng著zhe棋qi點dian進jin行xing蒙meng特te卡ka洛luo樹shu搜sou索suo，即ji有you效xiao的de減jian少shao了le蒙meng特te卡ka洛luo樹shu搜sou索suo的de寬kuan度du。而er價jia值zhi網wang絡luo使shi得de蒙meng特te卡ka洛luo樹shu搜sou索suo時shi的de模mo擬ni對dui弈yi在zai局ju麵mian估gu值zhi達da到dao一yi定ding閾yu值zhi後hou即ji停ting止zhi，無wu需xu進jin行xing至zhi終zhong局ju。這zhe就jiu有you效xiao的de減jian少shao了le蒙meng特te卡ka洛luo樹shu搜sou索suo的de深shen度du。蒙meng特te卡ka洛luo樹shu搜sou索suo、深度學習和強化學習的有效結合使得AlphaGo獲得了空前的成功。

人機大戰後的思考

首先對於圍棋界，不禁讓人反思當今職業圍棋是否太過功利，太拘泥於勝負而過分糾纏於邊角的變化而缺乏創新？在AlphaGo橫空出世前一年仙逝的吳清源大師在晚年提出的“二十一世紀的圍棋”，其精神實質就如同AlphaGo所展示給我們的，是一種整體圍棋。盡管離“圍棋之神”還有不小的距離，AlphaGo 作為超人類的圍棋存在，也有助於我們去探索一係列真相：黑棋的先著效率如何?目前的貼目是否合理？圍棋的實質是什麼？取消座子還棋頭真的是一種進步嗎？以九三分投、大飛守角為代表的快速打散局麵的中國古棋“八卦”布局在座子還棋頭規則下是否合理？“當湖十局”的質量到底如何？中國古棋聖黃龍士、範西屏、施襄夏與日本古棋聖道策、丈和、秀策相比誰更強？

此次的人機大戰也讓我們看到了資本的力量和一個成功的商業營銷案例。相較於FaceBook在計算機圍棋項目“Dark Forest”上投入的寥寥兩人，DeepMind 在Nature上的論文就有署名作者20人，其中兩位並列第一作者David Silver 和Aja Huang更是在博士、博士後階段有10餘年的計算機圍棋經驗。AlphaGo 使用了1202個CPU和176個GPU於分布式計算，展現了Google強大的工程能力。人機大戰前Google更是做足了保密工作，事實上其內部評測人機大戰用的V18版本可讓去年10月份擊敗歐洲冠軍樊麾二段的版本四子，Elo等級分在4000分之上，遠超李世石的3530和目前世界排名第一的柯潔的3630分。人機大戰進一步展現了Google在人工智能方麵的全球引領者的企業形象，最終讓Google的股票市值增加愈400億美元。

人工智能已在包括機器人、通信、互聯網、商業智能、保險、金融、健康醫療等眾多領域融入到我們的生活中並正在改變著我們的生活。例如IBM的Watsonzuoweirenzhijisuanxitongdedaibiao，yingyonglexianjindeziranyuyanchuli，xinxijiansuo，zhishibiaoda，zidongtuilihejiqixuexijishu。qidaibiaoxingchanpinbaokuozhumingdezidongwendaxitongDeepQA以及和MSK合作的腫瘤治療係統。

事實上我國傳統醫學的“表象學”走(zou)的(de)也(ye)是(shi)類(lei)似(si)神(shen)經(jing)網(wang)絡(luo)這(zhe)條(tiao)路(lu)，在(zai)當(dang)時(shi)的(de)技(ji)術(shu)條(tiao)件(jian)下(xia)，無(wu)法(fa)對(dui)多(duo)數(shu)疾(ji)病(bing)的(de)發(fa)病(bing)機(ji)理(li)做(zuo)出(chu)科(ke)學(xue)的(de)分(fen)析(xi)判(pan)斷(duan)，於(yu)是(shi)把(ba)人(ren)視(shi)作(zuo)一(yi)個(ge)黑(hei)盒(he)子(zi)的(de)複(fu)雜(za)係(xi)統(tong)，輸(shu)入(ru)是(shi)脈(mai)搏(bo)等(deng)各(ge)種(zhong)體(ti)征(zheng)，輸(shu)出(chu)是(shi)判(pan)斷(duan)得(de)到(dao)的(de)疾(ji)病(bing)類(lei)別(bie)。老(lao)中(zhong)醫(yi)某(mou)種(zhong)意(yi)義(yi)上(shang)相(xiang)當(dang)於(yu)通(tong)過(guo)大(da)量(liang)的(de)訓(xun)練(lian)數(shu)據(ju)，訓(xun)練(lian)得(de)到(dao)類(lei)似(si)神(shen)經(jing)網(wang)絡(luo)的(de)人(ren)體(ti)疾(ji)病(bing)判(pan)斷(duan)模(mo)型(xing)，因(yin)而(er)能(neng)對(dui)疾(ji)病(bing)進(jin)行(xing)判(pan)斷(duan)。

在現代條件下，對於複雜的人體係統，也難以在細胞層麵、分子層麵對各種病症進行科學解釋。幸運的是，通過如CT、MRI、PET、血xue液ye分fen析xi等deng種zhong種zhong醫yi療liao儀yi器qi設she備bei，更geng多duo科ke學xue的de體ti征zheng數shu據ju可ke以yi獲huo得de。學xue習xi訓xun練lian用yong的de數shu學xue模mo型xing更geng加jia複fu雜za，優you化hua算suan法fa更geng加jia科ke學xue，人ren工gong智zhi能neng係xi統tong更geng加jia具ju備bei在zai高gao緯wei數shu據ju空kong間jian發fa掘jue有you意yi義yi的de數shu據ju模mo式shi的de能neng力li。包bao括kuo深shen度du學xue習xi、強化學習在內的各種人工智能技術也廣泛應用於機器人對環境的自主感知、自主決策、各種動作運動控製、人機交互，無人機飛行和姿態控製，自動無人駕駛等領域。

結束語

我(wo)們(men)也(ye)應(ying)看(kan)到(dao)，目(mu)前(qian)人(ren)工(gong)智(zhi)能(neng)的(de)發(fa)展(zhan)尚(shang)處(chu)在(zai)初(chu)級(ji)階(jie)段(duan)，距(ju)離(li)人(ren)類(lei)有(you)思(si)維(wei)意(yi)識(shi)的(de)真(zhen)正(zheng)意(yi)義(yi)上(shang)的(de)智(zhi)能(neng)還(hai)有(you)很(hen)長(chang)的(de)路(lu)要(yao)走(zou)。清(qing)代(dai)棋(qi)聖(sheng)範(fan)西(xi)屏(ping)在(zai)其(qi)畢(bi)生(sheng)著(zhu)述(shu)《桃花泉弈譜》自序中寫道，“勳生今之時，為今之弈，後此者，又安知其不愈出愈奇”。在當今知識大爆炸、技術大變革的風雲時代，我們更應有積極的心態來迎接、學習、應用、創新新技術。

作zuo為wei人ren工gong智zhi能neng機ji器qi人ren係xi統tong方fang案an商shang，深shen圳zhen市shi祈qi飛fei科ke技ji有you限xian公gong司si正zheng積ji極ji應ying對dui挑tiao戰zhan，在zai不bu斷duan突tu破po自zi我wo，創chuang新xin科ke技ji，專zhuan注zhu於yu人ren工gong智zhi能neng的de研yan發fa。祈qi飛fei機ji器qi人ren以yi祈qi飛fei研yan究jiu院yuan為wei核he心xin技ji術shu研yan發fa主zhu體ti，下xia設she人ren工gong智zhi能neng、圖像視覺、多維感知、控製係統、jingmijixieshiyanshideng，chixuzairengongzhinengjiqirenxitongzhutiyingyonglingyujinxingyanfatouru，yiqifeizhinengjiqirenzhizaoweijituangongyinglianbaozhangzhongxin，yiquanqiuyingxiaoduiwuweishichangxianfeng，quanlidazaojishuyanfa、智能製造、平台網絡多維度創新型人工智能企業。

QQ截圖20160525140022

祈飛科技園

相信，隨著人工智能技術的不斷發展，人工智能化市場必將成為祈飛科技絢麗的舞台。

從AlphaGo 人機大戰談起

相關新聞

編輯精選

工控原創