從AlphaGo 人機大戰談起

http://www.kadhoai.com.cn 2026-04-07 22:15:30 來源：祈飛科技

最近Google DeepMind 公司的AlphaGo與李世石的人機大戰引起了全球新聞媒體和公眾對於人工智能的高度關注，其影響力遠遠超出了圍棋領域。

QQ截圖20160525140007

DeepMind 是一家什麼樣的公司

DeepMind 是一家英國的人工智能公司，2014年1月被Google以5億英鎊收購。該公司在人工智能方麵最有名的成果當首推2013年提出的DQN（Deep Q Network，一種深度學習和強化學習相結合的深度強化學習算法模型），在隻有原始像素和遊戲係統的打分作為輸入的情況下，人工智能係統成功的通過38天的自學習掌握了Atari遊戲，到目前為止在至少49種Atari 2600 遊戲上達到甚至超過了人類頂級玩家的水平。其成果先後發表在NIPS和Nature上，在人工智能領域引起震動。目前DeepMind除了AlphaGo外，還有健康醫療項目。

計算機圍棋與人工智能

國際象棋較容易設計局麵評價函數（以擒王為目的，不同棋子有不同的權重），變化和搜索的深度相對有限，可采用Alpha-Beta剪枝算法進行有效搜索。IBM的“深藍”在1997年就擊敗了卡斯帕羅夫。

而圍棋的變化總數極大，宋代沈括在夢溪筆談中提到的算法結果為3的361次方，即“連書‘萬字’四十三”（棋盤19x19, 每個點都有黑子，白子，空白三種可能）。最近美國普林斯頓大學的研究人員計算出精確的合法棋局總數為2.08x10的170次(ci)方(fang)，這(zhe)個(ge)數(shu)值(zhi)比(bi)宇(yu)宙(zhou)中(zhong)的(de)基(ji)本(ben)粒(li)子(zi)總(zong)數(shu)還(hai)要(yao)多(duo)。並(bing)且(qie)圍(wei)棋(qi)很(hen)難(nan)建(jian)立(li)明(ming)確(que)的(de)局(ju)麵(mian)評(ping)價(jia)函(han)數(shu)，同(tong)時(shi)局(ju)麵(mian)評(ping)價(jia)函(han)數(shu)又(you)及(ji)其(qi)不(bu)平(ping)滑(hua)。這(zhe)兩(liang)點(dian)導(dao)致(zhi)簡(jian)單(dan)的(de)暴(bao)力(li)搜(sou)索(suo)在(zai)圍(wei)棋(qi)上(shang)不(bu)適(shi)用(yong)。

在深度學習引入計算機圍棋領域前，最好的結果是基於蒙特卡洛樹搜索（MCTS）的UCT算(suan)法(fa)。通(tong)俗(su)的(de)說(shuo)就(jiu)是(shi)計(ji)算(suan)機(ji)進(jin)行(xing)大(da)量(liang)的(de)模(mo)擬(ni)對(dui)局(ju)，隨(sui)機(ji)走(zou)子(zi)直(zhi)到(dao)對(dui)局(ju)結(jie)束(shu)，根(gen)據(ju)勝(sheng)率(lv)統(tong)計(ji)決(jue)定(ding)當(dang)前(qian)局(ju)麵(mian)的(de)最(zui)佳(jia)選(xuan)擇(ze)。這(zhe)樣(yang)就(jiu)避(bi)開(kai)了(le)局(ju)麵(mian)評(ping)價(jia)函(han)數(shu)的(de)建(jian)立(li)。然(ran)而(er)人(ren)類(lei)對(dui)局(ju)時(shi)對(dui)於(yu)當(dang)前(qian)局(ju)麵(mian)的(de)棋(qi)形(xing)是(shi)有(you)“棋感”的，這種“棋感”很大程度上幫助棋手評估局麵並判斷預測重點的行棋選擇，即相當於快速有效的減小了搜索空間。這種“棋感”所對應的特征選取和模式識別讓人自然的聯係起近年來在AI領域如日中天的深度學習技術。這次的AlphaGo實際上是整合了MCTS，深度學習和強化學習三項技術。

深度學習是在傳統神經網絡基礎上的發展，其主要特征之一是網絡層數相比傳統淺層（受製於計算能力，數據量以及BP算法的梯度衰減等原因，一般為3層）神經網絡增多，模型複雜度大大提高，故有更強的非線性表達能力。

shenduxuexidezuidayoushizhiyishiwujiandudetezhengxuexi，chuantongdejiqixueximianlindeyigezuidawentijiushitezhengderengongshejihexuanqu，shenduxuexizenengtongguodaliangshujuxuexichuyouxiaodechouxiangtezhengbiaoda。

深度學習的出現和蓬勃發展有其內部和外部因素的推動。內因就是包括前述的網絡模型（如DNN，DCNN，SAE，RBM，DBN等）的改進，以及訓練算法的改進。外部因素包括海量數據（防止過擬合，並且可以使用無標簽數據）的獲得和高性能計算的發展。自2006年Hinton提出深度學習的概念後尤其是2012年在ImageNet上獲得巨大突破以來，以深度卷積神經網絡為代表的深度學習以催枯拉朽之勢橫掃計算機視覺、語音識別、自然語言處理等領域。在互聯網加大數據的時代背景下，已成為處理非結構化數據的一大利器。

強化學習（Reinforcement Learning)是shi一yi個ge目mu標biao驅qu動dong的de連lian續xu決jue策ce過guo程cheng。即ji學xue習xi怎zen樣yang根gen據ju當dang前qian的de狀zhuang態tai決jue定ding動dong作zuo，以yi最zui大da化hua所suo獲huo得de的de回hui報bao信xin號hao。學xue習xi算suan法fa並bing未wei被bei告gao知zhi如ru何he執zhi行xing動dong作zuo，而er是shi通tong過guo試shi驗yan去qu發fa現xian怎zen樣yang選xuan擇ze動dong作zuo以yi獲huo得de最zui大da的de回hui報bao，這zhe個ge回hui報bao是shi對dui動dong作zuo好hao壞huai的de評ping價jia。通tong常chang情qing況kuang下xia，動dong作zuo不bu僅jin獲huo得de當dang前qian即ji時shi的de回hui報bao，而er且qie會hui影ying響xiang下xia一yi個ge狀zhuang態tai乃nai至zhi所suo有you後hou續xu狀zhuang態tai的de回hui報bao。

強(qiang)化(hua)學(xue)習(xi)的(de)最(zui)終(zhong)目(mu)的(de)是(shi)決(jue)策(ce)過(guo)程(cheng)中(zhong)整(zheng)體(ti)的(de)回(hui)報(bao)函(han)數(shu)期(qi)望(wang)最(zui)大(da)化(hua)。通(tong)過(guo)試(shi)錯(cuo)進(jin)行(xing)搜(sou)索(suo)以(yi)及(ji)延(yan)時(shi)的(de)回(hui)報(bao)是(shi)強(qiang)化(hua)學(xue)習(xi)的(de)兩(liang)個(ge)最(zui)顯(xian)著(zhu)的(de)特(te)征(zheng)。強(qiang)化(hua)學(xue)習(xi)已(yi)在(zai)包(bao)括(kuo)機(ji)器(qi)人(ren)控(kong)製(zhi)，通(tong)信(xin)，金(jin)融(rong)，博(bo)弈(yi)等(deng)在(zai)內(nei)的(de)眾(zhong)多(duo)領(ling)域(yu)獲(huo)得(de)成(cheng)功(gong)應(ying)用(yong)。

回到計算機圍棋上，AlphaGo 通過深度卷積神經網絡的訓練，建立了行棋策略網絡（Policy Network）和價值網絡（Value Network）。訓練數據集采用了十數萬的人類棋譜，形成3千萬的局麵數據作為輸入。AlphaGo通過策略網絡決定行棋判斷（著棋點可按分值排序），通過價值網絡進行局麵判斷。有趣的是，AlphaGo還能通過大量的自我對弈（對弈的行棋法則是根據策略網絡決定的），根據對弈結果，應用強化學習獲得更新的策略網絡和價值網絡。這就是所謂AlphaGo通過雙手互博而得到自主學習能力。根據DeepMind 的CEO Demise Hassabis 透露，他們下一步還有一個更大膽的計劃，即不需要任何人類棋譜的輸入，單純由“BetaGo” 通(tong)過(guo)自(zi)我(wo)對(dui)弈(yi)和(he)強(qiang)化(hua)學(xue)習(xi)，獲(huo)得(de)更(geng)優(you)的(de)行(xing)棋(qi)網(wang)絡(luo)模(mo)型(xing)。這(zhe)是(shi)因(yin)為(wei)人(ren)類(lei)的(de)圍(wei)棋(qi)下(xia)法(fa)未(wei)必(bi)是(shi)最(zui)優(you)的(de)，利(li)用(yong)它(ta)訓(xun)練(lian)出(chu)的(de)初(chu)始(shi)化(hua)行(xing)棋(qi)網(wang)絡(luo)模(mo)型(xing)有(you)可(ke)能(neng)陷(xian)入(ru)到(dao)局(ju)部(bu)極(ji)值(zhi)。

策略網絡使得AlphaGo隻(zhi)需(xu)針(zhen)對(dui)少(shao)數(shu)有(you)價(jia)值(zhi)的(de)可(ke)能(neng)著(zhe)棋(qi)點(dian)進(jin)行(xing)蒙(meng)特(te)卡(ka)洛(luo)樹(shu)搜(sou)索(suo)，即(ji)有(you)效(xiao)的(de)減(jian)少(shao)了(le)蒙(meng)特(te)卡(ka)洛(luo)樹(shu)搜(sou)索(suo)的(de)寬(kuan)度(du)。而(er)價(jia)值(zhi)網(wang)絡(luo)使(shi)得(de)蒙(meng)特(te)卡(ka)洛(luo)樹(shu)搜(sou)索(suo)時(shi)的(de)模(mo)擬(ni)對(dui)弈(yi)在(zai)局(ju)麵(mian)估(gu)值(zhi)達(da)到(dao)一(yi)定(ding)閾(yu)值(zhi)後(hou)即(ji)停(ting)止(zhi)，無(wu)需(xu)進(jin)行(xing)至(zhi)終(zhong)局(ju)。這(zhe)就(jiu)有(you)效(xiao)的(de)減(jian)少(shao)了(le)蒙(meng)特(te)卡(ka)洛(luo)樹(shu)搜(sou)索(suo)的(de)深(shen)度(du)。蒙(meng)特(te)卡(ka)洛(luo)樹(shu)搜(sou)索(suo)、深度學習和強化學習的有效結合使得AlphaGo獲得了空前的成功。

人機大戰後的思考

首先對於圍棋界，不禁讓人反思當今職業圍棋是否太過功利，太拘泥於勝負而過分糾纏於邊角的變化而缺乏創新？在AlphaGo橫空出世前一年仙逝的吳清源大師在晚年提出的“二十一世紀的圍棋”，其精神實質就如同AlphaGo所展示給我們的，是一種整體圍棋。盡管離“圍棋之神”還有不小的距離，AlphaGo 作為超人類的圍棋存在，也有助於我們去探索一係列真相：黑棋的先著效率如何?目前的貼目是否合理？圍棋的實質是什麼？取消座子還棋頭真的是一種進步嗎？以九三分投、大飛守角為代表的快速打散局麵的中國古棋“八卦”布局在座子還棋頭規則下是否合理？“當湖十局”的質量到底如何？中國古棋聖黃龍士、範西屏、施襄夏與日本古棋聖道策、丈和、秀策相比誰更強？

此次的人機大戰也讓我們看到了資本的力量和一個成功的商業營銷案例。相較於FaceBook在計算機圍棋項目“Dark Forest”上投入的寥寥兩人，DeepMind 在Nature上的論文就有署名作者20人，其中兩位並列第一作者David Silver 和Aja Huang更是在博士、博士後階段有10餘年的計算機圍棋經驗。AlphaGo 使用了1202個CPU和176個GPU於分布式計算，展現了Google強大的工程能力。人機大戰前Google更是做足了保密工作，事實上其內部評測人機大戰用的V18版本可讓去年10月份擊敗歐洲冠軍樊麾二段的版本四子，Elo等級分在4000分之上，遠超李世石的3530和目前世界排名第一的柯潔的3630分。人機大戰進一步展現了Google在人工智能方麵的全球引領者的企業形象，最終讓Google的股票市值增加愈400億美元。

人工智能已在包括機器人、通信、互聯網、商業智能、保險、金融、健康醫療等眾多領域融入到我們的生活中並正在改變著我們的生活。例如IBM的Watsonzuoweirenzhijisuanxitongdedaibiao，yingyonglexianjindeziranyuyanchuli，xinxijiansuo，zhishibiaoda，zidongtuilihejiqixuexijishu。qidaibiaoxingchanpinbaokuozhumingdezidongwendaxitongDeepQA以及和MSK合作的腫瘤治療係統。

事實上我國傳統醫學的“表象學”zoudeyeshileisishenjingwangluozhetiaolu，zaidangshidejishutiaojianxia，wufaduiduoshujibingdefabingjilizuochukexuedefenxipanduan，yushibarenshizuoyigeheihezidefuzaxitong，shurushimaibodenggezhongtizheng，shuchushipanduandedaodejibingleibie。laozhongyimouzhongyiyishangxiangdangyutongguodaliangdexunlianshuju，xunliandedaoleisishenjingwangluoderentijibingpanduanmoxing，yinernengduijibingjinxingpanduan。

在現代條件下，對於複雜的人體係統，也難以在細胞層麵、分子層麵對各種病症進行科學解釋。幸運的是，通過如CT、MRI、PET、血(xue)液(ye)分(fen)析(xi)等(deng)種(zhong)種(zhong)醫(yi)療(liao)儀(yi)器(qi)設(she)備(bei)，更(geng)多(duo)科(ke)學(xue)的(de)體(ti)征(zheng)數(shu)據(ju)可(ke)以(yi)獲(huo)得(de)。學(xue)習(xi)訓(xun)練(lian)用(yong)的(de)數(shu)學(xue)模(mo)型(xing)更(geng)加(jia)複(fu)雜(za)，優(you)化(hua)算(suan)法(fa)更(geng)加(jia)科(ke)學(xue)，人(ren)工(gong)智(zhi)能(neng)係(xi)統(tong)更(geng)加(jia)具(ju)備(bei)在(zai)高(gao)緯(wei)數(shu)據(ju)空(kong)間(jian)發(fa)掘(jue)有(you)意(yi)義(yi)的(de)數(shu)據(ju)模(mo)式(shi)的(de)能(neng)力(li)。包(bao)括(kuo)深(shen)度(du)學(xue)習(xi)、強化學習在內的各種人工智能技術也廣泛應用於機器人對環境的自主感知、自主決策、各種動作運動控製、人機交互，無人機飛行和姿態控製，自動無人駕駛等領域。

結束語

womenyeyingkandao，muqianrengongzhinengdefazhanshangchuzaichujijieduan，julirenleiyousiweiyishidezhenzhengyiyishangdezhinenghaiyouhenchangdeluyaozou。qingdaiqishengfanxipingzaiqibishengzhushu《桃花泉弈譜》自序中寫道，“勳生今之時，為今之弈，後此者，又安知其不愈出愈奇”。在當今知識大爆炸、技術大變革的風雲時代，我們更應有積極的心態來迎接、學習、應用、創新新技術。

作(zuo)為(wei)人(ren)工(gong)智(zhi)能(neng)機(ji)器(qi)人(ren)係(xi)統(tong)方(fang)案(an)商(shang)，深(shen)圳(zhen)市(shi)祈(qi)飛(fei)科(ke)技(ji)有(you)限(xian)公(gong)司(si)正(zheng)積(ji)極(ji)應(ying)對(dui)挑(tiao)戰(zhan)，在(zai)不(bu)斷(duan)突(tu)破(po)自(zi)我(wo)，創(chuang)新(xin)科(ke)技(ji)，專(zhuan)注(zhu)於(yu)人(ren)工(gong)智(zhi)能(neng)的(de)研(yan)發(fa)。祈(qi)飛(fei)機(ji)器(qi)人(ren)以(yi)祈(qi)飛(fei)研(yan)究(jiu)院(yuan)為(wei)核(he)心(xin)技(ji)術(shu)研(yan)發(fa)主(zhu)體(ti)，下(xia)設(she)人(ren)工(gong)智(zhi)能(neng)、圖像視覺、多維感知、控製係統、精(jing)密(mi)機(ji)械(xie)實(shi)驗(yan)室(shi)等(deng)，持(chi)續(xu)在(zai)人(ren)工(gong)智(zhi)能(neng)機(ji)器(qi)人(ren)係(xi)統(tong)主(zhu)體(ti)應(ying)用(yong)領(ling)域(yu)進(jin)行(xing)研(yan)發(fa)投(tou)入(ru)，以(yi)祈(qi)飛(fei)智(zhi)能(neng)機(ji)器(qi)人(ren)製(zhi)造(zao)為(wei)集(ji)團(tuan)供(gong)應(ying)鏈(lian)保(bao)障(zhang)中(zhong)心(xin)，以(yi)全(quan)球(qiu)營(ying)銷(xiao)隊(dui)伍(wu)為(wei)市(shi)場(chang)先(xian)鋒(feng)，全(quan)力(li)打(da)造(zao)技(ji)術(shu)研(yan)發(fa)、智能製造、平台網絡多維度創新型人工智能企業。

QQ截圖20160525140022

祈飛科技園

相信，隨著人工智能技術的不斷發展，人工智能化市場必將成為祈飛科技絢麗的舞台。

從AlphaGo 人機大戰談起

相關新聞

編輯精選

工控原創