台中產後月子中心【部落客推薦】台中推薦月子中心百艘～坐月子必看－怎麼這樣說話

AlphaGo贏瞭柯潔，我們如何打敗AlphaGo

不良信息舉報電話: 021-65963809

見識社群全天候科技黃金頭條選股寶 WEEX · 一起交易華爾街見聞?

旗下產品登錄 / 註冊資訊快訊行情日歷特輯專欄主題庫數據活動 APP 評論(0) 收藏已收藏上一篇: 五分鐘看懂世界上所有的投資策略下一篇: 低失業低通脹看黃金能否解圍 AlphaGo贏瞭柯潔，我們如何打敗AlphaGo 2017-07-26 09:42

導讀

“柯潔 VS AlphaGo”以0:3遺憾落幕，人類智慧再一次輸給瞭人工智能。AlphaGo到底是一個什麼樣的存在，能夠如此所向披靡？我們是否有打敗AlphaGo的可能？本文將從以下幾個方面，以盡量通俗易懂的方式揭秘AlphaGo，找到戰勝AlphaGo的方法：

1、如何寫一個下棋的算法；

2、AlphaGo的算法奧秘；

3、打敗AlphaGo的策略；

4、AlphaGo擊敗柯潔，是否勝之不武。

人類智慧再一次輸給瞭人工智能。象征人類智慧最後一塊“遮羞佈”的圍棋終於也被人工智能破解。在柯潔失利之後，媒體和大眾的驚嘆、惋惜不絕於耳。

“再過三十年，人類會被人工智能統治，然後會想起三十年前AlphaGo的恐怖。”

“人類很早就跑不贏汽車瞭，隻要戰勝瞭自己就好。”

而柯潔在失利後哽咽地說道：“很抱歉我輸瞭。今天下棋時其實我有些失態，因為前半盤我已經知道不好瞭，但之後它每一步棋，我擔心的棋它肯定會下，它下出我想不到的棋，我仔細想一下，然後就發現這真是一步好棋。我隻能猜到它一半的棋，這就是我們的差距，太大瞭。”

我本來也很替柯潔惋惜，然而，柯潔的這一番感言，總讓我覺得哪裡不對。

接著，細思恐極。

這讓我不禁去思考AlphaGo到底是如何運作的。在閱讀有關AlphaGo算法的各類文章後，一個結論浮出水面。

AlphaGo是可以被打台中產後月子敗的，至少，你可以不輸給AlphaGo。

1、如何寫一個下棋的算法

要談AlphaGo，讓我們先談談如何寫一個下棋的算法。一個下棋的算法需要解決兩個問題：

1、對手下一步會怎麼下？

2、每一種棋局對應的獲台中產後之家介紹勝概率？

那麼一個最直接的想法，就是窮舉法。

一個簡單例子，如果一盤棋最多5個回合結束，而每個回合我和對手各有2種走法，那麼一局遊戲最多就有（2*2）^5=1024種情況。窮舉每一種情況後，找到通往勝利的最優下法即可。

這個問題在計算機中，叫做Game Tree（遊戲的博弈樹）。一個“井字棋”遊戲的Game Tree如下：

每一個Node(節點)，對應的就是一種棋局，相應地也就可以計算每一個節點的期望勝率。比如一種棋局繼續下下去會有10種情況，而其中7種情況會贏，那麼這個棋局對應的勝率就是70%。

下每一步棋的目標，也就變成最大化下完這一步之後的勝率。如果當前棋局我的勝率是60%，而下完這一步勝率變成90%，那麼就是一個贏傢算法；反之，如果勝率不升反降，變成40%，那就是一個輸傢算法。

然而，對於“井字棋”這種情況簡單的遊戲窮舉法是可能的，每一步最多隻有9種下法，最多5個回合就會結束。而圍棋平均每一步大概有250種下法，平均要70回合以上才會結束。在如此復雜的問題面前，即使是世界上最好的計算機也不可能完全窮舉。

2、AlphaGo的算法奧秘：Monte Carlo Tree Search （蒙特卡洛樹搜索）、Reinforcement Learning（強化學習）和Convolutional Neural Network（卷積神經網絡）

即便變得更復雜，但要解決的問題仍然是那兩個，如何預測對手的反應，如何計算棋局的獲勝概率。

用之前的Game Tree樹狀圖來說，一是預測每一個節點發散的路徑中該選哪一條，二是如何計算每一個節點的勝率。AlphaGo中管前者叫做Policy Network（預測網絡），管後者叫Value Network（評估網絡）。

1、Monte Carlo Tree Search （蒙特卡洛樹搜索）和Reinforcement Learning（強化學習）

Policy Network預測網絡遇到的第一個挑戰，就是沒有足夠的計算能力窮舉所有的可能性。作為暴力搜索的替代品，AlphaGo使用的方案是Monte Carlo Tree Search （蒙特卡洛樹搜索）。

針對每一種棋局，用蒙特卡洛的方法模擬成千上萬盤圍棋比賽，直到一方獲勝。在每一次模擬試驗中，記錄都經歷瞭哪些棋局，各多少次，以及最終哪一方獲勝。我們用“井字棋”樹狀圖中相同的方法回看，就可以找到通往比賽勝利的最優途徑。

最初模擬的時候，下棋是隨機的。隨著不斷模擬，就會發現勝率高的節點和勝率低的節點。通過利用這些不斷發現的信息去指導接下來如何下棋，下棋的落點就會越來越不隨機。從數學上，隨著模擬次數的增加，模擬的結果會越來越趨近下棋的最優路徑（如果模擬次數不夠多，則結果趨近於次優路徑。）。

這也是AlphaGo為什麼會不斷“變強”的原因之一，從擊敗樊麾二段，到擊敗李世石九段，再到擊敗世界第一的柯潔——不斷增加的蒙特卡洛模擬實驗。

那麼Value Network評估網絡要如何給每一個節點賦值？或者說如何評估每一種棋局的獲勝概率？

答案就是Reinforcement Learning（強化學習）。

什麼是強化學習？教狗狗上廁所就是一個簡單例子。你發現狗狗便便在地板上，就打一頓；便便在廁所裡，就獎勵一根骨頭。狗狗一開始被打得莫名其妙，但慢慢發現隻要便便在廁所裡就能得到骨頭；而相應的你也發現，狗狗在馬桶裡便便的次數也越來越多，直到再也不會在地板上便便。

這就是強化學習。

放在圍棋上，把贏定義為獎勵，把輸定義為懲罰。在不斷地蒙特卡洛試驗中，機器就會慢慢發現哪種下棋策略能夠得到“甜頭”。通過計算各種策略的回報平均值，就能比較策略A是否優於策略B。

至此，我們既有Policy network預測網絡，也有Value network評價網絡瞭，也就可以做出一個能尋找最優策略的下棋算法瞭。

事實上，隻要經過足夠大量的蒙特卡洛實驗，這樣的算法已經可以擊敗很多業餘下棋選手。

2、Convolutional Neural Network（卷積神經網絡）

為瞭讓AlphaGo從“業餘”晉升到“大師”級別，Google還應用瞭另一個算法，就是Convolutional Neural Network（卷積神經網絡）。

Convolutional Neural Network卷積神經網絡在圖像識別上有廣泛應用，比如判斷一張圖片是不是貓、觀察兩個人的照片判斷兩人是否是親屬，特斯拉自動駕駛中識別紅綠燈和車輛行人也是用的這個技術。

Convolutional Neural Network卷積神經網絡的輸入變量是大量的圖片，而輸出變量可以是數量，比如0或者1，也可以是一種策略，比如下棋下在哪，開車怎麼開。其原理，第一步是采樣，比如在一張人臉照片上設置100個點，采集每一個點的位置和顏色。第二步是Feature engineering (特征工程), 對采集的信息進行數量變換，比如計算兩根眉毛之間的距離，面頰的膚色白皙程度。第三步是neural network神經網絡，如果將第二步數量變換後的結果定義為神經網絡的第一層的話，第二層神經網絡就是對第一層變換後的結果再進行變換，比如把x變成二次方x^2,；第三層神經網絡又會對第二層神經網絡變換後的結果進行變換，一直到最後的第n層。最後，我們用第n層變換的結果對output（輸出變量）回歸。

據稱，AlphaGo一共用到瞭13層神經網絡，相比人臉識別的算法，並不多。

對於AlphaGo，就是通過運用Convolutional Neural Network卷積神經網絡，首先輸入上萬個棋局的照片以及其對應的勝率。然後通過回歸得到兩個模型。Value network評估網絡預測每一個棋局的勝率是多少，輸入信息是棋局的圖像，輸出信息是一個數字；policy network預測網絡判斷當前棋局下，怎麼下棋能夠最大化獲勝概率，輸入信息是棋局的圖像，輸出信息則是另一個棋局的圖像。

3、AlphaGo為什麼這麼厲害？

AlphaGo之所以比當前其他下棋算法還要強大，就是在於它開創性地把兩種計算獲勝概率的模型結合在瞭一起——Reinforcement Learning（強化學習）和Convolutional Neural Network（卷積神經網絡）兩個模型預測結果的加權平均值。

獲勝概率=模擬實驗結果+圖像回歸結果

與之對應，一個頂尖的棋手是怎樣的？

成功的棋手=經驗+直覺

蒙特卡洛實驗強化學習的結果就如同棋手的經驗，通過下成千上萬盤棋，找到下棋的“套路”。哪些棋局是“必勝棋局”，對手的落子要如何反制，通過不斷測試各種可能性，來找到最優策略。通常，這對應的是一場圍棋比賽的中後段，當局勢已經逐漸明朗時。

神經網絡圖像回歸的結果就像是棋手的直覺，為什麼這一步要這麼下，沒有棋譜是這麼說的，但是著眼於圍棋的氣與勢，直覺感覺應該這麼下。圖像回歸也一樣，為什麼這種棋局的獲勝概率就是70%，而另外一種就是65%？說不清，但這就是神經網絡回歸的結果。這對應的，也就是圍棋比賽的前半段，局勢尚看不清時。

AlphaGo的強大之處，就在於采用瞭人類下棋的思考方式，用人工智能的算法模擬瞭棋手的經驗+直覺。

3、打敗AlphaGo是有可能的！

圍棋是一個封閉的有限的數學問題。圍棋盤就那麼大，能夠出現的所有棋局固然多，也是有限的。終有一天，科技的發展使得計算機可以計算全部的可能性，徹底的統治圍棋這個遊戲。

但是，至少不是現在。

至少不是AlphaGo。

AlphaGo戰勝世界第一的何潔這件事，掩蓋不瞭其本身的一個算法台中產後月子中心設計上的邏輯漏洞。

（以下推測基於AlphaGo 2016年戰勝李世石後披露的算法，即適用於V18版本，也許並不適用當前新版本）

任何一個下棋算法，目標函數都是提高期望的獲勝概率。如果將當前棋局定義為Xt，下一回合的棋局定義為Xt+1；而每一個棋局的獲勝概率是f(x)，那麼算法的目的，就是在下瞭這一步棋之後，使得：

E(f(Xt+1)) =E(f(X)) and f(Xn)→1 when n→∞

定義獲勝時目標函數f(x)=1,那麼算法的目標就是隨著回合數n的增加，勝率f(x)從一開始平局的0.5逐漸趨近於1；如若不能，則這一盤棋理論上永遠不會結束。換言之，算法的目標是最大化期望勝率。

那麼問題來瞭，如果讓它考慮下面這種情況：

當前獲勝概率是70%，該我方下棋，有兩種策略：

策略A — 對手有10種反應情況，每種情況我方的獲勝概率都是75%。

策略B — 對手有10種反應情況，其中9種情況下我方的獲勝概率是80%，另外1種的獲勝概率是60%。

AlphaGo使用的是蒙特卡洛實驗，其結果也就是計算期望的平均勝率。那麼就會選擇策略B，期望勝率是78%，大於第一種的75%。

那麼如果AlphaGo選擇瞭策略B，我們能不能獲勝？能，如果雙方信息對稱的話。如果AlphaGo能考慮到的那種使他勝率下降到60%的算法，我們同樣清楚的話，利用這一招反制，並不斷重復這個過程，AlphaGo就會一次次“心甘情願”跳入這個陷阱，勝率不斷下降。

這個例子把問題簡單化瞭，真正背後的數學上的核心矛盾，在於算法進行最優化的目標函數，要如何在mean平均值和min最小值之間取舍。

When E(mean(a)) =E(mean(b)) and E(min(a)) E(min(b))

隻要AlphaGo最優化的是期望的平均勝率，就可以利用尋找對其最不利情況這一方法來反制，也就是說設計出一種讓AlphaGo的平均勝率高但在最差情況下勝率卻相對顯著的低的情況。

那如果AlphaGo最優化的是勝率的最小值呢，換言之，最差情況下的勝率？

第一，當前算力不可能。如果不窮舉總有可能漏掉最不利這一特殊情況，當前算力無法窮舉前文已然論述過。

第二，就算能夠計算最不利情況下的勝率，這種算法在計算機應用中叫做Minimax極小化極大算法（找出失敗的最大可能性中的最小值的算法）。然而這一種算法將不能保證隨著N增大，f(Xn)無限趨近於1。像圍棋這種對於雙方公平的遊戲，在中前期局勢不明朗時，無論你使用哪一種策略，對方如果能找到其最優策略（極小化極大算法的假設），你的下一回合的勝率在這一最壞情況下，肯定要低於這一回合。既然目標函數f(x)數學上難以趨近於1，也就是無法獲勝，那麼在做前文提到的蒙特卡洛實驗時就有很大可能陷入死循環，算法無法擬合出結果。

退一萬步講，極小化極大算法唯一能夠應用的情況，就是局勢明朗勝局已定後，就連對手的最優策略都不能阻止AlphaGo的勝率隨回合數提高時。

當然基於AlphaGoV18版本，其運用的神經網絡回歸，和基於蒙特卡洛實驗的強化學習，本質都是將條件平均值作為預測結果和最優化的目標函數，而不是勝率的最小值。

所以，用淺顯易懂的話來說，擊敗AlphaGo的策略，就是針對它的目的，制造“陷阱”——一種詭譎的“絕處逢生”的陷阱。而最好時機，是在尚不明朗的比賽中前段。

比如當前AlphaGo的獲勝概率是50%，隻要它這麼下，我有100種對應下法，其中99種情況AlphaGo的勝率都將變成60%，可有那麼一種會讓它的勝率變成40%。AlphaGo會根據蒙特卡洛實驗結果“開心”地選擇跳進這個“陷阱”。當然，真正下棋並沒有這麼簡單，可能沒有哪一步棋會產生讓勝率從60%到40%這麼大影響。但是邏輯是一樣的，那就是基於prior probability事前概率，增大post probability事後概率的variance（方差）。其必要條件，就是prior probability事前概率處於兩個post probability時候概率的中間，比如當前AlphaGo勝率是60%，而我的“好招”和“昏招”會使得AlphaGo的勝率變為61%~59%。

讓我們回想2016年AlphaGo在唯一輸給李世石的第四場比賽，在李世石下出第78手之後，AlphaGo仿佛突然“精神失常”，從83手一直到103手，表現突轉直下，特別是黑97的“主動送死”，令人大跌眼鏡。連Google的Deep Mind團隊代表都表示無法理解算法的突然失常，要回去研究數據、分析情況。

為何如此？兩個可能性，第一個可能性是這個棋局是算法從未模擬過，但這不可能。上文提過，根據AlphaGo的蒙特卡洛實驗的設計，如果是“意料之外從未見過”的棋局，AlphaGo會隨機下在某個位置，而這些落子顯然不是隨機的。那我們就可以做出一個大膽但合理的假設，李世石的“神來一手”恰好暴露瞭上文分析的AlphaGo目標函數的一個邏輯矛盾。盡管白78手在人類看來是一步秒棋，但在AlphaGo看來卻不是，它反而認為自己的勝率提高瞭，殊不知卻自己把自己推到瞭最危險的邊緣。

擊敗AlphaGo的可能性之一，就在其選擇最優化的目標函數上。

台中產後護理中心4、AlphaGo擊敗柯潔，是否勝之不武

之前我說，有一件細思恐極的事情。

柯潔說：“它每一步棋，我擔心的棋它肯定會下。”

棋盤有那麼多格子，每一個棋局都會有各種各樣獲勝方法，為什麼AlphaGo下的偏偏是柯潔擔心的那一步？

這個比賽，到底是不是像表面那樣“公平”？

世界第二的李世石對柯潔和AlphaGo的比賽進行瞭解說，對於這場比賽他如此評價：“是否應該給棋手充分瞭解阿爾法的機會呢？比如賽前提供程序，約一周時間讓棋手瞭解程序，摸一摸特點和棋風等等。不然人類棋手基本就沒機會。”

李世石表示，如果在去年的人機大戰之前自己能夠有機會去測試AlphaGo的話，很有可能會有贏下比賽的機會。而且，在他看來，新版本的AlphaGo並沒有開創什麼新的下法，但的確更加穩定、強大瞭。

AlphaGo瞭解柯潔

而柯潔對AlphaGo幾乎一無所知

AlphaGo和李世石下過棋，和世界上其他高手也下過棋。Google可以收集整理世界上所有圍棋比賽的錄像，還可以收集網上圍棋平臺所有玩傢的下棋記錄，把這些數據扔到神經網絡、強化學習模型中，必然能在某種程度上預測棋手如何下棋。

特別是，在我們之前講的policy network預測網絡中，可以專門“針對”柯潔，在樣本中加大柯潔過去比賽下棋數據的權重，將算法調整為“專門”預測柯潔如何下棋、“專門”戰勝柯潔的算法。

如果AlphaGo和幾乎不懂圍棋的我下棋，對比與世界第一的柯潔下棋，會走同樣的路數嗎？如果不同，那麼模型的設定就是會根據對弈者情況而調整。

作為大數據翹楚Google旗下AlphaGo的模型，大抵會最大化利用全部可以利用的信息，比如對手是誰，什麼段位，過去下棋的記錄。

柯潔或許一上來就處於劣勢。

試想，雖然柯潔是世界第一，李世石是世界第二。如果我聯系柯潔希望與其比賽，結果請李世石戴著面具替我比賽，柯潔還會取勝嗎？兩人實力相近，對於對手策略沒有針對性準備的柯潔，大意失荊州也並不令人意外。

三場比賽，柯潔第一場隻有四分之一子的差距，第二場一步之差落入劣勢。這是否其實隻是信息不對稱的劣勢使然？

我不是谷歌員工，也不是圍棋高手，這些當然都是不負責任、無法驗證的猜測。

我隻知道這場世紀矚目的人機大戰，柯潔是赤膊上陣光明磊落，AlphaGo蒙著面紗遮遮掩掩。

圍棋沒有必勝策略。

AlphaGo還沒能窮盡棋盤上的每一種可能性。

現在的人工智能，一種是模仿人類學習的過程，一種是在人類制定的規則下對各種可能性試錯來學習。

大可不必恐懼人工智能，擔憂有一天人工智能取代人類，惶惶不可終日。

畢竟，人工智能，

沒有人工，

談何智能？

隻要您有幹貨觀點或文章，歡迎投稿入駐華爾街見聞名傢專欄，聯系郵箱：zhuanlan@wallstreetcn.com

收藏相關新聞歐央行官員隔空回應索羅斯——歐洲正走在經濟大趨同的路上文/?見智研究所 2017.07.03盛松成：發展公共租賃住房是房地產調控的重要舉措文/?王維丹 2017.07.04日本政壇飛出黑天鵝！沖擊安倍政權？關於“她”你需要知道這些文/?WEEX 2017.07.03“歪果仁”真要來瞭！中國評級市場開放進入倒計時文/?祁月 2017.07.03去年所有人都僥幸避開瞭一場經濟大衰退，而這都應該感謝中國文/?葉楨 2017.07.03 金融雷一刀總篇數?2?篇坐標在波士頓的金融科技團隊，團隊成員專長於量化與大數據，主筆在波士頓頂級基金做全球資產配置。既有通俗的金融評論、理財故事，也有專業的投資理念、投資策略。微信公眾號：金融雷一刀

請發表您的評論金融雷一刀坐標在波士頓的金融科技團隊，團隊成員專長於量化與大數據，主筆在波士頓頂級基金做全球資產配置。既有通俗的金融評論、理財故事，也有專業的投資理念、投資策略。微信公眾號：金融雷一刀總篇數 2 粉絲 328

台中高級月子中心

實時行情

綜覽外匯商品股指債券實時查看更多

相關信息

關於華爾街見聞使用條款版權聲明

聯系我們

廣告投放意見反饋信息安全舉報

關註我們

微博@華爾街見聞郵件訂閱 RSS訂閱

加入我們

招聘專頁下載華爾街見聞聲明：未經許可，任何人不得復制、轉載、或以其他方式使用本網站的內容。評論前請閱讀網站 “跟帖評論自律管理承諾書” ???舉報電話: 021-65963809 ???兒童色情信息舉報亦可聯系: contact@wallstreetcn.com 友情鏈接新浪騰訊財經財經網一財網澎湃新聞界面新聞證券之星全景財經觀察者網經濟網黃金頭條獵聘網華夏時報陸傢嘴金融網樂視財訊

? 2010 - 2017 華爾街見聞-上海阿牛信息科技有限公司 wallstreetcn.com 滬ICP備13019121號

台灣電動床工廠電動床

AUGI SPORTS｜重機車靴｜重機車靴推薦｜重機專用車靴｜重機防摔鞋｜重機防摔鞋推薦｜重機防摔鞋

AUGI SPORTS｜augisports｜racing boots｜urban boots｜motorcycle boots

台中產後護理中心台中產後月子中心台中產後月子台中高級月子中心台中產後護理之家推薦

d67gikl5z

怎麼這樣說話

d67gikl5z 發表在痞客邦留言(0) 人氣()

E-mail轉寄

怎麼這樣說話

怎麼這樣說話

台中產後月子中心【部落客推薦】台中推薦月子中心百艘～坐月子必看

歷史上的今天

留言列表

站方公告

活動快報

我的好友

熱門文章

文章分類

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY

怎麼這樣說話

怎麼這樣說話

台中產後月子中心 【部落客推薦】台中推薦月子中心百艘～坐月子必看

歷史上的今天

留言列表

站方公告

活動快報

我的好友

熱門文章

文章分類

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY

台中產後月子中心【部落客推薦】台中推薦月子中心百艘～坐月子必看