如果把圍棋棋盤擴(kuò)大,那么人類棋手戰(zhàn)勝AI的希望會(huì)增加還是減小?
網(wǎng)友解答: 很多人都搞不清楚第三代計(jì)算機(jī)程序是如何利用機(jī)器學(xué)習(xí)進(jìn)行訓(xùn)練的,要么就認(rèn)為棋盤大了程序更容易贏,要么就認(rèn)為棋盤變了電腦就不會(huì)下了,這都是錯(cuò)的。-在AlphaGo的模型里,訓(xùn)練的
很多人都搞不清楚第三代計(jì)算機(jī)程序是如何利用機(jī)器學(xué)習(xí)進(jìn)行訓(xùn)練的,要么就認(rèn)為棋盤大了程序更容易贏,要么就認(rèn)為棋盤變了電腦就不會(huì)下了,這都是錯(cuò)的。
-
在AlphaGo的模型里,訓(xùn)練的基礎(chǔ)樣本是19*19路棋盤的固定局面,棋盤變了就不是同類樣本了,水平是不可能還保持一致的。但是也不是說程序就不會(huì)下了,棋盤突然變大,以前的程序水平發(fā)揮會(huì)顯著下滑,但一些參數(shù)還是能用的,不會(huì)說直接跌到零水平。
但是,程序的學(xué)習(xí)能力還在那里,只要你給它提供足量的新樣本,它的水平還是會(huì)很快的提升上來。對(duì)使用監(jiān)督學(xué)習(xí)的程序來說,因?yàn)闆]有這么多現(xiàn)成的人類高水平棋譜,所以程序水平的提升會(huì)慢一些,而對(duì)采用強(qiáng)化學(xué)習(xí)的程序來說就沒這個(gè)問題。
棋盤越大,學(xué)習(xí)的客觀難度就越大。但對(duì)程序難,對(duì)人類也難,最終還是比較學(xué)習(xí)能力。機(jī)器學(xué)習(xí)在AlphaGo模型下的學(xué)習(xí)能力已經(jīng)明顯超越人類(是說足量硬件下絕對(duì)能力而非單位能耗下學(xué)習(xí)能力之類的概念),所以同等訓(xùn)練時(shí)間下(前提是得有訓(xùn)練),程序適應(yīng)新棋盤大小的速度一定會(huì)人類更快。
-
說簡(jiǎn)單點(diǎn),比如現(xiàn)在棋盤從19路變成21路,直接把AlphaGo拿來和人類世界冠軍下,人類必勝,因?yàn)槿祟惉F(xiàn)成的知識(shí)理論更容易直接挪到新棋盤上。
但如果給一天時(shí)間讓人類和程序分別訓(xùn)練,人類下了10盤訓(xùn)練棋,程序下了100000000盤訓(xùn)練棋,第二天再來,人類就不行了。
當(dāng)然你非說讓程序和人類訓(xùn)練同樣多的盤數(shù),在盤數(shù)不太多的情況下(比如100盤),可能還是人類厲害,因?yàn)楝F(xiàn)在的機(jī)器學(xué)習(xí)只是對(duì)人類大腦學(xué)習(xí)能力很初步的模擬,學(xué)習(xí)效率上還是比不過生物大腦的,但是硬件基數(shù)可以很大啊......所以同樣時(shí)間里,多堆硬件多訓(xùn)練就行了。
-
歸根結(jié)底,改變棋盤不會(huì)改變?nèi)祟惡统绦虻南鄬?duì)強(qiáng)弱,人類可能的優(yōu)勢(shì)僅限于程序剛踏入新領(lǐng)域而沒有進(jìn)行新訓(xùn)練的那一瞬間。
但說句老實(shí)話,這么比是有點(diǎn)不講道理的,也沒有意義。
網(wǎng)友解答:減小。
19路的圍棋變化。AI并不單純靠運(yùn)算能力取勝。事實(shí)上也沒有哪個(gè)AI具備這么大的運(yùn)算能力。
事實(shí)上,AI靠的是算法。打個(gè)比方,從A到B,哪條路最好。正常的思維是每條路試一下,就清楚了。
但是當(dāng)理論上有無數(shù)條路徑的時(shí)候,光靠一條一條去試就很麻煩了,那么這種優(yōu)化的算法是怎么做的呢?他從A點(diǎn)開始到B點(diǎn)去觀察。在單位時(shí)間里從哪條路徑出來的人最多,AI就視為一個(gè)最優(yōu)解。
這種算法保證的是每一步最優(yōu)解的概率最大化。哪怕棋局?jǐn)U大,這種算法也能合理作用。和棋盤上變化的多少已經(jīng)無關(guān)了。