在Master“圍剿”圍棋頂尖高手之后,人工智能又盯上了德州撲克。這一次出場(chǎng)的選手是來(lái)自卡內(nèi)基梅隆大學(xué)(CMU)開(kāi)發(fā)的人工智能選手“Libratus”。
從美國(guó)時(shí)間1月11日開(kāi)始,一場(chǎng)名為“大腦對(duì)戰(zhàn)人工智能:加大賭注”(Brains vs. Artificial Intelligence: Upping the Ante)的巡回賽,將在匹茲堡的河流(Rivers Casino)賭場(chǎng)進(jìn)行,Libratus將和4位人類頂尖職業(yè)選手展開(kāi)對(duì)決。四名職業(yè)選手分別是Jason Lee、Dong Kim、Daniel McAulay和Jimmy Chou。
賽程為期20天,總共將對(duì)戰(zhàn)12萬(wàn)手牌,無(wú)限下注,獲勝者將獲得20萬(wàn)美元的獎(jiǎng)金。
與之前的AlphaGo戰(zhàn)勝李世石,Master橫掃60位頂尖選手的圍棋不同,德州撲克是一種不公開(kāi)、信息不對(duì)稱的游戲,每個(gè)選手都只能在看到自己的手牌。也就是說(shuō)這是一場(chǎng)非完美信息對(duì)稱游戲。
此前,人類已經(jīng)在有限下注的德?lián)洚?dāng)中戰(zhàn)勝過(guò)人類。不過(guò),在有限下注的游戲中,全部的決策點(diǎn)(decision points)只有不到10的14次方個(gè)。而一對(duì)一無(wú)限注中包含10的160次方個(gè)決策點(diǎn)(decision points)。
不過(guò),在CMU在宣布Libratus的比賽之前,有一件事多少搶了Libratus的風(fēng)頭。
上周,著名的論文網(wǎng)站 Arxiv 出現(xiàn)一篇題為《DeepStack:無(wú)限下注撲克里的專家級(jí)人工智能》(DeepStack: Expert-Level Artificial Intelligence in No-Limit Poker)的論文,作者是來(lái)自加拿大Alberta大學(xué)、捷克Charles大學(xué)、布拉格捷克理工大學(xué)的研究人員。DeepStack稱為第一個(gè)在限下注德?lián)渲蝎@勝的人工智能程序。
研究者稱,在一項(xiàng)有數(shù)十名參賽者進(jìn)行的44000手撲克的比賽中,DeepStack 成為第一個(gè)在無(wú)限注德州撲克中擊敗職業(yè)撲克玩家的計(jì)算機(jī)程序。
不過(guò),雖然DeepStack占據(jù)了先發(fā)優(yōu)勢(shì),可是因?yàn)槭且哉撐牡男问匠尸F(xiàn),引發(fā)的關(guān)注度就要遜色一些。從2016年11月7日到12月12日共計(jì)4周的時(shí)間里,來(lái)自17個(gè)國(guó)家的33名選手跟 DeepStack 進(jìn)行了較量,比賽在線上舉行,共計(jì)進(jìn)行了44000手。由于在線上進(jìn)行,一個(gè)選手最多可以同時(shí)玩四局。排名前三(以AIVAT計(jì))的選手分別獲得5000加元、2500加元和1250加元的獎(jiǎng)勵(lì)。
而CMU的Libratus走的是阿爾法狗的路數(shù),公開(kāi)透明,把地點(diǎn)直接設(shè)在賭場(chǎng)當(dāng)中,獎(jiǎng)金也豐厚得多,獲勝者將摘得20萬(wàn)美金。12萬(wàn)手的交鋒相當(dāng)于前者近三倍,從統(tǒng)計(jì)學(xué)上也更有說(shuō)服力。而且,參與的選手也更有分量,有專家質(zhì)疑DeepStack的對(duì)戰(zhàn)選手中沒(méi)有頂級(jí)高手,但是Libratus對(duì)戰(zhàn)的選手則都是世界頂級(jí)選手。
然而在決策機(jī)制上,Libratus卻又與阿爾法狗大相徑庭。據(jù)報(bào)道,由于德州撲克是信息不對(duì)稱的博弈,因此Libratus采用的是“納什均衡”策略,通過(guò)平衡風(fēng)險(xiǎn)與收益來(lái)決定自己的下一步。納什均衡追求的是最安全而不是最極致的利益。
納什均衡的經(jīng)典案例就是“囚徒困境”。1950年,數(shù)學(xué)家塔克任斯坦福大學(xué)客座教授時(shí)講過(guò)這故事。
假設(shè)有兩個(gè)小偷A(chǔ)和B聯(lián)合犯事、私入民宅被警察抓住。警方將兩人分別置于不同的兩個(gè)房間內(nèi)進(jìn)行審訊,對(duì)每一個(gè)犯罪嫌疑人,警方給出的政策是:
如果你倆都坦白罪行,交出臟物,都會(huì)因盜竊罪被判8年。
如果你的同伙坦白了而是你抵賴了,你將會(huì)以妨礙公務(wù)罪加刑2年,而你的同伙因舉報(bào)有功被減刑8年,立即釋放。
如果你倆都不坦白,則警方因證據(jù)不足不能判偷竊罪,但可以私入民宅罪將兩人各判1年。
畫(huà)個(gè)表格分析一下:
從這張表里可以看出,兩人都不坦白是最好的結(jié)果??蓡?wèn)題是,警方把兩人分開(kāi)審訊,形成了“不完整信息博弈”。你無(wú)法保證你同伙的人品如何。這時(shí)如果你為了利益最大化,選擇了不坦白,而你的同伙卻把你出賣(mài)了,那你就成了最大的輸家。這個(gè)時(shí)候納什均衡的最佳選擇就是,果斷坦白。這樣至少你會(huì)得到和你同伙一樣的待遇,而你的同伙如果貪心,你就賺大了。
換句話說(shuō)如果你遵循納什均衡,最壞的結(jié)果是:和對(duì)手打了個(gè)平手。也就說(shuō),在這一策略當(dāng)中,只要其他玩家的策略保持不變,單一玩家就無(wú)法通過(guò)變換策略獲益。
反映到德?lián)渖?,如果Libratus每次的選擇都能實(shí)現(xiàn)納什均衡,那么結(jié)果很可能是:雖然在某些回合中,人類選手會(huì)占得上風(fēng)。但是在12萬(wàn)手的交鋒中,機(jī)器大概率會(huì)成為贏家。
值得一提的是,早在2015年時(shí),CMU的AI程序Claudico就在無(wú)限下注的比賽中跟德?lián)漤敿飧呤纸贿^(guò)手,共計(jì)進(jìn)行了8萬(wàn)手。不過(guò),在這一次比賽當(dāng)中,AI程序被狂虐,排在倒數(shù)第二名。當(dāng)時(shí)參與的選手有Bjorn Li、Doug Polk、Dong Kim、Jason Les。
需要指出的是,Dong Kim、Jason Lee在這一次比賽當(dāng)中還會(huì)參加。在2015年的對(duì)戰(zhàn)當(dāng)中,他們分別排在第三和第五的位置。
在Claudico落敗之后,它的設(shè)計(jì)者Sandholm依然相信,在未來(lái)人工智能將很快能夠擊敗任何領(lǐng)域的頂尖人類玩家。經(jīng)歷一年半的閉關(guān)修煉之后,不知道這一次CMU的AI選手能不能一雪前恥?對(duì)于比賽的結(jié)果,你有什么看法,歡迎留言。