人工智能攻克德州撲克? |
送交者: Mayi 2017年01月12日15:17:13 於 [競技沙龍] 發送悄悄話 |
文章來源:澎湃新聞
在太平洋這頭的中國,谷歌旗下DeepMind研發的阿爾法狗(AlphaGo)剛剛披着“Master”的馬甲戰勝了“當今圍棋第一 人”柯潔,宣告着人工智能在圍棋領域的勝出,在太平洋那頭的加拿大,人類在德州撲克領域也要失守了?來自加拿大和捷克的10位科學家近日在預印本網站 arXiv上載了一篇題為《DeepStack:無限注德撲的專業級人工智能玩家》的論文,介紹了一種能在一對一無限注德州撲克中擊敗人類玩家的新算法 DeepStack。
在過去的20年裡,我們見證了許多遊戲領域在人工智能面前紛紛“淪陷”,比如西洋雙陸棋、跳棋、國際象棋和圍棋。 人工智能在這些領域發揮的難度,主要取決於這些遊戲需要作出的決策點(decision points)數量。一盤圍棋遊戲約包含有10的170次方個決策點。
但是,圍棋等棋類遊戲是完美信息遊戲,也就是說,所有玩家在遊戲中能獲得的確定性信息是對稱的。但除此之外,人類生活中還要面臨更多非完美信息的情景,正如計算機之父馮·諾依曼所說,“現實世界與此不同,現實世界包含 有很多賭注、一些欺騙的戰術,還涉及你會思考別人會認為你將做什麼。”
德州撲克就是這樣一種包含了欺騙、推測的非完美信息遊戲,玩家只能掌握自己手上的牌,通過這種非對稱的信息與對手進行博弈。
因此,雖然一對一無限注德撲遊戲中包含10的160次方個決策點,要少於圍棋,但它對人工智能的推理能力提出了更高的要求。
在過去,研究人員往往採用一種壓縮型的策略來開發算法,即通過把原始版本遊戲中的設計和行為轉移到一個被壓縮了的情境下推理。但在壓縮的過程中,信息會出現丟失,造成此前人工智能從未在撲克領域擊敗人類玩家。
而這個加拿大和捷克的合作團隊開發的新算法DeepStack,則注重培養人工智能出牌時的“直覺”。在運用深度學習,反覆自我博弈之 後,DeepStack學會了在每一個具體情境出現時進行推理。這非常接近人類玩家的“牌感”,即在當前情境下對個人牌面大小的感覺,並作出相應的決策。
該團隊邀請了來自17個國家的33名專業撲克選手挑戰DeepStack,在2016年11月7日到12月12日之間共進行了44852次較量。 DeepStack成為了首個在一對一無限注德撲中戰勝人類玩家的人工智能,並且平均勝率達到了492mbb/g(milli-big-blinds per game,一般職業玩家認為50mbb/g是個門檻)。 |
|
|
|
實用資訊 | |
|
|
一周點擊熱帖 | 更多>> |
|
|
一周回復熱帖 |
|
|
歷史上的今天:回復熱帖 |
2016: | 野驢應該給被停賽的笨狗Burfict付那三 | |
2016: | 剛看到一個消息:公羊和茶几都被批准去 | |
2015: | xxlfm: 分區季後賽四分衛排行榜(前五 | |
2015: | 搭台:大學橄欖球冠軍決賽 Oregon:OHI | |
2014: | 看一場少一場的大白菜vs how old r u的 | |
2014: | 2013 NFC半決賽,49-黑豹,胖丫勇對VF | |
2013: | 翠花已經準備好了,石頭快點出來給我驢 | |
2013: | SF 49 ers 二次大戰 GB | |
2012: | 合法大麻:印度核武之路 六下:中印邊 | |
2012: | 合法大麻:印度核武之路 六上:中印邊 | |