设万维读者为首页 广告服务 联系我们 关于万维
简体 繁体 手机版
分类广告
版主:弯刀
万维读者网 > 竞技沙龙 > 帖子
人工智能攻克德州扑克?
送交者: Mayi 2017年01月12日15:17:13 于 [竞技沙龙] 发送悄悄话

文章来源:澎湃新闻


在太平洋这头的中国,谷歌旗下DeepMind研发的阿尔法狗(AlphaGo)刚刚披着“Master”的马甲战胜了“当今围棋第一 人”柯洁,宣告着人工智能在围棋领域的胜出,在太平洋那头的加拿大,人类在德州扑克领域也要失守了?来自加拿大和捷克的10位科学家近日在预印本网站 arXiv上载了一篇题为《DeepStack:无限注德扑的专业级人工智能玩家》的论文,介绍了一种能在一对一无限注德州扑克中击败人类玩家的新算法 DeepStack。


在过去的20年里,我们见证了许多游戏领域在人工智能面前纷纷“沦陷”,比如西洋双陆棋、跳棋、国际象棋和围棋。 人工智能在这些领域发挥的难度,主要取决于这些游戏需要作出的决策点(decision points)数量。一盘围棋游戏约包含有10的170次方个决策点。


但是,围棋等棋类游戏是完美信息游戏,也就是说,所有玩家在游戏中能获得的确定性信息是对称的。但除此之外,人类生活中还要面临更多非完美信息的情景,正如计算机之父冯·诺依曼所说,“现实世界与此不同,现实世界包含 有很多赌注、一些欺骗的战术,还涉及你会思考别人会认为你将做什么。”


德州扑克就是这样一种包含了欺骗、推测的非完美信息游戏,玩家只能掌握自己手上的牌,通过这种非对称的信息与对手进行博弈。


因此,虽然一对一无限注德扑游戏中包含10的160次方个决策点,要少于围棋,但它对人工智能的推理能力提出了更高的要求。


在过去,研究人员往往采用一种压缩型的策略来开发算法,即通过把原始版本游戏中的设计和行为转移到一个被压缩了的情境下推理。但在压缩的过程中,信息会出现丢失,造成此前人工智能从未在扑克领域击败人类玩家。


 而这个加拿大和捷克的合作团队开发的新算法DeepStack,则注重培养人工智能出牌时的“直觉”。在运用深度学习,反复自我博弈之 后,DeepStack学会了在每一个具体情境出现时进行推理。这非常接近人类玩家的“牌感”,即在当前情境下对个人牌面大小的感觉,并作出相应的决策。


 该团队邀请了来自17个国家的33名专业扑克选手挑战DeepStack,在2016年11月7日到12月12日之间共进行了44852次较量。 DeepStack成为了首个在一对一无限注德扑中战胜人类玩家的人工智能,并且平均胜率达到了492mbb/g(milli-big-blinds per game,一般职业玩家认为50mbb/g是个门槛)。

0%(0)
0%(0)
标 题 (必选项):
内 容 (选填项):
实用资讯
回国机票$360起 | 商务舱省$200 | 全球最佳航空公司出炉:海航获五星
海外华人福利!在线看陈建斌《三叉戟》热血归回 豪情筑梦 高清免费看 无地区限制
一周点击热帖 更多>>
一周回复热帖
历史上的今天:回复热帖
2016: 野驴应该给被停赛的笨狗Burfict付那三
2016: 刚看到一个消息:公羊和茶几都被批准去
2015: xxlfm: 分区季后赛四分卫排行榜(前五
2015: 搭台:大学橄榄球冠军决赛 Oregon:OHI
2014: 看一场少一场的大白菜vs how old r u的
2014: 2013 NFC半决赛,49-黑豹,胖丫勇对VF
2013: 翠花已经准备好了,石头快点出来给我驴
2013: SF 49 ers 二次大战 GB
2012: 合法大麻:印度核武之路 六下:中印边
2012: 合法大麻:印度核武之路 六上:中印边