中国领先的IT技术网站
|
|

颤抖吧人类!阿尔法狗之后又有了冷扑大师

恐怕大家都是从阿尔法狗击败李世乭这条热文,才开始关注AI的吧,然而现在不光有了阿尔法狗,还出了一个冷扑大师,专攻德扑的一款AI机器人。

作者:佚名来源:51cto|2017-04-12 23:01

开发者大赛路演 | 12月16日,技术创新,北京不见不散


恐怕大家都是从阿尔法狗击败李世乭这条热文,才开始关注AI的吧,然而现在不光有了阿尔法狗,还出了一个冷扑大师,专攻德扑的一款AI机器人。

阿尔法狗

首先先来了解下德州扑克与棋类的区别。围棋是一种“完美信息游戏”,场面上所有的情况都黑白分明地摆在棋面上,双方掌握对等的信息。然而,德扑中隐藏了很多信息,是一种“非完美信息游戏”。玩家不知道对手手中是什么牌,不知道五张公共牌会开出怎样的结果,也不知道对手猜测自己握有怎样的手牌。因此,虽然一盘德扑的决策点数量是10的160次方,要少于围棋,但光靠搜索是打不了德扑的。德扑由此跳出了在搜索量上的较量,对AI提出了另一个方向上的考验:应对隐藏的信息。

阿尔法狗的几个基本原理,分别为:走棋网络(Policy Network),给定当前局面,预测和采样下一步的走棋;快速走子(Fast rollout),在适当牺牲走棋质量的条件下提高速度;价值网络(Value Network),给定当前局面,估计双方胜率;蒙特卡罗树搜索(Monte Carlo Tree Search,MCTS),把以上三个部分串联成一个完整的系统。

冷扑大师的算法则主要基于:纳什均衡、虚拟遗憾最小化算法(Counterfactual Regret Minimization,CFR)、残局解算器(end-game solver)和自我强化学习等模块。

然而对于用户来说,阿尔法狗和冷扑大师除了能让我们看看新闻以外,哪个又更有用呢?

在现实生活中,我们遇到的事情会更像玩德扑:商业谈判时对方未知的底牌、房屋拍卖时竞争对手难测的举动、股票交易中一些隐藏的内部消息。桑德霍姆认为,德扑AI打开了靠人工智能解决随机事件和隐藏信息的大门。这样的AI,才有望离开虚拟的棋牌世界,成为人类在现实生活中谈判、博弈和投资的好帮手。

【责任编辑:齐琳 TEL:(010)68476606】

点赞 0
分享:
大家都在看
猜你喜欢
24H热文
一周话题
本月最赞

热门职位+更多

读 书 +更多

八万里路云和月——一个国家扶贫开发工作重点县的

通榆,这个距离各个交通枢纽都十万八千里的偏僻小县城,搭载着电子商务的快车,踏上了云高速,开辟了如火如荼的电商致富的新战场,实现了一...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊
× 51CTO学院双十二活动