需要确认注册邮箱后才能开通博客,立即确认我的邮箱
文章 搜索 高级搜索 ?3? ?3?
  • 滤波器new!
  • LED驱动 new!
  • 新能源 new!
  • PLL
  • PCIE协议
  • 可穿戴
  • LSI
  • FCI
文章 论坛 博客 小组 研讨会
EDN China>EDN论坛>创新技术论坛专区>AlphaGo是出bug了,还是故意输的啊?
?
大家在做什么...
楼主 问题:

AlphaGo是出bug了,还是故意输的啊?

发布时间:2016-3-15 上午10:36

作者: yunxixi

等级: 高级工程师

积分: 2422分

发帖数: 611次

网站总积分: 2432分

2237分

发送消息

加为好友

查看用户的所有发言

查看用户的个人主页

需要确认注册邮箱后才能下载,立即确认我的邮箱
回复后可下载附件




如果说前三盘的结果令各路专家们大跌眼镜的话,第四盘可能是让所有人都大跌眼镜了。AlphaGo在优势的情况下,连出昏招,将大好局面拱手相让。


很多人问,是不是AlphaGo出bug了?事实上,深度学习是一个容错性非常好的系统,即便出了bug,对结果的影响也不大。那么,问题到底在哪?


DeepMind团队说,这是一个系统问题。我们来看看这个系统到底哪有问题?


一、AlphaGo如何养成


DeepMind团队曾对外介绍过,AlphaGo的养成分以下四个步骤:


  1. 整理过去人类对弈的80多万盘棋局;
  2. 拿1的棋谱,训练一只狗狗,能够预测人类下一步会下在哪里;
  3. 拿2得到的狗狗,每天自己和自己下100万盘棋;
  4. 拿1和3的棋谱,训练一只狗狗,这就是AlphaGo。


可以看出来,AlphaGo是基于1亿+盘机器棋局和80万人类棋局训练出来的狗狗。


二、问题出在哪?
问题其实出在了“教学方法”上。


我们看到,训练AlphaGo所用的棋谱,只有80万是人类棋局。总数上亿的棋局是机器对弈。它下的每一步,都是将局面导向历史上(80万盘人类棋局和1亿自己对弈的棋局)胜率最大的局面(或相似局面)。


问题恰恰出在这里,80万和1亿,相差100多倍,那么AlphaGo选择的所谓胜率最大,一定是“赢自己概率”最大,而非“赢人类”概率最大。


这样的标准在顺风棋下尚且不容易出问题,一旦遇到逆风棋,它的选择标准就变成了,选择对手犯错概率最大的棋。而这个对手恰恰是它自己。


这就是为什么今天AlphaGo在逆境中下出一些匪夷所思的棋——作为“业余中国象棋棋手”的我都看出来的臭棋。


其实,AlphaGo并不认为它们是臭棋。他认为,下这些棋,对手犯错的概率最大。唯一的问题是,它基于的统计主要是和自己对弈的棋局(超过1亿盘)。所以,它在下自己犯错概率最大的棋,而非人类犯错概率最大的棋(只有80万盘人类棋,在统计数据里被淹没了)。


更进一步,它非但没有戳中李世石的要害,还向人类暴露了自己的弱点——AlphaGo在平时训练中就是这样打自己的——人类如果聪明的话,应该研究一下AlphaGo的怪招,AlphaGo的每一次出招其实都在打向AlphaGo自己……


三、Bug能修复吗?


AlphaGo所犯的错误,究其原因,是教学方法的问题。我们基于机器对弈的棋局训练出来的狗狗,要被拉去与人对打,即便这只狗狗已经足够强大,其实它是别扭的。


解决这个问题,最重要的是要纠正80万对1亿的样本选择偏差(sample selection bias)。在经济学领域,sample selection bias是2000年诺贝尔奖获奖成就。在人工智能领域,它指向了一个可能是AI的下一波浪潮——迁移学习(Transfer Learning)。迁移学习能够让AI拥有从一个领域学习知识,应用到另一个领域的能力。例如,人类学习数学,对学习物理是有帮助的。这一能力,是目前的深度学习所不具备的。


在迁移学习的框架下,我们可以基于机器对弈的棋局学习,从中去伪存真,把学到的知识应用到和人类的对弈中去。


无论如何,深度学习对我们的冲击已经如此之大了。那么,迁移学习呢?


以上是第四范式创始人兼CEO戴文渊觉得的,他认为AlphaGo是出bug了,但是为啥我觉得是AlphaGo故意输掉的?如果AlphaGo真的这么有情商了,那人类是不是最终要走向灭亡了,如果人类最终要走向灭亡,那我们还这么拼命干啥,应该想干啥干啥额,怎么开心怎么来啊。。。。。

分享到:? 新浪微博 ?? 微信 ??


打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮

1.扫描左侧二维码
2.点击右上角的分享按钮
3.选择分享给朋友
qq空间 ?? 腾讯微博 ?? 人人网 ?? 百度搜藏 ??
?
???标签: alphago
引用 回复 收藏 推荐到小组 ( 0) ( 0) 关注

快速回复 高级回复
用户名:?
美国的游客?????? (您将以游客身份发表,请登陆 | 注册) ?
标题: * 标题还可以输入80
评论: * 你还可以输入30000
验证码: ?*?
分享: 新浪微博?? qq空间?? qq微博?? 人人网?? 百度搜藏??
维护专业、整洁的论坛环境需要您的参与,请及时举报违规帖子,如果举报属实,我们将给予相应的积分奖励。
谢谢您的热心参与!
返回创新技术论坛 | 返回综合技术交流
本论坛仅陈述专家或个人观点,并不代表EDN China 电子技术设计互动社区网站立场。
积分排行榜
彩云 [殿堂级工程师]
mzlr [殿堂级工程师]
特权同学 [殿堂级工程师]
敬请关注EDNC官方微信“edn-china"

每月定期向您递送电子元器件规格书网中的最新元器件数据手册下载、库存信息及技术参数更新。请点击订阅:

2016我的工程师社区
EDN官方QQ群???更多QQ群
  • EDN-深圳 8366025
  • 菜农Cortex-M0技术交流 12047788
  • EDN-哈尔滨 75642591
  • EDN-上海 15156661
  • EDN-广州 57660943
  • EDN-桂林 48813559
  • EDN-武汉 25150805
  • EDN-模拟电路 2837145
  • EDN-通讯 30548292
  • EDN-综合 57490949

促进EDN网友交流合作,方便EDN网友学习沟通

有问题请反馈