10月19日消息,专注于推进人工智能(AI)研究的谷歌子公司DeepMind今天发布了一款新版本的AlphaGo程序,它能通过自学玩转多种游戏。这套系统名为“AlphaGo Zero”,它通过一种名为“强化学习”的机器学习技术,可以在与自己游戏中吸取教训。
阿尔法狗之父:AlphaGo Zero 3天走完千年棋史
新版本的AlphaGo究竟有多厉害?打败李世石的AlphaGo用了3000万盘比赛作为训练数据,AlphaGo Zero用了490万盘比赛数据。经过3天的训练,AlphaGo Zero就以100:0的比分完胜对阵李世石的那版AlphaGo。
DeepMind联合创始人兼CEO 、AlphaGo之父戴密斯·哈萨比斯(Demis Hassabis)和AlphaGo团队负责人大卫·席尔瓦(Dave Sliver) 等人同时在官方博客上发表文章,详解最强版本阿尔法狗是如何炼成的,与前代有何不同。
与学习大量人类棋谱起步的前代AlphaGo不同,AlphaGo Zero是从“婴儿般的白纸”开始,通过3天数百万盘自我对弈,走完了人类千年的围棋历史,并探索出了不少横空出世的招法。
10月19日消息,DeepMind今天发布了一款新版本的AlphaGo程序,经过三天的训练,该系统能够击败AlphaGo Lee,后者是去年击败了韩国选手李世石(Lee Sedol)的DeepMind软件,胜率是100比0。经过大约40天的训练(约2900万场自玩游戏),AlphaGo Zero击败了AlphaGo Master(今年早些时候击败了世界冠军柯洁)。
对此,柯洁回应称:“一个纯净、纯粹自我学习的alphago是最强的...对于alphago的自我进步来讲...人类太多余了。”