AlphaGo 简单介绍

读了下2016年的 Mastering the game of Go with deep neural networks and tree search,本来想写个读后感,不过发现 Google DeepMind’s AlphaGo: How it works 其实已经做了相当全面的介绍了。

Untitled

围棋在博弈论上其实算是个非常简单的问题,非胜即负的零和游戏,同时也没有任何随机因素,和简单的井字棋游戏没什么大差。如果棋手是全知全能的话,5a 将只显示0或100,每步只需要在标明100的任何一个位置落子即可(下一步,在对手看来所有位置都将显示0)。

AlphaGo 首先利用的是已有的围棋知识库。如果对于一个棋局,已经有围棋大师如此落子的话,那这至少是个不错的选择。于是由 KSG Go 的数据训练了一个高准确率(57%)的策略网络,用来模拟大师的围棋策略;同时也训练了一个更快速(但较低准确率 24%)的策略网络,用来实时快速推演整个棋局。

策略网络的输出是一个落子的概率分布。因此可以将两个策略网络重复相互对弈,每次会得到有所不同的棋局进程。

接下来 AlphaGo 令高准确率的策略网络相互对弈,用 reinforcement learning 的方法继续优化策略网络。这时,优化的策略网络已经能够大概率战胜已有的围棋程序了。

最后,AlphaGo 利用策略网络对弈的棋局来训练价值网络。简单来说,对于任何棋局,有一个最优的价值(如前所述的0或100,但这需要不现实的完整树状搜索),这个最优的价值可以用反复用策略网络对弈的结果来近似(如果策略网络从该棋局开始对弈100局,80胜20败的话,可以近似认为其价值为80),然后这个近似的价值可以用价值网络的输出来近似。而显然价值网络在实时计算上优势明显。

在这些非实时的策略网络和价值网络训练完成之后,在和人类对弈中,AlphaGo 用基于 Monte Carlo tree search 的树状搜索算法来进行实时计算。在棋局 s,用策略网络的输出用来作为落子的初始价值(优先选择最有希望的落子),同时平衡仍未被探索过的落子选择。直到一定步之后的棋局 s’,平均价值网络的输出和快速策略网络的模拟结果来作为 s‘ 的价值,同时反过来更新之前每次落子的价值。在重复足够次数后选择有最高价值的落子。

这个流程基本是符合人类的直觉的,人类会从经验选择下一子的位置,并预想对手的反应,在一定步数后从经验判断此时棋局优势如何,从而修正开始的落子。

Advertisements
Posted in Computer and Internet, Machine Learning, Science | Tagged , | Leave a comment

上海迪斯尼

公司埋单,周六逛了一回上海迪斯尼。

总的来说还是挺适合拖家带口集体活动的,除了人还是太多之外。

设施类的话飞越地平线确实名不虚传,3D巨幕绚丽的自然风光加上少量重力和应景的气味,很有空中翱翔的感觉。推荐可以的话尽量靠中间乘坐,太接近两侧的话画面会略有变形。不过如果没有FastPass的话值不值得排两个小时队这个问题就见仁见智了嗯。

极速光轮的速度感确实不错,不过惯性和重力并不强,而且时间较短,可能就半分种多点吧。另外高度近视脱掉眼镜真的看不见什么。

加勒比海盗同样是一个3D过山车的形式。特色是巨幕和实景无缝交织,演出效果拔群。不过个人意见论刺激的话还是环球影城的变形金刚更胜一筹。题外话周末走单人通道几乎不需要排队。

演出类的话杰克船长是常规的特效加动作打斗。人猿泰山属于中外结合的杂技演出。冰雪奇缘作为排队最长的演出,个人感受只是让观众们唱两嗓子外带见见电影主角,但作为演出节目来说内容严重不足。

中午的童话专列和童话圣典,晚上的夜光幻影秀基本都是迪斯尼作品系列。更偏好日系动画如我也就是走马观花罢了。

DSCF3337

Posted in Traveling | Leave a comment

A Short History of Nearly Everything

一本相当有趣的科普书。

本书非常大的特色是关于某个发现,Bryson 一定会告诉你是谁,在何时,以及如何做出这个发现的。如果 Bryson 曾经访谈过相关人士那自然也不妨碍他加上一段第一手谈话记录。而对于古人来说也可以来一段轶事,比如 Halley(就是哈雷彗星的那个哈雷)是如何花言巧语说服 Newton 写出 Principia Mathematica 的故事,或者 Darwin 对蚯蚓的专著卖得远比 On the Origin of Species 要好。

发人深思的一点是我们几乎无法理解在人类或是其它现存生物的历史中,究竟有多少归结于纯粹的偶然因素:太阳系的构造,地球的位置,月球的大小,生命的起源,气象环境的历史,植物的作用,地核与磁场,火山活动,陨石,冰川期,等等。我们能做的只有尽可能珍惜自己和其它与人类共存的物种了。

Posted in Book, Science | Tagged | Leave a comment

Alexei Kornienko and Elena Denisova Piano and Violin Recital

四月了一定要听小提琴啊。不过能杯具的把音乐厅正面高台的票买成背面高台的好像也只有我了。

曲目包括了早至巴赫晚至后现代的曲目。压轴的是贝多芬的 Kreutzer Sonata。

Posted in Entertainment, Music | Leave a comment

维也纳交响乐团,贝多芬第三交响曲“英雄”

维也纳交响乐团在东方艺术中心进行为期四晚的贝多芬交响乐全集的演出。

虽然第五“命运”更为经典,但是第三“英雄”至少可以说是转折之作吧。全篇的长度和整体性,第一乐章精简而厚重的第一主题和至今仍有争议的过渡和第二主题,中途一度节奏不明且显得停滞的发展部,发展部和尾声中引入的新的主题,伤感的第二乐章葬礼进行曲,无一不是基于古典主义音乐上的极大拓展和创造。

PS:
详细的音乐分析话可以参考 Beethoven’s Eroica Symphony
Berlioz 的评论也相当有特色。

Posted in Entertainment, Music | Tagged , | Leave a comment

The Third Chimpanzee

Jared Diamond 第一本通俗著作,也许也是涉及领域最为宽泛的。

第一部分主要介绍人类和黑猩猩的微小基因差异,人类从古猿到智人的演化过程。作者认为语言是人类文明的关键因素。

第二部分关于性择演化和衰老的演化因素。

第三部分关于人类文明的进步,涉及语言和艺术的演化,农业的推广,信息理论与缺陷原理

第四部分关于先进文明对落后文明的征服。这部分内容在作者后续的著作 Guns, Germs and Steel 中有更详尽的阐述。

第五部分关于人类对自然的破坏,以及枯竭的环境对人类社会的反作用。

需要注意的是本书中作者的主观论断比较明显,某些论据可能略失偏颇。

PS:接下去继续普利策非小说类别的选择性遍历吧。Ernest Becker 的 The Denial of Death 看起来值得一读。

Posted in Book, Science | Tagged , | Leave a comment

樱花?

杯具的在早樱已谢晚樱未绽的时候去赏樱嗯。

DSCF3133

Image | Posted on by | Tagged | Leave a comment