Monthly Archives: May 2017

AlphaGo 简单介绍

读了下2016年的 Mastering the game of Go with deep neural networks and tree search,本来想写个读后感,不过发现 Google DeepMind’s AlphaGo: How it works 其实已经做了相当全面的介绍了。 围棋在博弈论上其实算是个非常简单的问题,非胜即负的零和游戏,同时也没有任何随机因素,和简单的井字棋游戏没什么大差。如果棋手是全知全能的话,5a 将只显示0或100,每步只需要在标明100的任何一个位置落子即可(下一步,在对手看来所有位置都将显示0)。 AlphaGo 首先利用的是已有的围棋知识库。如果对于一个棋局,已经有围棋大师如此落子的话,那这至少是个不错的选择。于是由 KSG Go 的数据训练了一个高准确率(57%)的策略网络,用来模拟大师的围棋策略;同时也训练了一个更快速(但较低准确率 24%)的策略网络,用来实时快速推演整个棋局。 策略网络的输出是一个落子的概率分布。因此可以将两个策略网络重复相互对弈,每次会得到有所不同的棋局进程。 接下来 AlphaGo 令高准确率的策略网络相互对弈,用 reinforcement learning 的方法继续优化策略网络。这时,优化的策略网络已经能够大概率战胜已有的围棋程序了。 最后,AlphaGo 利用策略网络对弈的棋局来训练价值网络。简单来说,对于任何棋局,有一个最优的价值(如前所述的0或100,但这需要不现实的完整树状搜索),这个最优的价值可以用反复用策略网络对弈的结果来近似(如果策略网络从该棋局开始对弈100局,80胜20败的话,可以近似认为其价值为80),然后这个近似的价值可以用价值网络的输出来近似。而显然价值网络在实时计算上优势明显。 在这些非实时的策略网络和价值网络训练完成之后,在和人类对弈中,AlphaGo 用基于 Monte … Continue reading

Posted in Computer and Internet, Machine Learning, Science | Tagged , | Leave a comment

上海迪斯尼

公司埋单,周六逛了一回上海迪斯尼。 总的来说还是挺适合拖家带口集体活动的,除了人还是太多之外。 设施类的话飞越地平线确实名不虚传,3D巨幕绚丽的自然风光加上少量重力和应景的气味,很有空中翱翔的感觉。推荐可以的话尽量靠中间乘坐,太接近两侧的话画面会略有变形。不过如果没有FastPass的话值不值得排两个小时队这个问题就见仁见智了嗯。 极速光轮的速度感确实不错,不过惯性和重力并不强,而且时间较短,可能就半分种多点吧。另外高度近视脱掉眼镜真的看不见什么。 加勒比海盗同样是一个3D过山车的形式。特色是巨幕和实景无缝交织,演出效果拔群。不过个人意见论刺激的话还是环球影城的变形金刚更胜一筹。题外话周末走单人通道几乎不需要排队。 演出类的话杰克船长是常规的特效加动作打斗。人猿泰山属于中外结合的杂技演出。冰雪奇缘作为排队最长的演出,个人感受只是让观众们唱两嗓子外带见见电影主角,但作为演出节目来说内容严重不足。 中午的童话专列和童话圣典,晚上的夜光幻影秀基本都是迪斯尼作品系列。更偏好日系动画如我也就是走马观花罢了。

Posted in Traveling | Leave a comment

A Short History of Nearly Everything

一本相当有趣的科普书。 本书非常大的特色是关于某个发现,Bryson 一定会告诉你是谁,在何时,以及如何做出这个发现的。如果 Bryson 曾经访谈过相关人士那自然也不妨碍他加上一段第一手谈话记录。而对于古人来说也可以来一段轶事,比如 Halley(就是哈雷彗星的那个哈雷)是如何花言巧语说服 Newton 写出 Principia Mathematica 的故事,或者 Darwin 对蚯蚓的专著卖得远比 On the Origin of Species 要好。 发人深思的一点是我们几乎无法理解在人类或是其它现存生物的历史中,究竟有多少归结于纯粹的偶然因素:太阳系的构造,地球的位置,月球的大小,生命的起源,大气的历史,植物的作用,地核与磁场,火山活动,陨石,冰川期,等等。我们能做的只有尽可能珍惜自己和其它与人类共存的物种了。

Posted in Book, Science | Tagged | Leave a comment