如何战胜 AlphaGo?

李世乭今日再输一场,比分 0:3 负于 AlphaGo,与百万奖金无缘了。而 AlphaGo 今天的表现异常完美,开局 45 分钟左右,李世乭已经招架不住。赛后英文解说 Michael Redmond 更是直言,AlphaGo 很有可能成为继吴清源之后又一位开创新格局的历史性角色。

虽然我不懂围棋,但可以从计算机的角度来介绍一下 AlphaGo 有哪些弱点。看了一些赛后评论,发现多数都是从围棋的角度来讲棋,而忽视了计算机的东西。所谓“知己知彼”,了解 AlphaGo 是怎么工作的,才更有可能击败它。

先说说 AlphaGo 的工作原理。已经有一些文章详细地介绍过了,这里就简单说一下。AlphaGo 决策的时候有两个步骤,一是选出下一步棋所有可能的位置(由 Policy Network 做出),二是在这些可能的位置里,精算一个最优的(由 Value Network 做出)。新闻中提到的 AlphaGo 每天几千万盘棋,都是在训练 Policy Network,就是培养它尽可能找全所有价值高的点。而 Value Network 似乎是在比赛中实时计算的,不需要训练。

Value Network 的工作原理和自然人无异,就是一步一步推演,看看之后几步的胜负情况。这一步骤在讲棋的时候经常用到,嘉宾和主持人都会用棋子摆一摆,并揣测棋手下一步的动向。Value Network 也是这样做的,只是它算得特别快而已。我看了一些现场解说,一般都是算出之后的五到十步棋左右,越到后面,计算的复杂度越高。这对人和电脑都是一样的。

影响 Value Network 精确程度的一个重要因素是时间,比如给它五秒钟,它可以算到五步之后,给它十秒钟,它可以算七步。我重看了一下前两场比赛,刚开场的时候,AlphaGo 大约是每 60 - 80 秒下一步棋;而到了中盘的时候,决策时间会上升到两分钟以上。这是因为刚开场的时候,每个位置的重要性都差不多,算了几步之后发现各个位置都不错,就随便选一个即可。而到了中盘,一个位置可能要算上几十步才能确定它的重要性,于是耗时就上去了。

想要打击 AlphaGo,就必须尽量不给它时间做计算。让它计算的步数减小,提高犯错的可能性。要做到这一点,只有一个办法,增加 Policy Network 选出来的位置的数量。假设一个位置它要算 10 秒钟,那么 10 个并列的位置,它就要算 100 秒,这样就大大地增加了时间上的消耗。时间耗尽之后进行读秒阶段,这个阶段中,AlphaGo 大约 30 秒左右就会给出计算结果,估计是在程序中强制设定了的。很明显,30 秒和 2 分钟的计算相比,30 秒算得不清楚,更容易犯错。李世乭在第二场成功地把 AlphaGo 拖进了读秒阶段,但依然没有把握住,有点可惜。当然主要原因是当时李世乭自己也开始读秒了。

由于 AlphaGo 并不会在局部战场鏖战很久,即它没有局部战场的概念,每次选位置都会从整个盘面入手。虽然这样有很好的大局观,但也损失了不少计算性能。如果李世乭能够尽可能多地制造出重要性差不多的位置,可以极大地增加 AlphaGo 的计算量。而 AlphaGo 的应对方式,要么是增加计算时间,要么是在没算完的时候直接给出一个临时最优解,无论哪种方式,都对李世乭有利。

另外网络上有人提到下模仿棋。虽然模仿棋在围棋界不是什么光彩的事情,但对 AlphaGo 确实有效。所谓的模仿棋就是利用棋盘的对称性,对方在哪里落子,自己就在对称地方落子。对人类而言,模仿棋是有破解招数的(详情略);而 AlphaGo 是否有理解对方在下模仿棋,这一点还不清楚,需要我们的“高级软件测试工程师”来验证一下(笑)。如果 AlphaGo 没有对应模仿棋的特殊策略,按正常情况来选位置,那会相当于自己左右互搏,实际上也会产生一盘不错的棋。

模仿棋还有另一个好处,就是李世乭所消耗的时间不多。在前期节约一些时间,就可以把更多的时间放在中盘拉锯上,就更有可能获得胜利。由田渊栋的赛后分析来看,第一局中盘李世乭曾经一度扳了回来。所以有更多的时间放在中盘,李世乭更有希望赢得比赛。

无论如何,这场比赛都会被载入史册。虽然已经连输三场,还希望李世乭可以放下包袱,贡献出两场更为精彩的对局。

两年胜过一百年

AlphaGo 在昨天和今天两场比赛中以较大优势战胜李世乭,基本已经宣告了现代围棋百年基业的崩塌。围棋会成为国际象棋之后,另一个人类被计算机程序完全战胜的棋类项目。在战胜了棋类中最复杂的围棋之后,计算机算法也将统治所有的棋类游戏。

现代围棋从二十世纪初在日本兴起,由吴清源等宗师级人物开创,发展到现在已有一百多年,经历了数个时代。而 AlphaGo 从投入使用到战胜李世乭不超过两年。有消息说在 2014 年 4 月 AlphaGo 在弈城对战平台上注册了帐号用于实战练习,起始等级为业余五段。短短两年之内,实力从业余五段上升到可以和顶尖职业选手叫板,这样快速的进步令众多职业选手汗颜。

我对围棋没有那么了解,不过我可以从计算机的角度来讲解一下大家对 AlphaGo 的一些误区。

假设李世乭五番棋不敌 AlphaGo,中国的职业高手能否和 AlphaGo 一战?

如果计算机程序两年时间可以做到人类一百年才能达到的水平,那么全面超越人类也就是几个月的事情。1997 年深蓝在国际象棋上战胜世界冠军,到 2006 年人类最后一次战胜计算机,程序用了十年的时间赢下了国际象棋。而这一次,或许 AlphaGo 会用更短的时候全面超越人类。人类高手想要挑战 AlphaGo 还得趁早。

为什么 AlphaGo 依然会下出一些“臭棋”?

据 DeepMind 的开发人员表示,在第一盘棋中,AlphaGo 全程认为自己处于优势状态。当然程序可能有 bug,但更重要的一点是,人类认为某些下法不好,是真的不好么?人类下围棋,一天不过一两盘,顶尖高手两三天才能下一盘棋。以这种速度,在一两百年之内积攒出了各种理论、定式。而 AlphaGo 一天则可以自己和自己对战上千盘棋,对于一些围棋理论,显然 AlphaGo 会有更全面的看法。这些臭棋经过仔细研究,说不定会被证明是一步好棋。

不用正常围棋的路数,是否能迷惑 AlphaGo?

在人与人对战时,如果对方下了一步看不懂的棋,选手肯定会猜测这是一步好棋,还是故意晃点我。而 AlphaGo 还不具备这种能力,对于无论是有意还是无意的落子,AlphaGo 都会以精确地计算来应对。换句话说,AlphaGo 不会轻敌。

天网是否已经来临?

如果 AlphaGo 故意输掉了一盘,那才是令人恐惧的。如果你对计算机行业不了解,可以去搜索一下“图灵测试”。能通过图灵测试的程序才具有“思维”的能力,而其它的程序都只是按照人类的指令运行而已。目前还没有可以通过图灵测试的计算机程序。

收官阶段李世乭是否会有优势?

众多场外评论说收官阶段的“打劫”会对计算机程序造成一定的影响。我猜这一说法的原因是之前多数程序都处理不好这一步骤。至于 AlphaGo 懂不懂“打劫”的要领,暂时还无人可知,所有公开的对战中,AlphaGo 都没有走到“打劫”这一步就已经赢了。

从计算机算法的角度来说,收官阶段的计算肯定比中盘来得简单。举个例子,玩过”数独“的朋友都知道,在一个数独局面中,如果局面是全空的,很简单,随便填数字即可;如果局面差不多都满了,只有少数几个空,那也很简单,按着规律填。数独最难的局面,就是半满的局面,每个空都有多种可能,也有很多限制,要推演出每一种可能,需要大量的时间。围棋也一样,最需要计算的是中盘阶段。过了中盘之后,每多下一个子,计算复杂度呈指数级下降,计算机会觉得轻松了很多。即使中盘战和,在收官阶段,计算机也会具有巨大的优势。这也是为什么 AlphaGo 的多数比赛在中盘过后就显示出不可逆转的优势。

Google 内部对这场比赛怎么看?

很明显众多码农都很兴奋,有人甚至要求 DeepMind 团队在比赛时内部直播 AlphaGo 的决策过程,以增加观赏性。不过这一要求被 DeepMind 拒绝了,大概是不想泄露任何可能影响比赛进程的信息。