2018年7月27日 星期
从单挑到团战
人工智能组团战胜人类玩家

  5个神经网络组成的机器人玩家在《刀塔2》中击败了人类业余玩家!这意味着,在围棋、辩论、医疗等诸多领域取得胜利之后,人工智能不再满足于“单挑”,又在组团作战中展现出了超越很多人类的集体协作能力。

  “五对五”打仗游戏 机器人队首次击败人类

  硅谷“钢铁侠”马斯克创立的人工智能非营利组织OpenAI近日宣布,由5个神经网络组成的OpenAI Five,已经能够组成5v5团队在经典战斗竞技类游戏《刀塔2》(Dota2)中击败人类业余玩家队伍。

  其实早在去年8月,OpenAI的机器人玩家就已经在《刀塔2》的“一对一”比赛中战胜了人类顶级职业玩家Dendi。这并不奇怪,在和人类对决中,AI系统拥有令人类玩家羡慕的特质。它的反应速度与人类的顶尖职业玩家相当甚至更快,并且不会错失点击。AI的优势还体现在,它们能够随时准确获取角色间的距离、装备栏、英雄的健康状况等重要信息,并应用这些数据选择最佳策略。相比之下,人类玩家只能手动检查,或是根据经验及本能进行判断。

  当然,团战没那么简单。作为一款战斗竞技类游戏,《刀塔2》的难点在于队友间的配合:双方各由5名队员组成,每人操控一位“英雄”,他们要在一张地图上通过分工合作推倒对方的基地,从而赢得胜利。而团队协作,是AI系统所面临的一项前所未有的挑战。

  这次事件之所以被比尔·盖茨称为“里程碑”,正是因为OpenAI Five展现出了类似于人的长期规划和团队协作能力,也展现了极高的智能决策能力。在实战中,“为了最终的胜利,它们懂得牺牲一条线路或是一位英雄。”在一轮测试中,一位人类玩家加入了AI战队。他说,4位AI队友给了他大量支持:“无论我想要什么,这些机器都能实现。”

  据悉,研究团队又将目标投向了更为强劲的对手。本月底,他们就将挑战人类顶级玩家队伍。

  比起下围棋,打《刀塔》难度“超过好多个数量级”

  人工智能之所以难以攻克《刀塔2》这样的战斗竞技类游戏,除了需要系统间的团队协作,还因为这类游戏需要长期的决策——在45分钟的游戏时间内,玩家需要进行上万次操作,而其中一些决策的影响将贯穿全场;而相比于棋类游戏的信息透明,每位玩家能够看到的信息,尤其是对方的信息是有限的。

  据报道,OpenAI Five完全通过自我对战来学习打游戏,每天的对战量相当于人类的180年。也就是说,如果人一天能打10局游戏,那么AI一天就可以打10×365×180局游戏,只需要在程序中把游戏时钟调快即可。而且,它还创下了惊人的硬件消耗量纪录:256块图形处理器(GPU)和12.8万个中央处理器(CPU)。

  据中国科学院自动化研究所研究员兴军亮介绍,OpenAI Five是从去年的一对一版本上发展而来的。一开始,AI只会在地图上随便乱走乱打,不断试错。通过强化学习算法获得游戏奖励信号的引导,一段时间后它就能发现并记住一些具有简单意义的动作,然后再不断试错自我提升,直到最后能够更好地完成游戏目标。“OpenAI Five就是5个AI组成一个团队互相对战,团队中的每个成员本身对应一个独立的AI,同样通过强化学习打游戏,但在学习的过程中,每个AI会考虑用其他4个AI的策略去打,这样5个AI就组成了一支团队,去跟5个人类业余选手对战。”

  兴军亮表示,由于操作和规则更为复杂,打《刀塔2》的难度要超过AlphaGo下围棋的好多个数量级。因为围棋是确定边界、完全信息、回合制的简单游戏,而《刀塔2》是相对复杂边界、不完全信息下、动态的实时博弈。在实时策略游戏中,本身存在的典型难题是角色空间非常大,决策周期长,在不完全信息博弈下,要猜测对方的状态,这要求AI尝试计算出各种可能情况下的策略,瞬间扩大成高维爆炸式的搜索空间。

  其次,AI团队协作也是一个难点,这意味着AI要同时控制多个单元,进行多智能体的协作和协同,有时还要牺牲个别单元的局部利益去满足整体利益,这是群体智能学习需要克服的重要难题。

  更深层次的难点是,如何通过游戏,让AI不是靠速度,而是靠决策和推理取胜。IBM“深蓝”也是依靠强大算力将人类打败。但“深蓝”是对计算智能的突破,也就是算得比人类快,下一步人工智能界期望在认知智能上有新的突破。

  眼下还有多种局限性,但未来将有更广泛应用场景

  当然,眼下来看还不用太紧张,因为OpenAI Five还存在多种局限性,比如团战时它们还无法按照游戏规定从115个英雄中选择出5个来组合游戏角色,因而只能使用特定的游戏英雄。也是同样原因,这次“人机大战”中还限定不能插眼、没有肉山、没有隐身能力、不能使用召唤和幻象……这些大多为决策较为困难的操作。所以再次证明,在强化学习打游戏这件事上,人工智能可通过提高现有算力超过人类,但在算法上并没有太多理论创新。

  那么,为何还热衷研究游戏AI?“当前研究得比较多的语音识别、人脸识别等技术属于感知智能,要达到正确识别,只需告诉AI某事物是什么即可。然而,更难的是认知智能,它牵涉到推理决策。”兴军亮表示。

  游戏AI涉及推理和决策问题,同时,游戏博弈体现的不完全信息和动态博弈特性是现实环境的一个很好模拟,加之游戏环境可控制,可快速运行,不会造成额外损失。兴军亮认为,“这使得游戏AI成为下一步极佳的人工智能验证平台。”

  “游戏AI上的算法突破,可以迁移应用在互联网广告、自动驾驶和机器人导航等场景,只是没办法自动适应其他模型,比如游戏AI不可能直接去自动驾驶。迁移过程需要人的参与,人会根据应用特点,从程序上设计问题的输入输出,从优化目标上也要做相应调整。游戏打输没关系,但自动驾驶AI算法一旦失败,面临的损失是人类无法承受的,所以这些领域上的AI算法应用周期会更长,只有经过更严格的测试,非常成熟可靠时才可以运用。”兴军亮说。            (本报综合)

2018年7月27日 星期

第07版:科教观潮 上一版3  4下一版