堂堂一个AI狼，怎么都开始拒绝内卷了

2021-03-23 13:36:37 [ 中关村在线原创 ] 作者：王嘉陆 | 责编：徐鹏

前些天，微博上一位网友@二雨TR发文称，其老师在给他讲述设计的狼抓羊游戏中，AI狼表现出了极为反常的举动：

堂堂一个AI狼，怎么都开始拒绝内卷了

事件经过

根据描述，设计者为游戏制订的规则是：狼抓到羊，奖励10分，撞到障碍物，扣1分，为了节省狼抓羊的时间，每秒钟狼都会扣0.1分。狼在20秒内如果抓到羊得分越高，而羊在20秒内存活时间越长得分越高（即使撞到石头也不会死）。这样造成的最直接后果是，经过一段时间的训练，狼为了得到高分，会选择“自杀”这一行为。

游戏展示

设计者的本意是在狼学会躲避障碍物之后进行抓羊的行为，但AI在一段时间的训练之后，由于得分的设定，会知道这么几件事：

1.原地站着1秒会扣0.1分

2.撞死扣1.1分

3.尝试饶路抓羊但是撞死会扣1.1到2.4分

那么问题来了，由于AI狼在前期的训练过程中根本没有抓到过羊，为了得到高分，你猜它会选择自杀还是选择躲避障碍物呢？

网友对此众说纷纭：

·AI：就这？你们还想着我统治人类？

·连人工智能都知道拒绝内卷。

·面对不合理的KPI和奖惩机制，连ai展现出了令人类叹为观止的尊严。

·为了激励狼快点抓羊而倒扣分是错误的，相反，应该激励狼活下去而每秒加0.1分。想要最高分当然会尽量抓羊，抓不到羊还撞障碍物扣分已经很劝退了，只有加分才能激励狼活下去。太现实了，只有活着本身就是一种奖励，人才愿意活下去。要不然真的不如一头撞死。

有做过游戏AI的同学指出，奖励函数设置的不合理是最主要的问题，单步惩罚0.1太大，撞障碍的惩罚又太小，至于调参的方法，可以把吃到羊加100，撞障碍-500，单步依然是0.1，这样可能才会达成预期的训练结果。

这就涉及到一些机器学习的相关知识了：

机器学习是一类算法的总称，这些算法企图从大量历史数据中挖掘出其中隐含的规律，并用于预测或者分类，更具体的说，机器学习可以看作是寻找一个函数，输入是样本数据，输出是期望的结果，只是这个函数过于复杂，以至于不太方便形式化表达。需要注意的是，机器学习的目标是使学到的函数很好地适用于“新样本”，而不仅仅是在训练样本上表现很好。学到的函数适用于新样本的能力，称为泛化能力。

可以把机器想象成人类，以二元分类问题为例。告诉人类这个动物是狗，那个也是狗。但如果另外的动物过来，告诉人类这个不是狗，人类就会产生认知模式。这个学习过程，就叫“训练”。所形成的认知模式，就是“模型”。

谈回这个AI狼，网友@二雨TR的老师@星尘研刚好把这个事情的大概经过以及狼抓羊的游戏录制了一个说明视频放在了B站上面（视频地址：https://www.bilibili.com/video/BV16X4y1V7Yu）：

拒绝“内卷”的AI狼

根据视频内容可以了解到，最开始的训练没有使用障碍物的，就是要让狼先学到抓到羊，不然游戏没法继续，刚把障碍物加入时,狼会特别完美的躲开障碍物，但是把障碍物稍微挪一下,或者换一个形状,就不行了，原因就是狼只是记住了哪些点不能碰，而不是真正学会了识别障碍物。

出现狼自杀的情况之后，也重做过分数，但是没效果，以为是游戏本身的一些判定BUG.比如说Raycast传递的碰撞信息有问题等等。但是其实最后都没有什么效果，因为这个游戏的模式导致100w次数以下的训练结果都没有变化。按照@星尘研的说法，这个项目不是一个纯粹的AI项目，本身也是基于Unity的一个游戏，神经网络的输入本身也受到Unity水平的局限。事实上下一代只提高了训练次数，狼就不再自杀和原地站着了，只不过训练效果还不太好，在这个基础上重构了奖惩机制。

于是训练次数从最初5W次一轮，迭代了13代。到后来改成200W一轮，迭代了5代，狼抓羊的训练效果明显提升。在训练了300万次后，狼终于可以成功地吃到羊。简直可喜可贺。

虽然整件事比较令人啼笑皆非，但用游戏的方式训练出可以在真实场景里应用的AI技术，可以称得上是创造了一个小世界，在这个小世界发生的魔幻的事在将来一天未必不会出现在现实生活中。

大概这就是AI的魅力吧。