https://www.zhihu.com/video/994984578657988608
(转载自OpenAI实验室:体验一下AI恐怖的自我学习能力)
今天,由Elon Musk和Sam Altman创立的人工智能实验室OpenAI宣布了其最新的里程碑:
在Dota 2五对五团战中,他们开发的OpenAI Five首次击败了人类玩家。
OpenAI的工程师们正在与AI进行Dota 2五对五团战
此次的进展并没有太多意外。
因为在去年8月,OpenAI就在Dota2 TI 决赛现场以 1 对 1 solo 的方式击败了Dota 2世界顶级玩家Dendi,当时机器仅花费了两周的时间学习。
被OpenAI击败的DOTA选手Danylo “Dendi” Ishutin
不过从Dota2 1对1 solo升级到5对5团战,OpenAI Five并不是一个简单的算法集合——从1套AI算法扩展到5套,不同算法之间要学会如何进行“协作、配合以及长期规划”。
OpenAI Five与“阿尔法狗”的对比
与棋盘游戏之类的问题相比,视频游戏对于AI来说更复杂。
它们隐藏玩家的信息,这意味着人工智能无法感知整个游戏场并计算出最佳可能的下一步行动。此外,还有更多需要处理的信息以及大量可能的决策。
OpenAI实验室表示,在任何时候,它的Dota 2机器人必须在处理游戏中2万个数据点的同时选择1000种可能的动作。
每个英雄每一帧的行动离散化后大概有17万种可能性;通过合理优化(比如排除技能冷却),AI要控制的5个英雄总共有约1000种行动组合(作为对比,象棋是35,围棋是250)。
“从另一个角度看,此次进展重要之处在于它开始涉及到AI向实际运用的转变,不再是只能解决像围棋这种简单规则的问题,它现在可以处理更复杂的综合性问题。”
利用AI系统在玩视频游戏时所学会的“分析、决策、协作”等技能,我们可以用它们应对复杂的现实世界挑战;
例如,与游戏类似的,如何解决城市的交通拥堵(可以把交通问题解析成一个AI代表一辆车,那不同AI之间如何协作使得各自最快到达目的地)。
强化学习训练方法
为了训练他们的机器人,OpenAI实验室转向了一种被称为强化学习的机器学习方法。
AI被投入到虚拟环境中,在那里它们通过反复试验来自学如何实现目标。
程序员设置了奖励机制(例如杀死敌人后就可以得分),然后不加干扰,让AI自己一遍一遍地相互对抗。
1V1 AI与5V5 AI的对比
通过自我对抗学习,AI一天的训练量相当于人类180 年。
“它开始完全随机,在地图上游荡。然后,仅过了几个小时,它的基本技能就得到提高。”该项目的开发者之一布罗克曼说。
如果一个人通过12,000到20,000小时的游戏可以成为一名专业人士,那OpenAI每天积累的游戏经验是一个人一生积累经验的100倍。
这证明了机器学习方法的高效以及最新计算机芯片处理海量数据的能力。
另一方面,它也提醒现在的人工智能有“多笨”。
如果人类学习如何玩一个视频游戏都要花费数千年的时间,那么我们这个物种肯定不会存活到现在。
OpenAI Five的局限
虽然只是面对业余选手,但这场Dota2 5v5团战还是做了诸多限制:1. 这是一场只能选择 瘟疫法师,矮人火枪手,冥界亚龙,水晶室女,巫妖的镜像比赛(只能选择115个可用英雄中的5个);
2. 禁止使用侦查、哨岗守卫;
3. 禁止打Rosh;
4. 禁止隐身;
5. 禁止使用幻象或分身(指幻影斧、幻象神符这些);
6. 禁止购买以下物品:圣剑、魔瓶、压制之刃、远行鞋、知识之书、眼泪;
7. 禁止使用扫描。 AI的表现
1. OpenAI Five的补刀只相当于“人类的中位数水平”;
2.OpenAI Five之所以没有“好好学补刀”,是因为他们更加注重长期利益,比如抱团拿塔,还有中期推进等;从而取得了更好的战果。
“OpenAI Five之间的团队配合是压倒性的。感觉就像五个无私的玩家,他们有着一个良好而统一的战略目的。”
3. OpenAI Five能学会对未知事物的合理反应: “邪恶”的人类研究员没有AI输入火枪的霰弹信息,也就是OpenAI Five不知道这东西的存在;但是通过观察到自己HP的降低,他们会自行走出霰弹的作用范围
4. 综合来说,OpenAI Five每次都会放养自己的优势路,而把资源投入到劣势路中。(只通过自我对弈就学到了这几个版本的精髓!!!)
5. OpenAI Five从前期对线到中期的转换更快,比如1、3号位开始推线从而让辅助去gank,以及在对手能反抗之前就开始抱团推塔;
6. OpenAI Five会给辅助队友更多的前期经验和金钱;也就是说,OpenAI Five的总体战略是尽快提高团战能力,把优势转为胜势。
AI的战绩
OpenAI Five至今和以下几只队伍打过比赛:
1. OpenAI实验室里最会打dota的程序员(~2500分)
2. 这次观战OpenAI Five比赛的观众,包括Blitz(~4000到6000分)
3. V社的员工队伍(2500~4000分)
4. 业余队伍(4200分,这个队伍平时一起训练)
5. 半职业队伍(5500分)
6月6号的OpenAI Five版本,赢了前三支队伍,输了后两支。
“虽然知道会输,但OpenAI Five和第四、第五支队伍对战时,仍然赢了前三局中的两局”。
(这说明人类选手有可能是因为通过前几局作战找到了OpenAI Five的突破口)
下一步计划
OpenAI Five将在今年8月份参加The International Dota 2冠军赛,接受最顶级团队的考验!
Ref:http://bbs.ngacn.cc/read.php?&tid=14379897
【推荐阅读】
游泳池里到底有多少尿?
WHO 将“游戏障碍”列为疾病
我国禁止ASMR视频,因内容“低俗淫秽”
世界上最小的计算机,比米粒还小
欢迎关注我们:
@W-Pwn |