NIPS 上领先 30 分夺冠，百度强化学习能力锋芒毕露

　　距 NIPS 2018 召开还有不到一个月的时间，NIPS 2018 的各种技术挑战赛也接近尾声。在上周结束的 2018 人工智能假肢挑战赛(AI
for Prosthetics
Challenge)https://www.crowdai.org/challenges/nips-2018-ai-for-prosthetics-challenge中，来自中国百度的技术团队一举击败全球的
400 多个参赛团队，以 9980 分的成绩夺得冠军，领先第二名高达 30 多分。

NIPS 上领先 30 分夺冠，百度强化学习能力锋芒毕露

　　人工智能假肢挑战赛是由斯坦福大学神经生物实验室与EPFL
联合举办的强化学习赛事，旨在通过将强化学习应用到人体腿部骨骼仿真模拟模型的训练，从而加快人体假肢领域的相关研究，并开创该领域的研究的新方法。

　　自今年 7 月份启动以来，来自全球 400 多技术团队都参与其中。其中既有上届冠军、由 “RNN之父”Juergen Schmidhuber 创立的
NNAISENSE，也有阿里巴巴、Yandex
等巨头。百度今年首次参加强化学习领域比赛，就在强手如云的团队里脱颖而出，一举夺得冠军，并领先第二名30多分。第二到五名分别被NNAISENSE，Yandex，阿里巴巴等获得。显而易见，百度在强化学习领域占据了明显的优势，冠军含金量颇高。

　　今年的比赛中，赛会组织者提供了一个人体骨骼-高仿模型，该模型是斯坦福国家医学康复研究中心研发的 Opensim
高仿模型，拥有人类腿部绝大多数真实骨骼、关节和肌肉的精细仿真。参赛者需要根据该模型中多达 100
个以上的状态，来决定模型肌肉的信号，然后控制该模型的肌体行走。

　　在去年的第一次挑战赛上，比赛规则围绕谁能让模型肌体行走速度最快。而今年除了将整个模型运动控制从2D改为3D外，还引入带有假肢的模型，同时模型的假肢不可控制，模型肌体行走的速度也有要求，并且还需要在第二轮比赛中按照事先未知的指定速度进行切换。

　　相较而下，今年的比赛难度再次增加。比如对模型肌体有效信息的判断上，由于实际状态空间和动作空间稠密并且非常大，导致基于强化学习的算法无法准确把握模型肌体的行走姿势;更进一步，由于规则要求不断切换速度，更增加了模型控制难度。

　　在此次比赛中，百度首先通过上千台机器的 CPU 集群来加速模拟环境，利用 RPC
机制进行机器间通信，从而能在高性能GPU上进行高效的模型训练。其次，利用Target Driven Deep Deterministic Policy
Gradient (Target Driven
DDPG)，使得模型能够应对较大空间和连续动作空间的挑战，最终也使得一个单一模型能够学习多种速度和姿态。第三，在算法层面，通过 multi-head
bootstrapping，能够更高效的对巨大的解空间进行探索(Exploration)，同时还将旋转不变性等各类特征处理方式，以及不断实验累计的各类
reward shaping 方法应用其中。正是这些关键技术的综合应用，让百度能以 9980 的高分一举夺冠，有参赛者表示，这是一个他们难以相信的分数。

NIPS 上领先 30 分夺冠，百度强化学习能力锋芒毕露

　　事实上，早在本次比赛以前，百度已经将强化学习技术应用于信息流推荐、广告展现、搜索排序等大规模工业级场景。而本次比赛中所展现出的技术实力，再次证明了百度在强化学习相关技术上的积累，也能够进一步推广到复杂机器人控制、自动驾驶等更多工业领域。

　　与此同时，百度会将这种能力通过 PaddlePaddle 开源平台赋能更多开发者。基于 PaddlePaddle 的强化学习框架 PARL
将在今年四季度正式发布，届时将为更多深度学习领域开发者提供强而有力的技术支撑，也进一步深化百度构建AI完成生态的决心。