凭借Google新算法，机器人自学行走平均只需3.5小时-机器人的行走

图为 Rainbow Dash 在镂空门垫上运动

本文转自雷锋网，如需转载请至雷锋网官网申请授权。

在机器人领域，让机器人保持站立并进行平稳的运动一直是一个棘手的挑战，因为这需要超高的专业知识和设计水平。尽管一些传统的机器人能在人工控制的情况下完成站立和运动，但它们的活动范围也充满了各种局限性。

为了解决这个问题，Google 近日和佐治亚理工学院以及加州大学伯克利分校的研究人员联合发表了一篇论文，详细介绍了他们如何成功地构建了一个通过 AI 以自学走路的机器人。他们给这只四足小机器人起了个可爱的代号“Rainbow Dash”。

根据世界纪录，婴儿从爬行到学会行走的最快速度是 6 个月，而根据论文中的测试数据显示，Rainbow Dash 平均只需要大约 3.5 小时来学习向前、向后和左右转弯等运动——在坚硬平坦的地面上，该机器人学习走路需要 1.5 个小时，在由记忆海绵材质的床垫上大约需要 5.5 个小时，在镂空的地毯上大约需要 4.5 个小时。

具体来说，该机器人使用深度强化学习，即结合了深度学习和强化学习两种不同类型的 AI 技术。通过深度学习，系统可以处理和评估来自其身处环境的原始输入数据；通过强化学习，算法可以反复试验，以学习如何执行任务，并根据完成的程度来获得奖励和惩罚。也就是说，通过上述的这种方式，机器人便可以在其不了解环境中实现自动控制策略。

在以往的此类实验中，研究人员最初都会让机器人通过模拟来学习真实世界的环境。在仿真环境中，机器人的虚拟体首先与虚拟环境进行交互，然后，算法接收这些虚拟数据，直到系统有能力对这些数据“应对自如”，一个搭载系统的物理形态的机器人才会被放置到现实环境中进行实验。这种方法有助于避免在试错过程中对机器人及其周围环境造成损害。

不过，环境虽然容易建模，但通常耗时长，而且现实环境中充满了各种意想不到的情况，因此，在模拟环境中训练机器人的意义有限。毕竟，此类研究的最终目标恰恰是让机器人为现实世界的场景做好准备。

Google 和佐治亚理工学院以及加州大学伯克利分校的研究人员并没有“守旧”。在他们的实验中，从一开始就在真实环境中对 Rainbow Dash 进行训练，这样一来，机器人不仅能够很好地适应自己所处的环境，也能够更好地适应相似的环境。

尽管 Rainbow Dash 能够独立运动，这并不代表研究人员可以对其“撒手不管”。在一个环境中学习行走的最开始，研究人员仍需要对 Rainbow Dash 手动干预上百次。为了解决这个问题，研究人员限定了机器人运动的环境，让其一次性进行多重动作训练。

在 Rainbow Dash 自学行走之后，研究人员可以通过连入控制手柄来操控机器人实现理想的运动轨迹，将机器人控制在设定的环境内。此外，机器人在识别到环境的边界后，也会自动往回走。在特定的环境之外，机器人可能会重复摔倒导致机器损坏，那时候就需要另一个硬编码算法来帮助机器人站起来。

Google 在该研究中的负责人 Jan Tan 告诉媒体，这项研究花费了大约一年的时间才完成。他说道：

我们有兴趣让机器人能够在各种复杂的现实世界环境中运动。不过，要设计出能够灵活处理多样性和复杂性的运动控制器十分困难。

雷锋网了解到，接下来，研究人员希望他们的算法能适用于不同种类的机器人，或适用于多个机器人在同一环境中同时进行学习。研究人员相信，破解机器人的运动能力将是解锁更多实用机器人的关键——人类用腿来走路，如果机器人不会使用腿，它们就不能在人类世界中行走。

然而，让机器人在人类世界中行走是一个至关重要的课题，它们可以代替人类探索地球上不同的地形或未被人类探索过的地区，比如太空。但由于该机器人依赖于安装在其上方的动作捕捉系统来确定位置，该装置暂时还不能直接用于现实世界。