如果“新”,'AI','for','',',',',',','加速'和'Facebook'恐慌,请点击此标题

开源分布式系统教会在没有地图的情况下找到自己的方式,只是凸轮,GPS,指南针


这一周由Facebook开放的加强学习算法,可以培训AI机器人来导航模拟,每个机器人只用相机,GPS和指南针 - 而且没有地图。

被称为分散的分布式近端策略优化,或DDPPO,这是一种缩放的架构 近端政策优化 [PDF],Openai,跨多台计算机开发的算法。近端政策优化可以在模拟中同时培训多个机器人或工人,允许整个系统快速累积更多的体验。

在DDPPO中,培训过程也分布在众多计算机系统上,并且没有一个集中式服务器,其中包含神经网络的所有参数。可以找到它的代码 这里.

Facebook AI Brailiacs能够使用DDPPO来生产可以在各种模拟环境中实现道路的代理。它可以在模拟中的随机斑点倾倒,并赋予使用相机,GPS坐标和指南针到达目标位置的目标。 AI可以找到99.9%的时间,只有每1000个评估一次,它才会失败,它通常选择一条略微偏离的路径,平均偏差约为3%,从最短的路线中我们被告知。

“使用DDPPO,我们在2.75天内使用64个Tesla V100 GPU的经验训练25亿步 - 180 GPU-天数,相当于80年的人类经验,”球队写道 [PDF]本周发布了描述他们的工作。预计将在4月份在埃塞俄比亚举行的国际学习陈述(ICLR)2020会议上。

具体而言,经过培训的代理商培训,以导航各种逼真的人们家庭模拟,墙壁,房间,门和木地板,所有这些都在Facebook中生成 AI栖息地.

在培训过程中,通过试验和错误学习的机器人使用GPS和罗盘读数来达到目标​​,以及第一人称相机视图,制定有关目标位置的最佳选择。完成每个虚拟世界后,代理商将分布式模型与任何新发现的知识更新,以便改善自己。

胡椒机器人

棍棒和石头可能会破坏你的骨头,但机器人嘲笑将伤害你 - 至少在游戏中

阅读更多

通过占用25亿步,该软件学会了,说,避免采取错误的转弯,可能导致障碍。研究人员表示,代码学会了“利用真实室内环境的布局”或换句话说,学会了共同的建筑设计元素,并且哪些将去死胡同。当他们测试了盲机器机器人 - 没有任何相机输入的盲机器 - 软件的性能下降到大约50%,而长途路线的99%相比。

目前,DDPPO只在模拟中进行了测试,尽管Facebook希望有一天申请到物理机器人。至关重要,该软件应该能够应对现实世界,这是一个地图并不总是准确或可用的世界。

“关于地图的一个不幸的事实是他们在创造的那一刻变得过时了” 著名的 Erik Wijmans - 论文的第一作者,Facebook实习生和佐治亚理工学院学生 - 和Abhishek Kadian,第二作者和Facebook Techie。

“大多数现实世界的环境进化 - 建筑物和结构变化,对象移动,人和宠物处于恒定的通量。通过学习在没有地图的情况下导航,DDPPO培训的代理将加速创建物理世界的新AI应用程序。“

也许我们终于获得了可以直接向我们的书桌提供披萨以供午餐的机器人,无论我们在哪里 - 还是那种硅谷认为将使世界变得更加愉快的地方。 ®

类似主题


您可能喜欢的其他故事

咬住它的手©1998-2021