人类可以在脑海中假想一个想象中的天下,以猜测不同的举措约莫招致不同的后果。受人类智能这方面的启示,天下模子被计划用于笼统化实际天下的动态,并提供这种“假如……会怎样”的猜测。
因此,具身智能体可以与天下模子举行交互,而不是直接与实际天下情况交互,以天生模仿数据,这些数据可以用于种种卑劣职责,包含反内幕猜测、离线战略评价、离线强化学习。
天下模子在具身情况的决定中起着至关紧张的作用,使得在实际天下中本钱热血的探究成为约莫。为了促进好效的决定,天下模子必需具有强壮的泛化才能,以支持分布外(OOD)地区的想象,并提供可靠的不确定性估测来评价模仿体验的可信度,这两者都对之前的可扩展办法提出了严重挑唆。
克日,来自南京大学、南栖仙策等机构的研讨者在论文中引入了WHALE(World models with beHavior-conditioning and retrAcing-rollout LEarning),这是一个用于学习可泛化天下模子的框架,由两种可以与任何神经网络架构广泛团结的紧张武艺构成。
在确定战略分布差别是泛化偏差的主要泉源的基本上,研讨者引入了一种举动—条件(behavior-conditioning)武艺来加强天下模子的泛化才能,该武艺创建在战略条件模子学习的看法之上,旨在使模子可以主动顺应不同的举动,以减小分布偏移惹起的外推偏差。别的,研讨者还提出了一种简便而好效的武艺,称为retracing-rollout,以便对模子想象举行好效的不确定性估测,作为一种即插即用的处理方案,可以好效地使用于种种实行职责中的末了实行器姿势控制,而无需对练习历程举行任何变动。
经过整合WHALE的这两种武艺,研讨者提出了WHALE-ST,这是一种可扩展的基于时空transformer的天下模子,旨在完成更好效的决定。研讨者进一步提出了WHALE-X,这是一个在970K机器人演示上预练习的414M参数天下模子。最初,研讨者举行了多量的实行,以证实WHALE-ST和WHALE-X在模仿和实际天下职责中的出色可扩展性与泛化性,突出了它们在加强决定方面的后果。
为了评价WHALE-X在实践物理情况中的泛化才能,研讨团队在ARX5机器人上举行了全盘实行。与预练习数据不同,评价职责调停了摄像机角度和背景等,增长了对天下模子的挑唆。他们搜集了每个职责60条轨迹的数据集用于微调,职责包含开箱、推盘、投球和挪动瓶子,还计划了多个模子从将交往过的职责来测试模子的视觉、活动和职责泛化才能。
后果体现,WHALE-X在真实天下中展现出分明的上风:与没有举动—条件的模子比拟,WHALEX的一律性提高了63%,标明该机制明显提升了OOD泛化才能;在97万个样本上举行预练习的WHALE-X,比从零开头练习的模子具有更高的一律性,凸显了大范围互联网数据预练习的上风;增长模子参数可以提升天下模子的泛化才能,WHALE-X-base(203M)动态模子在三个未见职责中的一律性比率是77M版本的3倍。别的,视频天生质量与一律性的后果一律。经过举动—条件战略、大范围预练习数据集和扩展模子参数,三种战略团结,明显提高了模子的OOD泛化才能,尤其是在天生高质量视频方面。 (人民邮电报 陈陈 佳琪)
泉源: 人民邮电报
版权声明:本文来自互联网整理发布,如有侵权,联系删除
原文链接:https://www.yigezhs.comhttps://www.yigezhs.com/qingganjiaoliu/56029.html