whale(世界模型WHALE来了！)

时间：2024-11-29 13:09:05 阅读：5

天下模子WHALE来了！

人类可以在脑海中假想一个想象中的天下，以猜测不同的举措约莫招致不同的后果。受人类智能这方面的启示，天下模子被计划用于笼统化实际天下的动态，并提供这种“假如……会怎样”的猜测。

因此，具身智能体可以与天下模子举行交互，而不是直接与实际天下情况交互，以天生模仿数据，这些数据可以用于种种卑劣职责，包含反内幕猜测、离线战略评价、离线强化学习。

天下模子在具身情况的决定中起着至关紧张的作用，使得在实际天下中本钱热血的探究成为约莫。为了促进好效的决定，天下模子必需具有强壮的泛化才能，以支持分布外（OOD）地区的想象，并提供可靠的不确定性估测来评价模仿体验的可信度，这两者都对之前的可扩展办法提出了严重挑唆。

克日，来自南京大学、南栖仙策等机构的研讨者在论文中引入了WHALE（World models with beHavior-conditioning and retrAcing-rollout LEarning），这是一个用于学习可泛化天下模子的框架，由两种可以与任何神经网络架构广泛团结的紧张武艺构成。

在确定战略分布差别是泛化偏差的主要泉源的基本上，研讨者引入了一种举动—条件（behavior-conditioning）武艺来加强天下模子的泛化才能，该武艺创建在战略条件模子学习的看法之上，旨在使模子可以主动顺应不同的举动，以减小分布偏移惹起的外推偏差。别的，研讨者还提出了一种简便而好效的武艺，称为retracing-rollout，以便对模子想象举行好效的不确定性估测，作为一种即插即用的处理方案，可以好效地使用于种种实行职责中的末了实行器姿势控制，而无需对练习历程举行任何变动。

经过整合WHALE的这两种武艺，研讨者提出了WHALE-ST，这是一种可扩展的基于时空transformer的天下模子，旨在完成更好效的决定。研讨者进一步提出了WHALE-X，这是一个在970K机器人演示上预练习的414M参数天下模子。最初，研讨者举行了多量的实行，以证实WHALE-ST和WHALE-X在模仿和实际天下职责中的出色可扩展性与泛化性，突出了它们在加强决定方面的后果。

为了评价WHALE-X在实践物理情况中的泛化才能，研讨团队在ARX5机器人上举行了全盘实行。与预练习数据不同，评价职责调停了摄像机角度和背景等，增长了对天下模子的挑唆。他们搜集了每个职责60条轨迹的数据集用于微调，职责包含开箱、推盘、投球和挪动瓶子，还计划了多个模子从将交往过的职责来测试模子的视觉、活动和职责泛化才能。

后果体现，WHALE-X在真实天下中展现出分明的上风：与没有举动—条件的模子比拟，WHALEX的一律性提高了63％，标明该机制明显提升了OOD泛化才能；在97万个样本上举行预练习的WHALE-X，比从零开头练习的模子具有更高的一律性，凸显了大范围互联网数据预练习的上风；增长模子参数可以提升天下模子的泛化才能，WHALE-X-base（203M）动态模子在三个未见职责中的一律性比率是77M版本的3倍。别的，视频天生质量与一律性的后果一律。经过举动—条件战略、大范围预练习数据集和扩展模子参数，三种战略团结，明显提高了模子的OOD泛化才能，尤其是在天生高质量视频方面。（人民邮电报陈陈佳琪）

泉源：人民邮电报

原文链接：https://www.yigezhs.comhttps://www.yigezhs.com/qingganjiaoliu/56029.html

上一篇：超过约定时间一年未动工，成都牛市口土地被认定为闲置地块，将按规处置

下一篇：返回列表