对话智元罗剑岚:现阶段数据多样性和规模远比特定场景数据重要

日期:2026-01-08 16:26:43 / 人气:9


经历一年多来技术能力上的密集验证,机器人行业正加速向规模化部署发力。
昨天下午,智元具身研究中心提出了一套名为SOP(Scalable Online Post-training)的在线后训练系统,面向真实世界部署。
该框架融合在线学习、分布式架构与多任务通才性,机器人集群可以在真实环境中持续进化,个体经验能够在群体中复用。
通过多机器人并行执行任务传输数据到云端,经过云端的集中在线更新,而后模型参数即时回流,这样的框架也让「规模」转化为「智能」。
智元给行业带来的SOP框架,也是在回答机器人如何被大规模部署到现实生活中的问题。毕竟,在真实世界中批量落地才是机器人产业发展进入到下一个阶段的标志。
在SOP发布后,智元合伙人兼首席科学家罗剑岚博士接受了42号电波等多家媒体的采访。其中,他认为现阶段最容易落地且明确产生商业价值的场景是工业制造和部分商业服务场景。而在家庭场景中,有了预训练模型再加上SOP,以逐步扩展任务能力的方式去落地,是未来有希望进入家庭的一种方式。
在线后训练,开始成为现实选项
在真实世界中大规模运行,通用机器人需要面对两个关键问题。一个是在复杂多变的环境中保持稳定性与可靠性,另一个则是在处理差异巨大的任务时,仍具备良好的泛化能力。
智元具身研究中心提出的SOP是一套通用的框架,可以即插即用的使用任意后训练算法,核心是要让机器人在真实世界中实现分布式、持续的在线学习。
因为现有VLA预训练模型在真实世界的部署中往往需要后训练来获得更高的任务成功率,其在真实世界的部署受困于更高的任务专精度要求,以及离线数据采集方式的边际效益递减。
当前主流的后训练方式在进入真实世界时,容易显露出一定瓶颈。比如在学习效率方面,真实世界数据采集成本高,失败样本多,离线训练很难快速把这些经验反馈给正在工作的机器人。在规模问题上,单机或少量机器串行学习,很容易对特定环境形成依赖,模型反而会「学窄」。而且离线范式在部署之后,模型能力基本稳定,难以支撑高效、持续的真实世界学习。
在这样的背景下,SOP将VLA后训练从「离线、单机、顺序」模式,重构为「在线、集群、并行」的低延迟闭环系统。
多台部署了同一policy模型的机器人在真实场景执行任务的同时持续采集数据,云端进行在线更新,再将新策略快速同步回所有设备。
当多台机器人并行运行时,规模带来的不只是数据量的增加,而是分布的变化。不同环境、不同任务、不同失败模式都被传到云端,更新后的模型参数在分钟级别内同步回所有机器人,实现集群一致进化。
从系统角度看,硬件扩展开始转化为学习效率,而不是简单的「多干活」,这也让部署的规模成为机器人智能成长速度的一部分。
规模部署带来效率提升
在SOP框架中,一个很重要的点就是「规模」,它并不是简单地指机器人数量增加,而是学习方式发生了变化。这种变化,直接影响了学习效率。
在规模方面,罗剑岚博士提到,SOP框架可以支持多机器人、多本体的协同训练。
如果只是单机在线学习,机器人在一个环境里不断试错,很容易反复遇到相似状态,导致学习进度变慢。而在多机器人并行的情况下,多设备同时处于不同的环境和任务中,这种方式可以让云端在短时间内收到不同机器人在不同情况下遇到的不同问题。
比如在部署中,其中一台机器人出现的错误被云端收到并且处理后,另一台机器人就可以学会去避免出现错误。这也相当于在相同时间内看到更多关键差异,可以降低冗余的探索。
在智元具身研究中心进行的相关实验中,在总训练时间为3小时的限制下,四台机器人进行学习的最终成功率达到了92.5%,比单台机器人高出了12%。且SOP将硬件扩展转化为了学习时长的大幅缩短,四机器人集群比单台机器人能够将模型达到目标性能的训练速度增至2.4倍。
另外,在提升预训练VLA性能方面,根据相关实验结果,相比预训练模型,结合SOP的HG-Dagger方法在商超场景中实现了33%的综合性能提升,且该方法让叠衣服的相比HG-Dagger吞吐量提升114%。并且通过SOP框架,机器人也可以在叠衣服、叠纸盒这类任务中连续工作36小时。
当机器人的各种炫技表演已经出现审美疲劳的情况下,整个行业也在加速探索如何将机器人规模化部署到现实世界当中,而这也正是学习范式被重新审视的原因。
SOP框架发布后,在其应用和规划等方面问题上,智元合伙人兼首席科学家罗剑岚博士也在42号电波等多家媒体的采访中进行了解答,以下对话内容经不改原意的编辑。
支持跨本体协同训练
Q:SOP会不会受到机器人本体硬件差别的影响?
A:SOP的设计核心正是为了解决这一痛点。它支持多机器人、多本体的协同训练,通过对数十台机器人的数据进行任务均衡采样,能够有效隔离单一硬件的干扰,从而提取出跨本体的「最大公约数」。这种机制保证了模型不会被某类特定硬件「带偏」。简单来说,如果集群中有100台机器人,即便其中一台噪声很大,在其余99台机器人的数据对冲下,该噪声的影响也可以忽略不计。
Q:SOP框架会开源吗?
A:目前它不是完全开源的,但不排除未来开放的合作形式。
Q:智元接下来是否会考虑向具身智能行业开放SOP框架,或进行技术上的合作?
A:SOP不是一个封闭系统,而是一种新的持续学习、在线学习、协同进化的方式。智元从成立之初就坚持走生态开放的路线,SOP这个工作当然也希望跟更多的厂商一起共建。
SOP是个框架,任意的后训练算法和模型都可以接进来。从长远来讲,我们希望构建一个开放的机器人在线学习生态。不同的机器人本体都可以接入,让数据共享上传到云端一个大脑,数据回传回来,不断进化,给大家使用。
Q:多机特征会不会反过来影响到模型的学习?因为有不同的采集特征,反而影响到数据的可用性或模型的学习?
A:我认为现在的AI或学习算法给我们的启示是规模至关重要,就是数据的多样性和数据的规模,至少在现阶段,远比你在特定场景设置去专门创建的数据会重要得多。回答这个问题,在多机和单机上,本质问题是单一场景还是多个广泛场景,我认为后者的数据越来越多,对模型的鲁棒性和健康性有更大的帮助。
不断提升性能
Q:SOP上线后,原本的数采中心还有存在的必要吗?
A:SOP是一个在线后训练框架,它需要有一个预训练模型,数采中心的离线数据可以给它提供基础能力。有了SOP之后,在线部署能够大量造成数据回流去训练新的模型。随着部署量越来越多,积累的数据会越来越多,后面的数据大头来自真实世界部署产生的数据。
我认为现在离线的数据中心是主力,后面会变成冷启动,就像汽车的发电机把发动机打着的那一下,还是很重要的。因为我们不可能直接去部署一个零成功率的模型在真实世界,它要具备一定的基础能力,才能通过SOP这套方法把它给拉起来。
随着部署机器人的数量越来越多,数采中心提供的不是预训练模型的能力。预训练数据的来源,一开始大部分是数采中心,因为现在还没有大规模部署到真实世界的阶段。随着真实世界部署的机器数量越来越多,真实场景回流的数据也会变成训练预训练的数据,预训练模型会变得越来越强。
Q:SOP框架最大的难点是什么?
A:我认为难点是把机器安全地带到真实世界部署,SOP用的是整个系统架构,而不是单点算法创新的方式去解决真实世界部署的问题,包括分布式集群、人类接管、以及一系列的数据回流支持策略更新的措施,让它能在真实世界安全地交互部署,然后数据回流,不断提升性能。
Q:SOP是分钟级,甚至秒级回流。未来的部署过程中,算力、带宽和部署成本,会不会成为规模化落地的瓶颈制约?
A:我们做SOP第一天就考虑了这个问题,就是要有一套非常鲁棒、健壮、可扩展的软件工程infra。这套系统的软件工程非常鲁棒,往里面加一台机器人、十台机器人、一百台机器人,理论上是没有区别的。
Q:如何防止机器人学坏,会不会有策略退化、灾难性遗忘和不稳定的东西,需要在算法机制和某种架构上进行新的筛选和保证?
A:SOP是个框架,可以和不同的后训练算法结合在一起。其实负面数据对学习很有益,尤其对强化学习来说。比如人做任何一件事都要经历试错,知道什么事做,什么事不做。如何统一的从原理上处理这些数据,有很多框架可以处理。
我们这次在SOP用了RECAP,这是一种离线算法。强化学习是一个很好的框架,可以从原理上处理负面数据,就是给负面数据低权重,让它知道什么是好的,什么是坏的,通过动态规划把这一系列东西给串起来。整体来说,既要有正例数据,也要有负例数据。SOP加上强化学习,可以从原理上很好地利用负数据,有时候负数据甚至比正数据更有用。
继续迈入真实场景
Q:在工程制造、家庭服务或商用场景中,这套SOP适配难度有什么差异?
A:我认为SOP在不同场景的适配难度存在明显梯度,工业场景里的流程稳定、边界清晰,责任、安全、工序划分得很明确。我们把SOP引入到在线系统里面,机器人在这种可控的环境里,可以持续运行,不断纠正失败模式,能快速把成功率和节拍提升到可规模化的上线水平。
对于家庭场景,我认为这是一个逐步的过程。有了预训练模型再加上SOP,以逐步扩展任务能力的方式去落地,这是我认为这是未来有希望进入家庭的一种方式,通过部署更多的机器人,造成更多的数据回流,训练更好的模型载体,部署更多的机器人。
我认为现阶段最容易落地且明确产生商业价值的场景是工业制造和部分商业服务场景。在工业方面我们已经有很多案例。商业场景,比如商超和部分家庭,我们今年都会慢慢铺开。
Q:SOP是机器人向真实世界迈入的第一步,第二步是什么?
A:第一步解决的是长期被忽略的问题,就是如何把真实部署中的经验,稳定地低延迟地转化为模型改进,并且在多机器人多任务下可规模化运行。如果这一步做不稳的话,后面所有的探索都是空谈。所以我们扎扎实实先做好一个系统,把它跑稳。在此基础上,第二步的核心方向是三点。
一是在更开放场景的扩展,在安全、可控的前提下。因为现在更多是半结构化场景。可管理的环境,逐步走向更复杂、更开放的真实世界。
二是监督的进一步自动化。现在还有人类的干预,随着算法不断提升,会减少对人类干预的依赖,会引入更成功、更自动的建模算法。
三是持续学习能力的增强,不断在学习新任务新场景,同时避免遗忘已有的能力。我认为这是符合产业落地规律的选择,让在线学习真正可用可扩展的,逐步从封闭、半开放、开放,一步步去验证,一步步去部署、扩展、落地的节奏。"

作者:杏耀注册登录平台




现在致电 5243865 OR 查看更多联系方式 →

COPYRIGHT 杏耀注册登录平台 版权所有