姚期智:通用人工智能需要依托“具身”实体,才能赋予产业更大价值

日期:2023-10-17 15:09:25 / 人气:88


ChatGPT主要体现处理语言的能力。如果真的想让通用人工智能(AGI)发挥威力,未来的AGI需要具体化的实体,这样它才能通过与真实的物理世界交互来完成各种任务,从而为产业发展带来真正的更大价值。
人本身就是世界上一个理想的化身。未来的AGI特工还需要具备三个关键部件:身体、小脑和大脑。在这方面,还有很多困难需要克服,比如样本效率、计算能力、感觉统合、数据收集等等。
——姚期智图灵奖获得者、中国科学院院士、清华大学交叉信息研究院院长。
*本文编译自作者在2023年世界机器人大会上的发言。文章仅代表作者个人观点,不代表CF40及作者所在机构的立场。
"
ChatGPT的出现是人工智能在学术领域的突破,也为各行各业创造了很多新的价值。
人工智能的下一步是什么?ChatGPT主要体现处理语言的能力。如果真的想让人工通用智能(AGI)发挥威力,未来的AGI需要具体化的实体,这样才能和真实的物理世界交互完成各种任务,才能给产业发展带来真正的更大价值。
那么,具身代理应该是什么样子的呢?人本身就是世界上一个理想的化身。它基本上有三个方面:第一是身体,第二是小脑,第三是大脑。在物理上,具体化的智能体必须有足够的硬件、传感器和执行器;小脑会支配视觉、触觉等各种感官来控制身体,完成复杂任务;大脑部分主导上层的逻辑推理、决策和长期规划,使一个智能体能够通过自然语言与其他智能体和环境进行交流。
目前清华大学交叉信息研究所近几年八九个老师的工作都集中在具身智能的各个方面。接下来我想和大家分享一下这些团队的一些进展和想法。
首先,身体部分。我们认为AGI最理想的体形是人形机器人。因为人类的社会环境主要是为人类定制的,比如楼梯的结构,门把手的高度,被子的形状等等。,这些都是根据人类的外形定制的,所以如果能造出一个通用应用的通用机器人,人形机器人是最合适的形态,人形机器人最能适应各种人类环境。
清华大学交叉信息研究所自主研发了仿人机器人初步建模,主要由陈建宇团队完成。目前我们有两种形态的机器人,其中一种是小星,在世界人工智能大会上亮相。它的身高是1.2米,后来亮相的另一款机器人是小兴MAX,身高达到了1.6米。
在技术上,这款人形机器人采用了新一代本体感知驱动技术方案,在算法上采用动态两足行走。我们是世界上为数不多的能够理解整个软硬件技术的团队。
第二,小脑。小星机器人是由一套机器人运动控制算法实现的,分为两层:上层是固态规划层,下层是基于动力学的实时全身运动控制,用于计算发送到电机关节的精确指令。小星可以在水泥地上灵活快速的行走,也可以在复杂的树林中行走。有一定的抗干扰能力,在草和石子路上行走也很稳定。
在构造小脑的算法端,我们需要在未来赋予机器人更好的功能和更好的控制,所以我们也在研究更灵活的算法,用人工智能和强化学习的方法来应用和强化学习框架。这种方法的优点是对模型没有限制,能对复杂或不确定的环境表现出更强的适应性。另外,还有一种学习方式,就是利用人体运动的实际数据,我们把它放在这个框架里,更好地指导强化学习。
通过强化学习,机器人可以模拟人类以自然的方式行走,我们可以在设计上让它消耗更少的能量。当我们把这个硬件参数代入模拟中,就可以实现更高层次的运动,比如模拟中4米每秒的行走速度。
除了这种方法,在强化学习方面,清华大学交叉信息研究所的团队也研究了一些基础的核心技术。
在样本效率方面,一直困扰强化学习应用的问题是需要大量样本。我们在这方面做了一些工作,比如把雅达利游戏作为标准的测试指标。2015年,人工智能公司Deepmind在《自然》杂志上发表了DKN算法。需要学习1000个小时才能达到人类的水平,这在当时是非常了不起的。莱文团队提出了一种叫做高效零的新算法,可以在两个小时内达到并超过人类的平均水平,采样效率比DKN高500倍。
困扰强化学习的另一个问题是泛化,即这些任务以及它们所处环境中的不确定性和干扰是否可以更好地泛化。徐华哲团队围绕这个问题提出了一系列解决方案,比如应用机器人包娇子,它包含了非常复杂的解,使得算法的适应性更强,即使在人为干扰的情况下也能完成任务。
在小脑中,除了行走,还有一项重要的视觉处理任务。赵星团队在这个领域有一些最新的工作:基于视觉的机器人跑酷功能。这项研究使四足机器人能够根据视觉信号识别路障,向前爬行并跳过高台。当这些跳跃失败时,机器人会继续尝试,直到成功。未来我们还会把这种跑酷功能放到人形机器人上。
清华大学十字信研究院赵航团队四足机器人
还有一个比较高端的感知,就是触摸。人的皮肤吸收了大量的触觉信号,它可以抓住非常精细的物体来避免危险,所以我们希望机器人能够有更好的触觉传感器,让它们能够触摸和感受这个世界。
在这方面,徐华哲的团队使用了一些非常好的材料设计了一种低成本、易操作的触觉传感器,它可以准确地感受和触摸三维物体,还可以捕捉物体的微小纹理。它可以结合人工算法来实现对象的分割和最终效果。而且我们也做了一些触觉物体操纵的下游工作,希望未来机器人可以操作更小的物体。
此外,更难的是如何打造机器人灵活的双手。这个功能需要非常高的自由度,接触和物体非常复杂,机器人要实现这些动作非常困难。伊利团队提出了一种新的算法,可以自动创建场景和模型模拟,让机器人在模拟中学习这些技术。
第三,大脑。谷歌在这部分做了很多工作,尤其是Palm-e多模态大语言,可以规划机器人的任务。大语言模型把自己做的事情调用给下沉控制器,按顺序完成任务,这也是非常重要的一步,尤其是对于Google在体模型方面的主要技术路线。
但是,这个框架有一个主要问题:它的下层可能无法很好地实现上层的规划,尤其是当中间出现一些意外干扰时。对此,陈建宇团队提出了新的方案和新的框架,比如自动判断任务执行过程中是否出现异常,如果出现异常如何解决,这些都是由语言模型和视觉模型自动完成的。
我们将这种方法应用于人形机器人。首先,我们需要像大语言模型一样为这个机器人描述任务,机器人会根据任务来执行。在场景工作中,如果机器人搬运箱子,其视觉语言模型从视角检测是否发生事故,如果发生事故如何纠正。比如你看到一个盒子掉到地上,机器人可以想办法把它捡起来,最终完成任务。
除了上面提到的工作,斯坦福大学的团队通过大语言模型系统产生了控制机器人的代码,而清华大学交叉信息研究院的杨团队也提出了CodeGeeX(多语言代码生成模型),通过不同的大语言模型进行训练。
最后,对于人形机器人来说,还有许多困难需要克服:
第一,能不能有一个像大语言模型那样的大模型,一步到位的控制最底层的效率?
第二,计算能力的挑战。Google的机器人Transformer模型做的第一个下沉统一模型,目前只能达到3 Hz的水平,离我们需要的500 Hz还很远,所以还需要克服很多困难。
第三,如何整合多模态感官。
第四,数据收集还有很多事情要做,这也涉及到很多安全和隐私问题。
编辑:郎朗|编辑:郎朗
愿景:李攀·东子
监制:李
本文来源:微信微信官方账号“金融智库”

作者:杏耀注册登录平台




现在致电 5243865 OR 查看更多联系方式 →

COPYRIGHT 杏耀注册登录平台 版权所有