高通全球副总裁徐晧:每个物理具身形态都可以成为持续学习的机器人
5月16日,高通个物“2026信息通信产业高质量发展研讨活动”在湖北武汉举行。全球作为2026世界电信和信息社会日系列活动之一,副总此次活动聚焦2026电信日“数字生命线:在互联世界中加强复原力”主题,裁徐举办十余场专题研讨会议,理具围绕新型信息基础设施、身形具身智能、态都5G-A与6G、可成AI等行业关切话题展开专题讨论。为持

当前,续学习AI与通信网络深度融合、机器智能体加速落地、高通个物具身智能正迈向产业化关键阶段。全球在16日下午举行的副总“智能体互联网与具身智能应用”研讨会上,高通公司全球副总裁、裁徐中国区研发负责人、IEEE Fellow徐晧发表题为“迈向具身智能规模化落地”的演讲。据徐晧介绍,高通从20世纪80年代开始深耕移动通信领域,如今在人工智能和机器人领域也开展了大量研究并进行了相关布局。

人工智能应用层出不穷,AI正推动具身智能等众多行业发展。徐晧指出,在机器人领域,越来越多的算力将从云端向端侧下沉,即使是非常复杂的运算,未来也将完全在端侧自主运行。徐晧称,强大的AI和高速连接将共同定义未来机器人,因此,行业不仅需要关注具身智能本身的硬件、软件和平台发展,同时也需关注它对5G-A和6G的影响,以及如何在6G网络设计中,使人工智能驱动的海量机器人支持实现更好的应用。

在演讲中,徐晧介绍了AI发展经历的四个阶段:感知AI、生成式AI、智能体AI和物理AI。相比于已经实现商业化的感知AI,以及开始受到关注的生成式AI和智能体AI,物理AI才是AI发展的终极模式。物理AI不仅需要理解用户指令,还要理解物理世界的所有规律。徐晧称,当前终端侧生成式AI正朝着具身智能与物理AI演进;未来,每个物理具身形态都可以成为持续学习的机器人。
针对当前机器人行动训练数据有限等挑战,徐晧提出了采用“任务导向”的方法攻克高自动化需求行业所面临的难题。据介绍,这是一种将任务导向的大目标,分解为一系列可执行子任务的方法,其与人类的思维或工作方式类似:当规划某件事时,将其拆解为多个步骤往往更容易实现。徐晧以零售和驾驶辅助场景为例,进一步阐述了这一方法在应对复杂环境的有效性和优势。
据徐晧介绍,在机器人技术飞速发展的过程中,高通的核心任务是提供机器人所需的芯片平台,从而助力实现机器人的运动控制,并为机器人“大脑”提供计算能力。当前,高通已面向可部署的机器人提供了一整套核心能力,构建起从芯片到技能的统一架构。未来,高通期待与业界合作伙伴携手,共同打造机器人和具身智能的未来。
以下为徐晧演讲实录:
大家好,我是高通公司徐晧,我今天的演讲主题是“迈向具身智能规模化落地”。高通公司从20世纪80年代开始深耕移动通信领域,如今在人工智能和机器人领域也开展了大量研究。今天,我将主要与大家介绍高通在机器人领域的研发进展以及产品布局。
当前,人工智能应用正蓬勃发展。在手机领域已经出现越来越多的智能体应用,比如豆包手机,以及像千问这样的大模型APP。此外,由端侧AI驱动的其他智能终端也日益丰富,包括XR眼镜、智能网联汽车,以及我们今天探讨的核心——具身智能机器人。
纵观整个行业的发展,目前大部分人工智能算法仍集中在数据中心或云端,依赖于强大的算力和海量数据,来支持这些算法的研究以及大语言模型(LLM)的开发。然而,人工智能应用要真正融入每个人的生活,由端侧AI驱动的智能终端无疑是至关重要的研究方向。
如今,智能手机已经能够支持丰富的人工智能应用,比如美颜、背景消除,以及帮助用户做一系列规划。通过人工智能处理各种事务、向人工智能提问,很多人已经习以为常。无论是查询不懂的技术生词,还是制定出游规划,人工智能都能为我们提供极大的便利。与此同时,人工智能也正推动其他行业的发展,特别是具身智能领域。
值得一提的是,5G和6G将高效连接云端的大语言模型和端侧部署的模型,并实现出色的算力分配。以机器人为例,很多涉及长期规划,或者需要把一个重要任务分解成几个任务的场景,往往需要比较复杂的模型。就现阶段而言,这些规划工作大部分是在云端进行的;但涉及运动控制等环节,目前的机器人大部分都是在端侧独立完成这些规划。
在未来的产业发展中,我们将会看到越来越多的算力从云端向端侧下沉。在驾驶辅助领域,早期的驾驶辅助技术大多依赖云端;而现在,很多先进驾驶辅助系统(ADAS)都已经能在端侧运行。在机器人领域,我们也会看到同样的趋势——即使是非常复杂的运算,未来也将完全在端侧自主运行。
强大的AI和高速的连接,将共同定义我们对未来机器人的整体设计,包括计算、安全和连接。因此,我们聚焦的不只是具身智能本身的硬件、软件和平台发展,同时也会关注它对5G Advanced(5G-A)和对6G的影响,以及如何在6G网络设计中,使人工智能驱动的海量机器人支持实现更好的应用。以我们目前常见的机器人同台跳舞为例,这背后需要强大的连接支持。未来,机器人要实现更复杂的协同运算,要么使用对等网络(P2P)技术,实现机器人与机器人之间的通信;要么通过网络,在端侧或边缘侧进行统一管理。这些都是我们当前在设计机器人与6G通信时需要考虑的问题。
从行业应用的角度看,AI的发展经历了四个阶段。正如刚才其他嘉宾分享的,我们现在谈论的很多是物理AI。实际上,追溯AI的发展历程,最初我们看到的是“感知AI”。也就是说,当接收到图形、语言、声音等信息之后,机器人会对用户的指令进行反馈。到现在,这已经是非常成熟的商业化应用了。
目前的商业焦点,一个是生成式AI,另一个是智能体AI。所谓生成式AI,就是基于用户指令生成一系列内容,可能是设计方面的新想法、新理念,或者是生成一些视频。我们看到,如今只需要给生成式AI一个指令并输入自己的照片,就可以生成一个由自己主演的视频,这在今天已经非常普遍。而智能体AI,则能够对交给它的某项任务进行全方位规划,相较此前的感知AI或生成式AI更进一步。那么终极的AI模式是什么呢?就是我们提到的物理AI。它不仅需要理解用户指令,还要理解物理世界的所有规律。例如,让机器人叠衣服,它需要考虑衣服的重力对它的影响;当机器人用手去捏一枚鸡蛋时,它需要精确掌握力度,确保拿得稳且不会捏碎鸡蛋,这些都需要通过建立非常精确的物理AI模型来实现。
从端侧智能体AI的发展来看,最初得到应用的是大语言模型。语言本质上是一维空间模型,根据用户的输入信息,就能判断大概率得到的输出信息。大语言模型易于使用的原因,在于有非常多的训练语料,大语言模型可以从这些文字和语音中,学会如何响应用户需求。多模态理解和推理也相对容易,我们已经能够把文本、图像和文字等作为多模态输入,交由大模型来处理;甚至是流传输、情境化的多模态交互,也相对比较容易实现。
真正的难点在于我们如何训练机器人。目前,可用于指导机器人行动的数据极为有限,仅依靠视频指导机器人行动远远不够,因为视频呈现的是人类视角下机器人操作的过程,而我们需要的是机器人从自身视角所“看到”的信息及其可执行的操作。当前训练机器人较为常见的方式,是让人佩戴AR眼镜,通过人的示范来教导机器人执行任务,这类数据还在逐渐积累的过程中。这也解释了为什么很多机器人的灵巧手训练需要大量数据,但现阶段数据仍然不足。
每个物理具身形态都可以成为持续学习的机器人。以驾驶辅助为例,我们并非在第一阶段就能达到L4或L5级别的能力,而是要让机器人在部署过程中不断学习,并在数据累积的基础上不断地指导和训练。当前,机器人在初步部署阶段的应用场景主要包括零售、工业、家居、餐厅和仓库等。据预测,到2040年,通用机器人(GPR)带来的体力自动化将创造一万亿美元的经济价值。这也是众多大型企业积极布局具身智能与机器人领域的主要原因。
如何利用当前的基础AI、大语言模型、视觉-语言-动作(VLA)模型等技术来处理复杂任务?一种有效的方法是将任务导向的大目标,分解为一系列可执行的子任务。例如,在机器人的训练过程中,可以先对任务进行分解,再调用相应模型分别执行。这与人类的思维或工作方式类似:当我们规划某件事时,将其拆解为多个步骤往往更容易实现。
以零售场景中的垂直应用为例,分拣可以视为第一个阶段,回收与重新定位是第二个阶段,货架补货是第三个阶段,并由此形成可循环的流程。通过这种方式,机器人能够将整个零售场景中的操作拆解为三个可控、可训练的子任务来分别执行。
在现有AI应用中,一个非常典型的应用场景是驾驶辅助ADAS。ADAS经历了大约十年的时间,才从概念走向较为普遍的商用部署。这项技术从一开始仅能辅助控制车速,到如今已出现无需方向盘的完全自动驾驶汽车,即人类可以完全不参与驾驶过程,这至少经历了十年时间。
相比之下,机器人的情况远比ADAS复杂。ADAS功能的核心任务是在遵守交通规则的前提下,避免碰撞行人或其它障碍物;而机器人则需要与人类进行交互,其难点不在于回避交互,而在于主动与人和周围环境进行互动,因此复杂度显著提高。也正因如此,在机器人领域,物理世界模型(physical world model)或物理模型(physical model)变得至关重要。目前,全球众多科学家都在致力于研究对物理世界的理解、仿真与学习——这已成为机器人技术当前最重要的攻关方向。
从高通的角度来看,在机器人技术飞速发展的过程中,高通的核心任务是提供机器人所需的芯片平台,从而助力实现机器人的运动控制,并为机器人“大脑”提供计算能力。
首先,我们提供硬件平台,并在此基础之上提供软件支持,例如机器人操作系统(ROS, Robotic Operating System)。由于机器人需要专属的操作平台,我们同时也开展预训练,构建“AI飞轮”或“数据飞轮”——只有生成更多数据,才能用这些数据训练模型;而模型一旦形成,又能进一步产生更多数据,这一循环过程被称为“数据飞轮”。此外,我们还制定了涵盖机器人全方位研发的规划。
细化来看,若要构建一个完整的机器人系统,所需的具体技术支持包括:一方面是对Ubuntu OS等系统的支持;另一方面是对底层软件、硬件及模组的支持,其中需要考虑功能安全性、算力、5G与Wi-Fi连接,以及相关SDK的处理,这些构成了最底层的连接层。在此基础之上,才能提供软件与服务支持,涵盖大语言模型、VLA推理模型、主动学习、强化学习(RL)等,这些属于数据与模型建立层面的工作。最上层则是机器人的应用层,涉及抓取、规划以及如何调用基础应用程序。
同时,我们还需要考虑不同的机器人形态。一种是人形机器人,常见于舞蹈表演或零售等场景;另一种是较为简单的机械臂。实际上,在大多数工业环境中,机械臂已经能够完成很多任务,无需使用人形机器人。因此,针对不同类型的机器人,我们也会提供相应的平台与产品支持。
可以说,机器人的智能新时代已经到来,各类人工智能应用层出不穷。如果从整体发展阶段和复杂度来看,从扫地机器人、酒店服务机器人,到库存和安防机器人,再到配送机器人和采矿机器人,最后到具身智能机器人,不同类型的机器人对技术复杂度有不同的要求。我们也看到,当前的商业用例正逐步实现落地,而且部署速度非常快。
作为一家芯片厂商,高通此前完成了对Arduino的收购,这是一家领先的开源硬件与软件提供商,同时也是一个用于创建交互式项目的易用平台,能够为开发者提供最基础且极易上手的机器人生态。未来,我们也期待与业界合作伙伴携手,共同打造机器人和具身智能的未来。谢谢大家!
