高通全球副总裁徐晧：每个物理具身形态都可以成为持续学习的机器人-华体会体育

5月16日，高通个物“2026信息通信产业高质量发展研讨活动”在湖北武汉举行。全球作为2026世界电信和信息社会日系列活动之一，副总此次活动聚焦2026电信日“数字生命线：在互联世界中加强复原力”主题，裁徐举办十余场专题研讨会议，理具围绕新型信息基础设施、身形具身智能、态都5G-A与6G、可成AI等行业关切话题展开专题讨论。为持

高通全球副总裁徐晧：每个物理具身形态都可以成为持续学习的机器人

当前，续学习AI与通信网络深度融合、机器智能体加速落地、高通个物具身智能正迈向产业化关键阶段。全球在16日下午举行的副总“智能体互联网与具身智能应用”研讨会上，高通公司全球副总裁、裁徐中国区研发负责人、IEEE Fellow徐晧发表题为“迈向具身智能规模化落地”的演讲。据徐晧介绍，高通从20世纪80年代开始深耕移动通信领域，如今在人工智能和机器人领域也开展了大量研究并进行了相关布局。

高通全球副总裁徐晧：每个物理具身形态都可以成为持续学习的机器人

人工智能应用层出不穷，AI正推动具身智能等众多行业发展。徐晧指出，在机器人领域，越来越多的算力将从云端向端侧下沉，即使是非常复杂的运算，未来也将完全在端侧自主运行。徐晧称，强大的AI和高速连接将共同定义未来机器人，因此，行业不仅需要关注具身智能本身的硬件、软件和平台发展，同时也需关注它对5G-A和6G的影响，以及如何在6G网络设计中，使人工智能驱动的海量机器人支持实现更好的应用。

高通全球副总裁徐晧：每个物理具身形态都可以成为持续学习的机器人

在演讲中，徐晧介绍了AI发展经历的四个阶段：感知AI、生成式AI、智能体AI和物理AI。相比于已经实现商业化的感知AI，以及开始受到关注的生成式AI和智能体AI，物理AI才是AI发展的终极模式。物理AI不仅需要理解用户指令，还要理解物理世界的所有规律。徐晧称，当前终端侧生成式AI正朝着具身智能与物理AI演进；未来，每个物理具身形态都可以成为持续学习的机器人。

针对当前机器人行动训练数据有限等挑战，徐晧提出了采用“任务导向”的方法攻克高自动化需求行业所面临的难题。据介绍，这是一种将任务导向的大目标，分解为一系列可执行子任务的方法，其与人类的思维或工作方式类似：当规划某件事时，将其拆解为多个步骤往往更容易实现。徐晧以零售和驾驶辅助场景为例，进一步阐述了这一方法在应对复杂环境的有效性和优势。

据徐晧介绍，在机器人技术飞速发展的过程中，高通的核心任务是提供机器人所需的芯片平台，从而助力实现机器人的运动控制，并为机器人“大脑”提供计算能力。当前，高通已面向可部署的机器人提供了一整套核心能力，构建起从芯片到技能的统一架构。未来，高通期待与业界合作伙伴携手，共同打造机器人和具身智能的未来。

以下为徐晧演讲实录：

大家好，我是高通公司徐晧，我今天的演讲主题是“迈向具身智能规模化落地”。高通公司从20世纪80年代开始深耕移动通信领域，如今在人工智能和机器人领域也开展了大量研究。今天，我将主要与大家介绍高通在机器人领域的研发进展以及产品布局。

当前，人工智能应用正蓬勃发展。在手机领域已经出现越来越多的智能体应用，比如豆包手机，以及像千问这样的大模型APP。此外，由端侧AI驱动的其他智能终端也日益丰富，包括XR眼镜、智能网联汽车，以及我们今天探讨的核心——具身智能机器人。

纵观整个行业的发展，目前大部分人工智能算法仍集中在数据中心或云端，依赖于强大的算力和海量数据，来支持这些算法的研究以及大语言模型（LLM）的开发。然而，人工智能应用要真正融入每个人的生活，由端侧AI驱动的智能终端无疑是至关重要的研究方向。

如今，智能手机已经能够支持丰富的人工智能应用，比如美颜、背景消除，以及帮助用户做一系列规划。通过人工智能处理各种事务、向人工智能提问，很多人已经习以为常。无论是查询不懂的技术生词，还是制定出游规划，人工智能都能为我们提供极大的便利。与此同时，人工智能也正推动其他行业的发展，特别是具身智能领域。

值得一提的是，5G和6G将高效连接云端的大语言模型和端侧部署的模型，并实现出色的算力分配。以机器人为例，很多涉及长期规划，或者需要把一个重要任务分解成几个任务的场景，往往需要比较复杂的模型。就现阶段而言，这些规划工作大部分是在云端进行的；但涉及运动控制等环节，目前的机器人大部分都是在端侧独立完成这些规划。

在未来的产业发展中，我们将会看到越来越多的算力从云端向端侧下沉。在驾驶辅助领域，早期的驾驶辅助技术大多依赖云端；而现在，很多先进驾驶辅助系统（ADAS）都已经能在端侧运行。在机器人领域，我们也会看到同样的趋势——即使是非常复杂的运算，未来也将完全在端侧自主运行。

强大的AI和高速的连接，将共同定义我们对未来机器人的整体设计，包括计算、安全和连接。因此，我们聚焦的不只是具身智能本身的硬件、软件和平台发展，同时也会关注它对5G Advanced（5G-A）和对6G的影响，以及如何在6G网络设计中，使人工智能驱动的海量机器人支持实现更好的应用。以我们目前常见的机器人同台跳舞为例，这背后需要强大的连接支持。未来，机器人要实现更复杂的协同运算，要么使用对等网络（P2P）技术，实现机器人与机器人之间的通信；要么通过网络，在端侧或边缘侧进行统一管理。这些都是我们当前在设计机器人与6G通信时需要考虑的问题。

从行业应用的角度看，AI的发展经历了四个阶段。正如刚才其他嘉宾分享的，我们现在谈论的很多是物理AI。实际上，追溯AI的发展历程，最初我们看到的是“感知AI”。也就是说，当接收到图形、语言、声音等信息之后，机器人会对用户的指令进行反馈。到现在，这已经是非常成熟的商业化应用了。

目前的商业焦点，一个是生成式AI，另一个是智能体AI。所谓生成式AI，就是基于用户指令生成一系列内容，可能是设计方面的新想法、新理念，或者是生成一些视频。我们看到，如今只需要给生成式AI一个指令并输入自己的照片，就可以生成一个由自己主演的视频，这在今天已经非常普遍。而智能体AI，则能够对交给它的某项任务进行全方位规划，相较此前的感知AI或生成式AI更进一步。那么终极的AI模式是什么呢？就是我们提到的物理AI。它不仅需要理解用户指令，还要理解物理世界的所有规律。例如，让机器人叠衣服，它需要考虑衣服的重力对它的影响；当机器人用手去捏一枚鸡蛋时，它需要精确掌握力度，确保拿得稳且不会捏碎鸡蛋，这些都需要通过建立非常精确的物理AI模型来实现。

从端侧智能体AI的发展来看，最初得到应用的是大语言模型。语言本质上是一维空间模型，根据用户的输入信息，就能判断大概率得到的输出信息。大语言模型易于使用的原因，在于有非常多的训练语料，大语言模型可以从这些文字和语音中，学会如何响应用户需求。多模态理解和推理也相对容易，我们已经能够把文本、图像和文字等作为多模态输入，交由大模型来处理；甚至是流传输、情境化的多模态交互，也相对比较容易实现。

真正的难点在于我们如何训练机器人。目前，可用于指导机器人行动的数据极为有限，仅依靠视频指导机器人行动远远不够，因为视频呈现的是人类视角下机器人操作的过程，而我们需要的是机器人从自身视角所“看到”的信息及其可执行的操作。当前训练机器人较为常见的方式，是让人佩戴AR眼镜，通过人的示范来教导机器人执行任务，这类数据还在逐渐积累的过程中。这也解释了为什么很多机器人的灵巧手训练需要大量数据，但现阶段数据仍然不足。

每个物理具身形态都可以成为持续学习的机器人。以驾驶辅助为例，我们并非在第一阶段就能达到L4或L5级别的能力，而是要让机器人在部署过程中不断学习，并在数据累积的基础上不断地指导和训练。当前，机器人在初步部署阶段的应用场景主要包括零售、工业、家居、餐厅和仓库等。据预测，到2040年，通用机器人（GPR）带来的体力自动化将创造一万亿美元的经济价值。这也是众多大型企业积极布局具身智能与机器人领域的主要原因。

如何利用当前的基础AI、大语言模型、视觉-语言-动作（VLA）模型等技术来处理复杂任务？一种有效的方法是将任务导向的大目标，分解为一系列可执行的子任务。例如，在机器人的训练过程中，可以先对任务进行分解，再调用相应模型分别执行。这与人类的思维或工作方式类似：当我们规划某件事时，将其拆解为多个步骤往往更容易实现。

以零售场景中的垂直应用为例，分拣可以视为第一个阶段，回收与重新定位是第二个阶段，货架补货是第三个阶段，并由此形成可循环的流程。通过这种方式，机器人能够将整个零售场景中的操作拆解为三个可控、可训练的子任务来分别执行。

在现有AI应用中，一个非常典型的应用场景是驾驶辅助ADAS。ADAS经历了大约十年的时间，才从概念走向较为普遍的商用部署。这项技术从一开始仅能辅助控制车速，到如今已出现无需方向盘的完全自动驾驶汽车，即人类可以完全不参与驾驶过程，这至少经历了十年时间。

相比之下，机器人的情况远比ADAS复杂。ADAS功能的核心任务是在遵守交通规则的前提下，避免碰撞行人或其它障碍物；而机器人则需要与人类进行交互，其难点不在于回避交互，而在于主动与人和周围环境进行互动，因此复杂度显著提高。也正因如此，在机器人领域，物理世界模型（physical world model）或物理模型（physical model）变得至关重要。目前，全球众多科学家都在致力于研究对物理世界的理解、仿真与学习——这已成为机器人技术当前最重要的攻关方向。

从高通的角度来看，在机器人技术飞速发展的过程中，高通的核心任务是提供机器人所需的芯片平台，从而助力实现机器人的运动控制，并为机器人“大脑”提供计算能力。

首先，我们提供硬件平台，并在此基础之上提供软件支持，例如机器人操作系统（ROS, Robotic Operating System）。由于机器人需要专属的操作平台，我们同时也开展预训练，构建“AI飞轮”或“数据飞轮”——只有生成更多数据，才能用这些数据训练模型；而模型一旦形成，又能进一步产生更多数据，这一循环过程被称为“数据飞轮”。此外，我们还制定了涵盖机器人全方位研发的规划。

细化来看，若要构建一个完整的机器人系统，所需的具体技术支持包括：一方面是对Ubuntu OS等系统的支持；另一方面是对底层软件、硬件及模组的支持，其中需要考虑功能安全性、算力、5G与Wi-Fi连接，以及相关SDK的处理，这些构成了最底层的连接层。在此基础之上，才能提供软件与服务支持，涵盖大语言模型、VLA推理模型、主动学习、强化学习（RL）等，这些属于数据与模型建立层面的工作。最上层则是机器人的应用层，涉及抓取、规划以及如何调用基础应用程序。

同时，我们还需要考虑不同的机器人形态。一种是人形机器人，常见于舞蹈表演或零售等场景；另一种是较为简单的机械臂。实际上，在大多数工业环境中，机械臂已经能够完成很多任务，无需使用人形机器人。因此，针对不同类型的机器人，我们也会提供相应的平台与产品支持。

可以说，机器人的智能新时代已经到来，各类人工智能应用层出不穷。如果从整体发展阶段和复杂度来看，从扫地机器人、酒店服务机器人，到库存和安防机器人，再到配送机器人和采矿机器人，最后到具身智能机器人，不同类型的机器人对技术复杂度有不同的要求。我们也看到，当前的商业用例正逐步实现落地，而且部署速度非常快。

作为一家芯片厂商，高通此前完成了对Arduino的收购，这是一家领先的开源硬件与软件提供商，同时也是一个用于创建交互式项目的易用平台，能够为开发者提供最基础且极易上手的机器人生态。未来，我们也期待与业界合作伙伴携手，共同打造机器人和具身智能的未来。谢谢大家！

新闻中心

高通全球副总裁徐晧：每个物理具身形态都可以成为持续学习的机器人

友情链接

产品中心

新闻资讯