“具身智能”版AI与人类最合拍

　　2025年国务院政府工作报告提出，将建未来产业投入增长机制，培育生物制造、量子科技、具身智能、6G等未来产业。其中，首次写入政府工作报告的具身智能，成为科技界的热词。目前，包括北京在内的全国多地都已开始布局具身智能等人工智能（AI）技术产业发展。

　　虽有ChatGPT、DeepSeek珠玉在前，但人们对人工智能的需求已不满足于这类大语言模型，而是希望研发和使用拥有具身智能的人工智能，这将是未来极具潜力的重要发展方向。

　　仿生人是具身智能的核心

　　其实，具身智能的概念早已有之，只不过当时未能实现。1945年，法国哲学家莫里斯・梅洛-蓬蒂提出了“具身性”概念，指出人是通过身体与周围环境进行互动和感知，进而理解世界。在此基础上，被誉为“AI之父”的英国科学家图灵1950年在其论文《计算机器与智能》中首次提出具身智能（Embodied Intelligence）这一概念。

　　中国计算机学会给具身智能下的定义是，一种基于物理身体进行感知和行动的智能系统，能通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动，从而产生智能行为和适应性。2024世界机器人大会发布《人形机器人十大趋势展望》，提出具身智能是可以在重大变化下做出迅猛、精准反应的高质量、高性能智能系统。它既不是单纯虚拟环境下的计算机仿真，也不是完全偏于物理空间的机电系统，而是与人形机器人系统紧密相关。

　　在现实中，人们最希望研发的是拥有具身智能的人形机器人，也就是让人工智能融入机器，让机器像人一样感知、学习和与环境动态交互，并择机行动。

　　人工智能有弱人工智能、强人工智能和超人工智能，具身智能属于强人工智能，是人们最能接受也最适合人的人工智能。因为具身智能可以具有像人一样的智能，能与人、生物、环境互动，可以学习并采取自主行动，但不会超越人，比起超人工智能而言，是令人放心的存在。这就注定了具身智能是人类下一步会选择的最理想的人工智能。

　　像人一样的具身智能，需具备像人一样的感官系统、大脑神经系统和骨骼肌肉运动系统，这其实就是仿生人。人的感官是眼耳鼻舌身（皮肤），负责接收外部世界的各种信息。人脑在接收信息后，通过大脑自主学习、思考、规划，并做出决策。同时，大脑和小脑也负责运动控制，从行走到跑跳，以及从简单抓取到复杂的手部动作等。

　　以拥有具身智能的人形机器人为例，它需要有接收感应的装置，主要是摄像头、红外线、雷达等，其大脑就是芯片处理器和软件系统，能接收摄像头、红外线等所传递的外部环境各种信息，进行分析和决策，并支配四肢和躯体动作，最后像人一样运动和完成工作。因此，人形机器人可以在多个领域大显身手，如应用于智能制造、智能家居、智慧医疗、智能服务、智能交通等方面。

　　无人驾驶具身智能已初步成熟

　　比较能体现和发展具身智能的领域是无人驾驶。现在，全球都在研发和尝试运营无人驾驶，中国的武汉已经有1万多辆无人驾驶汽车在大街小巷穿行，北京也在试运营无人驾驶汽车。

　　无人驾驶就像人工驾驶一样，需要感知、决策和执行。无人驾驶汽车通过摄像头、雷达和地图等手段感知周围障碍物和道路的信息；然后，决定走什么路径，采用什么车速；最后，将决策转化成刹车、油门和转向信号，控制车辆按照预期目标行驶。具体来说，无人驾驶汽车需要对所获得的周围环境数据进行处理和融合，生成对环境的准确表示。在了解周围环境和自身位置的基础上，无人驾驶汽车的控制系统会生成相应的控制指令（如加速、减速、转向、刹车等），再通过车辆的各种执行器（如油门、刹车、转向系统等）予以实施，就如同人在驾驶车辆一样。

　　无人驾驶汽车的控制系统无论是装在车上还是装在人形机器人驾驶员的大脑内，想要行使功能，都需要拥有具身智能，这一智能是由人使用世界模型（World Model）来教会的。世界模型是人工智能算法模型的一种新概念，旨在模仿人类和动物，通过观察与交互来学习关于世界运作方式的知识。

　　简单总结一下，无人驾驶的具身智能主要体现在感受和执行世界模型这两方面。一方面，感受由传感和感知构成，传感获得的是传感器的原始数据（如图片），而感知是对从摄像头、雷达传来的信息进行认知处理（如图片内容是人还是动物、是否在运动）。另一方面，各类传感器经由算法处理后得到的障碍物、车道等信息往往存在矛盾，比如，雷达看到前方有一个障碍物而摄像头认为没有，这时就需要增加融合模块来综合分析，对矛盾的信息作进一步的融合与预测，也就是采用世界模型来处理。世界模型的核心职责就是通过融合来理解当下环境要素的属性和关系，并配合先验的规律做出预测和判断，然后发出指令，这个时间跨度可以从几毫秒到几小时。

　　现在，无人驾驶的具身智能已经初步成熟。就中国而言，无人驾驶技术水平已进入世界第一梯队，且拥有约43%的全球自动驾驶发明专利。但从世界上这一领域的总体发展情况来看，无人驾驶汽车的具身智能还需要极大提升。

　　2024年6月，《自然-通讯》发表的一篇论文对真实世界中无人驾驶汽车的安全性进行了全面分析。对2016年至2022年间2100个配备有高级自动驾驶系统和高级辅助驾驶系统的车辆，以及35133辆人类驾驶车辆的事故数据（主要来自美国加州）进行了对比，结果显示，在大多数场景下无人驾驶汽车导致的事故比人类驾驶汽车更少。但是，在特定情境下无人驾驶汽车似乎更易发生事故，如晨昏弱光环境下和转弯时，事故率分别是人类驾驶的5.25倍和1.98倍。

　　手术机器人“巧手”突破人类极限

　　前段时间人们津津乐道的AI+医生只是人工智能应用于医疗的初级阶段，它是一种诊断软件，可以帮助医生会诊和提出治疗方案。到了中高级阶段，拥有具身智能的人形机器人可以做到问诊患者甚至实施手术，其手部的灵巧性、精确性将更胜一筹。

　　早已进入一些国家临床医疗的达芬奇手术机器人具有“少量”的具身智能，毕竟它还需要外科医生来操作。

　　达芬奇手术机器人是一个系统，由3个部分组成：主刀医师操作控制台；三维成像视频影像平台；机械臂、摄像臂和手术器械组成的移动平台。实施手术时，主刀医生不与患者直接接触，通过三维视觉系统和动作定标系统操作控制，由机械臂及手术器械来完成医生的技术动作和手术操作。其中，三维成像视频影像平台就像人的眼睛，机械臂、摄像臂和手术器械组成的移动平台类似人的上下肢，不过操控的大脑还是人类医生。

　　即便如此，手术机器人的感知系统和上肢、手部动作也比人更有优势。3D高清影像技术可以为主刀医生提供高清晰和全方位立体式手术视野，对手术的局部位置视野放大15倍，不仅能精确定位手术部位，还能让医生看得更清楚。医生操控的机器人手指可以突破人手不可能完成的极限，实现360°旋转，在有限的空间内多个维度任意变换操作姿势。机器人手指可以使用手术刀、剪刀、镊子或缝线所需的持针器，快速完成切割、电烧、缝合、打结等动作，其精确度和灵巧度比人的双手有过之而无不及。手术机器人还拥有“三头六臂”（有多个微创手术刀和可旋转支架，能使微创手术刀旋转到患者的任何部位），这使得它能够完成一个手术团队的全部工作，减少了配合失误，更容易实现主刀医生的意图。

　　2000年，美国食品与药物管理局（FDA）批准使用由美国直觉外科公司设计和制造的达芬奇手术机器人。第四代达芬奇手术机器人（达芬奇Xi系统）于2015年上市。2023年，中国复星医药研制的首台国产达芬奇Xi手术机器人获得国家药监局批准。

　　中国的达芬奇Xi手术机器人具有三维高清视野、可转腕手术器械和直觉式动作控制三大特性，可以将外科医生手部动作的颤抖自动滤除并转换成更精准的动作，其弯曲及旋转程度远超人手极限，让机器人辅助手术变成了现实。目前，达芬奇手术机器人已经广泛应用于成人和儿童的普通外科、胸外科、泌尿外科、妇产科、头颈外科，以及心脏手术。

　　总体来看，达芬奇手术机器人的具身智能还是相当有限的，但不能否认它为外科手术带来了巨大改变，全球现有超1200万名患者接受过达芬奇手术机器人的服务。未来，科学家将致力于研发拥有具身智能的人形手术机器人，能大部分或全部取代人类外科医生，亲自实施手术。当然，一个重要前提是，由人类外科医生监管整个手术过程，如发现异常，立即停止机器人的操作，并接管手术。

　　“助老”先要模拟人的真实感觉

　　拥有具身智能的机器人现在和未来有个最广泛的需求，就是照料老人。

　　今年2月，国际电工委员会（IEC）发布了由中国牵头制定的养老机器人国际标准《互联家庭环境下使用的主动辅助生活机器人性能准则》，该标准依据老年人生理和行为特点，为各类养老机器人的产品设计、制造、测试和认证等提供基准。现在已有一些科技产品进入市场，比如，江苏无锡研发的“大头阿亮”智能养老机器人，能按时提醒老人吃药、吃饭、休息，还可播放新闻、协助网购；北京为700多户老人配备的养老机器人，可呼叫家政服务、紧急呼救等。

　　养老机器人普遍整合了扫地机、洗碗机、手机、轮椅的功能，能提供日常清洁、餐饮服务，还能陪伴交流，但只是有一定程度的具身智能。姑且不要求养老机器人会独立做饭，即便是低要求的具身智能，如像人一样能为失能老人端饭倒茶、搀扶老人行走等，都还不能实现。

　　理想中的具身智能要求机器人的手能伸、握、捏，抓取东西、旋转开瓶盖，有温觉、痛觉、触觉（如发现水温不舒适，不能递给老人饮用）等。目前，研究人员正在努力让机器人的手具有人的真实感觉。最近，美国约翰斯・霍普金斯大学研发的仿生手达到具身智能的新高度，仿生手的触觉反馈让它可以“感知”物体，能稳稳抓住水瓶，也能轻轻捏起装满水的塑料杯却不会弄坏它。

　　这种仿生手通过3个要件来体现具身智能：一是传感器探知环境；二是控制系统将数据转为神经信号；三是刺激神经传递触觉。仿生手在触摸物体时产生触觉，这些触觉通过电流传导到人工大脑（控制器），然后，机器学习算法会处理触觉信号并转化为逼真的触感，再通过电刺激传递给神经，让仿生手“感觉”到手里的东西，从而做出种种适合于人、物体和场景的动作。可想而知，如果这样的仿生手、仿生脚安装在人形机器人身上，那它就会拥有像人一样的触觉、感觉、知觉，成为更好的具身智能。

　　总之，作为人工智能与机器人学交叉的前沿领域，具身智能蕴含着巨大的市场潜力和发展机遇。而如何制定具身智能技术伦理和道德准则来确保其良性发展，也是个同样迫切的问题。只有技术突破和管理相结合，以及价格亲民，具身智能才会真正来到人们身边。（张田勘）