“稚晖君”的机器人长脑子了

2025年03月18日 09:08:34 撰文 | 雁秋编辑 | 李信马 来源：DoNews

　　3月10日，智元机器人联合创始人稚晖君(彭志辉)在社交平台公布其团队最新研究成果——首个通用具身基座模型：智元启元大模型(Genie Operator-1，下文简称 GO-1)。

　　这是全球第一个基于大规模、高质量自有数据，基于自有机器人本体训练并部署的机器人基座模型。

　　11日，灵犀X2发布，这是可以支持高自由度能力且搭载情感计算引擎的机器人，不仅能回答稚晖君提出的各种问题，还可以精准判断晚上该喝牛奶还是咖啡。

　　业内人士认为，智元机器人在人形机器人领域即将迎来重大技术或产品突破。正如稚晖君在预热视频中所说：“我们不是在制造工具，而是在创造新物种。”

　　当前机器人技术面临很多困境，IDC中国研究经理李君兰接受DoNews采访时谈到，硬件维度的优化、机器人行动控制协调能力，以及场景迁移泛化、高计算资源消耗等等，都亟需一一解决。稚晖君的这个“新物种”，能成为机器人的对症之药吗?

　　1、机器人即将拥有“人脑”

　　行业对于机器人寄予厚望，它们的外形不仅要像人，“大脑”也要像人脑一样，具备学习思考的能力，要越学越聪明。

　　GO-1的作用就是帮助机器人大脑进化，其开创提出了ViLLA架构，该架构由VLM(多模态大模型) + MoE(混合专家)组成。

　　VLM，借助海量互联网图文数据获得通用场景感知和语言理解能力;

　　MoE，包括「隐式规划器」和「动作专家」。前者借助大量跨本体和人类操作视频数据，获得通用的动作理解能力;后者借助百万真机数据，获得精细的动作执行能力。

　　简单理解就是，当相机的视觉信号加上人类的语言指令，通过ViLLA框架，便能输出机器人的动作执行。

　　具身智能模型的四类训练数据图源：智元机器人

　　从官方的解读看，GO-1除了拓展机器人的运动能力，更重要的是加强了其AI能力，可以总结为几大特点：

　　1、人类视频学习，结合互联网视频和真实人类示范进行学习，增强模型对人类行为的理解(学习人类倒水，即使随意移动水杯位置)。

　　2、小样本快速泛化：GO-1具有强大的泛化能力，使得后训练成本非常低，能够在极少数据甚至零样本下泛化到新场景、新任务(除了倒水，还能烤面包、抹果酱，这些是之前没有学过的场景)。

　　图源：智元

　　3、一脑多形：GO-1能够在不同机器人形态之间迁移，快速适配到不同本体(多个机器人共同协作完成复杂任务)。

　　4、持续进化：GO-1搭配智元一整套数据回流系统，可以从实际执行遇到的问题数据中持续进化学习(对机器人放咖啡杯时出现的失误进行优化)。

　　智元发布的实验数据显示，相比已有的最优模型，GO-1的平均成功率提从46%提升至78%。部分业内人士认为，GO-1的这个模型架构很简单，创新之处并不多，主要是对已有工作、数据和训练方式做了大幅整合。

　　除了GO-1之外，智元还发布了机器人本体：灵犀 X2，它重达33.8千克，全身有28个自由度，没有使用任何一个并联结构。

　　在视频展示中，它能够0帧起手快速读取药品说明书，可以驾驶滑板车和平衡车，还能用针缝葡萄。

　　它还很有人情味，在问它：“与狗落水先救谁” 的伦理问题时，也能给出符合人类价值观的回答。

　　图源：“稚晖君”微博

　　据彭志辉介绍，智元为灵犀X2开发出一套基于Diffusion(扩散模型)的生成式动作引擎。这使得机器人不仅四肢发达，头脑也并不简单。随着机器人具身大脑的持续迭代，未来智元会赋予机器人更多复杂作业的能力。

　　02、建厂训练，开源降本

　　过去一年，具身智能、人形机器人的关注度持续上升，但摆在从业者面前的困境却是复杂又现实的。

　　机器人要想成功商业化，实训是最重要的一步，而获取并训练真实场景内的数据，通常是最困难的。

　　与大语言模型不同，机器人“大脑”的训练需要更多来自物理世界即真实世界动态环境中的交互数据，且需要大量的设备、时间进行采集。如何获取、怎么获取，以及对已有数据的标准化，成为人形机器人技术演进路上的最大难题。

　　DoNews记者了解到，目前人形机器人获取数据的方法，主要包括遥操作机器人数据、人类动作捕捉数据、仿真合成数据以及一些特定的技术和框架。

　　图源：DoNews整理

　　智元机器人是怎么解决数据问题的呢?他们选择建厂实操。

　　在上海，智元建了一座“数据采集工厂”，占地约3000平米，里面分布着多个不同主题的房间，每个房间都还原了现实生活的物件布局，机器人就在当中学习不同的技能：叠衣服、整理餐桌、打餐、扫码收银......

　　智元甚至为机器人安排了“一对一教学”，数据采集员手把手地控制机器人完成抓、握、放等动作，以求更精准地让机器人模仿学习。每完成一个动作，就相当于收集了一条数据，智元据此进一步训练机器人的大模型，这也是GO-1之所以推出的基础底座。

　　2024年底，智元将数据集开源，这个AgiBot World(智元世界)汇集了百万真实机器人的数据，复刻了家居、餐饮、工业、商超和办公五大核心场景。部分业内人士认为，这不仅能降低训练成本，也会非常有利于行业统一标准，减少重复无用功。

　　开源是一种思路，但也不是说机器人企业都会选择开源，宇树机器人就一直保持不开源的发展策略，目前已经成为全球机器人生产企业中的顶流。

　　说到底，核心的问题还是在于机器人能否满足人们的要求。一位关注具身智能赛道的人向DoNew表示，数据集的推动作用有多大，还需要在投入实际训练后再进行判断。

　　“人形机器人，本质上就是要它要面对各种各样的场景，最好是什么都能做。当某个场景变了，机器人是不是依旧可以准确做出判断?比如倒水，我换一个场景，又要怎么抓?背后可能又需要几万甚至上亿的数据。未来5到10年能不能满足这个条件，现在还不好说。”

　　03、“好东西”能支撑未来吗?

　　智元机器人之所以受到业内如此高的关注，一大原因是创始人、CTO、首席架构师「稚晖君」彭志辉。

　　彭志辉是B站“年度百大UP主”，还是华为的“天才少年”，得到过任正非的称赞。

　　2022年12月，他在微博上正式宣布自己离开华为，去追求自己梦想和热爱的事业，“如果程序员是数字世界的上帝的话，那亲手给机器人以身形，再用AI赋其灵魂，这就是真极客的浪漫啊!”

　　2023年，彭志辉创立智元机器人，仅用18个月完成从概念到量产的技术跨越。截止2025年3月，智元机器人至少完成了8轮融资(A轮)，发布了5款人形机器人，1000多台产品在临港新片区量产下线。

　　智元机器人再度将具身智能推向台前，但也引发了相关思考。

　　首先是，大模型真的能完美赋能机器人吗?智元官方称，“对机器人公司来说，如果不做大模型，那是属于没有未来的机器人。”

　　但另一家头部公司却不这么看。去年8月，宇树科技创始人王兴兴向媒体表示，具身智能大模型的研发太烧钱，而且技术路线目前仍不像大语言模型那么清晰，宇树科技对此选择谨慎投入。

　　目前的问题是，大预言模型都暂未解决「幻觉」问题，机器人又缺乏高质量数据，能否做到零失误?

　　据相关报道，许多机器人厂商在demo里展示某个动作足够酷炫，背后实则经历了一天的拍摄。2024年的机器人大会上，多个机器人在参展时就曾出现Bug、失误的问题。比如完成一个只需要移动20厘米的抓取动作，需要近40秒，或者将炒好的菜在众目睽睽之下倒在了桌子上。

　　再有就是商业化问题。落地能力是判断一家机器人公司是否靠谱的重要指标，智元机器人的商业模式只是初步得到验证，至于规模化扩张、扩大市场份额等前景还不明显。

　　更需要重视的是隐私安全，GO-1里所谓人类视频学习功能，会涉及到大量非授权数据采集。尽管智元承诺模糊人脸与敏感信息，但如何界定“合理使用”边界仍是法律空白。

　　尾声

　　从DeepSeek刷屏，到Manus突击，再到机器人大模型，2025开局不到3个月，人们就被创新者们「激进」的步伐一次次震撼。智元的“好东西”具体有多少落地的可能，我们暂时先打个问号，但有一点可以确定：AI就快要帮助人类做大事了。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

[No. ]
分享到微信

即时

第十四代英特尔@酷睿™ 处理器：性能飞跃，重塑计算

第十四代英特尔® 酷睿™ 处理器(代号Raptor Lake S Refresh)采用了先进的Intel 7制程工艺。

第十四代英特尔@酷睿™ 处理器：性能飞跃，重塑计算

“强悍小透明”真我Neo7 Turbo正式发布，国补到手1699.15

“稚晖君”的机器人长脑子了

即时

第十四代英特尔@酷睿™ 处理器：性能飞跃，重塑计算

新闻

明火炊具市场：三季度健康属性贯穿全类目

企业IT

重庆创新公积金应用，“区块链+政务服务”显成效

3C消费

华硕ProArt创艺27 Pro PA279CRV显示器，高能实力，创

研究

中国信通院罗松：深度解读《工业互联网标识解析体系

专题

“稚晖君”的机器人长脑子了

扩展阅读