3月10日,智元机器人联合创始人稚晖君(彭志辉)在社交平台公布其团队最新研究成果——首个通用具身基座模型:智元启元大模型(Genie Operator-1,下文简称 GO-1)。
这是全球第一个基于大规模、高质量自有数据,基于自有机器人本体训练并部署的机器人基座模型。
11日,灵犀X2发布,这是可以支持高自由度能力且搭载情感计算引擎的机器人,不仅能回答稚晖君提出的各种问题,还可以精准判断晚上该喝牛奶还是咖啡。
业内人士认为,智元机器人在人形机器人领域即将迎来重大技术或产品突破。正如稚晖君在预热视频中所说:“我们不是在制造工具,而是在创造新物种。”
当前机器人技术面临很多困境,IDC中国研究经理李君兰接受DoNews采访时谈到,硬件维度的优化、机器人行动控制协调能力,以及场景迁移泛化、高计算资源消耗等等,都亟需一一解决。稚晖君的这个“新物种”,能成为机器人的对症之药吗?
1、机器人即将拥有“人脑”
行业对于机器人寄予厚望,它们的外形不仅要像人,“大脑”也要像人脑一样,具备学习思考的能力,要越学越聪明。
GO-1的作用就是帮助机器人大脑进化,其开创提出了ViLLA架构,该架构由VLM(多模态大模型) + MoE(混合专家)组成。
VLM,借助海量互联网图文数据获得通用场景感知和语言理解能力;
MoE,包括「隐式规划器」和「动作专家」。前者借助大量跨本体和人类操作视频数据,获得通用的动作理解能力;后者借助百万真机数据,获得精细的动作执行能力。
简单理解就是,当相机的视觉信号加上人类的语言指令,通过ViLLA框架,便能输出机器人的动作执行。
具身智能模型的四类训练数据 图源:智元机器人
从官方的解读看,GO-1除了拓展机器人的运动能力,更重要的是加强了其AI能力,可以总结为几大特点:
1、人类视频学习,结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解(学习人类倒水,即使随意移动水杯位置)。
2、小样本快速泛化 :GO-1具有强大的泛化能力,使得后训练成本非常低,能够在极少数据甚至零样本下泛化到新场景、新任务(除了倒水,还能烤面包、抹果酱,这些是之前没有学过的场景)。
图源:智元
3、一脑多形 :GO-1能够在不同机器人形态之间迁移,快速适配到不同本体(多个机器人共同协作完成复杂任务)。
4、持续进化 :GO-1搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习(对机器人放咖啡杯时出现的失误进行优化)。
智元发布的实验数据显示,相比已有的最优模型,GO-1的平均成功率提从46%提升至78%。部分业内人士认为,GO-1的这个模型架构很简单,创新之处并不多,主要是对已有工作、数据和训练方式做了大幅整合。
除了GO-1之外,智元还发布了机器人本体:灵犀 X2,它重达33.8千克,全身有28个自由度,没有使用任何一个并联结构。
在视频展示中,它能够0帧起手快速读取药品说明书,可以驾驶滑板车和平衡车,还能用针缝葡萄。
它还很有人情味,在问它:“与狗落水先救谁” 的伦理问题时,也能给出符合人类价值观的回答。
图源:“稚晖君”微博
据彭志辉介绍,智元为灵犀X2开发出一套基于Diffusion(扩散模型)的生成式动作引擎。这使得机器人不仅四肢发达,头脑也并不简单。随着机器人具身大脑的持续迭代,未来智元会赋予机器人更多复杂作业的能力。
02、建厂训练,开源降本
过去一年,具身智能、人形机器人的关注度持续上升,但摆在从业者面前的困境却是复杂又现实的。
机器人要想成功商业化,实训是最重要的一步,而获取并训练真实场景内的数据,通常是最困难的。
与大语言模型不同,机器人“大脑”的训练需要更多来自物理世界即真实世界动态环境中的交互数据,且需要大量的设备、时间进行采集。如何获取、怎么获取,以及对已有数据的标准化,成为人形机器人技术演进路上的最大难题。
DoNews记者了解到,目前人形机器人获取数据的方法,主要包括遥操作机器人数据、人类动作捕捉数据、仿真合成数据以及一些特定的技术和框架。
图源:DoNews整理
智元机器人是怎么解决数据问题的呢?他们选择建厂实操。
在上海,智元建了一座“数据采集工厂”,占地约3000平米,里面分布着多个不同主题的房间,每个房间都还原了现实生活的物件布局,机器人就在当中学习不同的技能:叠衣服、整理餐桌、打餐、扫码收银......
智元甚至为机器人安排了“一对一教学”,数据采集员手把手地控制机器人完成抓、握、放等动作,以求更精准地让机器人模仿学习。每完成一个动作,就相当于收集了一条数据,智元据此进一步训练机器人的大模型,这也是GO-1之所以推出的基础底座。
2024年底,智元将数据集开源,这个AgiBot World(智元世界)汇集了百万真实机器人的数据,复刻了家居、餐饮、工业、商超和办公五大核心场景。部分业内人士认为,这不仅能降低训练成本,也会非常有利于行业统一标准,减少重复无用功。
开源是一种思路,但也不是说机器人企业都会选择开源,宇树机器人就一直保持不开源的发展策略,目前已经成为全球机器人生产企业中的顶流。
说到底,核心的问题还是在于机器人能否满足人们的要求。一位关注具身智能赛道的人向DoNew表示,数据集的推动作用有多大,还需要在投入实际训练后再进行判断。
“人形机器人,本质上就是要它要面对各种各样的场景,最好是什么都能做。当某个场景变了,机器人是不是依旧可以准确做出判断?比如倒水,我换一个场景,又要怎么抓?背后可能又需要几万甚至上亿的数据。未来5到10年能不能满足这个条件,现在还不好说。”
03、“好东西”能支撑未来吗?
智元机器人之所以受到业内如此高的关注,一大原因是创始人、CTO、首席架构师「稚晖君」彭志辉。
彭志辉是B站“年度百大UP主”,还是华为的“天才少年”,得到过任正非的称赞。
2022年12月,他在微博上正式宣布自己离开华为,去追求自己梦想和热爱的事业,“如果程序员是数字世界的上帝的话,那亲手给机器人以身形,再用AI赋其灵魂,这就是真极客的浪漫啊!”
2023年,彭志辉创立智元机器人,仅用18个月完成从概念到量产的技术跨越。截止2025年3月,智元机器人至少完成了8轮融资(A轮),发布了5款人形机器人,1000多台产品在临港新片区量产下线。
智元机器人再度将具身智能推向台前,但也引发了相关思考。
首先是,大模型真的能完美赋能机器人吗?智元官方称,“对机器人公司来说,如果不做大模型,那是属于没有未来的机器人。”
但另一家头部公司却不这么看。去年8月,宇树科技创始人王兴兴向媒体表示,具身智能大模型的研发太烧钱,而且技术路线目前仍不像大语言模型那么清晰,宇树科技对此选择谨慎投入。
目前的问题是,大预言模型都暂未解决「幻觉」问题,机器人又缺乏高质量数据,能否做到零失误?
据相关报道,许多机器人厂商在demo里展示某个动作足够酷炫,背后实则经历了一天的拍摄。2024年的机器人大会上,多个机器人在参展时就曾出现Bug、失误的问题。比如完成一个只需要移动20厘米的抓取动作,需要近40秒,或者将炒好的菜在众目睽睽之下倒在了桌子上。
再有就是商业化问题。落地能力是判断一家机器人公司是否靠谱的重要指标,智元机器人的商业模式只是初步得到验证,至于规模化扩张、扩大市场份额等前景还不明显。
更需要重视的是隐私安全,GO-1里所谓人类视频学习功能,会涉及到大量非授权数据采集。尽管智元承诺模糊人脸与敏感信息,但如何界定“合理使用”边界仍是法律空白。
尾声
从DeepSeek刷屏,到Manus突击,再到机器人大模型,2025开局不到3个月,人们就被创新者们「激进」的步伐一次次震撼。智元的“好东西”具体有多少落地的可能,我们暂时先打个问号,但有一点可以确定:AI就快要帮助人类做大事了。
文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。
奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。
“以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。
华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。