天工版o1、4o同时上线！超强逻辑推理秒杀数学竞赛，实时语音陪聊太上头

2025年01月06日 14:50:17 来源：新智元公众号

　　今天，「天工大模型4.0」o1版/4o版在网页端和APP端正式上线了，人人可玩的那种。

　　最近，2024中国互联网价值榜发布。

　　2024年AIGC应用用户规模TOP榜中，昆仑万维旗下天工AI强势入围!

　　如今，天工AI已经取得了中国典型工具类AIGC应用TOP4的好成绩，在多梯队的猛烈厮杀格局中稳稳占据优势。

　　同时，还不断有好消息传来。

　　就在今天，天工大模型4.0o1版/4o版正式上线天工网页端和APP。底座大模型，正式进化到「天工4.0」。

　　「天工大模型4.0」 o1版(Skywork o1)的上线，意味着国内首款中文逻辑推理能力的o1模型来了!

　　数学高考题、考研题、奥数题，Skywork o1都能靠自己的逐步思考破解。

　　注意!Skywork o1并不是简单地复现OpenAI o1模型的工作。它不仅在模型输出上内生了思考、计划、反思等能力，还在模型真正拥有了思考和反思之后，带来了推理能力的提升。

　　在最近热转的复旦等机构解密OpenAI o1路线图这一研究中，skywork-o1就被列为国内o1级模型的代表之一

　　并且，昆仑万维天工大模型4.0上线后，应用端不仅在逻辑推理和代码功能上有了几大提升，语音交互上的表现也着实令人惊叹。

　　一个月正式发布的新产品「实时语音对话助手Skyo」，如今有了史诗级提升。

　　众网友实测后纷纷表示，原来国内版的「Her」，已经进化到了不输OpenAI版本的地步!

　　具备多语言对话能力的Skyo，不仅能快速响应、主动发起对话、实时打断，给出的回应还十分情感化，已经具备了类人特征。

　　还等什么，实测马上呈上。

　　超强推理+自我反思，免费体验

　　现在，分别打开天工APP或网页端，任何人皆可免费享用最新天工4.04o版或o1版模型加持的AI了。

　　既然主打的是推理，那么我们就先来看看Skywork o1在数学题上的表现如何。

　　先来个硬核的，AIME数学竞赛题。

　　题目是这样的——

　　Jen通过从S={1，2，3， ... ，9，10} 中挑选4个不同的数字来参加抽奖。从S中随机选择4个号码。如果她的至少两个号码是随机选择的号码中的2个，她就能赢得奖金;如果她的四个号码都是随机选择的号码，她就能赢得大奖。假设她赢得了奖品，她赢得大奖的概率是m/n，其中m和n是相对质的正整数。求m+n。

　　Skywork o1用时1分55秒，经过一番思考后，最终给出了正确答案——116。

　　对于下面这道同样有些难度的数学题，模型在经过一番思考之后，很快就想到了用图论中的「图兰定理」去解。

　　值得一提的是，在思考过程中它对答案不确定时，甚至会反思自己的回答，直至最终确定25是正确答案。

　　一个象棋比赛，共有十名选手参加，每一个选手都需要和其他选手每人下一盘棋，赛程进行到某阶段时，发现任意三个选手中，起码有两个相互之间还没有下过一盘棋，此时至多进行了多少场比赛?

　　2024年高考新课标一卷的数学真题，Skywork o1也能做出正确答案，就是方法稍微「笨」了点。

　　复杂一些的逻辑推理题，Skywork o1也能做对。

　　这道从池塘中取水的推理题，它通过一步步的思考过程，推理出了正确答案。

　　还有这道「一个人花8块钱买了一只鸡，9块钱卖掉了，然后他觉得不划算，花10块钱又买回来了，11块卖给另外一个人。问他赚了多少」，Skywork o1反复斟酌之后给出了正确的答案。

　　为什么刚出生的小孩只有一只左眼?这个脑筋急转弯，没能瞒过Skywork o1的眼睛。

　　弱智吧难题，不在话下。

　　比如父母以后的钱都是留给我的，可不可以认为父母现在正在花我的钱?Skywork o1从财产所有权、继承权、遗嘱和继承法、道德和家庭关系方面给出了全面的回答。

　　吕布马上无敌，典韦步战无敌，吕布骑着典韦会不会天下无敌?Skywork o1表示，有趣的脑洞只是一个戏谑的表达，而非严肃的历史或军事讨论。

　　最后，上一道LeetCode贪心算法的分发饼干代码难题。题目如下——

　　假设你是一位很棒的家长，想要给你的孩子们一些小饼干。但是，每个孩子最多只能给一块饼干。

　　对每个孩子i，都有一个胃口值 g[i]，这是能让孩子们满足胃口的饼干的最小尺寸;并且每块饼干j，都有一个尺寸s[j] 。如果s[j] >= g[i]，我们可以将这个饼干j分配给孩子i，这个孩子会得到满足。你的目标是尽可能满足越多数量的孩子，并输出这个最大数值。

　　Skywork o1也顺利给出了答案。

　　自研技术方案，持续创新迭代

　　那么，Skywork o1为何能在逻辑推理任务上，有如此大幅的提升?

　　这就要得益于天工三阶段自研的训练方案。

　　推理反思能力训练

　　首先，在推理训练方面，团队通过自主研发的多智能体体系，构建出了高质量的分步推理、反思与验证数据。

　　然后，用这些高质量且多样化的长思考数据，对基座模型进行继续预训练和监督微调，并在版本迭代中采用大规模的自蒸馏和拒绝采样，从而显著提升了模型的训练效率和逻辑推理能力。

　　推理能力强化学习

　　其次，在强化学习阶段，团队创新性地提出了一种适配分步推理强化的奖励模型——Skywork o1Process Reward Model(PRM)。

　　在最新的版本中，团队将Skywork-PRM的应用范围，从原本侧重的数学和代码领域，拓展到了常识推理、逻辑推演和伦理决策等更广泛的场景中。同时，还针对写作、闲聊等通用领域以及多轮对话构建了专门的训练数据，实现了全场景覆盖。

　　此外，团队重点提升了Skywork-PRM的模块化评估能力，特别是在处理o1风格思维链方面，优化了试错和反思验证机制。通过更细致的评估体系，为强化学习和搜索过程提供了更精准的奖励信号指导。

　　推理planning

　　最后，在推理的规划方面，团队通过自研的Q*线上推理算法，以及模型的在线思考能力，实现了最优推理路径的寻找。

　　概括来说，Q*算法通过借鉴人类大脑中「System2」的思考方式，将LLM的多步推理过程抽象为一个启发式搜索问题。

　　然后，再通过Q*线上推理框架与模型在线思考的结合，实现了推理过程中的精细规划，进而指导LLM的解码过程。

　　Q*算法的成功落地，不仅显著提升了模型的线上推理能力，同时也标志着Q*算法的全球首次实现和公开。

　　更进一步的，团队基于Q*算法对推理系统进行了全面优化。

　　第一点是模块化的树形结构推理:

　　团队通过高质量、多样化的长思考数据对Skywork o1进行预训练和监督微调，使模型具备了对整个推理流程进行系统规划，自动将回答按层次展开，同时在推理过程中融入自我反思和验证环节的结构化输出能力。

　　此外，还创新性地利用以「模块」为单位的规划方式，取代了传统的以「句子」为单位的方法。既提升了规划效率，也使PRM能够基于更完整的模块化回答进行准确判断和推理指导。

　　第二点是自适应的搜索资源分配:

　　针对现有o1风格模型存在的过度思考问题，团队开发出了一种全新的自适应搜索资源分配机制。也就是，通过对用户query进行难度预估，自适应地控制搜索树的宽度和深度，进而实现简单问题快速响应、复杂问题多轮验证的动态平衡，有效提升了系统的计算效率和回答准确率。

　　最终，Skywork o1在GSM8k，MATH，OlympiadBench，AIME-24和AMC-23标准数学基准测试，以及HumanEval、MBPP、LiveCodeBench和BigCodeBench代码基准测试中，性能显著优于常规通用大模型，表现仅次于o1-mini。

　　实时语音助手，开启AI交互新纪元

　　在APP端，「天工大模型4.0」4o版加持的实时语音对话助手Skyo，同样带来了前所未有的自然交互体验。

　　它不仅能在1秒内快速响应，还具备了多语言对话、主动发起对话、实时被打断的能力。

　　与此同时，4o未来版本可以支持个性化声音定制功能，能够以任何人希望的风格畅聊。

　　这是这种个性化的体验，让4o不再是冰冷的AI，而是一个更智能的AI伙伴。

　　当你唤醒Skyo后，他会主动热情打招呼，并尝试开启一个新的话题。当你生活中遇到难题时，可以向它寻求建议和帮助。

　　比如，家里2岁的宝宝总是说不要不要，我该怎么办?

　　冰箱里有鸡蛋、生菜、西红柿、鸡腿、香菇，根据这些原材料，能帮我推荐一份食谱吗?

　　当你想要策划一场旅行，它还会贴心地为你做好攻略——我计划去北京度假3天，你能帮我做一份攻略吗?

　　甚至，当你无聊时，可以让Skyo玩脑筋急转弯、猜字谜，或者一起聊天......

　　比如，我们一起玩脑筋急转弯吧，我问你答。什么瓜不能吃?麒麟到了北极会变成什么?

　　我们还对Skyo进行了压力测试，看看在不断被打断的情况下，它能否依旧表现亮眼?

　　「帮我朗读一首李白的静夜思;李白的写作风格是怎样的?和李白同时期的著名诗人有哪些?帮我再朗读一首杜甫的诗」。

　　果不其然，在整个对话过程中，它完全能够跟上节奏，不仅有感情地朗读出诗仙的静夜思，并在古代诗人相关的信息问答中，给出了准确且丰富的回答。

　　接下来，我们一口气连问四个问题，Skyo即便被频频打断，也没有「崩溃」。

　　「对于一个单身男青年，可以推荐他晚上看什么电影?什么情况下，说谎是个正确的选择?怎么样区分真诚的道歉和虚伪的道歉?如果动物会说话，它们会说些什么」?

　　从以上案例可以看出，Skyo具备了基本的智力能力和流畅的响应度，而且它还能做出有趣的互动，成为你个性化的陪聊搭子。

　　多模态LLM端到端建模

　　深挖背后，Skywork4o加持的Skyo突破性体验，是昆仑万维基于大模型、AI音乐等领域的研发经验，以及大量的语音数据积累，打造出这个端到端的语音对话系统。

　　传统的语音助手采用了ASR(语音识别)+NLU(自然语言理解)+TTS(语音合成)级联方案去实现。

　　英伟达高级科学家Jim Fan曾指出，AI语音系统Whisper、大模型ChatGPT，以及语音合成技术VALL-E，是让诸如Siri/Alexa等传统语音助手得到改善的一个系统流程。

　　不过，在此期间，三个独立的模型在串联过程中，会带来响应延迟，甚至是信息损失、优化困难等问题。

　　对此，昆仑万维选择了一条艰难的创新之路，采用多模态LLM端到端建模。

　　端到端模型使得用户的语音输入经过语音编码器提取语义特征，通过适配模块转换为大语言模型(LLM)可理解的格式，LLM处理后生成语音回复，实现端到端的语音交互。从根本上解决了这些难题。

　　团队还采用了低比特率单码本语音Tokenizer，在显著降低延迟的同时还保持了音质。为了扩展语音建模能力，Skywork4o在超百万小时多语言语音数据上完成了训练。skyo支持全双工流式输出，确保了实时交互的体验。

　　最关键的是，它不仅能准确识别语音内容，还能捕捉语速、语调、情感等细微的特征，从而做出情感化的回应。

　　比如我们问道，「我今天在路上偶遇到了一只流浪猫，看着它怪可怜的，所以我决定收养了它」。

　　Skyo的回答中语气上扬，对这个行为做出了极大的肯定。

　　再比如，「我最近感到非常疲惫，心情有点差」。

　　Skyo感同身受地表示，「我能够理解你现在不是处在最美好的状态」。随后，它又主动推荐了一些调节心情的方法。

　　「有时候，我甚至感觉自己不被人理解」。

　　听完AI的回答，瞬间感到非常地温暖贴心，甚至有时会给人一种在和知心朋友交流的错觉。

　　一年迭三代，跻身国内第一梯队

　　纵观全球AI行业的发展，过去一年里，应用落地成为最受瞩目的关键词。

　　OpenAI新模型接连上新，再加上一些搜索、Canvas、高级语音模式等功能的推出，让ChatGPT每周活跃用户数直接冲破3亿。

　　微软押注的C o p i l o t不断迭代，并赋能了更多平台/工具，包括GitHub、Office365等等。

　　至于谷歌，今年最爆火的一款应用非NotebookLM莫属，一键转写总结播客让所有人拍案叫绝。

　　还有Anthropic、亚马逊、Meta等国外科技巨头们，都在AI落地战场上加速布局。

　　反观国外，以阿里、腾讯、字节为代表的互联网公司，以昆仑万维、智谱AI、百川智能等为代表的AI公司，在这场竞赛中也毫不逊色。

　　据QuestMobile统计，截至今年9月，国内AI原生应用活跃用户数接近8000万人。

　　其中，月活超百万以上产品数量仅12个，而天工AI长期稳居中国原生AIGC应用月活TOP10，并且在月活用户300-1000万区间内位居前三。

　　值得注意的是，昆仑万维凭借其扎实的技术积累，以及清晰的战略布局，正逐步确立自己在这个赛道中的领先地位。

　　去年5月，其主打产品天工AI日活跃用户(DAU)已经突破百万大关。

　　作为一家老牌互联网企业，昆仑万维从2008年诞生后，一直在书写着自己的AI传奇。

　　2020年，在GPT-3出世的这个关键节点上，团队开始全面布局AIGC和大模型领域。

　　2024年，是昆仑万维在AI领域的丰收年。

　　截至目前，他们已自研出五大模型体系，包括文本大模型、多模态大模型、3D大模型、视频大模型和音乐大模型。

　　在大模型方面，团队在2月推出MoE大语言模型「天工2.0」，紧接着4月又迭代了4000亿参数的「天工3.0」，性能大幅超越Grok-1，一举成为全球最大的开源MoE。

　　与此同时，音乐生成大模型「天工SkyMusic」正式诞生。6月，昆仑万维开源了2000亿稀疏大模型Skywork-MoE。再到11月，4o和o1版模型相继诞生。

　　不仅如此，昆仑万维的影响力已遍布全球市场。

　　比如，率先为欧洲iOS用户推出AI浏览器Opera One;在AI创作领域，还发布了首个集成视频大模型与3D大模型AI短剧平台SkyReels等等。

　　目前，公司在全球平均有近4亿月活，海外收入占比高达89.7%，在社交、游戏、音乐等领域已经形成壁垒。

　　并且，还完成了「算力基础设施—大模型算法—AI应用」全产业链布局，构建起了由AI大模型、AI搜索、AI游戏、AI音乐、AI社交、AI短剧组成的多元AI业务矩阵。

　　昆仑万维的实践带来的启示是，AI落地不仅仅需要强大的技术能力，更需要的是对应用场景的深刻理解。

　　正是这种扎根于实际应用场景的技术研发思路，使得团队能够准确把握用户需求，将过往积累的能力快速转化为解决世界问题的产品。

　　这次，4o和o1在天工全新上线，又将成为这款应用破局的下一个爆发点。

　　不仅如此，昆仑万维对AGI发展路径的思考极具前瞻性。

　　回顾过去两年，科技圈对AGI的讨论可谓是起起落落。特别是2024年年初，随着Sora诞生之后，许多人一度陷入过度乐观的狂热，认为AGI实现就在一两年之内。

　　然而到了年中，这股热潮又迅速消退，悲观论调开始盛行——AGI遥遥无期。

　　昆仑万维创始人周亚辉对未来30年，做出了富有远见的判断:人类社会将从感知转向表达，创作和自我表达将成为增长最快的曲线。AGI时代的标志是人形机器人真正进入社会，2030年之后才会开始逐步实现通用人工智能AGI。

　　关于这个时间节点，他从未改变过。

　　不过，在迈向AGI时代之前，机器人技术的面临着三大核心挑战:空间智能大模型;运动控制技术;机器人商业化定位以及能源问题。这些挑战的突破，皆需要全球顶尖AI科学家的努力。

　　周亚辉认为，机器人技术发展的进程如何，其在军事领域的应用是一个重要的指标。

　　未来，如果机器人产业带来超10亿美金市场规模，将会对整个社会结构和社会治理产生重大的影响。

　　基于这些判断，昆仑万维在2024年初就确立了「实现AGI，让每个人更好地塑造和表达自我」的新使命。

　　而现在，在这条通往AGI的道路上，他们正在用技术创新和产品落地，一步步将愿景变为现实。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

[No. ]
分享到微信

即时

第十四代英特尔@酷睿™ 处理器：性能飞跃，重塑计算

第十四代英特尔® 酷睿™ 处理器(代号Raptor Lake S Refresh)采用了先进的Intel 7制程工艺。

第十四代英特尔@酷睿™ 处理器：性能飞跃，重塑计算

“强悍小透明”真我Neo7 Turbo正式发布，国补到手1699.15

天工版o1、4o同时上线！超强逻辑推理秒杀数学竞赛，实时语音陪聊太上头

即时

第十四代英特尔@酷睿™ 处理器：性能飞跃，重塑计算

新闻

明火炊具市场：三季度健康属性贯穿全类目

企业IT

重庆创新公积金应用，“区块链+政务服务”显成效

3C消费

华硕ProArt创艺27 Pro PA279CRV显示器，高能实力，创

研究

中国信通院罗松：深度解读《工业互联网标识解析体系

专题

天工版o1、4o同时上线！超强逻辑推理秒杀数学竞赛，实时语音陪聊太上头

扩展阅读