首页 > 云计算频道 > 大模型

多模态卷王阶跃震撼6连发，春节档最强AI家族来袭！

2025年01月22日 16:20:41 来源：新智元公众号

　　开年放大招!阶跃星辰重磅升级 Step 系基座模型全家桶，一口气连更上新6款模型。作为业内公认的「多模态卷王」，这家 AI 明星公司目前已拥有业内最全模型矩阵。

　　临近过年，阶跃星辰的春节系列大礼包也来了!

　　是的，这个国内屈指可数的坚持自研底座模型的大模型创业公司，又给业内带来了不小的震撼。

　　一口气接连上新了6款模型，从语言、语音、推理到多模态理解和生成，一网打尽。

　　经过这一轮迭代后，阶跃星辰的模型更全面，能力也更强了。而截至目前，国内有全类型基模布局的大模型公司，仅阶跃星辰、阿里通义、智谱三家。

　　当然，布局全是一方面，模型性能究竟同样令人关注。几乎跟阶跃发布全新模型同一时间，全新升级多模态 Step-1o 系在两大权威榜单中，再次拿下中国第一。

　　如今，阶跃在多模态卷王的路上越走越远。

　　接下来，让我们好好扒一扒，这波神级的更新有多猛。

　　理解生成一体化，多模态卷王持续领先

　　一开年，阶跃火速拿下新排位——在国内权威大模型评测平台 OpenCompass 中，Step-1o 直接问鼎。

　　这一情形似曾相识。

　　要知道，Step-1o 的上一个版本 Step-1V 多模态理解模型，去年上半年刚发布时，也火速登上了 OpenCompass 榜第一。最近一年，阶跃多模态模型在这张榜单上多次成功「守擂」。

　　Step-1o Vision:超越想象的视觉理解

　　与此同时，Step1o 系列的视觉版本多模态——Step-1o Vision，一经推出就为阶跃在多模态赛道的竞争中增加了一大助力。

　　在1月20日 LMSYS Org 最新发布的大模型竞技场 Chatbot Arena 多模态榜单中，Step-1o Vision 位列视觉领域中国大模型第一，是唯一进入前10名的中国公司。

　　相较于 Step-1V 系列模型，Step-1o Vision 进行了架构升级，在视觉识别、感知、指令跟随、推理等核心能力上都有大幅提升。看得更清楚，拥有更强大的细节感知能力，且看得更明白，能深刻理解视觉背后的复杂语义和隐喻。

　　更精准图像理解

　　Step-1o Vision 就像是获得了「火眼金睛」，能轻松应对复杂场景的识别图像内容的挑战，即便是相似的图片，也能轻松识别。

　　前段时间，Karpathy 转发了一篇关于软件工程「认知符合」的一篇论点文章，其中一张图很好诠释了核心观点。

　　将它扔给 Step-1o Vision，看看它的理解力如何?

　　AI 一眼就辨别出了图中左右部分差异之处，它分别分析了左图和右图核心要点，并在最后给出一个言简意赅的总结。

　　更令人惊叹的是，它还能精确识别并理解图像中的文化隐喻。

　　就好比如下这类的梗图，Step-1o Vision 分析得可是头头是道。

　　更强大的视觉推理

　　但真正令人震撼的是，Step-1o Vision 的视觉推理能力。

　　它不仅能看懂图片，还能基于图像内容进行深度思考和推理，为你答疑解惑、激发创意，成为每个人工作与学习路上的智能伙伴。

　　如下这张广告牌中，Step-1o Vision 准确读取了核心信息，并给出了超强的理解力——人类技能的不可替代性，以及对 AI 的幽默回应。

　　再比如，需要运用到策略的问题——拿到 VC 需要几步?

　　Step-1o Vision 先理解了图片之后，准确推理出得到最终目标物，需要的步骤。

　　语音模型 Step-1o Audio 再升级

　　Step-1o 系列这次升级的，还有语音模型 Step-1o Audio。

　　去年12月阶跃发布了国内首个千亿参数端到端语音大模型，如今在情绪感知与理解、多语种和多方言、通话体验上，又有了新的突破。

　　现在，它能感知你的情绪，精准识别出语气语调中的特别之处。真的 AI，就要做到比对象还贴心。

　　共情是深度沟通的基础。当我吐槽今天工作太累太累，它会贴心地送上问候，并愿意倾听我的糟心事，甚至还站在我的角度去考虑问题。

　　同时，它还支持多语种、多方言对话，在中英交流时，直接达到「同传」的水平!

　　而通话体验，也更加低延迟、声音更自然，有了个性化的风格。

　　首款推理模型:文理兼修，效果媲美 o1-mini

　　最近，业内各家都纷纷推出了自家的推理模型。

　　阶跃星辰的首款推理模型 Step R-mini，也及时登场了。至此，阶跃就圆满达成了这一成就:成为目前基座模型最全的公司之一。

　　虽说推理模型早已不是一个新鲜的概念，但在它们之中，却存在着严重的「偏科」现象。只会做数理题的 AI，就像个只会背公式的学霸，很难在实际任务中广泛应用。

　　而模型想要「文理兼修」，就必须变身全能型选手，什么通用任务都能轻松搞定。

　　这里的问题在于，如果只是简单地通过增加训练数据来提升文科能力，那么就会像跷跷板一样，造成模型理工科能力的下滑。

　　为了规避这一点，Step R-mini 采用了 On-Policy(同策略)强化学习算法，并进行了大规模的强化学习训练。

　　所以，Step R-mini 的推理能力如何?

　　令人惊喜的是，在 AIME 和 Math 等数学基准测试上，它的成绩超过了 o1-preview，比肩 OpenAI o1-mini。在 LiveCodeBench 代码任务上，也比 o1-preview 效果更佳。

　　接下来，我们就要上实测题了。

　　比如这道逻辑推理，Step R-mini 很轻松地就给出了正确答案。

　　一个控制小飞机躲子弹游戏的 python 代码，它经过一番思考后丝滑写出。

　　下面测试大部分推理模型的盲区——文科。在内容创作上，Step R-mini 写的现代诗的表现也是可圈可点。

　　在思考过程中，它会首先分析我们的要求，思考该怎样处理创作角度，如何赋予事物人类情感的象征意义。

　　引人注意的是，在推理模型的研发上，阶跃也在将自己擅长的多模态融入进去，Step R-mini 在视觉推理上已经有了阶段性成果。

　　最常见的问路题，Step R-mini 在复杂场景中，也能做出判断，给出正确的导向。

　　还有类似的题——「从蓝色箭头出发，我能到达哪个」，Step R-mini 一眼就辨认出路线。

　　再上升一个难度——「这些小球分别对应什么数字」，更多起到找终点的问题，AI 也没有被绕晕。

　　针对复杂视觉场景下的 Reasoning 问题，团队引入了慢感知和空间推理的思想，把 Test-Time Scaling 从文本空间转移到视觉空间，实现在视觉空间下的 Spatial-Slow-Thinking。

　　据悉，阶跃也计划今年发布多模态视觉推理。

　　Step-Video V2:开启视频生成新篇章

　　若说 Step-1o Vision 让 AI 真正理解了视觉世界，那么 Step-Video 则让 AI 创造力插上了想象的翅膀。

　　这一次，Step-Video 模型迎来了重大升级，迭代到了最新 V2版本。

　　复杂运动，动作更自然

　　其中，最令人印象深刻的是，其在复杂运动场景的突破。

　　我们已经看过太多太多，AI 视频模型在体操、运动、健身等场景中，频频失败的案例。

　　舞蹈、运动等各种复杂运动场景中，在 Step-Video V2的演绎下，呈现出前所未有的流畅自然感。

　　比如下面这段芭蕾舞，双腿频频交替之间，并没有出现幻觉。

　　舞台灯光为蓝色，背景幕布描绘了湖水和山峦的景象。一位身穿白色芭蕾舞裙的芭蕾舞演员在舞台中央翩翩起舞。固定镜头，平视拍摄，演员旋转，挥舞手臂，踮起脚尖。镜头拉远，平视拍摄，展示出更多芭蕾舞演员，她们身穿白色芭蕾舞裙，在舞台上整齐地排列，跟随主角的舞步，一同挥舞手臂，踮起脚尖。镜头缓慢推近，平视拍摄，聚焦于主角，她优雅地跳跃、旋转。固定镜头，平视拍摄，主角和芭蕾舞团的演员们在舞台上继续表演，她们的动作协调一致，展现出优美的舞姿。

　　人物刻画更逼真

　　在人物形象刻画上，Step-Video V2将细节表现推向了极致，更逼真生动、细节更丰富，表现更自然。

　　从五官轮廓到真实的皮肤质感，从自然的面部表情到微妙的身体语言，每一个细节都经过精心打磨。

　　再来看这位乘坐列车看向窗外的女子，AI 在人物刻画上也做到的非常真实，包括窗外物体运动方向，也很好地遵循了物理世界。

　　视频中，一位身着蓝色上衣的女子坐在列车窗前，头依靠着窗户看向窗外。她面带微笑，眼神中透露出对窗外景色的向往。列车正高速行驶，窗外的景色迅速向后掠过，仿佛是一幅幅流动的画卷。整个画面采用固定镜头拍摄，画面清晰，具有纪实风格，展现了女子与窗外景色的和谐美感。

　　Step-Video V2在「变身」方面，表现更加精彩——一个小男孩突然变身毒液。

　　视频中，一个身穿西装的小男孩，突然表情变得狰狞，身体逐渐被黑色的液体包裹，最终变身成为黑色毒液。这个过程在暗色调的环境中进行，背景较为模糊，突出表现了小男孩变身的每一个细节。视频采用特写镜头拍摄，具有科幻风格，清晰地展示了变身的每一个动作细节，给人以震撼感。

　　精准文字生成

　　不仅如此，Step-Video V2在文字生成方面，更加精准，还能支持中英双语输入。

　　下面「2025」字样中，比较难得一点是，AI 还可以将倒映在地板上的2025同时生成出来。

　　采用3D 动画风格，视频中，慢慢显现出了“Year of Snake，2025”的字样，天空中绽放出绚烂的烟花。2025字样晶莹剔透泛着金光，地板上反射着它的倒影，背景是黑色的地板。一条卡通蛇戴着一副酷炫的黑色墨镜不断扭动身体，镜片上反射着舞台的灯光。画面采用固定机头，动画风格，展现了蛇年过年喜庆热闹的氛围。

　　带着红色围巾的小猫，手里拿着福字，过年氛围感完全拉满了。

　　视频中，一只毛色柔软的灰色小猫前爪紧握着写有「福」字样的对联。它戴着一条红色的围巾，围巾上绣着金色的花纹。小猫的眼神专注而灵动，似乎在为新年的到来而欢呼雀跃。它站在一个装饰华丽的房间里，房间里挂满了彩带和气球，充满了节日的氛围。整个画面采用固定镜头拍摄，画面清晰，具有温馨而喜庆的氛围。

　　镜头表现力突破性升级

　　更令人兴奋地是，Step-Video V2在视频叙事上，实现了全方位的升级。

　　丰富的镜头语言，让其能够创作出更具感染力的作品。

　　视频中，一名身穿醒目黄色和红色赛车服的赛车手，头戴专业头盔，驾驶一辆设计独特的白色和红色本田摩托车，在泥土赛道上展开紧张刺激的越野赛。镜头以平视方式跟随赛车手，捕捉他每一个跳跃、转弯和加速的瞬间。赛道由松散的泥土构成，背景中观众席、围栏、旗帜

　　再加上推位摇移等专业镜头技巧的灵活运用，Step-Video V2不仅让视频画面更具美感，更为内容叙事注入了独特的艺术魅力。

　　下面这个「跟拍」宇航员的镜头，完全不输好莱坞大片。人物角色额头上的汗珠，这么微小的细节，AI 也能完全呈现出来。

　　手持跟踪镜头滑过飞船走廊，捕捉到宇航员工作时专注而有序的神态。镜头拉近到一名操作员，他全神贯注地盯着屏幕，额头上沁出了汗珠，周围的仪器发出低沉的嗡嗡声，加剧了紧迫感。

　　Step-2mini、Step 文学大师来了

　　除了多模态模型，阶跃自研的语言模型也实力强大，表现亮眼。

　　比如去年3月发布的 Step-2，就是国内最早由创业公司发布的万亿参数大模型，多次在国内外权威榜单上获得中国第一。

　　此次升级的 Step-2mini、Step 文学大师版都是 Step-2系列的分支。不同的是，前者性价比更高，更具商用性，后者则在文学创作上表现出了惊人能力。

　　Step-2mini

　　Step-2mini 是一款小参数模型，它的亮点是极速响应、高性价比，因而商业化场景更广泛。

　　对比 Step-2来看，Step-2mini，只有3%左右的参数量，却保有了80%以上的模型性能。

　　与此同时，它拥有更快的生成速度，和极高的性价比。

　　在输入4000tokens 的情况下，Step-2mini 的平均首字时延仅0.17秒。输入低至1元/百万 token;输出低至2元/百万 token。

　　之所以能达到如此极速的效果和极致性价比，都要归功于阶跃星辰自主研发的新型注意力机制架构——MFA(多矩阵分解注意力)及其变体 MFA-Key-Reuse。

　　相比于常用的 MHA(多头注意力)架构，这种架构节省了近94%的 KV 缓存开销，因而拥有了更快的推理速度，同时大幅降低了推理成本。

　　现在，在阶跃星辰开放平台，开发者已经可以调用 Step-2mini 的 API 接口了。

　　Step 文学大师

　　Step-2文学大师版，是专为创作而生的语言模型。

　　它不仅沿袭了万亿参数语言模型 Step-2广袤的知识储备、对文字强大的细节把控能力，还拥有更强大的内容创作能力。

　　为什么很多大模型创作的内容，总有一股挥之不去的 AI 味?

　　本质原因，就是这些模型过度对齐社会共识，「跪得太直」。因为丝毫没有真情实感，一出口自然也就是「正确的废话」，缺少灵魂。

　　好的内容创作，需要逻辑严密、语言凝练、句句带料，拥有深刻思想和独特风格。

　　不过，这许多人类都无法做到的事，模型怎么做到呢?

　　此时，Scaling Law 就是重中之重了。模型小、预训练数据小，模型就没有足够的智能。

　　而 Step-2文学大师的训练过程中，足够的模型容量、训练数据量，都成为了它文字功底的基石。

　　那就让我们来看看，Step-2文学大师的写作功底究竟如何。

　　我们请它以「过年」为题，写一篇悬疑小说。

　　有了有了，有那味了!这个悬念丛生的故事，是小编在某乎上看到，一定会付费看到结局的程度。

　　接下来，让它试试写一篇科幻小说，描写一下100年后人类和 AI 共存的世界。

　　这篇故事的主人公，负责 AI 的定期销毁。看到最后一段，小编后背一凉:Step-2文学大师，您的大作真是绝了!

　　初心不变，AGI 路上的技术理想主义者

　　百模大战之后，阶跃星辰、智谱、百川智能、月之暗面、MiniMax、零一万物脱颖而出，成为人们口中的「AI 六小强」。而这六家 AI 初创明星公司，也因过去一年的选择，分化出了全新的格局。

　　一直以来，技术演进和商业探索都不是一条直线。各家根据自身特点选择不同的路径，这种多元化发展格局，恰恰体现了行业的蓬勃生机。

　　百川智能专注 AI 医疗领域，其医疗增强大模型能力全球领先，并且在落地应用上也取得了不错进展。聚焦金融、教育、医疗等行业的商业化，通过全链路领域增强的一站式解决方案帮助企业智能化升级。

　　零一万物聚焦参数适中、推理速度更快、推理成本更低、更具商业落地前景的性能卓越的轻量化模型。在国内市场专注 ToB 方向，在海外市场则以理性的姿态继续 ToC 应用的探索。

　　月之暗面通过 Kimi 探索国内消费级市场，力争打造 AI 时代的超级应用。并于近日推出了 OpenAI 满血版 o1之外第二个多模态推理模型 k1.5。

　　此外，阶跃星辰则选择继续在基座大模型上加大研发。

　　不久前，阶跃星辰已经完成了 B 轮融资，资金总额高达数亿美金。据了解，这笔资金将继续用于基础模型的研发，继续强化多模态和复杂推理方面。阶跃一口气发布的基模「六连更」，是2025年第一张成绩单。

　　回顾过去一年各大 AI 产品的发展历程，我们不难发现一个规律:无论是对话能力、创意写作，还是代码生成，用户体验的天花板始终受限于底层模型的能力边界。

　　一些看似简单的产品创新，往往需要强大的模型能力的支撑。

　　值得一提的是，Step 系模型多次在各大权威榜单中登顶榜首，收获国内外开发者诸多好评，充分验证了其技术实力。

　　AI 大模型的竞争就像一场马拉松，重要的不是起跑的速度，而是途中的节奏和后程的耐力。而现在，阶跃冲刺的后劲十足。

　　从千亿参数到万亿参数的跨越，从文本图像理解到视频生成的拓展，阶跃正在用一个个具体成果，将那张通往 AGI 的路线图变为现实。

　　毕竟，在通过 AGI 的征程上，只有那些能够持续积累的玩家，才有可能走到最后。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

[No. ]
分享到微信

即时

第十四代英特尔@酷睿™ 处理器：性能飞跃，重塑计算

第十四代英特尔® 酷睿™ 处理器(代号Raptor Lake S Refresh)采用了先进的Intel 7制程工艺。

第十四代英特尔@酷睿™ 处理器：性能飞跃，重塑计算

“强悍小透明”真我Neo7 Turbo正式发布，国补到手1699.15

多模态卷王阶跃震撼6连发，春节档最强AI家族来袭！

即时

第十四代英特尔@酷睿™ 处理器：性能飞跃，重塑计算

新闻

明火炊具市场：三季度健康属性贯穿全类目

企业IT

重庆创新公积金应用，“区块链+政务服务”显成效

3C消费

华硕ProArt创艺27 Pro PA279CRV显示器，高能实力，创

研究

中国信通院罗松：深度解读《工业互联网标识解析体系

专题

多模态卷王阶跃震撼6连发，春节档最强AI家族来袭！

扩展阅读