安慕斯荣获中国柔巾行业十强企业中国、印尼推动二维码跨境互联互通,中国主要支付 App 将支持当地扫码支付2025 年 Brand Finance 全球 500 强榜单发布:苹果登顶,TikTok 跻身第七微软调整 Microsoft 账户登录方式:下月起默认保持登录状态黑客组织宣称窃取 HPE 慧与大量数据,企业已展开调查字节跳动剪映海外版 CapCut 在美恢复运营滴滴:今年春运第一周入境用户打车订单涨超 55%华硕与广告拦截器 AdGuard 达成合作,旗下 Wi-Fi 7 路由器将支持拦截广告Netflix 再次涨价:美国最便宜套餐从每月 6.99 美元涨至 7.99 美元澜起科技宣布推出国产 PCIe 6.x/ CXL 3.x Retimer 并向客户送样,PCIe 7.0 芯片研发中三星 SF4X 先进制程获 IP 生态支持:Blue Cheetah 流片 D2D 互联 PHY英伟达机器人业务团队到访北京国地中心,双方规划合作事电影《刺猬索尼克 4》北美定档 2027 年 3 月 19 日上映微软 Edge 游戏助手上线,游戏时查攻略更方便格力电器:造谣公司及高管的 5 人已被行政处罚 2025/1/22 10:55:06 来源:IT之家 作者:汪淼 责编:汪淼评论:42印尼针对谷歌滥用 Play 应用商店结算系统主导地位开出 2020 亿印尼盾罚单和李太白共饮、同兵马俑对弹,央视 2025 网络春晚今晚开播小年来京东年货节换新3C数码装备更划算 使用国家补贴优惠15%起构网技术新趋势:因网制宜,守护电网安全稳定足坛传奇欧文空降和成天下高端文化馆!现场送出签名款和成天下&紫禁城联名【春节限定礼盒】
  • 首页 > 云计算频道 > 大模型

    多模态卷王阶跃震撼6连发,春节档最强AI家族来袭!

    2025年01月22日 16:20:41   来源:新智元公众号

      开年放大招!阶跃星辰重磅升级 Step 系基座模型全家桶,一口气连更上新6款模型。作为业内公认的「多模态卷王」,这家 AI 明星公司目前已拥有业内最全模型矩阵。

      临近过年,阶跃星辰的春节系列大礼包也来了!

      是的,这个国内屈指可数的坚持自研底座模型的大模型创业公司,又给业内带来了不小的震撼。

      一口气接连上新了6款模型,从语言、语音、推理到多模态理解和生成,一网打尽。

      经过这一轮迭代后,阶跃星辰的模型更全面,能力也更强了。而截至目前,国内有全类型基模布局的大模型公司,仅阶跃星辰、阿里通义、智谱三家。

      当然,布局全是一方面,模型性能究竟同样令人关注。几乎跟阶跃发布全新模型同一时间,全新升级多模态 Step-1o 系在两大权威榜单中,再次拿下中国第一。

      如今,阶跃在多模态卷王的路上越走越远。

      接下来,让我们好好扒一扒,这波神级的更新有多猛。

      理解生成一体化,多模态卷王持续领先

      一开年,阶跃火速拿下新排位——在国内权威大模型评测平台 OpenCompass 中,Step-1o 直接问鼎。

      这一情形似曾相识。

      要知道,Step-1o 的上一个版本 Step-1V 多模态理解模型,去年上半年刚发布时,也火速登上了 OpenCompass 榜第一。最近一年,阶跃多模态模型在这张榜单上多次成功「守擂」。

      Step-1o Vision:超越想象的视觉理解

      与此同时,Step1o 系列的视觉版本多模态——Step-1o Vision,一经推出就为阶跃在多模态赛道的竞争中增加了一大助力。

      在1月20日 LMSYS Org 最新发布的大模型竞技场 Chatbot Arena 多模态榜单中,Step-1o Vision 位列视觉领域中国大模型第一,是唯一进入前10名的中国公司。

      相较于 Step-1V 系列模型,Step-1o Vision 进行了架构升级,在视觉识别、感知、指令跟随、推理等核心能力上都有大幅提升。看得更清楚,拥有更强大的细节感知能力,且看得更明白,能深刻理解视觉背后的复杂语义和隐喻。

      更精准图像理解

      Step-1o Vision 就像是获得了「火眼金睛」,能轻松应对复杂场景的识别图像内容的挑战,即便是相似的图片,也能轻松识别。

      前段时间,Karpathy 转发了一篇关于软件工程「认知符合」的一篇论点文章,其中一张图很好诠释了核心观点。

      将它扔给 Step-1o Vision,看看它的理解力如何?

      AI 一眼就辨别出了图中左右部分差异之处,它分别分析了左图和右图核心要点,并在最后给出一个言简意赅的总结。

      更令人惊叹的是,它还能精确识别并理解图像中的文化隐喻。

      就好比如下这类的梗图,Step-1o Vision 分析得可是头头是道。

      更强大的视觉推理

      但真正令人震撼的是,Step-1o Vision 的视觉推理能力。

      它不仅能看懂图片,还能基于图像内容进行深度思考和推理,为你答疑解惑、激发创意,成为每个人工作与学习路上的智能伙伴。

      如下这张广告牌中,Step-1o Vision 准确读取了核心信息,并给出了超强的理解力——人类技能的不可替代性,以及对 AI 的幽默回应。

      再比如,需要运用到策略的问题——拿到 VC 需要几步?

      Step-1o Vision 先理解了图片之后,准确推理出得到最终目标物,需要的步骤。

      语音模型 Step-1o Audio 再升级

      Step-1o 系列这次升级的,还有语音模型 Step-1o Audio。

      去年12月阶跃发布了国内首个千亿参数端到端语音大模型,如今在情绪感知与理解、多语种和多方言、通话体验上,又有了新的突破。

      现在,它能感知你的情绪,精准识别出语气语调中的特别之处。真的 AI,就要做到比对象还贴心。

      共情是深度沟通的基础。当我吐槽今天工作太累太累,它会贴心地送上问候,并愿意倾听我的糟心事,甚至还站在我的角度去考虑问题。

      同时,它还支持多语种、多方言对话,在中英交流时,直接达到「同传」的水平!

      而通话体验,也更加低延迟、声音更自然,有了个性化的风格。

      首款推理模型:文理兼修,效果媲美 o1-mini

      最近,业内各家都纷纷推出了自家的推理模型。

      阶跃星辰的首款推理模型 Step R-mini,也及时登场了。至此,阶跃就圆满达成了这一成就:成为目前基座模型最全的公司之一。

      虽说推理模型早已不是一个新鲜的概念,但在它们之中,却存在着严重的「偏科」现象。只会做数理题的 AI,就像个只会背公式的学霸,很难在实际任务中广泛应用。

      而模型想要「文理兼修」,就必须变身全能型选手,什么通用任务都能轻松搞定。

      这里的问题在于,如果只是简单地通过增加训练数据来提升文科能力,那么就会像跷跷板一样,造成模型理工科能力的下滑。

      为了规避这一点,Step R-mini 采用了 On-Policy(同策略)强化学习算法,并进行了大规模的强化学习训练。

      所以,Step R-mini 的推理能力如何?

      令人惊喜的是,在 AIME 和 Math 等数学基准测试上,它的成绩超过了 o1-preview,比肩 OpenAI o1-mini。在 LiveCodeBench 代码任务上,也比 o1-preview 效果更佳。

      接下来,我们就要上实测题了。

      比如这道逻辑推理,Step R-mini 很轻松地就给出了正确答案。

      一个控制小飞机躲子弹游戏的 python 代码,它经过一番思考后丝滑写出。

      下面测试大部分推理模型的盲区——文科。在内容创作上,Step R-mini 写的现代诗的表现也是可圈可点。

      在思考过程中,它会首先分析我们的要求,思考该怎样处理创作角度,如何赋予事物人类情感的象征意义。

      引人注意的是,在推理模型的研发上,阶跃也在将自己擅长的多模态融入进去,Step R-mini 在视觉推理上已经有了阶段性成果。

      最常见的问路题,Step R-mini 在复杂场景中,也能做出判断,给出正确的导向。

      还有类似的题——「从蓝色箭头出发,我能到达哪个」,Step R-mini 一眼就辨认出路线。

      再上升一个难度——「这些小球分别对应什么数字」,更多起到找终点的问题,AI 也没有被绕晕。

      针对复杂视觉场景下的 Reasoning 问题,团队引入了慢感知和空间推理的思想,把 Test-Time Scaling 从文本空间转移到视觉空间,实现在视觉空间下的 Spatial-Slow-Thinking。

      据悉,阶跃也计划今年发布多模态视觉推理。

      Step-Video V2:开启视频生成新篇章

      若说 Step-1o Vision 让 AI 真正理解了视觉世界,那么 Step-Video 则让 AI 创造力插上了想象的翅膀。

      这一次,Step-Video 模型迎来了重大升级,迭代到了最新 V2版本。

      复杂运动,动作更自然

      其中,最令人印象深刻的是,其在复杂运动场景的突破。

      我们已经看过太多太多,AI 视频模型在体操、运动、健身等场景中,频频失败的案例。

      舞蹈、运动等各种复杂运动场景中,在 Step-Video V2的演绎下,呈现出前所未有的流畅自然感。

      比如下面这段芭蕾舞,双腿频频交替之间,并没有出现幻觉。

      舞台灯光为蓝色,背景幕布描绘了湖水和山峦的景象。一位身穿白色芭蕾舞裙的芭蕾舞演员在舞台中央翩翩起舞。固定镜头,平视拍摄,演员旋转,挥舞手臂,踮起脚尖。镜头拉远,平视拍摄,展示出更多芭蕾舞演员,她们身穿白色芭蕾舞裙,在舞台上整齐地排列,跟随主角的舞步,一同挥舞手臂,踮起脚尖。镜头缓慢推近,平视拍摄,聚焦于主角,她优雅地跳跃、旋转。固定镜头,平视拍摄,主角和芭蕾舞团的演员们在舞台上继续表演,她们的动作协调一致,展现出优美的舞姿。

      人物刻画更逼真

      在人物形象刻画上,Step-Video V2将细节表现推向了极致,更逼真生动、细节更丰富,表现更自然。

      从五官轮廓到真实的皮肤质感,从自然的面部表情到微妙的身体语言,每一个细节都经过精心打磨。

      再来看这位乘坐列车看向窗外的女子,AI 在人物刻画上也做到的非常真实,包括窗外物体运动方向,也很好地遵循了物理世界。

      视频中,一位身着蓝色上衣的女子坐在列车窗前,头依靠着窗户看向窗外。她面带微笑,眼神中透露出对窗外景色的向往。列车正高速行驶,窗外的景色迅速向后掠过,仿佛是一幅幅流动的画卷。整个画面采用固定镜头拍摄,画面清晰,具有纪实风格,展现了女子与窗外景色的和谐美感。

      Step-Video V2在「变身」方面,表现更加精彩——一个小男孩突然变身毒液。

      视频中,一个身穿西装的小男孩,突然表情变得狰狞,身体逐渐被黑色的液体包裹,最终变身成为黑色毒液。这个过程在暗色调的环境中进行,背景较为模糊,突出表现了小男孩变身的每一个细节。视频采用特写镜头拍摄,具有科幻风格,清晰地展示了变身的每一个动作细节,给人以震撼感。

      精准文字生成

      不仅如此,Step-Video V2在文字生成方面,更加精准,还能支持中英双语输入。

      下面「2025」字样中,比较难得一点是,AI 还可以将倒映在地板上的2025同时生成出来。

      采用3D 动画风格,视频中,慢慢显现出了“Year of Snake,2025”的字样,天空中绽放出绚烂的烟花。2025字样晶莹剔透泛着金光,地板上反射着它的倒影,背景是黑色的地板。一条卡通蛇戴着一副酷炫的黑色墨镜不断扭动身体,镜片上反射着舞台的灯光。画面采用固定机头,动画风格,展现了蛇年过年喜庆热闹的氛围。

      带着红色围巾的小猫,手里拿着福字,过年氛围感完全拉满了。

      视频中,一只毛色柔软的灰色小猫前爪紧握着写有「福」字样的对联。它戴着一条红色的围巾,围巾上绣着金色的花纹。小猫的眼神专注而灵动,似乎在为新年的到来而欢呼雀跃。它站在一个装饰华丽的房间里,房间里挂满了彩带和气球,充满了节日的氛围。整个画面采用固定镜头拍摄,画面清晰,具有温馨而喜庆的氛围。

      镜头表现力突破性升级

      更令人兴奋地是,Step-Video V2在视频叙事上,实现了全方位的升级。

      丰富的镜头语言,让其能够创作出更具感染力的作品。

      视频中,一名身穿醒目黄色和红色赛车服的赛车手,头戴专业头盔,驾驶一辆设计独特的白色和红色本田摩托车,在泥土赛道上展开紧张刺激的越野赛。镜头以平视方式跟随赛车手,捕捉他每一个跳跃、转弯和加速的瞬间。赛道由松散的泥土构成,背景中观众席、围栏、旗帜

      再加上推位摇移等专业镜头技巧的灵活运用,Step-Video V2不仅让视频画面更具美感,更为内容叙事注入了独特的艺术魅力。

      下面这个「跟拍」宇航员的镜头,完全不输好莱坞大片。人物角色额头上的汗珠,这么微小的细节,AI 也能完全呈现出来。

      手持跟踪镜头滑过飞船走廊,捕捉到宇航员工作时专注而有序的神态。镜头拉近到一名操作员,他全神贯注地盯着屏幕,额头上沁出了汗珠,周围的仪器发出低沉的嗡嗡声,加剧了紧迫感。

      Step-2mini、Step 文学大师来了

      除了多模态模型,阶跃自研的语言模型也实力强大,表现亮眼。

      比如去年3月发布的 Step-2,就是国内最早由创业公司发布的万亿参数大模型,多次在国内外权威榜单上获得中国第一。

      此次升级的 Step-2mini、Step 文学大师版都是 Step-2系列的分支。不同的是,前者性价比更高,更具商用性,后者则在文学创作上表现出了惊人能力。

      Step-2mini

      Step-2mini 是一款小参数模型,它的亮点是极速响应、高性价比,因而商业化场景更广泛。

      对比 Step-2来看,Step-2mini,只有3%左右的参数量,却保有了80%以上的模型性能。

      与此同时,它拥有更快的生成速度,和极高的性价比。

      在输入4000tokens 的情况下,Step-2mini 的平均首字时延仅0.17秒。输入低至1元/百万 token;输出低至2元/百万 token。

      之所以能达到如此极速的效果和极致性价比,都要归功于阶跃星辰自主研发的新型注意力机制架构——MFA(多矩阵分解注意力)及其变体 MFA-Key-Reuse。

      相比于常用的 MHA(多头注意力)架构,这种架构节省了近94%的 KV 缓存开销,因而拥有了更快的推理速度,同时大幅降低了推理成本。

      现在,在阶跃星辰开放平台,开发者已经可以调用 Step-2mini 的 API 接口了。

      Step 文学大师

      Step-2文学大师版,是专为创作而生的语言模型。

      它不仅沿袭了万亿参数语言模型 Step-2广袤的知识储备、对文字强大的细节把控能力,还拥有更强大的内容创作能力。

      为什么很多大模型创作的内容,总有一股挥之不去的 AI 味?

      本质原因,就是这些模型过度对齐社会共识,「跪得太直」。因为丝毫没有真情实感,一出口自然也就是「正确的废话」,缺少灵魂。

      好的内容创作,需要逻辑严密、语言凝练、句句带料,拥有深刻思想和独特风格。

      不过,这许多人类都无法做到的事,模型怎么做到呢?

      此时,Scaling Law 就是重中之重了。模型小、预训练数据小,模型就没有足够的智能。

      而 Step-2文学大师的训练过程中,足够的模型容量、训练数据量,都成为了它文字功底的基石。

      那就让我们来看看,Step-2文学大师的写作功底究竟如何。

      我们请它以「过年」为题,写一篇悬疑小说。

      有了有了,有那味了!这个悬念丛生的故事,是小编在某乎上看到,一定会付费看到结局的程度。

      接下来,让它试试写一篇科幻小说,描写一下100年后人类和 AI 共存的世界。

      这篇故事的主人公,负责 AI 的定期销毁。看到最后一段,小编后背一凉:Step-2文学大师,您的大作真是绝了!

      初心不变,AGI 路上的技术理想主义者

      百模大战之后,阶跃星辰、智谱、百川智能、月之暗面、MiniMax、零一万物脱颖而出,成为人们口中的「AI 六小强」。而这六家 AI 初创明星公司,也因过去一年的选择,分化出了全新的格局。

      一直以来,技术演进和商业探索都不是一条直线。各家根据自身特点选择不同的路径,这种多元化发展格局,恰恰体现了行业的蓬勃生机。

      百川智能专注 AI 医疗领域,其医疗增强大模型能力全球领先,并且在落地应用上也取得了不错进展。聚焦金融、教育、医疗等行业的商业化,通过全链路领域增强的一站式解决方案帮助企业智能化升级。

      零一万物聚焦参数适中、推理速度更快、推理成本更低、更具商业落地前景的性能卓越的轻量化模型。在国内市场专注 ToB 方向,在海外市场则以理性的姿态继续 ToC 应用的探索。

      月之暗面通过 Kimi 探索国内消费级市场,力争打造 AI 时代的超级应用。并于近日推出了 OpenAI 满血版 o1之外第二个多模态推理模型 k1.5。

      此外,阶跃星辰则选择继续在基座大模型上加大研发。

      不久前,阶跃星辰已经完成了 B 轮融资,资金总额高达数亿美金。据了解,这笔资金将继续用于基础模型的研发,继续强化多模态和复杂推理方面。阶跃一口气发布的基模「六连更」,是2025年第一张成绩单。

      回顾过去一年各大 AI 产品的发展历程,我们不难发现一个规律:无论是对话能力、创意写作,还是代码生成,用户体验的天花板始终受限于底层模型的能力边界。

      一些看似简单的产品创新,往往需要强大的模型能力的支撑。

      值得一提的是,Step 系模型多次在各大权威榜单中登顶榜首,收获国内外开发者诸多好评,充分验证了其技术实力。

      AI 大模型的竞争就像一场马拉松,重要的不是起跑的速度,而是途中的节奏和后程的耐力。而现在,阶跃冲刺的后劲十足。

      从千亿参数到万亿参数的跨越,从文本图像理解到视频生成的拓展,阶跃正在用一个个具体成果,将那张通往 AGI 的路线图变为现实。

      毕竟,在通过 AGI 的征程上,只有那些能够持续积累的玩家,才有可能走到最后。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。