3月3日,科大讯飞完成星火深度推理模型X1的全面升级,并基于星火X1首发星火医疗大模型X1,在诊断推荐、健康咨询等医学任务上效果领先。
作为国内首个,也是迄今为止唯一一个采用全国产算力训练的深度推理大模型,星火X1在模型参数量较少的情况下,实现了数学能力与DeepSeek R1和OpenAI o1对标;讯飞星火X1的升级,表明基于国产算力训练的全栈自主可控大模型具备强大实力和创新潜力。
测试集合来源:中文测试集来自2023/2024年各学段考试真题/模拟题/竞赛题,英文测试集来自AIME 2024/2025和MATH 500竞赛集
我们在星火X1升级后的第一时间,将其数学能力和DeepSeek做了简单对比,用的5道测试题含金量颇高,全部来自《2024年全国统一高考数学试卷(新高考Ⅰ)》,两大模型答卷情况如下:
小提示:由于高考试题较难,大模型给出的解题过程往往很长,用截图的方法很难一次截取完整,需要两次,因此下面给出的同一问题的解答截图。
题目1:
甲、乙两人各有四张卡片,每张卡片上标有一个数字,甲的卡片上分别标有数字1,3,5,7,乙的卡片上分别标有数字2,4,6,8,两人进行四轮比赛,在每轮比赛中,两人各自从自己持有的卡片中随机选一张,并比较所选卡片上数字的大小,数字大的人得1分,数字小的人得0分,然后各自弃置此轮所选的卡片(弃置的卡片在此后轮次中不能使用).则四轮比赛后,甲的总得分不小于2的概率是多少?
星火X1解答如下:
DeepSeek R1解答如下:
星火XI开门红,先胜一局,给出了正确答案,且解题过程相当清楚。DeepSeek大意失荆州,给出了错误答案。
题目2:
星火X1解答如下:
DeepSeek R1解答如下:
这局表现整体不错,两款大模型都给出的正确答案,看来DeepSeek终于睡醒了,老虎要发威了。
题目3:
星火X1解答如下:
DeepSeek解答如下:
两大模型再接再厉,并驾齐驱,再度拿下一城。
题目4:
星火X1解答如下:
DeepSeek R1解答如下:
这是一道典型的差数列问题,两大模型均给出了准确答案,表扬!
题目5:
星火X1解答如下:
DeepSeek解答如下:
星火X1解答正确,DeepSeek刚展现出来的猛劲似乎又过了,在一道看起来并不很难的题上栽了跟头,错失一城。
小结:
至此,笔者兴致勃勃举办的这场友谊赛暂告结束,从整场赛事的表现来看,两款大模型在解答问题前,都会进行类人思考,并将思考过程完整呈现出来,其中包括题意分析,解题过程中要用到的知识点及详细的推理逻辑等,并会在发现问题时及时反思、纠错,应该说这一功能相当有用。因为它会让用户在得到答案的同时,知其然,更知其所以然,从而举一反三,弄懂一大类题的解法。
此外支持识图解题,而且识别率超高,无论是手机拍的纸质试卷、作业,还是网上的截图,都能轻松识别并解答。两大模型的这一特点,很好地解决数学公式、图形难以用键盘输入的痛点。
只是在解题正确率方面,两大模型表现出一定差异,相比之下,星火X1的正确率要更高一些,5题全对,成为本次“摸底考试”的“尖子生”,DeepSeek则失误了两题,以一道题20分,满分100来算,此次比赛刚好及格。
讯飞星火深度推理大模型X1升级版之所以有这样的表现,或许与其此次新增的两大创新技术有关。
这两大技术一是通过高效的领域数据自动化挖掘和多类型数据合成算法,构建了海量的数学领域预训练数据,从而显著提升了基座模型的数学专业能力;
二是基于评语模型与强化学习算法,实现了大模型长思维链的激发,同时评语模型还促使大模型在推理过程中进行反思验证,进一步提升了模型在推理阶段的准确性。
文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。
奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。
“以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。
华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。