京东心动购物季即将开启 学而思xPad Pro PLUS会员到手不高于7899元520来京东搜“京东老友季” 听红衣教主聊AI的那些事520买礼物就选博朗亲肤6系剃须刀礼盒 京东比李佳琦便宜70元以旧换新至高减20% 京东家电家居618 “购新”更超值飞利浦蜂巢7系列京东家电家居采销直播间比李佳琦便宜155元飞利浦蜂巢7系列京东家电家居采销直播间比李佳琦便宜155元CHIMA现场|“智慧医院云文档中心”成功发布,上海CA医疗行业数字信任方案备受关注擎朗医疗携全新一代Gen 2物流机器人亮相CHCC2024,助力医院数智化建设OpenAI“宫斗”第二季?消息称“超级对齐”团队已解散,成立不到 1 年2023 年我国卫星导航与位置服务产值超 5300 亿元,同比增长 7.09%下单到收货不到一刻钟,河南开启首批低空无人机物流配送航线杭温高铁开启联调联试,建成后杭州到温州 1 小时到达上海临港发布首批数据跨境一般数据清单,涉及智能网联汽车、公募基金、生物医药 3 大领域上海:将加快开源人形机器人原型机研发,2025 年重点行业机器人密度达 500 台 / 万人618前夕淘宝升级多款商家AI工具,面向商家免费开放崛起!一文速看云计算“国家队”五大突破!消息称中国一汽将加入蔚来换电联盟IDC:今年Q1中国平板电脑出货 713 万台同比增 6.6%,华为259万台位居第一构建离产业最近的AI,腾讯云公布多项大模型产品进展谷歌Pixel 8 手机运行 ChromeOS 项目现阶段仅为概念验证
  • 首页 > 云计算频道 > 大模型

    《人工智能大模型体验报告2.0》出炉:讯飞星火夺冠,得分逼近人类

    2023年08月14日 14:12:39   来源:中文科技资讯

      今年以来,国内科技企业纷纷布局人工智能大模型。为进一步直观感受我国当前主流科技企业所推出的大模型产品的现状、优势和特点,8月12日,新华社研究院中国企业发展研究中心基于严格测评,发布《人工智能大模型体验报告2.0》,对当前国内各主流大模型的表现给出评述。

      与2023年6月首次发布的《人工智能大模型体验报告》相比,本次测评在题目设计、对标Benchmark(人类)、打分权重、专家测评团队四大维度进行了全面升级。

      其中,在题目设计方面,测评题目由300道扩展至500道,并进一步完善了题目分类;

      在对标Benchmark方面,本次测评将接受过高等教育的人类作为对照,来考评大模型真实能力;

      在打分标准上,本次测评根据对产业、生活的实际价值,对基础能力、智商能力、情商能力和工具提效四大测评维度进行了权重设计;

      在测评团队方面,本次测评特邀北京大学文化与传播研究所及其他产界、学界专家全程参与。

      本次研究设置了用户体验项目,抓取了7月31日—8月4日数据,通过人机互动提问等形式,对国内主流大模型进行使用体验评测,旨在为科技企业调整努力方向提供参考。

      报告显示,与2023年6月相比,当前中国大模型产品进步显著。但与接受过高等教育的人类相比,大模型在智商、情商等方面还存在一定程度差距。

      具体来看,讯飞星火在工作提效、智商等方面优势明显,百度文心一言基础能力出色,商汤商量则在情商方面表现优秀,智谱AI-ChatGLM整体表现不俗。

      归结到基础能力、智商能力、情商能力和工具提效四大维度综合得分上,科大讯飞星火表现最强,1013分,逼近人类水平(1014分),其次是百度文心一言和商汤商量,总分分别为1010分和983分。

      报告认为,虽然在不同领域中,AI和人类表现出不同的优劣势,但在整体上,AI大模型的发展为人类工作和生活的提质增效带来了重要的积极影响,大模型正在加速走进生活、走进产业。

      据了解,此次测评总分第一的讯飞星火大模型发布于5月6日。并于6月9日发布星火1.5版本,与上一个版本相比,升级版不仅各项能力获得持续提升,且在综合能力上实现了三大升级:

      开放式知识问答取得突破,提升24%,较好地解决了当前大模型技术有待攻克的“三大缺陷”:新知识难以更新、事实类问答容易“张冠李戴”、史实传统典籍等容易“编造情节”。

      多轮对话跃迁,对话体验更接近真人;逻辑和数学能力明显提升。

      特别是在数学能力,科大讯飞星火大模型不但能综合应用方程、排列组合、经典算法等各种数学方法,给出正确答案,而且能给出分析过程,让用户在“知其然”的同时,还能“知其所以然”。

      除了大模型自身能力进一步提升外,讯飞星火1.5版发布会上,科大讯飞还正式发布了星火APP和星火语伴APP等C端产品,加上此前已和大模型融合的科大讯飞AI学习机、智能智能办公本、讯飞听见、汽车智能座舱语音交互和数字员工等产品,成为业内第一家实现大模型商业应用落地的公司。

      受大模型加持带动,2023年5月至6月,科大讯飞C端硬件GMV创历史新高,同比翻倍增长。其中,搭载讯飞星火认知大模型的讯飞AI学习机GMV在5月和6月分别增长136%和217%。

      同时,讯飞人工智能开放平台的开发者团队数量增长迅猛,两个月时间增加85万。截至2023年6月30日,科大讯飞开放平台开发者数已达到497.4万,近一年增长45%。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    [No. X058-2]
    分享到微信

    即时探行数字人注册免费试用

    中兴二合一 5G 云电脑“逍遥”系列上架:一键切换双模式,

    5 月 10 日消息,据中兴通讯官微,中兴二合一 5G 云电脑“逍遥”系列已经在电商平台上架。其支持本地、云端双模式,可在电脑与平板模式之间一键切换。售价方面,型号为 W200DS 的产品首销价格为 1899 元。

    新闻探行AI智能外呼系统 节省80%人力成本

    敢闯技术无人区 TCL实业斩获多项AWE 2024艾普兰奖

    近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。

    企业IT探行AI客服 24小时无休机器人接待

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费探行AI视频 快速生成真人营销视频

    “纯臻4K 视界焕新”——爱普生4K 3LCD 激光工程投影

    2024年3月12日,由爱普生举办的主题为“纯臻4K 视界焕新”新品发布会在上海盛大举行。

    研究探行AI整体解决方案 全国招募代理

    2024全球开发者先锋大会即将开幕

    由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。