半导体跨界潮,谁在跟风,谁在下棋?Nikola,一个千亿造车独角兽破产了消息称谷歌将因违反反垄断规则而遭欧盟指控,恐被处以高额罚款透明美学再进化,Nothing Phone(3a)系列手机宣传物料曝光2025 年春运今日迎来最后一天,全国铁路已累计发送旅客 4.99 亿人次国内通信运营商首次:中国联通通过数字货币桥实现跨境支付微软 Outlook“保存邮件到 OneNote”功能 3 月谢幕,“发送到 OneNote”接棒全国首个:浙江率先布局低空经济“下乡”,目标到年底建成 200 个乡村无人机起降枢纽拨打客服电话强制等待 15 分钟,惠普欧洲试点遭强烈反对后取消OPPO一键问屏 / 全能搜基于阶跃星辰Step系列多模态模型打造京东&创维联合定制JD100 Mini电视发布 下单享免费送装一体服务我国成功发射中星 10R 卫星中科闻歌发布“智川”企业智能体平台1.0、“优雅”音视频大模型平台1.5,领先技术加速AI普惠落地这个周末,在最懂开发者的城市邂逅最懂开发者的算力平台DDN推出 Infinia 2.0对象存储 加速AI数据处理速度全部免费!百度文心智能体平台已全面接入DeepSeek模型灯塔云系统:开启劳务派遣管理4.0时代超2671万名消费者申请手机等数码产品购新补贴 用国补买手机上京东皇家马德里对阵赫罗纳:不乏进球与高水平竞技的足球现场OpenAI宣布面向多个国家推出AI代理 Operator
  • 首页 > 云计算频道 > 大模型

    王小川又双叒叕发布大模型了 号称领先LLaMA 2

    2023年09月07日 14:26:32   来源:凤凰网科技

      百川智能又发布大模型了。

      9月6日,王小川旗下百川智能正式发布开源微调后的Baichuan 2-7B、Baichuan 2-13B、Baichuan 2-13B-Chat与其4bit量化版本,均为免费可商用,这是继6月15日发布首款开源大模型Baichuan7B后的又一次重大技术迭代。

      据了解,Baichuan 2-7B-Base 和 Baichuan 2-13B-Base,均基于 2.6万亿高质量多语言数据进行训练。其中Baichuan 2-13B-Base相比上一代13B模型,数学能力提升49%,代码能力提升46%,安全能力提升37%,逻辑推理能力提升25%,语义理解能力提升15%。

      王小川称,70亿参数的Baichuan2-7B开源大模型中文水平超越了LLaMA2 130亿参数模;在英文的评测上,Baichuan2-7B开水平与LLaMA2 130亿参数模型持平。

    (图:7B参数模型的Benchmark成绩)

      (图:7B参数模型的Benchmark成绩)

    (图:13B参数模型的Benchmark成绩)

      (图:13B参数模型的Benchmark成绩)

      他表示,“随着国内Baichuan2开源大模型的发布,用LLaMA2作为大家一个开源模型的时代已经过去了。”

      国内“百模大战”中,各家都在卷参数规模,卷响应速度,卷行业落地。而在国外,AI模型竞争主要聚焦在“生态封闭”和“生态开源”。其中,闭源模型的代表当属目前最强的GPT-4模型,开源最具代表意义的则是Meta的LLaMA2模型。

      业内普遍认为,开源大模型对于大量开发者是一个福音,能够降低做大模型应用的门槛。美国斯坦福大学基金会模型研究中心主任Percy Liang 曾指出,像LLaMA2这样强大的开源模型会对OpenAI 构成相当大的威胁。

      今年6月,王小川飞往美国硅谷与同行交流大模型技术思路。他认为,美国闭源大模型的头部格局已定,OpenAI、Anthropic、Google已经拿到门票,LLaMA2则统一了美国开源模型市场,而国内大模型格局还未定型,创业公司还有较大的机会。

      在8月举办的一次媒体交流会上,王小川谈及大模型技术路线之争时表示,开源与闭源并不矛盾,未来会像苹果和安卓系统一样并行发展。未来可能80%的企业会用到开源模型,因为开源模型小巧,最后靠闭源提供剩下20%的增值服务。 从2B(企业)的角度,开源、闭源都需要,百川智能不会只瞄准一个方向。

      王小川指出了LLaMA开源模型的隐藏限制因素。他表示,LLaMA 开源模型适用于以英文为主的环境,开发者使用中文场景是拿不到开源协议,Baichuan2开源大模型更适用于中文大模型。

      “我们现在可以获得比LLaMA更友好且能力更强的开源模型,能够帮助扶持中国整个生态的发展。除开源模型以外,下一次在闭源方面会有更多的突破,希望在中国的开源闭源里都能给中国的经济社会发展带来我们的贡献。”

      当前大部分开源模型在开源过程中只是对外公开自身的模型权重,很少提及训练细节,企业、研究机构、开发者们只能在开源模型的基础上做有限的微调,很难进行深入研究。

      王小川表示,百川智能公开了Baichuan2开源大模型训练过程中的全部参数模型,以及不同大小的 tokens、训练切片,使得学术界在进行预训练微调、强化时更容易操作,更容易获得学术经验和成果。他透露,这也是国内首次开放训练过程。

      百川智能创立于今年4月10日,旨在打造构建中国最好的大模型底座,并在教育、医疗等领域应用落地。截至目前,百川智能已公布首轮5000万美元融资。

      成立不到半年时间,百川智能平均每28天发布一款大模型,已相继发布了Baichuan-7B、Baichuan-13B两款开源免费可商用的中文大模型,以及一款搜索增强大模型Baichuan-53B。

      8月31日,百川智能通过《生成式人工智能服务管理暂行办法》备案,旗下大模型可以正式面向公众提供服务。

      【来源:凤凰网科技】

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。