• 首页 > 云计算频道 > 大模型

    大型科技公司拥才有承担 AI 训练数据成本的能力

    2024年06月03日 15:39:25   来源:站长之家

      AI 的发展离不开数据,而这种数据的成本越来越高,这使得除了最富有的科技公司外,其他公司难以承担这一成本。根据去年 OpenAI 的研究人员 James Betker 的文章,AI 模型的训练数据是决定模型能力的关键因素。传统的 AI 系统主要是基于统计机器,通过大量示例来猜测最 “合理” 的数据分布,因此模型所依赖的数据量越大,性能就越好。

      AI 研究非营利机构 AI2的高级研究科学家 Kyle Lo 指出,Meta 的 Llama3模型在数据量方面明显优于 AI2的 OLMo 模型,这解释了其在许多流行 AI 基准测试中的优势。然而,并不是数据量越大,模型性能就会线性提升,数据质量和整理同样重要,有时甚至比数量更重要。一些 AI 模型是通过让人类标注数据来进行训练的,质量较高的标注对模型性能有巨大影响。

      然而,Lo 等专家担心,对大型、高质量训练数据集的需求将 AI 发展集中在少数具备数十亿美元预算的公司手中。尽管一些非法甚至犯罪行为可能会对数据获取方式提出质疑,但技术巨头凭借资金实力能够获取数据许可。这些数据交易的过程并未促进一个公平开放的生成式 AI 生态系统,让整个 AI 研究社区备受其害。

      一些独立、非营利性的组织尝试开放大规模数据集,如 EleutherAI 和 Hugging Face,但它们是否能赶上大型科技公司的步伐仍是一个未知数。只有当研究突破技术壁垒,数据收集和整理成本不再是问题时,这些开放性的数据集才有希望与科技巨头竞争。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。