谷歌DeepMind的研究团队发布了一项新研究,介绍了一种名为“Search-Augmented Factuality Evaluator (SAFE)”的人工智能系统。该系统利用大型语言模型将生成的文本分解成个别事实,并利用谷歌搜索结果来确定每个声明的准确性。研究发现,SAFE在评估大型语言模型生成的信息准确性方面优于人工事实检查员。
与人工标注员的对比显示,SAFE的评估结果与人工评级的一致率达到了72%。更值得注意的是,在100个SAFE与人工评级者之间存在分歧的样本中,SAFE的判断在76%的情况下被证明是正确的。然而,研究中“超人类”表现的说法引发了争议,一些专家质疑这里的“超人类”到底是什么意思。他们认为,需要更多透明度和人类基准来评估SAFE的真实效果,而不仅仅是依赖于众包工人。
SAFE的应用成本约为人工事实检查的20倍,这意味着它可以大大降低事实核查的成本。研究团队还使用SAFE评估了13个顶级语言模型的事实准确性,并发现较大型的模型通常产生较少的错误。尽管最佳模型的表现仍然存在一定数量的错误,但自动事实检查工具如SAFE可能在减少这些风险方面发挥关键作用。
虽然SAFE的代码和LongFact数据集已在GitHub上开源,但研究人员指出,仍需要更多关于研究中使用的人类基准的透明度。正因如此,技术巨头们竞相开发越来越强大的语言模型,自动核查这些系统输出的信息的能力可能变得至关重要。SAFE等工具代表着建立新的信任和责任层面的重要一步。
然而,关键是这类重要技术的发展必须在开放的环境中进行,并获得来自广泛利益相关者的意见。严格、透明地与人类专家进行基准测试将是衡量真正进步的关键所在。只有这样,我们才能评估自动事实检查对打击错误信息的实际影响。
文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。
奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。
“以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。
华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。