谷歌DeepMind推出“超人类”AI系统SAFE，擅长事实核查，节约成本并提高准确性

2024年03月29日 10:00:33 来源：站长之家

　　谷歌DeepMind的研究团队发布了一项新研究，介绍了一种名为“Search-Augmented Factuality Evaluator (SAFE)”的人工智能系统。该系统利用大型语言模型将生成的文本分解成个别事实，并利用谷歌搜索结果来确定每个声明的准确性。研究发现，SAFE在评估大型语言模型生成的信息准确性方面优于人工事实检查员。

　　与人工标注员的对比显示，SAFE的评估结果与人工评级的一致率达到了72%。更值得注意的是，在100个SAFE与人工评级者之间存在分歧的样本中，SAFE的判断在76%的情况下被证明是正确的。然而，研究中“超人类”表现的说法引发了争议，一些专家质疑这里的“超人类”到底是什么意思。他们认为，需要更多透明度和人类基准来评估SAFE的真实效果，而不仅仅是依赖于众包工人。

　　SAFE的应用成本约为人工事实检查的20倍，这意味着它可以大大降低事实核查的成本。研究团队还使用SAFE评估了13个顶级语言模型的事实准确性，并发现较大型的模型通常产生较少的错误。尽管最佳模型的表现仍然存在一定数量的错误，但自动事实检查工具如SAFE可能在减少这些风险方面发挥关键作用。

　　虽然SAFE的代码和LongFact数据集已在GitHub上开源，但研究人员指出，仍需要更多关于研究中使用的人类基准的透明度。正因如此，技术巨头们竞相开发越来越强大的语言模型，自动核查这些系统输出的信息的能力可能变得至关重要。SAFE等工具代表着建立新的信任和责任层面的重要一步。

　　然而，关键是这类重要技术的发展必须在开放的环境中进行，并获得来自广泛利益相关者的意见。严格、透明地与人类专家进行基准测试将是衡量真正进步的关键所在。只有这样，我们才能评估自动事实检查对打击错误信息的实际影响。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

[No. ]
分享到微信