谷歌DeepMind的研究团队发布了一项新研究,介绍了一种名为“Search-Augmented Factuality Evaluator (SAFE)”的人工智能系统。该系统利用大型语言模型将生成的文本分解成个别事实,并利用谷歌搜索结果来确定每个声明的准确性。研究发现,SAFE在评估大型语言模型生成的信息准确性方面优于人工事实检查员。
与人工标注员的对比显示,SAFE的评估结果与人工评级的一致率达到了72%。更值得注意的是,在100个SAFE与人工评级者之间存在分歧的样本中,SAFE的判断在76%的情况下被证明是正确的。然而,研究中“超人类”表现的说法引发了争议,一些专家质疑这里的“超人类”到底是什么意思。他们认为,需要更多透明度和人类基准来评估SAFE的真实效果,而不仅仅是依赖于众包工人。
SAFE的应用成本约为人工事实检查的20倍,这意味着它可以大大降低事实核查的成本。研究团队还使用SAFE评估了13个顶级语言模型的事实准确性,并发现较大型的模型通常产生较少的错误。尽管最佳模型的表现仍然存在一定数量的错误,但自动事实检查工具如SAFE可能在减少这些风险方面发挥关键作用。
虽然SAFE的代码和LongFact数据集已在GitHub上开源,但研究人员指出,仍需要更多关于研究中使用的人类基准的透明度。正因如此,技术巨头们竞相开发越来越强大的语言模型,自动核查这些系统输出的信息的能力可能变得至关重要。SAFE等工具代表着建立新的信任和责任层面的重要一步。
然而,关键是这类重要技术的发展必须在开放的环境中进行,并获得来自广泛利益相关者的意见。严格、透明地与人类专家进行基准测试将是衡量真正进步的关键所在。只有这样,我们才能评估自动事实检查对打击错误信息的实际影响。
文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。
OPPO K12 近日现身 GeekBench 跑分库,型号为 PJR110,6.2.2 版本单核成绩为 1134 分,多核测试成绩为 2975 分。
近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。
“以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。
由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。