• 首页 > 产经新闻频道 > 业界新闻

    GenAudit:帮用户根据输入证据对LLM生成内容进行事实检查

    2024年03月18日 15:27:12   来源:站长之家

      近年来,随着人工智能(AI)和主要是生成式AI领域的进展,已经展示了大型语言模型(LLMs)生成文本以响应输入或提示的能力。这些模型能够像人类一样生成文本,回答问题,总结长篇文本段落等。然而,即使在访问参考资料之后,它们也不完美,可能会产生错误。这样的错误可能会在银行业或医疗保健等重要应用中产生严重后果。

      为了解决这个问题,一组研究人员最近提出了GENAUDIT,这是一种专门用于帮助核查基于文档基础的LLM回复的工具。GENAUDIT的功能是通过建议对语言模型生成的响应进行更改来发挥作用。它突出显示参考文档中不符合要求的陈述,并建议对响应进行更改或删除。它还提供了来自参考文本的证据,以支持LLM的事实陈述。

      为了构建GENAUDIT,已经训练了专门设计用于执行这些任务的模型。这些模型已经被教导从参考文档中提取证据以支持事实陈述,识别不支持的主张,并推荐合适的修改。GENAUDIT具有交互式界面,可帮助进行决策和用户交互。借助此界面,用户可以检查和批准推荐的调整和支持文件。

      团队表示,已经通过人工评估对GENAUDIT进行了深入评估,评估人员通过检查它在多个类别中的表现来评估其性能,查看它在总结文件时如何准确识别LLM输出中的缺陷。评估结果表明,GENAUDIT能够准确地识别出来自八种不同LLM的输出中的缺陷,涵盖了多个领域。

      为了优化GENAUDIT的错误检测性能,团队建议了一种技术,该技术在减少精度损失的同时最大化错误召回率。该策略确保系统在保持准确性水平基本不变的同时,能够检测到大部分的故障。

      团队总结了他们的主要贡献如下:

      1.引入了GENAUDIT,这是一种支持基于文档的任务中的事实核查语言模型输出的工具。该工具突出显示了LLM生成的内容中陈述的支持数据,找出了缺陷,并提供了解决方案。

      2.评估并提供了用于事实核查的后端模型的优化LLMs。这些版本在少量数据条件下性能相当,尤其是与最先进的专有LLMs相比。

      3.对GENAUDIT在检查来自三个不同领域的文件的八种不同LLM生成的摘要中存在的错误的有效性进行了评估。

      4.介绍并评估了一种在解码时间使用的技术,旨在通过牺牲精度的微小降低来提高错误检测召回率。这种方法在保持整体准确性的同时增强了错误检测的能力。

      GENAUDIT是一款优秀的工具,有助于改善具有强大文档基础的任务中的事实核查程序,并提高LLM生成的信息在重要应用中的可靠性。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时探行数字人注册免费试用

    中兴二合一 5G 云电脑“逍遥”系列上架:一键切换双模式,

    5 月 10 日消息,据中兴通讯官微,中兴二合一 5G 云电脑“逍遥”系列已经在电商平台上架。其支持本地、云端双模式,可在电脑与平板模式之间一键切换。售价方面,型号为 W200DS 的产品首销价格为 1899 元。

    新闻探行AI智能外呼系统 节省80%人力成本

    敢闯技术无人区 TCL实业斩获多项AWE 2024艾普兰奖

    近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。

    企业IT探行AI客服 24小时无休机器人接待

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费探行AI视频 快速生成真人营销视频

    “纯臻4K 视界焕新”——爱普生4K 3LCD 激光工程投影

    2024年3月12日,由爱普生举办的主题为“纯臻4K 视界焕新”新品发布会在上海盛大举行。

    研究探行AI整体解决方案 全国招募代理

    2024全球开发者先锋大会即将开幕

    由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。