本文来自于微信公众号 AIGC开放社区(ID:AIGCOPEN),作者:AIGC开放社区。
全球社交、科技巨头Meta在官网开源了全新模型——LlamaGuard。
据悉,Llama Guard是一个基于Llama2-7b的输入、输出保护模型,可对人机会话过程中的提问和回复进行分类,以判断其是否存在风险。可与Llama2等模型一起使用,极大提升其安全性。
Llama Guard也是Meta推出的“Purple Llama”安全评估项目中,输入、输出保障环节的重要组成部分,这也是首个在输入输出防护中区分用户与AI风险的模型。
Llama Guard简单介绍
研究人员设计了一个包含法律和政策风险的安全风险分类体系。分类体系包含6大类可能的安全风险:暴力与仇恨、色情内容、非法武器、犯罪计划等。
此外还详细说明了每个风险类别中的易犯错误。
通过使用Anthropic提供的人机对话数据集,对数据进行标记。标记内容包括对话提问与回应中的风险类别及是否存在安全隐患。最终收集了近14000条标注好的对话样本。
再以Llama2-7b作为基础模型,采用指令式学习框架进行训练。此框架将分类任务表述为一个接一个的指令任务。
使Llama Guard根据输入指令和数据学习进行多类分类。研究人员为用户提问和机器回复分别编写指令,实现对其语义结构的区分。
还采取数据增强方法,强化模型只考虑给定输入中的分类信息。
测试数据
首先在内部测试集上进行验证,Llama Guard在整体和每个单独分类上的表现都超过了其他内容监管工具。
然后,研究人员采用零样本和少量实例学习的方法,将Llama Guard迁移到其他公开测试集上进行验证。
测试结果显示,在ToxicChat数据集上,Llama Guar的平均准确率高于所有基线方法;在OpenAI评估数据集上,Llama Guard在零样本的情况下与OpenAI内容监管API表现相当。
此外,Llama Guard使用了指令调优,可以适配不同的AI分类法或政策。用户可以通过零样本或小样本的方式便可实现指令迁移,以适配不同的应用场景需求。
文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。
近日,德国柏林国际电子消费品展览会(IFA2024)隆重举办。凭借在核心技术、产品设计及应用方面的创新变革,全球领先的智能终端企业TCL实业成功斩获两项“IFA全球产品设计创新大奖”金奖,有力证明了其在全球市场的强大影响力。
近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。
“以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。
由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。