Meta开源最新模型——Llama Guard-7b

2023年12月12日 11:48:37 来源：微信公众号 AIGC开放社区

　　本文来自于微信公众号 AIGC开放社区(ID:AIGCOPEN)，作者:AIGC开放社区。

　　全球社交、科技巨头Meta在官网开源了全新模型——LlamaGuard。

　　据悉，Llama Guard是一个基于Llama2-7b的输入、输出保护模型，可对人机会话过程中的提问和回复进行分类，以判断其是否存在风险。可与Llama2等模型一起使用，极大提升其安全性。

　　Llama Guard也是Meta推出的“Purple Llama”安全评估项目中，输入、输出保障环节的重要组成部分，这也是首个在输入输出防护中区分用户与AI风险的模型。

　　Llama Guard简单介绍

　　研究人员设计了一个包含法律和政策风险的安全风险分类体系。分类体系包含6大类可能的安全风险:暴力与仇恨、色情内容、非法武器、犯罪计划等。

　　此外还详细说明了每个风险类别中的易犯错误。

　　通过使用Anthropic提供的人机对话数据集，对数据进行标记。标记内容包括对话提问与回应中的风险类别及是否存在安全隐患。最终收集了近14000条标注好的对话样本。

　　再以Llama2-7b作为基础模型，采用指令式学习框架进行训练。此框架将分类任务表述为一个接一个的指令任务。

　　使Llama Guard根据输入指令和数据学习进行多类分类。研究人员为用户提问和机器回复分别编写指令，实现对其语义结构的区分。

　　还采取数据增强方法，强化模型只考虑给定输入中的分类信息。

　　测试数据

　　首先在内部测试集上进行验证，Llama Guard在整体和每个单独分类上的表现都超过了其他内容监管工具。

　　然后，研究人员采用零样本和少量实例学习的方法，将Llama Guard迁移到其他公开测试集上进行验证。

　　测试结果显示，在ToxicChat数据集上，Llama Guar的平均准确率高于所有基线方法;在OpenAI评估数据集上，Llama Guard在零样本的情况下与OpenAI内容监管API表现相当。

　　此外，Llama Guard使用了指令调优，可以适配不同的AI分类法或政策。用户可以通过零样本或小样本的方式便可实现指令迁移，以适配不同的应用场景需求。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

即时

第十四代英特尔® 酷睿™ 处理器(代号Raptor Lake S Refresh)采用了先进的Intel 7制程工艺。

奥维云网(AVC)推总数据显示，2024年1-9月明火炊具线上零售额94.2亿元，同比增加3.1%，其中抖音渠道表现优异，同比有14%的涨幅，传统电商略有下滑，同比降低2.3%。

“以前都要去窗口办，一套流程下来都要半个月了，现在方便多了!”打开“重庆公积金”微信小程序，按照提示流程提交相关材料，仅几秒钟，重庆市民曾某的账户就打进了21600元。

华硕ProArt创艺27 Pro PA279CRV显示器，凭借其优秀的性能配置和精准的色彩呈现能力，为您的创作工作带来实质性的帮助，双十一期间低至2799元，性价比很高，简直是创作者们的首选。

9月14日，2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。