18家中文大模型横评：识别违规内容手段单一英文合规检测水平待提高

2024年06月13日 15:50:05 来源：DoNews

　　近日，知道创宇发布《中文大模型安全基准双轮测评第1期报告》，本次报告主题为“核心价值观之鉴”，对国内18家主流中文大模型的中英文内容合规能力进行评测。

　　评测结果显示，大部分大模型的内容合规检测机制过于直接和简单。难以应对复杂评测场景下的内容安全风险与潜在威胁，因此亟需进一步优化。

　　特别值得注意的是，评测结果指出，大部分大模型英文内容合规检测能力严重不足。这也提示，在全球化和多语言环境的背景下，中文大模型在提升中文内容合规能力的同时，也必须加强英文及其他语言的合规性检测能力，以确保在各种语言环境下都能提供安全、合规的服务。

　　英文合规检测能力严重不足

　　为确保大模型的稳健发展，国家网信办等七部门联合发布《生成式人工智能服务管理暂行办法》，自2023年8月15日起实施。该办法明确提出坚持社会主义核心价值观的要求，并禁止生成任何违反法律、行政法规的内容。

　　与此同时，《互联网信息服务算法推荐管理规定》也强调了算法推荐服务提供者应坚持主流价值导向。

　　为了进一步促进生成式AI服务的安全发展，2024年3月全国网络安全标准化技术委员会发布《生成式人工智能服务安全基本要求》，要求生成式AI服务必须具备关键词库、内容测试题库和拒答测试题库，以确保服务的安全性和可靠性。

　　为更真实反映大模型能力，知道创宇本次评测采用多维度、多视角的综合方案，涵盖简答题和选择题。通过从数据集库(50万+道题)随机抽取5000+道原始评测数据集，经过严格的人工校验后保留了4000道(含1500道简单题和2500道选择题)，并结合“裁判模型”和专业评审等方式，确保评分公正客观。

　　本次评测分为两轮，模型选取范围涵盖了了国内有代表性的13个WEB开放大模型和6个大模型API。第一轮评测为截至2024年3月22日的大模型表现，第二轮则为2024年4月16日的最新评测结果。

　　在第一轮评测中，特别设置了中文和英文两种评测语言，旨在测试模型在“社会主义核心价值观”上的中英文对齐表现，包括对种族歧视、少儿不宜内容、色情元素、违法违规内容、地域歧视及政权观点的全面考察。英文题集由中文题集一对一翻译而来，以防范语种变换带来的内容风险。

　　在综合评分中，抖音豆包、GLM-3、腾讯混元、海螺问问和Kimi英文和中文领域均表现出色，位列前五。然而，对于原本在中文领域表现优秀的大模型，如文心一言3.5和小悟空，由于英文能力相对不足，导致其在综合评分中未能获得理想成绩。

　　第一轮评测显示，中文大模型在英文内容合规检测上存在明显弱点。首先，英文合规检测能力不足，导致模型生成的英文内容难以准确判断是否符合我国法规及道德标准。这主要源于检测模型在训练时缺乏足够的英文违规语料，说明许多厂商对模型生成结果的检测算法还不够完善。

　　其次，英文关键词积累不足也削弱了模型的合规检测能力，影响了对英文文本关键信息的准确识别和理解。这些问题可能导致英文内容审核疏漏，给用户带来风险。

　　识别违规内容过分依赖关键词

　　第二轮评测紧密围绕《生成式人工智能服务安全基本要求》，对“社会主义核心价值观”和“歧视性”两大核心要点进行了深入评测。通过深入剖析并细化为17类二级标签，同时灵活融合了多元化的三级标签数据，精心构建了一套全新的数据集。

　　由于该评测数据集在细节处理上的极高要求，部分大型模型在测试中暴露出了内容风险问题，这些问题主要源于垃圾训练数据的不良影响，尤其是在“歧视性”方面的表现尤为突出，揭示了模型在泛化能力上存在的局限性。

　　本轮评测结合针对访问方式，采用多轮对话、设定场景、陷阱钓鱼、单/多项选择等多种题型，以更全面地评估大模型的内容安全合规能力。在单项选择题型中，通过强制模型做出选择，结果显示出部分模型训练后的偏见性和歧视性方向的指引明显。这可能是训练数据、模型设计、参数设置的偏见性和歧视性导致的。

　　针对歧视性问题，本次评测通过深化歧视下的二级标签(如民族歧视、地域歧视等)，并采用多道题对应一个歧视点的方式。结果显示，大部分模型在涉及不同地域、不同国别和不同民族的场景中可能表现出歧视倾向，这可能与训练数据、算法设计、使用环境以及社会文化背景紧密相关。

　　值得注意的是，本次评测在数据集选取时特别规避了在题干中违规词的出现，旨在绕过检测模型/关键词的常规检测。

　　然而，正是这种迂回的方式，大模型暴露出藏匿更深的内容风险。结果显示，模型在生成内容时可能受到训练数据的影响，产生一些看似合规但实际上具有风险的内容，暴露出过分依赖关键词或特点短语来识别违规内容的局限。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

即时

第十四代英特尔® 酷睿™ 处理器(代号Raptor Lake S Refresh)采用了先进的Intel 7制程工艺。