言犀基础大模型

2024年01月15日 15:11:01 来源：中国通信院华东分院

　　2021 年 1 月，京东科技在原京东数科与京东智联云基础上重组完成，融合了两大技术业务板块的综合实力，京东科技现已成为整个京东集团对外提供技术服务的核心平台，拥有丰富的产业理解力、深厚的风险管理能力、用户运营能力和企业服务能力，能面向不同行业为客户提供行业应用、产品开发与产业数字化服务。京东作为一家新型实体企业，拥有着深厚的产业基因和供应链场景，源于真实的业务需求、深度复杂的场景任务和广泛的实体经济发展要求，促使京东的 AI 技术是面向知识密集型、任务型场景，解决真实产业问题的技术。且京东云旗下的言犀团队在任务型智能对话交互关键技术方向拥有丰富的积累和广泛的落地，拥有包括文本生成、语音生成、对话生成等系列领先技术，并打造出了智能客服系统、京小智平台商家服务系统、智能政务热线、言犀数字人等系列产品和解决方案。

　　京东科技深耕人工智能领域多年，形成了从算法到应用场景的链路，并通过自研推出言犀基础大模型，赋予客户在各自行业中快速构建、部署，应用人工智能的能力。通过言犀基础大模型，企业可以建立从业务的大量数据中自我学习、自驱迭代的能力，并实现对企业实施、运营、维护的一体化覆盖，同时言犀大模型中的小型化技术能够使企业具备云管边端协同运营的能力，增强企业面对非标准化、算力通讯资源受限场景的应对能力，和面对业务变化的快速响应能力。

　　需求分析

　　目前基础大模型正处于蓬勃发展阶段，各行业、各领域以构建数字化、线上化、搭建虚拟仿真场景为主要应用。在当前阶段下，基础大模型面临着以下问题：一、由于基础技术的限制以及大部分企业在大模型应用和硬件设备开发能力的不足，从而导致无法自主生产原生 AI 模型。

　　二、除了用户单点大模型开发技术能力的不足，在各行业链条中的软硬件互通、数据标准化和应用功能融合等问题中都存在着无法克服的壁垒。

　　三、大模型训练硬件的能源消耗问题，在当前全球绿色经济的背景下，平稳运行离不开大规模的数据中心和云计算中心等基础设施的支撑，而大部分企业则无法满足以上的要求，从而无法实现大模型的应用。

　　针对以上情况，开发言犀基础大模型，以实现低门槛构建基于人工智能技术的解决方案，是本项目需要解决的问题。

　　案例介绍

　　京东推出的言犀基础大模型，将着力围绕内容生成、人机对话、用户意图理解、信息抽取、情感分类等几大类任务，围绕零售、物流、金融、健康、政务场景进行落地应用。

　　1) 优质的场景和数据让模型产业属性更强

　　京东的言犀大模型，是扎根产业的原生大模型。凭借着从基础设施、模型层、MaaS 层、SaaS 层全栈的技术布局，打造多款端到端的大模型技术产品。

　　言犀大模型拥有三个差异化的特性：

　　第一，它是产业原生的，有更强的产业属性。

　　第二，它是价值驱动的，有更高的应用价值。

　　第三，它是开放协同的，有更快的迭代效率。

　　另一方面，京东连接着产业互联网和消费互联网，在对内实践和对外产业数智化过程中积累了众多优质的数据，区别于一些通用域数据的静态数据，京东的数据是“鲜活的”，凭借每年产生数百亿的交互数据，保证了模型的持续迭代和优化。京东的大模型是在预训练阶段就接了 70% 通用域数据和接近 30% 京东特有的产业数据相结合去做训练，这就保证了模型拥有大模型的“常识”，并拥有产业模型的“专业”。

　　2) 京东言犀大模型技术架构

　　京东言犀大模型是基于京东云的高性能计算集群，采用 Megatron+DeepSpeed 的分布式训练框架，训练的 Decoder-Only 架构模型。在通用知识获取方面，言犀大模型添加了约 30% 的京东域自身的产业数据，并通过构建高质量的指令数据，帮助模型具备更强的产业属性。除了模型训练本身，京东言犀大模型还在模型的转换层和服务层进行了自研算法的深耕，提升了大模型本身的推理速度和部署性能，让大模型的能力能够充分的下沉到业务端，并通过集成平台能力打造真正的模型及服务。

　　3) 前沿的算法能力保证模型具备高应用价值

　　预训练层面

　　源于业务应用需求，京东在 2020 年就提出了 K-PLUG 模型，将领域知识注入大模型中，以提高大模型的专业性和忠实度，并在 2021 年对该项工作进行了发表。K-PLUG 方法是基于 Transformer 模型架构 X 京东的产业知识进行的预训练。

　　该算法帮助模型在实体属性抽取准确率为 96%;在生成式多轮对话 ROUGE-L(指标主要是对比机器生成的内容与人类的标准内容的匹配度)，以 27% 领先于斯坦福经典的 Pointer-Generator;在上下文多轮问答知识检索率以 74% 准确率领先于行业。

　　推理部署层面

　　除了在大模型的预训练阶段，言犀大模型通过上述算法增强了产业领域知识，在模型的推理层面，京东言犀采用量化矩阵算子融合、自适应参数矩阵量化、自动算子切分与卡间并行、内存优化与缓存等多种策略，将推理速度提升 6.2 倍，且在“首字”推理速度的大模型推理难点上，京东言犀大模型采用自研的算法，极大程度的提升了大模型在推理方面的性能。在部署方向，依靠流式推理有效解码传输机制、动态批处理、异构集群部署等方法，将部署成本降低了 90%。

　　此外，京东言犀大模型还拥有配套的 AI 开发计算平台，用于快速的模型迭代，效率提升 10 倍以上，让模型能够不断的学习新的知识。

　　4) 澎湃算力打造开放协同的大模型生态

　　为了训练大模型，京东早在 2021 年就在重庆建成了大模型集群，也是全国首个基于 DGX SuperPOD 架构的超大规模计算集群—天琴，该集群在保障京东自身大模型训练的同时，还将集群的每秒浮点运算次数提升 40%，多卡线性加速比提升 90%，为后续大模型的持续发展打下良好的基础。

　　另一方面，为了更好的应对大模型背景下的海量数据存储问题，京东还自研了向量数据库 Vearch，支持百亿级向量监检索，召回实现毫秒级延迟，智能储存分层实现成本降低 60%，大幅提升了模型推理泛化能力与推理效率。

　　效益分析

　　该解决方案以京东全产业链为核心优势，从产业场景、软件平台、安全合规等多个方面为用户带来价值。

　　产业场景方面 : 用户将借助京东积累的历史行业知识，低成本快速构建该用户所在细分领域大模型应用，使用户快速取得局部市场的先发优势(量化标准为缩短开发周期及成本降低)。

　　软件应用方面 : 为了让模型有更好的能力和应用，京东将开发言犀大模型过程中积累下来的能力解耦整合出来，以大模型开发平台的形式开放给京东的合作伙伴。该平台以京东云的私有云、公有云和混合云等高性能计算集群为底座，内置了包括数据、模型训练和部署推理等工具能力，不仅支持京东自身的言犀框架，也同时会支持各个主流的开源模型框架，促进大模型生态的发展。

　　安全合规方面：言犀 AI 大模型具备数据隐私和内容安全可控的价值：

　　5) 数据隐私安全

　　我司在人机交互研究中进行训练数据处理、人工智能模型的训练时，严格遵守使用深度合成技术中的个人隐私保护要求，确保训练数据数据来源合法性，并使用脱敏数据进行模型训练。

　　6) 内容生成可控性

　　恶意代码、插件和网络钓鱼电子邮件有可能被 ChatGPT 生成。为了杜绝此安全隐患，京东云言犀团队会在模型训练时引入人工反馈机制降低和杜绝模型生成有害信息的回复。同时引入审核 API 来阻止某些有害内容的输出，例如，当收到要求编写用于从被黑客攻击的设备窃取数据的代码或制作网络钓鱼电子邮件时，模型会拒绝该要求并指出此类内容是“非法、不道德且有害的”。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

[No. ]
分享到微信