突破叙事尺度 刻画极致人物 迷雾剧场《漂白》1月17日上线爱奇艺1月20日手机数码国补落地京东 超千万国补商品等你挑选超千万货品已备足 1月20日来京东购手机享国家补贴每件最高500元拥抱创新科技,探寻体育变革之路—— 第二届LALIGA EXTRATIME体育行业论坛在京成功举办斑马技术《2025全球消费者调查报告》:注重防损管理,增强顾客体验终端创企Nothing拟募资1亿美元 一加联合创始人创立恩智浦获欧洲投资银行 10 亿欧元贷款,用于在欧多国研发创新工作入手松下ZS99相机新品首选京东 售价2998元可先人一步入手1月20日打开京东搜索「1」 3C数码“疯狂星期一”爆款低至1元当代年轻人用上AI,从夸克开始消息称iPhone SE 4将有白色和黑色 预计3月份推出全球PC市场迎来温和复苏:2024年出货量增长1.3%,联想和苹果表现亮眼比亚迪已在韩国推出Atto 3 预计2月中旬开始交付发展新质生产力 赋能健康产品力 ——劲牌有限公司2024年度科技责任(成果)报告美光减产后 SK海力士也计划将上半年NAND闪存产量削减一成赵明离职信曝光:离开荣耀是人生中最艰难的决定消息称京东服饰换帅,阿里前高管担任负责人这年头,谁在互联网上学这么“硬核”的AI?开战2025,本地生活商家「另辟蹊径」年底Mini LED电视到底怎么选?认准这些新技术不踩雷!
  • 首页 > 云计算频道 > 大模型

    Kimi开源底层推理框架,1小时GitHub揽星1.2k

    2024年11月29日 10:16:36   来源:量子位公众号

      什么?Kimi底层推理架构刚刚宣布:开!源!了!

      你没听错,就是那个承载了Kimi线上80%以上流量的架构。

      大约几小时前,月之暗面Kimi联合清华大学等机构,开源了大模型推理架构Mooncake

      根据官方介绍,本次开源将采用分阶段的方式:

      逐步开源高性能KVCache多级缓存Mooncake Store的实现,同时针对各类推理引擎和底层存储/传输资源进行兼容。

      其中传输引擎Transfer Engine现在已经在GitHub全球开源。

      可以看到,Mooncake一经开源,已在GitHub狂揽1.2k star。

      其最终开源目标是,为大模型时代打造一种新型高性能内存语义存储的标准接口,并提供参考实现方案。

      月之暗面Kimi工程副总裁许欣然表示:

      通过与清华大学MADSys实验室紧密合作,我们共同打造了分离式大模型推理架构Mooncake,实现推理资源的极致优化

      Mooncake不仅提升了Kimi的用户体验,降低了成本,还为处理长文本和高并发需求提供了有效的解决方案。

      我们相信,通过与产学研机构开源合作,可以推动整个行业向更高效的推理平台方向发展。

      实际上,这个项目早在今年6月就已启动,当时已受到业内广泛关注——

      大模型推理架构Mooncake

      今年6月,月之暗面和清华大学MADSys实验室联合发布了Kimi底层的Mooncake推理系统设计方案

      在这篇名为《Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving》的论文中,作者详细介绍了Mooncake这种系统架构。

      该系统基于以KVCache为中心的PD分离和以存换算架构,大幅度提升了推理吞吐。

      具体而言,Mooncake采用以KVCache为中心的解耦架构,将预填充集群与解码集群分离,并充分利用GPU集群中未充分利用的CPU、DRAM和SSD资源,实现KVCache的解耦缓存。

      其核心在于以KVCache为中心的调度程序:

      在最大化整体有效吞吐量和满足与延迟相关的服务级别目标 (SLO) 要求之间取得平衡

      当面对流量高峰期时,Mooncake通过早期拒绝策略和预测未来负载的方法,来处理超载问题。

      早期拒绝策略(Early Rejection Policy)

      简单说,其核心思想是在请求实际开始处理之前,根据当前系统的负载情况预测是否有足够的资源来处理新的请求。

      如果预测结果表明系统资源不足以保证请求的及时处理,系统就会在请求到达之前予以拒绝,从而避免了无效的资源占用和不必要的延迟。

      预测未来负载(Predicting Future Load)

      在Mooncake中,系统需要能够预测在未来一段时间内的负载情况,以便做出更准确的接受或拒绝请求的决策。

      如何实现呢??

      通常来说,这种预测会基于当前的请求模式、系统的资源使用情况以及历史数据等信息。

      再通过对信息的进一步分析建模,Mooncake就能够估计接下来的请求处理需求,并据此调整其调度策略。

      论文实验结果显示,与基线方法相比,Mooncake在某些模拟场景中可以实现高达525%的吞吐量提升,同时遵守SLO(与延迟相关的服务级别目标)。

      在实际工作负载下,Mooncake使Kimi能够处理75%以上的请求。

      而且据许欣然在其他场合透露:

      目前这套系统承载了Kimi线上80%以上的流量。

      而现在,为了进一步加速该技术框架的应用与推广,Kimi联合清华大学等机构共同发布开源项目Mooncake。

      参与开源的首批阵容包括:

      AISoft、阿里云、华为存储、面壁智能、趋境科技等。

      可以说,云计算、存储、AI模型玩家等产学研力量都聚齐了。

      据悉,Mooncake开源项目从论文延伸,以超大规模KVCache缓存池为中心,通过以存换算的创新理念大幅度减少算力开销,显著提升了推理吞吐量。

      目前Mooncake技术框架已正式开源上线,官方还表示:

      欢迎更多企业和研究机构加入Mooncake项目共建,共同探索更加高效和先进的模型推理系统架构创新,让基于大模型技术的AI助手等产品,持续惠及更广泛人群。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。