杨珂
Mooncake核心贡献者、趋境科技技术专家
杨珂是趋境科技技术专家,开源项目Mooncake核心贡献者,清华大学计算机系高性能所博士,本科毕业于北京邮电大学,曾入围2013年ACM-ICPC 世界总决赛,多次在SOSP、ASLPLOS等系统领域顶会发表一作论文,研究领域包括分布式系统、并行计算、AI Infra。
演讲主题
从单体到解耦:Mooncake 如何支撑下一代大模型推理架构
随着大模型上下文长度的增加和 token 调用量的爆发式增长,传统的单体式推理架构越来越难以满足大规模服务的需求。Mooncake 是一个以 KVCache 为中心、面向解耦场景设计的开源分布式大模型推理架构,旨在打破 KVCache、模型权重等数据的存储与传输过程中,带宽、延迟、容错等问题所带来的算力利用率瓶颈,推动大模型服务从传统单体部署向更加异构、解耦、高效的系统架构演进。围绕这一目标,Mooncake 逐步发展为面向大模型服务的通信与存储基础设施,关注规模化运行下的效率上限与系统稳定边界,形成了五大核心能力:P/D 分离下的高效 KVCache 传输、分布式推理集群全局 KVCache 复用、弹性专家并行计算与故障恢复、高容错能力的 PyTorch 分布式后端,以及基于 tensor-native 与零拷贝 API 的模型权重快速更新。Mooncake 与 SGLang、vLLM、xLLM、TensorRT LLM 等主流推理引擎深度集成,加入 PyTorch 原生生态体系,并在多家企业与机构落地应用,持续推动大模型服务向更加可扩展、更高效率、更具规模化落地能力的方向迈进。 大纲: 1. 背景介绍:长上下文时代大模型推理的挑战、推理架构的演进、Mooncake项目背景 2. 深入探讨Mooncake的系统架构、核心功能、系统优化和最新进展 3. 介绍 Mooncake 在大模型开源生态圈和工业界中的应用情况 听众受益: 本次分享旨在为构建下一代大模型推理系统提供具有实践价值的系统设计与优化思路。通过本次分享,听众将了解当前大模型推理面临的挑战以及大模型推理架构的演进趋势,深入理解分离式架构下数据在高效、可靠传输与存储过程中所遇到的关键问题,以及开源项目 Mooncake 针对这些问题所进行的架构设计与系统优化实践。同时,分享还将介绍 Mooncake 的最新进展,以及其在大模型开源生态中的集成情况与应用经验。