何斌
OmnInfer模型性能优化负责人,华为研发工程师
OmnInfer模型性能优化负责人,MTP SIG committer。毕业于中国科学技术大学和中国科学院大学,加入华为后先后在计算机网络和AI infra领域工作十年,拥有丰富的大模型推理优化工程经验。深度参与了多个开源模型以及盘古大模型在昇腾平台上的性能优化,应用于高性能推理服务和RL rollout。
演讲主题
Omni-infer性能极致优化实践
Omni-Infer是一套专为昇腾硬件平台定制的强大推理加速工具集,本议题介绍Omni-infer针对语言大模型和多模态大模型上在高吞吐和低时延方面进行极致性能优化的实践探索,包括融合算子、多流并行、调度和投机等。 大纲: 1.背景 2.高吞吐与低时延优化实践案例 3.未来展望