黄浩洋
京东探索研究院总监、多模态基础模型研发团队负责人
黄浩洋,京东集团探索研究院总监;京东多模态基础模型团队负责人。黄浩洋在人工智能顶级期刊与会议发表论文40余篇,曾主导微软亚洲研究院多语言与多模态基础模型研发,应用于微软必应搜索与微软机器翻译,推出覆盖100种语言的Unicoder及全球首个多语言多模态预训练模型M3P,并获得WMT21大规模多语言机器翻译比赛全球第一名。2024年主导30B StepVideo视频生成大模型系列(Step-Video-T2V、Step-Video-TI2V)并开源。
演讲主题
多模态生成模型的发展趋势与工程实践
近年来,生成式AI快速发展,从最初的文本生成逐步扩展到图像、视频与音频等多模态内容生成。随着模型规模、数据规模以及训练方法的不断提升,多模态生成模型正在成为AI领域的重要研究方向。本次分享将从行业发展的视角,回顾多模态生成模型的发展历程,并重点探讨视频生成与多模态生成在数据构建、模型训练以及能力评估方面的关键技术挑战。同时结合过往参与的相关项目经验,总结多模态生成模型在工程落地过程中的实践经验与方法论,并分析生成式AI在数字内容生产等领域的应用价值与发展趋势。 大纲: 1.生成式AI的发展历程 从文本生成到多模态生成 2.多模态生成模型的关键技术挑战 数据规模、训练方法与模型能力 3.多模态生成模型的应用场景 数字内容生产与智能交互