李杨 | 2026奇点智能技术大会-4月

免费领取《AI原生软件研发成熟度模型 AISMM》白皮书

点击领取

我要参会

李杨

腾讯混元3D研究员

腾讯（混元3D）的研究员。在东京大学跟随原田达也教授完成了博士学位。研究兴趣聚焦于3D计算机视觉与人工智能的交叉领域，尤其专注于3D物体/场景生成、多模态大模型以及世界模型。

演讲主题

迈向 3D 世界模型：腾讯混元 3D-DiT 架构演进与自动化原生管线工程实践

本演讲将深度解构腾讯混元 3D 系列模型从单体资产生成向“3D 世界模型”跨越的底层技术路径。针对传统 3D 生成中“网格拓扑非结构化、隐式表征难以兼容工业管线”等算法与工程痛点，我们将详细剖析业界首创的 3D-DiT 分级雕刻架构，及其在支撑 1536³ 体素分辨率、150 万面几何精细度上的性能突破。同时，首次揭秘基于大模型的原生四边面拓扑（Quad Mesh）重构技术（PolyGen）及端到端 3D AI 全链路自动化管线的工程实现。最终，我们将展示混元 3D 世界模型 1.0 在泛化 360° 沉浸式空间生成、空间漫游与物理交互探索中的前沿进展，为实现空间智能（Spatial Intelligence）提供体系化解法。大纲： 1. 破局与愿景：从 3D 资产生成到 3D 世界模型 - 算法瓶颈：现有 3D 生成模型（如基于 NeRF/3DGS 或传统 Mesh 提取）在几何连续性、纹理高频细节及工业管线兼容性上的局限。 - 混元的技术演进：构建“3D 对象基座” -> “3D 自动化管线” -> “3D 世界模型”的三阶跨越。 2. 底层架构突破：混元 3D-DiT 的高维表征 - 3D-DiT 架构解析： Transformer 在 3D 三维隐空间表征中的优势与网络结构设计。 - 分级雕刻（Hierarchical Sculpting）机制：算法如何平衡计算开销与极致精度，实现 36 亿体素与 150 万面的 SOTA 级几何保真度。 - 定量与定性分析：核心指标消融实验，以及 3.0 版本对比 2.5 版本在复杂建筑、人物拓扑上的 30%-60% 性能跃升归因。 3. 跨越工业红线：原生四边面（Quad Mesh）与端到端管线 - 智能拓扑 1.5（PolyGen 模型）：突破行业圣杯，解析首个原生四边面 3D 大模型的算法原理，如何确保边缘流（Edge Flow）直接符合专业美术标准。 - 组件语义拆解（组件拆分 1.5）：基于高维语义理解的 3D 模型无损自动拆件及局部重构技术。 - 工程化落地： 10 分钟端到端 AI 游戏管线架构图解，从算法推断到完整 PBR 材质组导出的自动化数据流闭环。 4. 空间智能的雏形：混元 3D 世界模型 1.0 - 全景空间表征：如何突破单体生成限制，实现高质量、大尺度的 360° 沉浸式空间生成。 - 漫游与物理交互：探讨场景级 Mesh 导出后的空间一致性、物理仿真（如碰撞检测）潜力及其在 VR/游戏引擎中的集成。 5. 总结与前沿展望 - 生成式 3D 技术的下一代挑战：4D 动态绑定（Rigging）与跨模态空间智能（Spatial AI）。听众受益： 1. 洞察前沿架构：深入理解 3D-DiT 架构的设计理念及其在解决高分辨率 3D 几何与纹理表征上的底层算法逻辑。 2. 掌握工程解法：获取端到端自动化 3D AI 工业管线的搭建经验，了解大规模降本增效背后的系统工程架构。 3. 突破拓扑难题：学习原生四边面拓扑（Quad Mesh）与自动拆件生成算法的关键技术点，解决 AI 资产进入传统渲染引擎的“最后一公里”兼容问题。 4. 预见空间智能：抢先了解 3D 世界模型在全景空间生成、实时交互及物理仿真层面的最新研究进展与未来范式。