免费领取《AI原生软件研发成熟度模型 AISMM》白皮书    

点击领取

我要参会

李杨

腾讯混元3D研究员

腾讯(混元3D)的研究员。在东京大学跟随原田达也教授完成了博士学位。研究兴趣聚焦于3D计算机视觉与人工智能的交叉领域,尤其专注于3D物体/场景生成、多模态大模型以及世界模型。

演讲主题

迈向 3D 世界模型:腾讯混元 3D-DiT 架构演进与自动化原生管线工程实践

本演讲将深度解构腾讯混元 3D 系列模型从单体资产生成向“3D 世界模型”跨越的底层技术路径。针对传统 3D 生成中“网格拓扑非结构化、隐式表征难以兼容工业管线”等算法与工程痛点,我们将详细剖析业界首创的 3D-DiT 分级雕刻架构,及其在支撑 1536³ 体素分辨率、150 万面几何精细度上的性能突破。同时,首次揭秘基于大模型的原生四边面拓扑(Quad Mesh)重构技术(PolyGen)及端到端 3D AI 全链路自动化管线的工程实现。最终,我们将展示混元 3D 世界模型 1.0 在泛化 360° 沉浸式空间生成、空间漫游与物理交互探索中的前沿进展,为实现空间智能(Spatial Intelligence)提供体系化解法。 大纲: 1. 破局与愿景:从 3D 资产生成到 3D 世界模型 - 算法瓶颈: 现有 3D 生成模型(如基于 NeRF/3DGS 或传统 Mesh 提取)在几何连续性、纹理高频细节及工业管线兼容性上的局限。 - 混元的技术演进: 构建“3D 对象基座” -> “3D 自动化管线” -> “3D 世界模型”的三阶跨越。 2. 底层架构突破:混元 3D-DiT 的高维表征 - 3D-DiT 架构解析: Transformer 在 3D 三维隐空间表征中的优势与网络结构设计。 - 分级雕刻(Hierarchical Sculpting)机制: 算法如何平衡计算开销与极致精度,实现 36 亿体素与 150 万面的 SOTA 级几何保真度。 - 定量与定性分析: 核心指标消融实验,以及 3.0 版本对比 2.5 版本在复杂建筑、人物拓扑上的 30%-60% 性能跃升归因。 3. 跨越工业红线:原生四边面(Quad Mesh)与端到端管线 - 智能拓扑 1.5(PolyGen 模型): 突破行业圣杯,解析首个原生四边面 3D 大模型的算法原理,如何确保边缘流(Edge Flow)直接符合专业美术标准。 - 组件语义拆解(组件拆分 1.5): 基于高维语义理解的 3D 模型无损自动拆件及局部重构技术。 - 工程化落地: 10 分钟端到端 AI 游戏管线架构图解,从算法推断到完整 PBR 材质组导出的自动化数据流闭环。 4. 空间智能的雏形:混元 3D 世界模型 1.0 - 全景空间表征: 如何突破单体生成限制,实现高质量、大尺度的 360° 沉浸式空间生成。 - 漫游与物理交互: 探讨场景级 Mesh 导出后的空间一致性、物理仿真(如碰撞检测)潜力及其在 VR/游戏引擎中的集成。 5. 总结与前沿展望 - 生成式 3D 技术的下一代挑战:4D 动态绑定(Rigging)与跨模态空间智能(Spatial AI)。 听众受益: 1. 洞察前沿架构: 深入理解 3D-DiT 架构的设计理念及其在解决高分辨率 3D 几何与纹理表征上的底层算法逻辑。 2. 掌握工程解法: 获取端到端自动化 3D AI 工业管线的搭建经验,了解大规模降本增效背后的系统工程架构。 3. 突破拓扑难题: 学习原生四边面拓扑(Quad Mesh)与自动拆件生成算法的关键技术点,解决 AI 资产进入传统渲染引擎的“最后一公里”兼容问题。 4. 预见空间智能: 抢先了解 3D 世界模型在全景空间生成、实时交互及物理仿真层面的最新研究进展与未来范式。

© boolan.com 博览 版权所有

沪ICP备15014563号-6

沪公网安备31011502003949号