MIT联合Meshy AI突破3D世界建模难题:Omni123系统让AI同时理解文字、图像和立体空间

👁️ 2421浏览 📅 2026-04-15

AI 3D建模重大突破

2026年4月,麻省理工学院与香港中文大学(深圳)、 🔗Meshy AI公司联合发布Omni123系统,成功攻克人工智能同时理解文字、生成图像并创造立体三维模型的重大难题。研究成果发表于2026年4月计算机视觉顶级会议。

行业痛点与解决方案

痛点挑战Omni123解决方案
数据稀缺互联网上图片众多,高质量3D模型稀少统一的标记化策略,跨模态数据融合
跨模态理解让AI同时处理文字、图像、3D三种信息形态双流自回归架构,统一语义空间
训练质量现有3D数据集粗糙,缺乏细节复杂性三阶段渐进式训练策略

Omni123核心技术架构

统一标记化策略

将文本、图像和3D几何体都转化为相同的"语言",实现跨模态信息统一处理:

  • 文本编码:CLIP编码器(视觉相关语言)+ Qwen3编码器(语言细节)
  • 图像标记器:两阶段训练,连续变分自编码器 + 一维量化器
  • 3D几何标记器:Cube3D几何标记器,基于感知器的向量量化变分自编码器

双流自回归架构

三阶段渐进式训练

  • 预训练阶段:跨模态X-to-X范式(文本→图像、文本→3D、图像→3D、3D→图像)
  • 持续训练阶段:引入视点感知能力,N=6个可学习嵌入绑定固定规范视点
  • 监督微调阶段:引入交错多模态序列,定义五个SFT任务

性能对比测试

组件功能
条件流承载文本嵌入
生成流承载图像和3D形状标记
联合注意力双流信息交互处理
方法类型语义-几何对齐
Sana/Hunyuan3D2.1级联管道表现不佳,存在误差累积
ShapeLLM-Omni-7B原生模型受3D数据稀缺限制
Omni123-2B原生模型最优,明显优势超越基线

实验证明:2B参数量的Omni123比7B的ShapeLLM-Omni实现了更优的对齐效果,证明交错跨模态训练是更参数高效、可扩展的路线。

应用场景展望

领域应用场景优势
游戏开发3D资产生成根据文字描述快速生成高质量3D资产
电影动画概念设计导演用文字描述即可生成初步3D模型
教育培训教学模型复杂概念直观3D可视化
建筑设计设计概念转化自然语言描述生成三维模型
电商平台产品展示文字描述生成3D展示模型

未来发展方向

  • 自适应分辨率标记化:动态调整生成质量
  • 场景级生成:处理包含多个对象的复杂3D场景
  • 材质和物理建模:理解并生成物体材质属性和物理行为

来源:至顶科技/腾讯新闻 | 发布时间:2026年4月13日

📚 想系统学习AI建模+3D打印?

18节实战课程,从想法到实物全流程跑通,零基础也能轻松学会!

立即学习 →