MIT联合Meshy AI突破3D世界建模难题：Omni123系统让AI同时理解文字、图像和立体空间

👁️ 2421浏览 📅 2026-04-15

AI 3D建模重大突破

2026年4月，麻省理工学院与香港中文大学（深圳）、 🔗Meshy AI公司联合发布Omni123系统，成功攻克人工智能同时理解文字、生成图像并创造立体三维模型的重大难题。研究成果发表于2026年4月计算机视觉顶级会议。

行业痛点与解决方案

痛点	挑战	Omni123解决方案
数据稀缺	互联网上图片众多，高质量3D模型稀少	统一的标记化策略，跨模态数据融合
跨模态理解	让AI同时处理文字、图像、3D三种信息形态	双流自回归架构，统一语义空间
训练质量	现有3D数据集粗糙，缺乏细节复杂性	三阶段渐进式训练策略

Omni123核心技术架构

统一标记化策略

将文本、图像和3D几何体都转化为相同的"语言"，实现跨模态信息统一处理：

文本编码：CLIP编码器（视觉相关语言）+ Qwen3编码器（语言细节）
图像标记器：两阶段训练，连续变分自编码器 + 一维量化器
3D几何标记器：Cube3D几何标记器，基于感知器的向量量化变分自编码器

双流自回归架构

三阶段渐进式训练

预训练阶段：跨模态X-to-X范式（文本→图像、文本→3D、图像→3D、3D→图像）
持续训练阶段：引入视点感知能力，N=6个可学习嵌入绑定固定规范视点
监督微调阶段：引入交错多模态序列，定义五个SFT任务

性能对比测试

组件	功能
条件流	承载文本嵌入
生成流	承载图像和3D形状标记
联合注意力	双流信息交互处理

方法	类型	语义-几何对齐
Sana/Hunyuan3D2.1	级联管道	表现不佳，存在误差累积
ShapeLLM-Omni-7B	原生模型	受3D数据稀缺限制
Omni123-2B	原生模型	最优，明显优势超越基线

实验证明：2B参数量的Omni123比7B的ShapeLLM-Omni实现了更优的对齐效果，证明交错跨模态训练是更参数高效、可扩展的路线。

应用场景展望

领域	应用场景	优势
游戏开发	3D资产生成	根据文字描述快速生成高质量3D资产
电影动画	概念设计	导演用文字描述即可生成初步3D模型
教育培训	教学模型	复杂概念直观3D可视化
建筑设计	设计概念转化	自然语言描述生成三维模型
电商平台	产品展示	文字描述生成3D展示模型

未来发展方向

自适应分辨率标记化：动态调整生成质量
场景级生成：处理包含多个对象的复杂3D场景
材质和物理建模：理解并生成物体材质属性和物理行为

来源：至顶科技/腾讯新闻 | 发布时间：2026年4月13日

📚 想系统学习AI建模+3D打印？

18节实战课程，从想法到实物全流程跑通，零基础也能轻松学会！

立即学习 →