字节跳动开源TripoSplat与Bernini-R:单张图片生成3D高斯泼溅,AI 3D重建技术全面开放

👁️ 1561浏览 📅 2026-06-14

引言

2026年6月初,开源AI社区迎来了一场"模型发布周"的盛宴。在25多个横跨LLM、图像、音频、视频和3D的开源模型中,字节跳动旗下的VAST团队贡献了两个重量级的3D AI模型:TripoSplat和Bernini-R。其中,TripoSplat能够直接从单张2D图片生成3D高斯泼溅(3D Gaussian Splatting)表示,而Bernini-R则是一套完整的开放视频/3D重建管线。两者均以MIT开源许可证发布,意味着开发者可以自由使用、修改和商用。

TripoSplat:从单图到3D高斯泼溅的技术突破

TripoSplat的核心创新在于它绕过了传统"单图转3D"技术路径中的网格重建步骤,直接生成3D高斯泼溅表示。传统的单图3D重建流程通常是:输入图片→多视角扩散→神经渲染场→网格提取→纹理化。这一链条中的每一步都可能引入误差和失真。TripoSplat另辟蹊径,通过端到端的神经网络直接从单张图片回归出完整的3D高斯泼溅参数集,包括每个高斯基元的位置、颜色、不透明度和协方差。这种方法不仅简化了管线,而且在保持高视觉保真度的同时,大幅缩短了推理时间。从实际效果来看,TripoSplat生成的3D高斯泼溅在视角变化时的视觉连续性明显优于传统多步方法。

Bernini-R:开放的视频/3D重建管线

与TripoSplat配套发布的Bernini-R则是一套更加通用的3D重建管线。Bernini-R得名于文艺复兴时期的意大利建筑大师贝尔尼尼(Bernini),寓意"将艺术与工程完美融合"。该管线整合了多视角三维重建、神经辐射场(NeRF)优化、网格提取和纹理贴图等全流程模块,支持从视频序列或多视角图片集进行高质量的3D重建。Bernini-R在几个关键环节进行了工程优化:在特征匹配阶段采用了最新学习型特征提取器,在稠密重建阶段引入了几何一致性约束,在纹理贴图阶段实现了自动去遮挡和颜色校正。这些优化使得Bernini-R在重建精度和鲁棒性方面达到了业界领先水平。

MIT开源许可的意义:真正开放的AI 3D生态

TripoSplat和Bernini-R均采用MIT开源许可证发布,这一点值得特别关注。MIT许可证是限制最少的开源许可之一,允许任何人自由地使用、复制、修改、合并、发布、再许可和销售软件的副本。相比于某些模型采用的社区许可(限制特定区域的商用)或CC非商业许可,MIT许可意味着这些3D AI工具可以被真正地"拿来就用"。这对于创业公司、独立开发者和研究机构尤其重要,他们可以基于这些模型构建自己的3D内容生成应用,而无需担心授权问题。

技术对比:TripoSplat在行业中的定位

在2026年的AI 3D生成模型竞赛中,TripoSplat找到了自己独特的生态位。与微软TRELLIS.2(4B参数,20秒生成1536分辨率网格)主打高质量网格输出不同,TripoSplat专注于3D高斯泼溅路线,在视觉真实感和渲染速度方面具有天然优势。与 🔗腾讯混元3D 世界模型2.0的场景级生成能力相比,TripoSplat在单品重建的保真度上更胜一筹。与 🔗Hyper3D Rodin的商业级质量相比,TripoSplat虽然在某些精细纹理上略有差距,但其MIT开源许可和极低的推理成本构成了显著的差异化竞争力。

应用开发与社区生态

开源之后,围绕TripoSplat和Bernini-R的社区生态正在快速形成。在GitHub上,已经有开发者在TripoSplat的基础上开发了 🔗ComfyUI 节点插件,使得用户可以像操作其他ComfyUI节点一样,在可视化工作流中使用单图转3D高斯泼溅功能。同时,也有开发者将TripoSplat与Blender MCP集成,使得AI可以直接在Blender中完成从图像输入到3D资产导入的全流程。这些第三方集成大大降低了AI 3D生成技术的使用门槛,使得更多的创意工作者能够享受到AI带来的效率提升。

总结

字节跳动开源的TripoSplat和Bernini-R,以MIT许可为AI 3D领域注入了真正的开放精神。单图到3D高斯泼溅的技术突破、全流程重建管线的工程化、以及开箱即用的商用自由度,共同构成了这批开源项目的核心价值。

📚 想系统学习AI建模+3D打印?

18节实战课程,从想法到实物全流程跑通,零基础也能轻松学会!

立即学习 →