World Labs 与 Marble:从理论到实操,一篇文章带你理解与上手 AI 3D 世界模型
AI 已在语言、图像领域达到高度成熟,但真正理解“三维世界”的系统才刚刚起步。人类的视觉不仅识别物体,更能理解空间、结构、关系与物理特征,而这是 AI 长期难以企及的能力。
传统的 3D 场景构建需要专业工具与高昂成本,而现有的图像生成模型也无法直接产出可编辑、可漫游的空间内容。
World Labs 团队提出的 Marble,正是面向这一目标的早期尝试:让用户只需文字、图像或视频即可生成可编辑、可导出的 3D 世界,显著降低三维创作门槛。
一、World Labs 是什么?
World Labs 由李飞飞、何恺明等顶尖 AI 科学家创立,目标是推动下一代 空间智能(Spatial Intelligence) 的研究与落地。
过去的 AI 更多专注于:
-
语言理解(LLM)
-
图像识别(CV)
-
多模态内容生成
但这些能力都停留在“二维”层面,无法真正理解现实世界的三维结构。
而空间智能则包含:
-
结构推理
-
三维理解
-
物体关系建模
-
环境重建与探索
-
世界模型(World Model)
这正是下一代 AI 的关键方向。
二、Marble:World Labs 的 3D 世界模型平台
Marble 是一个 浏览器端的 3D 世界生成与编辑工具。它通过多模态输入构建可探索的三维空间,是目前最面向创作工具链的世界模型之一。
1. 多模态输入 → 3D 世界生成
Marble 能从多种输入自动构建 3D 世界,包括:
-
文本(一句话生成完整场景)
-
图片(单张 → 3D)
-
多张图(多视角空间重建)
-
视频
-
草图线稿
示例提示:
"A cozy wood-floor loft with a large window and warm lighting."
几秒后即可生成一个可漫游的空间。
2. 可编辑的世界(Editable World)
生成的场景不是一次性产物,而是可持续创作的 3D 世界:
-
删除或替换物体
-
自由扩展边界
-
修改布局与材质
-
编辑灯光与阴影
-
控制风格(写实 / 卡通等)
本质上,它让“生成”与“建模”结合为一个整体流程。
3. 可导出、可复用
Marble 支持导出:
-
GLB / OBJ / FBX(Mesh)
-
Gaussian Splat(高斯点云)
-
图片与视频
对于前端开发者与 3D 内容制作者尤其友好。
4. 适用场景
-
游戏场景原型
-
XR / VR 原型设计
-
室内建筑草图
-
教学演示
-
AI 创意生成
-
科研模拟
-
Web3D 项目
-
地理可视化增强(结合 Cesium)
AI 在三维领域的作用正在快速提升,Marble 提供了一个非常易用的入口。
四、实操:3 分钟生成你的第一个 AI 3D 世界
访问 Marble 平台
打开:
👉 https://www.worldlabs.ai/ (opens in a new tab)
注册并进入 Marble 编辑界面。

选择输入模式
左侧有四种模式可以选择:
-
Text → World(文本生成 3D)
-
Image → 3D(从照片生成场景)
-
Video → 3D(从视频推理空间结构)
-
Multi-view Reconstruction(多视角真实重建)
这里示例使用文本生成:
输入:
A modern reading room with wooden floor, soft warm lights, a large window and a desk.点击 Generate。

等待 AI 创建世界(约 10-30 秒)
AI 会自动推理空间结构,生成一个完整的房间。
你可以:
-
拖动漫游
-
切换第一人称视角
-
查看灯光与材质
-
移除不需要的物体
-
修改风格
整个操作过程无需任何 3D 基础。

六、总结
World Labs 的 Marble 不只是一个 AI 生成器,而是一个让任何人都能“构建三维世界”的工具。
它把世界模型、空间推理、多模态输入等技术整合,让 3D 创作不再依赖复杂软件和专业技能。
Marble 的出现,为三维内容生产带来了明显的降门槛。
从传统的模型软件到一句话描述,就能生成可漫游、可编辑的完整场景。
创作方式从“专业建模”变成“人人可用的表达”。
它也象征着 AI 从理解图片、文本,开始迈向理解空间、结构和世界本身。
未来,不论是 XR、数字孪生、交互式教育,还是智能体训练,都将依赖这类世界模型。
随着技术发展,AI 将在三维环境中学习、推理并执行任务。
这将让虚拟世界更加真实,也让机器对真实世界的理解更加精准。
当然,Marble 也仍有尚未完全解决的问题。
例如复杂几何的结构一致性、高精度的物理属性、超大规模空间的连续生成等。
视频或多视角输入在细节还原上也还有提升空间。
即便如此,Marble 已经展示出新一代创作工具的雏形。
它让三维世界的构建更加轻量、直观,也推动空间智能从实验室走向真实应用。