AI 出图全靠蒙？这个开源 IDE 让你先布景、摆 Pose 再生成

ArtCraft 是一个开源的 AI 图像和视频创作 IDE，目前 1.2k Star，用 Rust（76%）和 TypeScript（22%）构建，Windows 和 macOS 提供预编译版本，Linux 需要从源码构建。

项目的核心立场只有一句话："艺术家需要控制权。"它想解决的问题很具体——现有 AI 图像生成工具的主要交互方式是写提示词，然后等结果。画面里谁站在哪里、用什么姿势、背景是什么光线，都只能靠文字描述，最终结果能否符合预期，很大程度依赖运气和反复迭代。ArtCraft 的思路是把这个流程反过来：先在可视化界面里把场景搭起来，再触发生成。

两种工作流

ArtCraft 提供两类工作流，面向不同的使用场景。

快速生成流程

适合日常的文生图、图像编辑和图转视频任务。功能和常见 AI 创作工具类似：输入提示词生成图片，支持局部修改（Inpainting）和蒙版（Masking），以及图片转视频。可以接入多个模型提供商，在同一个界面里切换。

高级编排流程

这是 ArtCraft 的主要差异点，面向对画面构成有明确预期的使用场景。

3D/2D 图层合成：把图片按深度分层，支持背景抠图和元素叠加，生成前先确定各元素的空间关系。
角色 Pose 控制：用虚拟人形模型（Mannequin）摆出目标姿势，再通过 Identity Transfer 把特定角色的外形叠加进去，用这套结果指导生成。这让角色姿态可以在生成前确定，而不是靠提示词描述后期矫正。
场景布局（Scene Blocking）：导入 3D 资产，把物体和角色的位置先在 3D 空间里摆好，再导出为参考图用于生成。
地点替换（Image-to-Location）：在已有环境图片里放置虚拟角色或物体，保持环境的光照和透视一致性。
图片转 3D 网格（Image-to-3D Mesh）：把 2D 图片转成 3D 模型，用于场景布局中的资产。

接入的 AI 模型

ArtCraft 本身不强绑定单一模型，目前支持的提供商包括：

Artcraft 自有模型：集成 Flux（图像）和 Sora（视频）
Grok：图像和视频生成
Midjourney：图像生成
WorldLabs：Gaussian Splat（一种 3D 场景表示格式）生成

路线图中还计划加入 Kling、Google、Runway 和 Luma。多个提供商在同一界面下切换，不需要逐个打开各自的网页工具。

技术栈与构建

后端用 Rust 编写，使用 Diesel 作为 ORM，前端是 TypeScript + React，同时提供 Docker 支持。快速迭代的发布节奏也在技术层面有所体现——从 v0.3.0 到当前 v0.12.0，不到一个月内完成了十几个版本的迭代。

安装

Windows 和 macOS 用户可以直接从官网或 GitHub Releases 下载安装包：

官网：getartcraft.com (opens in a new tab)
GitHub Releases：github.com/storytold/artcraft/releases (opens in a new tab)

Linux 用户需要从源码构建。项目是 Rust 项目，构建前需要先安装 Rust 工具链，克隆仓库后按照 GitHub 中的构建脚本执行。

写在最后

ArtCraft 的定位是把提示词之外的可视化编排能力引入 AI 创作流程。3D 布景、角色 Pose、图层合成这套工具，在传统设计工具里早就存在，把它们和 AI 生成结合放在一个界面里，减少了"生成 → 不满意 → 修改提示词 → 再生成"的循环次数。

项目当前版本号是 v0.12.0，更新较快，部分功能仍在迭代中。如果你的创作场景对画面构成和角色一致性有较高要求，它提供的编排方式值得试用。

GitHub 地址：https://github.com/storytold/artcraft (opens in a new tab)