AI 出图全靠蒙?这个开源 IDE 让你先布景、摆 Pose 再生成

ArtCraft 是一个开源的 AI 图像和视频创作 IDE,目前 1.2k Star,用 Rust(76%)和 TypeScript(22%)构建,Windows 和 macOS 提供预编译版本,Linux 需要从源码构建。

项目的核心立场只有一句话:"艺术家需要控制权。"它想解决的问题很具体——现有 AI 图像生成工具的主要交互方式是写提示词,然后等结果。画面里谁站在哪里、用什么姿势、背景是什么光线,都只能靠文字描述,最终结果能否符合预期,很大程度依赖运气和反复迭代。ArtCraft 的思路是把这个流程反过来:先在可视化界面里把场景搭起来,再触发生成。

两种工作流

ArtCraft 提供两类工作流,面向不同的使用场景。

快速生成流程

适合日常的文生图、图像编辑和图转视频任务。功能和常见 AI 创作工具类似:输入提示词生成图片,支持局部修改(Inpainting)和蒙版(Masking),以及图片转视频。可以接入多个模型提供商,在同一个界面里切换。

高级编排流程

这是 ArtCraft 的主要差异点,面向对画面构成有明确预期的使用场景。

  • 3D/2D 图层合成:把图片按深度分层,支持背景抠图和元素叠加,生成前先确定各元素的空间关系。
  • 角色 Pose 控制:用虚拟人形模型(Mannequin)摆出目标姿势,再通过 Identity Transfer 把特定角色的外形叠加进去,用这套结果指导生成。这让角色姿态可以在生成前确定,而不是靠提示词描述后期矫正。
  • 场景布局(Scene Blocking):导入 3D 资产,把物体和角色的位置先在 3D 空间里摆好,再导出为参考图用于生成。
  • 地点替换(Image-to-Location):在已有环境图片里放置虚拟角色或物体,保持环境的光照和透视一致性。
  • 图片转 3D 网格(Image-to-3D Mesh):把 2D 图片转成 3D 模型,用于场景布局中的资产。

接入的 AI 模型

ArtCraft 本身不强绑定单一模型,目前支持的提供商包括:

  • Artcraft 自有模型:集成 Flux(图像)和 Sora(视频)
  • Grok:图像和视频生成
  • Midjourney:图像生成
  • WorldLabs:Gaussian Splat(一种 3D 场景表示格式)生成

路线图中还计划加入 Kling、Google、Runway 和 Luma。多个提供商在同一界面下切换,不需要逐个打开各自的网页工具。

技术栈与构建

后端用 Rust 编写,使用 Diesel 作为 ORM,前端是 TypeScript + React,同时提供 Docker 支持。快速迭代的发布节奏也在技术层面有所体现——从 v0.3.0 到当前 v0.12.0,不到一个月内完成了十几个版本的迭代。

安装

Windows 和 macOS 用户可以直接从官网或 GitHub Releases 下载安装包:

Linux 用户需要从源码构建。项目是 Rust 项目,构建前需要先安装 Rust 工具链,克隆仓库后按照 GitHub 中的构建脚本执行。

写在最后

ArtCraft 的定位是把提示词之外的可视化编排能力引入 AI 创作流程。3D 布景、角色 Pose、图层合成这套工具,在传统设计工具里早就存在,把它们和 AI 生成结合放在一个界面里,减少了"生成 → 不满意 → 修改提示词 → 再生成"的循环次数。

项目当前版本号是 v0.12.0,更新较快,部分功能仍在迭代中。如果你的创作场景对画面构成和角色一致性有较高要求,它提供的编排方式值得试用。

GitHub 地址:https://github.com/storytold/artcraft (opens in a new tab)