AIComicBuilder
AIComicBuilder 是一款开源的 AI 驱动漫剧生成器,旨在将文字剧本全自动转化为完整的动画视频。它解决了传统动画制作中门槛高、周期长、角色一致性难维持等痛点,通过智能化流水线让用户只需上传剧本,即可快速获得包含分镜、角色设计及动态视频的成品。
该工具非常适合内容创作者、独立开发者、设计师以及希望低成本尝试动画制作的普通用户。其核心亮点在于构建了从“剧本解析”到“视频合成”的闭环工作流:不仅能自动提取角色并生成确保画风统一的四视图参考,还能智能拆解专业分镜,利用首尾帧插值技术生成流畅的动作片段。此外,AIComicBuilder 支持多模型接入(如 Kling、Seedance、Veo 等),允许用户灵活配置图像与视频生成引擎,并提供看板视图以便精细调控每个镜头的生成进度。无论是想快速验证创意的编剧,还是希望探索 AI 视频工作流的技术爱好者,都能通过它轻松实现从文字到动态影像的跨越。
使用场景
一位独立漫画创作者希望将自己创作的短篇悬疑剧本快速转化为动态漫剧,以在短视频平台进行试水推广。
没有 AIComicBuilder 时
- 角色一致性难以维持:手动绘制或拼接素材时,主角在不同镜头中的长相、衣着极易出现偏差,导致观众出戏,需耗费大量时间反复修图。
- 分镜与视频制作门槛高:缺乏专业分镜能力,且将静态图转为动态视频需要掌握复杂的 AE 或 PR 技能,单人几乎无法完成流畅的运镜效果。
- 全流程协作割裂:剧本、人设图、分镜稿和视频片段散落在不同软件中,修改一处剧情往往牵一发而动全身,迭代成本极高。
- 多模型切换繁琐:想要尝试不同的绘画风格或视频生成模型,需要在多个网页端来回切换账号和提示词,工作流支离破碎。
使用 AIComicBuilder 后
- 自动锁定角色特征:AI 自动从剧本提取角色并生成标准的“四视图”参考图,确保后续所有镜头中主角形象高度一致,无需人工干预。
- 一键生成动态分镜:输入剧本后,系统自动拆解为专业镜头列表,并利用首尾帧插值技术直接生成带有运镜效果的动画片段,零基础即可产出电影感画面。
- 可视化流水线管理:在一个看板视图中即可完成从剧本解析、分镜编辑到视频合成的全流程,修改剧本后可快速定位并重制特定镜头,迭代效率提升十倍。
- 统一模型调度中心:内置支持 Kling、Seedance 等多种主流模型,可在项目设置中自由切换,系统自动适配提示词与画面风格,让创作专注于内容本身。
AIComicBuilder 将原本需要团队协作数周的漫剧制作过程,压缩为单人几天即可完成的自动化流水线,极大降低了动态内容的创作门槛。
运行环境要求
- Linux
- macOS
- Windows
未说明 (依赖云端 AI 模型供应商如 OpenAI, Kling, Seedance 等,本地仅需 FFmpeg 进行视频合成)
未说明

快速开始
AI漫剧生成器
社区交流:https://linux.do/
v0.2.3
AI驱动的漫剧生成器——从剧本到动画视频的全自动流水线。
📺 系统介绍视频:
本网站全程由AI驱动开发,开发指南:https://github.com/twwch/vibe-coding
功能特性
- 剧本导入 — 支持上传TXT/DOCX/PDF文件,AI自动解析文本、提取角色、智能分集,流程可视化
- 分集管理 — 项目级分集列表,角色按集关联,支持手动创建或导入自动分集
- 角色管理 — 项目级角色管理,主角/配角分区展示,支持跨集复用和按集独立解析
- 剧本创作 — 手动编写或AI辅助生成剧本
- 角色提取 — AI自动从剧本中提取角色并生成详细视觉描述
- 角色四视图 — 为每个角色生成四视图参考图(正面/四分之三/侧面/背面),确保后续帧画面一致性
- 智能分镜 — AI将剧本拆解为专业镜头列表(含构图、灯光、运镜指令)
- 首尾帧生成 — 为每个镜头生成起始帧和结束帧关键画面(首尾帧模式/场景参考帧模式)
- 视频提示词 — AI基于分镜描述和参考帧自动生成视频提示词,支持直接编辑
- 视频生成 — 基于首尾帧插值生成动画视频片段
- 视频合成 — 将所有片段拼接为完整动画,支持字幕烧录
- 分镜工作流 — 分镜编辑抽屉、角色内联面板、看板视图三种协作视图,支持单张分镜精细编辑
- 帧图管理 — 生成帧支持手动上传替换及一键清除
- 资源下载 — 支持最终视频下载及全部素材打包下载
- 多语言 — 中文 / English / 日本語 / 한국어
- 风格自适应 — 自动识别剧本风格(动漫/写实等),角色四视图与首尾帧生成均匹配对应风格
- 视频比例 — 支持16:9 / 9:16 / 1:1 / 自适应比例,首尾帧与视频生成统一比例
- 多模型 — 支持OpenAI、Gemini、Kling、Seedance、Veo等多家AI供应商,可按项目配置
技术栈
| 层级 | 技术 |
|---|---|
| 框架 | Next.js 16 (App Router) |
| 前端 | React 19, Tailwind CSS 4, Zustand, Base UI |
| 国际化 | next-intl |
| 数据库 | SQLite + Drizzle ORM |
| AI文本 | OpenAI / Gemini (via AI SDK) |
| AI图像 | OpenAI DALL-E / Gemini Imagen / Kling |
| AI视频 | Seedance / Kling / Veo |
| 视频处理 | FFmpeg (fluent-ffmpeg) |
| 包管理 | pnpm |
快速开始
环境要求
- Node.js 18+
- pnpm
- FFmpeg(视频合成功能需要)
安装
pnpm install
初始化数据库
pnpm drizzle-kit push
启动
pnpm dev
Docker部署
快速启动
docker run -d \
--name ai-comic-builder \
-p 3000:3000 \
-v ./data:/app/data \
-v ./uploads:/app/uploads \
--platform linux/amd64 \
twwch/aicomicbuilder:latest
启动后在设置页面中配置AI模型供应商(OpenAI / Gemini / Seedance)。
Docker Compose
创建 docker-compose.yml:
services:
ai-comic-builder:
image: twwch/aicomicbuilder:latest
ports:
- "3000:3000"
volumes:
- ./data:/app/data
- ./uploads:/app/uploads
restart: unless-stopped
docker compose up -d
数据持久化
通过volume挂载保持数据:
./data— SQLite数据库文件./uploads— 上传的文件及生成的资源(图片、视频等)
手动构建镜像
git clone https://github.com/twwch/AIComicBuilder.git
cd AIComicBuilder
docker build -t ai-comic-builder .
生成流水线
剧本输入 → 剧本解析 → 角色提取 → 角色四视图
↓
智能分镜
↓
参考帧生成 / 首尾帧生成(逐镜头)
↓
视频提示词生成(逐镜头)
↓
视频生成(逐镜头)
↓
视频合成 + 字幕
每个阶段支持单独触发或批量生成,用户可完全控制流水线节奏。分镜页提供列表视图和看板视图,看板按生成进度自动分列。支持分镜版本管理,可创建多个版本进行对比迭代。
项目结构
src/
├── app/
│ ├── [locale]/ # i18n路由
│ │ ├── (dashboard)/ # 项目列表
│ │ ├── project/[id]/ # 项目编辑器
│ │ │ ├── script/ # 剧本编辑
│ │ │ ├── characters/ # 角色管理
│ │ │ ├── storyboard/ # 分镜面板
│ │ │ └── preview/ # 预览 &合成
│ │ └── settings/ # 模型配置
│ └── api/ # API路由
├── components/
│ ├── ui/ # 基础UI组件
│ ├── editor/ # 编辑器组件
│ └── settings/ # 设置组件
├── lib/
│ ├── ai/ # AI供应商 & Prompt
│ ├── pipeline/ # 生成流水线
│ ├── db/ # 数据库Schema
│ └── video/ # FFmpeg处理
└── stores/ # Zustand状态管理
数据模型
- Project — 项目(剧本、状态)
- Character — 角色(名称、描述、参考图)
- Shot — 镜头(序号、提示词、时长、首尾帧、视频)
- Dialogue — 对白(角色、文本、音频)
- Task — 后台任务队列
界面截图
| 项目列表 | 分集管理 |
|---|---|
![]() |
![]() |
| 剧本导入 | 导入 — 角色解析 | 导入 — 自动分集 |
|---|---|---|
![]() |
![]() |
![]() |
| 角色管理 | 剧本生成 |
|---|---|
![]() |
![]() |
| 角色解析 | 分镜 | 分镜看板 |
|---|---|---|
![]() |
![]() |
![]() |
| 看板 | 看板详情 |
|---|---|
![]() |
![]() |
| 预览 | 模型配置 |
|---|---|
![]() |
![]() |
| 提示词管理 | 提示词修改 |
|---|---|
![]() |
![]() |
| 提示词快捷入口 | 分镜AI优化 |
|---|---|
![]() |
![]() |
Demo
https://www.bilibili.com/video/BV19rwVzUEeD/
https://www.bilibili.com/video/BV1RrwVzUE3x/
https://www.bilibili.com/video/BV15rwVzSEKZ/
https://www.bilibili.com/video/BV15kwiz7E6Q/
https://www.bilibili.com/video/BV1hTw1zAEgY/
最新版生成
License
版本历史
v0.2.52026/04/17v0.2.42026/04/13v0.2.32026/04/10v0.2.22026/03/31v0.2.12026/03/29v0.2.02026/03/25v0.1.02026/03/19v0.0.82026/03/14v0.0.72026/03/13v0.0.62026/03/12v0.0.52026/03/12v0.0.42026/03/12v0.0.32026/03/12v0.0.22026/03/12v0.0.12026/03/12相似工具推荐
opencode
OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器
Deep-Live-Cam
Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
gstack
gstack 是 Y Combinator CEO Garry Tan 亲自开源的一套 AI 工程化配置,旨在将 Claude Code 升级为你的虚拟工程团队。面对单人开发难以兼顾产品战略、架构设计、代码审查及质量测试的挑战,gstack 提供了一套标准化解决方案,帮助开发者实现堪比二十人团队的高效产出。 这套配置特别适合希望提升交付效率的创始人、技术负责人,以及初次尝试 Claude Code 的开发者。gstack 的核心亮点在于内置了 15 个具有明确职责的 AI 角色工具,涵盖 CEO、设计师、工程经理、QA 等职能。用户只需通过简单的斜杠命令(如 `/review` 进行代码审查、`/qa` 执行测试、`/plan-ceo-review` 规划功能),即可自动化处理从需求分析到部署上线的全链路任务。 所有操作基于 Markdown 和斜杠命令,无需复杂配置,完全免费且遵循 MIT 协议。gstack 不仅是一套工具集,更是一种现代化的软件工厂实践,让单人开发者也能拥有严谨的工程流程。

















