MotionDirector

GitHub
1k 61 中等 1 次阅读 4天前Apache-2.0图像视频
AI 解读 由 AI 自动生成,仅供参考

MotionDirector 是一款专为文生视频扩散模型设计的运动定制工具,由新加坡国立大学 Show Lab 团队研发。它的核心功能是让 AI 学会特定的“动作套路”:用户只需提供一组展示相同运动概念的视频片段(如某种独特的舞蹈步伐或运镜方式),MotionDirector 就能调整现有的生成模型,使其在创作新视频时精准复现这种运动风格,同时保持画面内容的多样性。

这一工具有效解决了当前文生视频模型难以精确控制复杂动态、往往只能生成通用运动的痛点。通过它,创作者可以将参考视频中的动作特征迁移到全新的角色或场景中,实现外观与运动的双重自定义。例如,输入兵马俑的静态图片作为外观参考,再结合一段骑马的运动视频,即可生成“兵马俑在古代战场骑马驰骋”的逼真画面。

MotionDirector 特别适合需要精细控制视频动态的研究人员、AI 开发者以及追求创意表达的数字艺术家使用。其技术亮点在于能够解耦并独立定制视频中的“外观”与“运动”,在 ECCV 2024 会议上获得了口头报告荣誉。无论是希望深入探索视频生成机制的极客,还是想要为作品注入独特动态灵感的设计师,都能利用 MotionDirector 轻松打破创意边界,高效产出符合预期的高质量视频内容。

使用场景

一家独立游戏工作室正在为新品宣传制作短视频,需要将游戏中特有的“机械蜘蛛爬行”动作应用到不同角色和场景中,以快速生成多样化的营销素材。

没有 MotionDirector 时

  • 动作难以复现:通用的文生视频模型无法理解“机械蜘蛛”这种非生物的特殊步态,生成的视频往往只是普通昆虫爬行或完全错误的滑动。
  • 训练成本高昂:若要定制动作,团队需收集大量该动作的视频数据并重新训练整个模型,耗时数天且需要昂贵的 GPU 资源。
  • 角色与动作耦合:一旦模型学会了动作,往往只能生成原始参考视频中的特定角色,无法将“机械蜘蛛步态”迁移到主角或其他怪物身上。
  • 试错效率低下:通过反复调整提示词(Prompt)来“碰运气”寻找正确动作,不仅成功率低,还导致创意迭代周期被无限拉长。

使用 MotionDirector 后

  • 精准动作定制:只需提供几段“机械蜘蛛爬行”的参考视频,MotionDirector 就能让模型精准掌握这一独特运动规律,无需海量数据。
  • 高效微调适配:采用高效的微调技术,在极短时间内即可完成动作概念的注入,大幅降低了算力门槛和时间成本。
  • 动作与外观解耦:成功将“机械蜘蛛步态”从参考视频中剥离,自由应用到“赛博朋克风格的主角”或“古代机关兽”等全新角色上。
  • 创意快速落地:团队可以立即生成“主角在废墟中像机械蜘蛛一样攀爬”或“机关兽在长城上移动”等多种高质量变体,加速内容产出。

MotionDirector 的核心价值在于它将复杂的动作定制转化为简单的概念注入,让创作者能像搭积木一样,自由地将任意独特动作赋予任何角色与场景。

运行环境要求

操作系统
  • 未说明
GPU

需要 NVIDIA GPU,训练显存需求约 14GB(文中提及使用 A5000 GPU),推理显存需求未明确但通常低于训练

内存

未说明

依赖
notes1. 建议使用 conda 创建虚拟环境。2. 需安装 git-lfs 以下载模型权重。3. 基础模型可选择 ZeroScope 或 ModelScopeT2V。4. 训练多视频概念约需 300-500 步(单卡 A5000 约 9-16 分钟),单视频约需 50-150 步(约 1.5-4.5 分钟)。5. 若显存不足可减少配置中的 n_sample_frames 参数。
python3.8
torch
diffusers
transformers
accelerate
xformers
gradio
opencv-python
decord
einops
MotionDirector hero image

快速开始

MotionDirector:文本到视频扩散模型的运动定制

赵睿 · 顾宇超 · 吴张杰 · 张俊豪 · 刘家伟 · 吴伟佳 · 尤西·凯波 · Mike Zheng Shou


新加坡国立大学Show Lab


MotionDirector能够定制文本到视频扩散模型,以生成具有所需运动的视频。

任务定义

文本到视频扩散模型的运动定制:
给定一组具有相同运动概念的视频片段,运动定制的任务是调整现有的文本到视频扩散模型,使其能够生成包含该运动的多样化视频。

演示

演示视频:

MotionDirector演示视频

同时定制外观和运动:

参考图片或视频 MotionDirector生成的视频
用于外观定制的参考图片:“一个兵马俑站在纯色背景前。” “一个兵马俑正骑着马穿越古代战场。”
种子:1455028
“一个兵马俑正在长城前打高尔夫球。”
种子:5804477
“一个兵马俑正走过古代军队,镜头采用反向跟随的电影式拍摄手法。”
种子:653658
用于运动定制的参考视频:“一个人正在骑自行车。” “一个兵马俑正骑着自行车经过一座古老的中国宫殿。”
种子:166357。
“一个兵马俑正在长城前举重。”
种子:5635982
“一个兵马俑正在滑板。”
种子:9033688

新闻

待办事项

  • Gradio演示
  • 更多训练好的MotionDirector权重

模型列表

类型 训练数据 描述 链接
运动导演(体育类) 每个模型对应多段视频。 学习体育运动中的动作概念,例如举重、骑马、打高尔夫等。 链接
运动导演(电影镜头类) 每个模型对应单段视频。 学习电影镜头中的运动概念,例如推轨变焦、拉近镜头、拉远镜头等。 链接
运动导演(图像动画类) 空间路径使用单张图片,时间路径则可使用单段视频或多个视频。 利用学习到的运动效果为给定图像添加动画效果。 链接
运动导演(自定义外观) 空间路径可使用单张图片或多张图片,时间路径则可使用单段视频或多个视频。 在视频生成过程中同时自定义外观和运动效果。 链接

安装

环境要求

# 创建虚拟环境
conda create -n motiondirector python=3.8
conda activate motiondirector
# 安装依赖包
pip install -r requirements.txt

基础模型权重

git lfs install
## 可以选择 ModelScopeT2V 或 ZeroScope 等作为基础模型。
## ZeroScope
git clone https://huggingface.co/cerspense/zeroscope_v2_576w ./models/zeroscope_v2_576w/
## ModelScopeT2V
git clone https://huggingface.co/damo-vilab/text-to-video-ms-1.7b ./models/model_scope/

已训练好的运动导演模型权重

# 确保已安装 git-lfs (https://git-lfs.com)
git lfs install
git clone https://huggingface.co/ruizhaocv/MotionDirector_weights ./outputs

# 更多且性能更优的已训练运动导演模型将在新仓库中发布:
git clone https://huggingface.co/ruizhaocv/MotionDirector ./outputs
# 使用方法略有不同,后续会更新说明。

使用方法

训练

在多段视频上训练运动导演:

python MotionDirector_train.py --config ./configs/config_multi_videos.yaml

在单段视频上训练运动导演:

python MotionDirector_train.py --config ./configs/config_single_video.yaml

注意:

  • 在运行上述命令之前, 请确保在配置文件 config_multi_videos.yamlconfig_single_video.yaml 中将基础模型权重和训练数据的路径替换为你自己的路径。
  • 通常,在多段16帧视频上训练需要 300~500 步,使用一块 A5000 显卡大约需要 9~16 分钟。而在单段视频上训练则需要 50~150 步,使用一块 A5000 显卡大约需要 1.5~4.5 分钟。训练所需的显存约为 14GB
  • 如果你的显存有限,可以减少 n_sample_frames 参数。
  • 为了获得更好的效果,可以降低学习率并增加训练步数。

推理

python MotionDirector_inference.py --model /path/to/the/foundation/model  --prompt "你的提示语" --checkpoint_folder /path/to/the/trained/MotionDirector --checkpoint_index 300 --noise_prior 0.

注意:

  • /path/to/the/foundation/model 替换为你自己的基础模型路径,比如 ZeroScope。
  • checkpoint_index 的值表示选择哪个训练步骤保存的检查点进行推理。
  • noise_prior 的值决定了参考视频的反演噪声对生成结果的影响程度。 我们建议对于在多段视频上训练的运动导演,将其设置为 0,以实现最高程度的多样性;而对于在单段视频上训练的运动导演,则建议将其设置为 0.1~0.5,以便更快地收敛并与参考视频更好地匹配。

使用预训练的运动导演进行推理

所有可用的权重都位于官方 Huggingface 仓库 中。执行下载命令,权重将被下载到 outputs 文件夹中,然后运行以下推理命令即可生成视频。

在多段视频上训练的运动导演:

python MotionDirector_inference.py --model /path/to/the/ZeroScope  --prompt "一个人正骑着自行车经过埃菲尔铁塔。" --checkpoint_folder ./outputs/train/riding_bicycle/ --checkpoint_index 300 --noise_prior 0. --seed 7192280

注意:

  • /path/to/the/ZeroScope 替换为你自己的基础模型路径,即 ZeroScope。
  • 可以更改 prompt 来生成不同的视频。
  • 默认情况下,seed 是随机设置的。如果设置为特定值,则会得到确定的结果,如下表所示。

结果:

参考视频 由运动导演生成的视频
“一个人正在骑自行车。” “一个人正骑着自行车经过埃菲尔铁塔。”
种子:7192280
“一只熊猫正在花园里骑自行车。”
种子:2178639
“一个外星人正骑着自行车在火星上行驶。”
种子:2390886

MotionDirector 在单个视频上训练:

16 帧:

python MotionDirector_inference.py --model /path/to/the/ZeroScope  --prompt "月球上有一辆坦克在行驶。" --checkpoint_folder ./outputs/train/car_16/ --checkpoint_index 150 --noise_prior 0.5 --seed 8551187
参考视频 MotionDirector 生成的视频
“一辆汽车正在公路上行驶。” “月球上有一辆坦克在行驶。”
种子:8551187
“一头狮子正跑过金字塔。”
种子:431554
“一艘宇宙飞船正飞越火星。”
种子:8808231

24 帧:

python MotionDirector_inference.py --model /path/to/the/ZeroScope  --prompt "一辆卡车正驶过凯旋门。" --checkpoint_folder ./outputs/train/car_24/ --checkpoint_index 150 --noise_prior 0.5 --width 576 --height 320 --num-frames 24 --seed 34543
参考视频 MotionDirector 生成的视频
“一辆汽车正在公路上行驶。” “一辆卡车正驶过凯旋门。”
种子:34543
“一头大象正在森林里奔跑。”
种子:2171736
“一辆汽车正在公路上行驶。” “一位骑骆驼的人正经过金字塔。”
种子:4904126
“一艘航天器正飞越银河系。”
种子:3235677

运动主题的 MotionDirector

python MotionDirector_inference.py --model /path/to/the/ZeroScope  --prompt "一只熊猫正在花园里举重。" --checkpoint_folder ./outputs/train/lifting_weights/ --checkpoint_index 300 --noise_prior 0. --seed 9365597
MotionDirector 生成的视频
举重 骑自行车
“一只熊猫正在花园里举重。”
种子:1699276
“一名警察正在警局前举重。”
种子:6804745
“一只熊猫正在花园里骑自行车。”
种子:2178639
“一名外星人正骑自行车在火星上行驶。”
种子:2390886
骑马 骑马
“一名骑士骑马经过城堡。”
种子:6491893
“一名男子骑着大象穿越丛林。”
种子:6230765
“一名女孩骑着独角兽在月光下奔驰。”
种子:6940542
“一名冒险家骑着恐龙探索雨林。”
种子:6972276
滑板 打高尔夫
“一台机器人正在赛博朋克城市里滑板。”
种子:1020673
“一只泰迪熊正在纽约时代广场滑板。”
种子:3306353
“一名男子正在白宫前打高尔夫。”
种子:8870450
“一只猴子正在开满鲜花的田野上打高尔夫。”
种子:2989633

更多运动主题,敬请期待……

MotionDirector 用于电影级镜头

1. 变焦

1.1 多莉变焦(希区柯克式变焦)

python MotionDirector_inference.py --model /path/to/the/ZeroScope  --prompt "一名消防员站在燃烧的森林前,采用多莉变焦拍摄。" --checkpoint_folder ./outputs/train/dolly_zoom/ --checkpoint_index 150 --noise_prior 0.5 --seed 9365597
参考视频 MotionDirector 生成的视频
“一个男人站在房间里,采用多莉变焦拍摄。” “一名消防员站在燃烧的森林前,采用多莉变焦拍摄。”
种子:9365597
噪声先验:0.5
“一只狮子坐在悬崖顶上,采用多莉变焦拍摄。”
种子:1675932
噪声先验:0.5
“一名罗马士兵站在斗兽场前,采用多莉变焦拍摄。”
种子:2310805
噪声先验:0.5
“一个男人站在房间里,采用多莉变焦拍摄。” “一名消防员站在燃烧的森林前,采用多莉变焦拍摄。”
种子:4615820
噪声先验:0.3
“一只狮子坐在悬崖顶上,采用多莉变焦拍摄。”
种子:4114896
噪声先验:0.3
“一名罗马士兵站在斗兽场前,采用多莉变焦拍摄。”
种子:7492004

1.2 变焦推近

参考视频是用我自己的水杯拍摄的。你也可以拿起自己的杯子或其他任何物体来练习摄像机运动,并将其变成充满想象力的视频。用自定义的摄像机动画创作属于你的 AI 电影吧!

python MotionDirector_inference.py --model /path/to/the/ZeroScope  --prompt "一名消防员站在燃烧的森林前,采用变焦推近拍摄。" --checkpoint_folder ./outputs/train/zoom_in/ --checkpoint_index 150 --noise_prior 0.3 --seed 1429227
参考视频 MotionDirector 生成的视频
“实验室里的一个杯子,采用变焦推近拍摄。” “一名消防员站在燃烧的森林前,采用变焦推近拍摄。”
种子:1429227
“一只狮子坐在悬崖顶上,采用变焦推近拍摄。”
种子:487239
“一名罗马士兵站在斗兽场前,采用变焦推近拍摄。”
种子:1393184

1.3 变焦拉远

python MotionDirector_inference.py --model /path/to/the/ZeroScope  --prompt "一名消防员站在燃烧的森林前,采用变焦拉远拍摄。" --checkpoint_folder ./outputs/train/zoom_out/ --checkpoint_index 150 --noise_prior 0.3 --seed 4971910
参考视频 MotionDirector 生成的视频
“实验室里的一个杯子,采用变焦拉远拍摄。” “一名消防员站在燃烧的森林前,采用变焦拉远拍摄。”
种子:4971910
“一只狮子坐在悬崖顶上,采用变焦拉远拍摄。”
种子:1767994
“一名罗马士兵站在斗兽场前,采用变焦拉远拍摄。”
种子:8203639

2. 高级电影镜头

跟随镜头 反向跟随镜头
“一名消防员正在火海中行走,由跟随式电影镜头捕捉。”
种子:4926511
“一名宇航员正在月球上行走,由跟随式电影镜头拍摄。”
种子:7594623
“一名消防员正在火海中行走,由反向跟随式电影镜头捕捉。”
种子:9759630
“一名宇航员在月球上行走,由反向跟随式电影镜头拍摄。”
种子:4539309
胸部过渡镜头 迷你摇臂揭幕:从脚到头的镜头
“一名消防员正在燃烧的森林中行走,由胸部过渡式电影镜头拍摄。”
种子:5236349
“一名古罗马士兵在街道人群中穿行,由胸部过渡式电影镜头拍摄。”
种子:3982271
“一名古罗马士兵在街道人群中穿行,由迷你摇臂揭幕式电影镜头拍摄。”
种子:654178
“一名英国红衣士兵正在山间行走,由迷你摇臂揭幕式电影镜头拍摄。”
种子:566917
拉远镜头:主体从左侧进入 环绕镜头
“一个机器人凝视着远处的赛博朋克城市,由拉远式电影镜头拍摄。”
种子:9342597
“一位女性凝视着远处喷发的火山,由拉远式电影镜头拍摄。”
种子:4197508
“一名消防员身处燃烧的森林中,由环绕式电影镜头拍摄。”
种子:8450300
“一名宇航员在月球上行走,由环绕式电影镜头拍摄。”
种子:5899496

更多电影镜头,待续……

图像动画运动导演

训练

使用参考图像训练空间路径。

python MotionDirector_train.py --config ./configs/config_single_image.yaml

然后训练时间路径,以学习参考视频中的动作。

python MotionDirector_train.py --config ./configs/config_single_video.yaml

推理

结合从参考图像中学习的空间路径和从参考视频中学习的时间路径进行推理。

python MotionDirector_inference_multi.py --model /path/to/the/foundation/model  --prompt "您的提示" --spatial_path_folder /path/to/the/trained/MotionDirector/spatial/lora/ --temporal_path_folder /path/to/the/trained/MotionDirector/temporal/lora/ --noise_prior 0.

示例

下载预训练权重。

git clone https://huggingface.co/ruizhaocv/MotionDirector ./outputs

运行以下命令。

python MotionDirector_inference_multi.py --model /path/to/the/ZeroScope  --prompt "一辆汽车正在公路上行驶。" --spatial_path_folder ./outputs/train/image_animation/train_2023-12-26T14-37-16/checkpoint-300/spatial/lora/ --temporal_path_folder ./outputs/train/image_animation/train_2023-12-26T13-08-20/checkpoint-300/temporal/lora/ --noise_prior 0.5 --seed 5057764
参考图像 参考视频 MotionDirector生成的视频
“一辆汽车正在公路上行驶。” “一辆汽车正在公路上行驶。” “一辆汽车正在公路上行驶。”
种子:5057764
“一辆汽车正在被雪覆盖的公路上行驶。”
种子:4904543

具有自定义外观的运动导演

训练

使用参考图像训练空间路径。

python MotionDirector_train.py --config ./configs/config_multi_images.yaml

然后训练时间路径,以学习参考视频中的动作。

python MotionDirector_train.py --config ./configs/config_multi_videos.yaml

推理

结合从参考图像中学习到的空间路径和从参考视频中学习到的时间路径进行推理。

python MotionDirector_inference_multi.py --model /path/to/the/foundation/model  --prompt "Your prompt" --spatial_path_folder /path/to/the/trained/MotionDirector/spatial/lora/ --temporal_path_folder /path/to/the/trained/MotionDirector/temporal/lora/ --noise_prior 0.

示例

下载预训练权重。

git clone https://huggingface.co/ruizhaocv/MotionDirector ./outputs

运行以下命令。

python MotionDirector_inference_multi.py --model /path/to/the/ZeroScope  --prompt "一名兵马俑正骑着马穿越古代战场。" --spatial_path_folder ./outputs/train/customized_appearance/terracotta_warrior/checkpoint-default/spatial/lora --temporal_path_folder ./outputs/train/riding_horse/checkpoint-default/temporal/lora/ --noise_prior 0. --seed 1455028

结果如表格所示。

更多结果

如果您有更令人印象深刻的 MotionDirector 或生成的视频,请随时提交 issue 与我们分享。我们将不胜感激。同时,我们也非常欢迎对代码进行改进。

更多结果请参阅 项目页面

火星上的宇航员日常生活:

火星上的宇航员日常生活(由 MotionDirector 学习的动作概念)
举重 打高尔夫球 骑马 骑自行车
“一名宇航员正在火星上举重,4K,高质量,高度细节化。”
种子:4008521
“宇航员在火星上打高尔夫球”
种子:659514
“一名宇航员正在火星上骑马,4K,高质量,高度细节化。”
种子:1913261
“一名宇航员正在火星上骑自行车经过金字塔,4K,高质量,高度细节化。”
种子:5532778
滑板 电影镜头:“反向跟随” 电影镜头:“跟随” 电影镜头:“环绕”
“一名宇航员正在火星上滑板”
种子:6615212
“一名宇航员在火星上行走,采用反向跟随的电影镜头拍摄。”
种子:1224445
“一名宇航员在火星上行走,采用跟随的电影镜头拍摄。”
种子:6191674
“一名宇航员站在火星上,采用环绕的电影镜头拍摄。”
种子:7483453

引用


@article{zhao2023motiondirector,
  title={MotionDirector: 文本到视频扩散模型的动作定制},
  author={Zhao, Rui and Gu, Yuchao and Wu, Jay Zhangjie and Zhang, David Junhao and Liu, Jiawei and Wu, Weijia and Keppo, Jussi and Shou, Mike Zheng},
  journal={arXiv 预印本 arXiv:2310.08465},
  year={2023}
}

致谢

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|2天前
Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来,转换成计算机可读取的结构化数据,让机器真正“看懂”图文内容。 面对海量纸质或电子文档,PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域,它扮演着连接图像与大型语言模型(LLM)的桥梁角色,能将视觉信息直接转化为文本输入,助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显:不仅支持全球 100 多种语言的识别,还能在 Windows、Linux、macOS 等多个系统上运行,并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目,PaddleOCR 既能满足快速集成的需求,也能支撑前沿的视觉语言研究,是处理文字识别任务的理想选择。

74.9k|★★★☆☆|今天
语言模型图像开发框架

tesseract

Tesseract 是一款历史悠久且备受推崇的开源光学字符识别(OCR)引擎,最初由惠普实验室开发,后由 Google 维护,目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据,有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题,是数字化归档和信息自动化的重要基础工具。 在技术层面,Tesseract 展现了强大的适应能力。从版本 4 开始,它引入了基于长短期记忆网络(LSTM)的神经网络 OCR 引擎,显著提升了行识别的准确率;同时,为了兼顾旧有需求,它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码,开箱即用即可识别超过 100 种语言,并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面,它灵活支持纯文本、hOCR、PDF、TSV 等多种格式,方便后续数据处理。 Tesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库(libtesseract),不包含图形用户界面(GUI),因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中

73.3k|★★☆☆☆|3天前
开发框架图像