FireRed-Image-Edit

1.2k 67 中等 1 次阅读昨天Apache-2.0图像开发框架

AI 解读由 AI 自动生成，仅供参考

FireRed-Image-Edit 是一款强大的开源图像编辑基础模型，旨在通过简单的文字指令实现高质量、高精度的图片修改。它主要解决了传统 AI 绘图工具在编辑过程中常见的痛点：难以精准理解复杂指令、修改后画质下降、人物面部特征不一致（“换脸”感强），以及多个元素融合时显得生硬不自然的问题。

无论是需要批量处理素材的设计师、探索多模态技术的研究人员，还是希望轻松修图的开发者，都能从中受益。普通用户也可通过其在线演示版，无需编写代码即可体验专业级的编辑效果。

该模型的技术亮点在于其卓越的“指令遵循”能力与“身份一致性”保持。最新版本 FireRed-Image-Edit-1.1 特别优化了人像编辑场景，不仅能完美保留人物原本的面部特征，还能自然地进行妆容调整、风格化文字参考及多元素无缝融合。作为目前开源领域表现领先的模型之一，它提供了从 1.0 到 1.1 的多个版本及丰富的 LoRA 扩展资源，支持在 Hugging Face 和 ModelScope 等平台免费获取与部署，为社区提供了透明、高效且可信赖的图像编辑解决方案。

使用场景

某电商视觉设计师需要在促销大促前，快速为数百款商品生成带有特定模特形象且融合复杂背景的宣传海报。

没有 FireRed-Image-Edit 时

人物一致性难维持：更换背景或调整姿势时，模特的面部特征极易发生扭曲或“换脸”，导致品牌识别度下降。
多元素融合生硬：将商品、模特与促销文字合成时，光影和边缘处理不自然，常需手动在 Photoshop 中花费数小时修图。
指令遵循度低：输入复杂的修改指令（如“给模特加上节日妆容并手持特定商品”）时，传统模型往往忽略部分细节或产生幻觉。
迭代成本高昂：为了得到一张可用图片，通常需要反复生成数十次并人工筛选，严重拖慢上线节奏。

使用 FireRed-Image-Edit 后

身份高度一致：凭借卓越的 Identity Consistency 能力，无论背景如何切换或动作如何调整，模特的五官和神态始终保持稳定。
无缝多元素融合：利用其强大的多元素融合技术，商品、人物与新增的 stylized text（风格化文字）能自动匹配光影，实现电影级合成效果。
精准指令执行：模型能精确理解长段落编辑指令，一次性完成“添加节日妆容”、“改变手持物”及“调整环境光”等多个复杂任务。
工作流大幅提速：高保真生成能力减少了后期修图需求，设计师可将单张海报的制作时间从小时级缩短至分钟级。

FireRed-Image-Edit 通过解决人物一致性与复杂指令跟随的核心痛点，将电商素材生产从繁琐的手工修图转变为高效的自动化生成流程。

运行环境要求

操作系统

未说明

GPU

需要 NVIDIA GPU，优化后推理仅需 30GB 显存 (VRAM)，支持蒸馏、量化和静态编译加速

内存

未说明

依赖

notes1. 提供轻量化推理脚本，开启优化模式 (--optimized True) 可实现约 4.5 秒/张的生成速度。2. 原生支持 ComfyUI 节点和 GGUF 轻量格式。3. 支持 LoRA 训练生态，包含完整的训练代码。4. 包含智能 Agent 工作流，可自动处理多图像拼接和区域检测。5. 模型权重可在 HuggingFace 和 ModelScope 下载。

python未说明

torch

transformers

accelerate

diffusers

ComfyUI (原生支持)

快速开始

🤗 HuggingFace | 🤖 ModelScope | 🖥️ Demo | 📄 Technical Report

🔥 FireRed-Image-Edit

FireRed-Image-Edit-1.1 基于 FireRed-Image-Edit-1.0 基础模型，优化了人像一致性、多元素融合、风格化文本参考以及人像妆容效果。

FireRed-Image-Edit-1.0 是一款通用图像编辑模型，在多种场景下都能提供高保真且一致的编辑效果。FireRed-Image-Edit 凭借准确的指令遵循、高质量的图像表现和一致的视觉连贯性，实现了领先的开源成果。

✨ 核心特性

强大的编辑性能

🆔 最先进的身份一致性：在人物身份保留方面达到开源领域的最先进水平，确保主体在复杂编辑中仍能被识别。
🧩 多元素融合：借助智能代理自动裁剪与拼接，可自由组合10余种元素——不再为简短提示而烦恼。
💄 全面的人像妆容：涵盖专业美容修图、黄/橄榄肤色提亮，直至万圣节女巫妆和创意造型等数十种风格。
📝 文本样式参考：保持高保真的排版和风格化文本，媲美闭源解决方案。
🖼️ 专业照片修复：高质量的老照片修复与增强，细节恢复效果卓越。

极致的工程优化

🔧 开放的LoRA训练生态：完整训练代码公开，支持自定义风格创作；优化后的采样器可在相同任务、尺寸和输入数量下最大化GPU效率。
⚡ 极致的速度优化：完整的加速套件包括蒸馏、量化和静态编译，仅需30GB显存即可实现4.5秒的端到端生成。
🤖 智能代理工作流：自动多图像处理能够应对虚拟试穿等复杂构图，无需冗长的提示工程。
🔌 通用部署：原生支持ComfyUI节点，并兼容GGUF轻量级格式，便于无缝集成生产环境。
🏋️ 高效的训练方法：通过离线特征预提取，将VLM推理与训练流程完全解耦，消除生成开销，从而实现最快的收敛速度。

基于T2I骨干网络的原生编辑能力

🏗️ 骨干无关架构：通过完整的Pretrain → SFT → RL流程注入编辑能力，可迁移至任何T2I基础模型。

📰 新闻

2026年3月25日：ModelScope 现已支持 FireRed-image-edit 的 LoRA 训练。
2026年3月9日：我们发布了全新的图像编辑基准测试 REDEdit-Bench。REDEdit-Bench 涵盖了更加多样化的场景和更贴近人类语言的编辑指令，为图像编辑任务提供了更为全面和真实的评估标准。
2026年3月3日：我们发布了 FireRed-Image-Edit-1.1 版本，该版本基于 FireRed-Image-Edit-1.0 基础模型，在人像一致性、多元素融合、风格化文本参考以及人像妆容效果等方面进行了优化。
2026年3月1日：我们提供了一个轻量级推理脚本（包含蒸馏后的 Lora、量化、db_cache 和静态编译），现在仅需 30GB 显存 和 约4.5秒/样本。🚀 只需运行 python inference.py --optimized True 即可体验！
2026年2月28日：我们发布了 Train，支持 HSDP/FSDP、分离式训练以及多条件感知的 Bucket Sampler。
2026年2月27日：我们推出了用于指令重写和多图像预处理的 Agent 模块，支持自动 ROI 检测及超过3张图片的拼接编辑。
2026年2月27日：我们提供了 FireRed-Image-Edit-1.0 的 ComfyUI 工作流。更多详情请参见 Huggingface。
2026年2月14日：我们发布了 FireRed-Image-Edit-1.0 的模型权重。更多详情请参见 Huggingface 和 ModelScope。
2026年2月10日：我们发布了 FireRed-Image-Edit-1.0 的技术报告。

🏆 评估结果

FireRed-Image-Edit 在 Imgedit、Gedit 和 RedEdit 上树立了开源模型的新标杆，并在特定维度上超越了闭源竞争对手——这一点也得到了人工评估的进一步证实，评估结果显示其在指令遵循性和视觉一致性方面表现尤为出色。详细信息请参见这里。

🎨 展示

FireRed-Image-Edit 在各类通用编辑任务中生成的一些真实输出。

人像（更多案例 | 更多结果）

多图像融合（更多案例）

案例1：将图2中的男子，穿着图2的黑色“New York Bears”棒球夹克、迷彩裤子和蓝黑配色的AJ1高帮球鞋，置于图1空旷的橄榄球场上。球场阳光明媚，他头戴图2的黑色帽子，帽檐为红色，夹克上的白色条纹在暗光下格外醒目。他的左肩随意地挎着图3那只复古棕色皮质旅行包，包口微微敞开，露出里面图3那个磨损的棕色橄榄球。右手则轻松地拖着图3的白色滑板，板底那威武的黑色狮子图腾在草地映衬下如同猛兽。图3那只壮实的深棕色斗牛犬安静地蹲坐在他脚边的阴影里，忠诚地望向主人。男人脖子上挂着图2那副黑色Beats耳机，地上放着图3那座复古的青铜奖杯，在阳光下泛着胜利的光芒。整个场景融合了街头潮流与竞技体育的质感，空旷球场、皮革装备的温润光泽、以及滑板带来的街头气息，共同构成了一个关于青春、热爱与赛后孤独的静谧时刻。

妆容（Lora）

案例1：为人物添加欧美Y2K妆：使用冷白皮哑光粉底均匀肤色，描绘粗平的深棕色挑眉，眼部涂抹亮片银灰眼影并晕染至眉骨，画上黑色上扬眼线，粘贴浓密假睫毛，用浅金色高光提亮卧蚕，在苹果肌扫上蜜桃色腮红，唇部涂抹镜面玻璃唇釉，并在颧骨处轻扫修容粉。

案例2：为人物添加缎光底妆：使用自然色缎光粉底均匀肤色，描绘自然眉形并填充浅棕色眉粉，眼部涂抹深棕色眼影并晕染眼尾，画自然内眼线，刷上浓密睫毛膏，在卧蚕处提亮，涂抹水润感红色豆沙色口红并勾勒唇形，在苹果肌扫上粉色腮红，在鼻梁、颧骨处轻扫银色高光。

文字风格参考（Lora）（更多案例）

🗂️ 模型动物园

模型	任务	描述	下载链接
FireRed-Image-Edit-1.0	图像编辑	通用图像编辑模型	🤗 HuggingFace 🤖 ModelScope
FireRed-Image-Edit-1.0-Distilled	图像编辑	FireRed-Image-Edit-1.0的蒸馏版本，用于加速推理	🤗 HuggingFace 🤖 ModelScope
FireRed-Image-Edit-1.1	图像编辑	基于FireRed-Image-Edit-1.0，优化了人像一致性、多元素融合、风格化文本参考以及人像妆容效果。	🤗 HuggingFace 🤖 ModelScope
FireRed-Image	文本到图像	高质量文本到图像生成模型	即将发布

🏗️ 模型架构

⚡️ 快速入门

安装依赖

pip install -r requirements.txt

使用以下代码片段生成或编辑图像。

python inference.py \
    --input_image ./examples/edit_example.png \
    --prompt "在书本封面Python的下方，添加一行英文文字2nd Edition" \
    --output_image output_edit.png \
    --seed 43

🤖 代理

Agent模块提供重写说明与多图像预处理功能。

FireRed-Image-Edit原生支持1–3张输入图像。当用户需要使用超过3张图像进行编辑时，内置的Agent模块会自动：

ROI检测——将所有图像及用户指令发送至Gemini函数调用模型，该模型会为每张图像中最相关的区域返回一个边界框。
裁剪与拼接——将每张图像裁剪为其ROI，然后将其分割并拼接成2–3张合成图像（每张约1024×1024像素），同时尽量减少空白区域，并以最高分辨率保留内容。
重写说明——重新编写用户指令，使图像引用（图1/图2/图像N…）正确指向新的合成图像，并将提示扩展至约512个单词/字符，以提供更丰富的编辑上下文。用户的原始语言将被保留。

（可选） 若要启用重写说明功能（通过LLM重写指令以获得更好的编辑效果），请设置其中一个支持的LLM提供商：

选项1：Gemini（默认）

export GEMINI_API_KEY="your-gemini-api-key"

选项2：MiniMax

export RECAPTION_PROVIDER="minimax"
export MINIMAX_API_KEY="your-minimax-api-key"

使用MiniMax的OpenAI兼容API，默认采用MiniMax-M2.7模型。您也可以使用MiniMax-M2.7-highspeed以获得更快的响应。

选项3：任何OpenAI兼容的API

export RECAPTION_PROVIDER="openai_compatible"
export OPENAI_COMPATIBLE_API_KEY="your-api-key"
export OPENAI_COMPATIBLE_BASE_URL="https://your-api.example.com/v1"
export OPENAI_COMPATIBLE_MODEL="your-model-name"

注意： 基本使用并不需要LLM API。如果没有LLM API，Agent仍会正常执行ROI检测和图像拼接，但会跳过指令重写步骤。为了获得最佳效果，建议设置LLM API密钥。ROI检测步骤始终使用Gemini（需支持多模态）。

🏋️ 如何训练

训练是一个两步过程：

提取VLM嵌入——对您的图像–文本JSONL文件进行离线提取。
SFT训练——基于提取的嵌入进行训练（支持HSDP/FSDP、多节点）。

→ 完整详情：train/README.md（数据格式、环境、命令）。

📊 基准测试

为了更好地验证我们模型的能力，我们提出了名为REDEdit-Bench的基准测试。我们的主要目标是构建更多样化的场景和编辑指令，使其更贴近人类语言，从而对当前的编辑模型进行更全面的评估。我们从互联网上收集了超过3,000张图片，经过专家精心挑选，最终构建了涵盖15个类别的1,673对中英双语编辑样本。

推理与评估代码

我们提供了REDEdit-Bench的推理与评估代码。请参阅tools目录下的redbench_infer.py和redbench_eval.py脚本，以获取更多详细信息。

基准分布

REDEdit-Bench 数据集将很快发布。

模型	ImgEdit_O ↑	GEdit_O ↑ (EN)	GEdit_O ↑ (CN)	REDEdit ↑ (EN)	REDEdit ↑ (CN)
🔹 专有模型
Nano-Banana	4.29	7.291	7.399	4.15	4.13
Seedream4.0	4.30	7.701	7.692	4.18	4.15
Seedream4.5	4.32	7.820	7.800	4.20	4.18
Nano-Banana-Pro	4.37	7.738	7.799	4.42	4.48
🔹 开源模型
Step1X-Edit-v1.2	3.95	7.480	7.467	—	—
Qwen-Image-Edit-2509	4.31	7.480	7.467	3.99	4.00
FLUX.2 [Dev]	4.35	7.413	7.278	4.07	4.05
LongCat-Image-Edit	4.45	7.748	7.731	4.12	4.12
Qwen-Image-Edit-2511	4.51	7.877	7.819	4.23	4.18
FireRed-Image-Edit	4.56	7.943	7.887	4.26	4.33

📜 许可协议

FireRed-Image-Edit 的代码和权重采用 Apache 2.0 许可证授权。

📝 待办事项：

发布 FireRed-Image-Edit-1.0 模型。
发布 FireRed-Image-Edit-1.0-Distilled 模型，这是 FireRed-Image-Edit-1.0 的蒸馏版本，适用于少步生成。
FireRed-Image-Edit-1.1 已发布，改进了人像一致性、多元素融合、风格化文本参考以及人像妆容效果。
发布与 zimage/Flux2-klein 及其他小参数变体相当的轻量级编辑模型。
发布 REDEdit-Bench，一个用于图像编辑评估的全面基准测试。
发布 FireRed-Image 模型，一个文生图生成模型。

🖊️ 引用

如果您觉得我们的工作有用，我们诚挚地鼓励您引用我们的研究成果。

@article{firered2026rededit,
      title={FireRed-Image-Edit-1.0 技术报告}, 
      author={超级智能团队},
      year={2026},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2602.13344}, 
}

⚠️ 伦理声明

FireRed-Image-Edit 并非专门为每一种可能的下游应用而设计，也未进行全面评估。用户在使用本项目时，应充分意识到潜在的风险及伦理考量，并应以负责任的态度遵守所有适用的法律法规。

禁止用途：本项目不得用于生成任何非法、诽谤、色情、有害的内容，或侵犯个人或组织隐私、权利及利益的内容。
用户责任：用户对使用本项目生成的任何内容负全部责任。作者及贡献者对代码库的任何滥用行为，以及因使用该代码库而导致的任何后果，均不承担任何责任。

🤝 致谢

我们衷心感谢那些杰出开源项目的开发者，尤其是 Qwen-Image，它提供了一个强大的文生图基础模型；同时也要感谢 Diffusers 和 HuggingFace。

☎️ 联系方式

如有任何问题，请联系我们并加入我们的小红书小组。

小红书小组

⭐ 星标历史

_{由小红书智能创作基础技术团队构建}

FireRed-Image-Edit 快速上手指南

FireRed-Image-Edit 是一款开源的通用图像编辑模型，支持高保真的人像一致性保持、多元素融合、风格化文字参考及专业人像美妆等功能。最新版本 1.1 在 1.0 基础上进一步优化了人像一致性和多元素融合效果。

环境准备

系统要求

操作系统: Linux (推荐 Ubuntu 20.04+) 或 Windows (WSL2 推荐)
GPU: NVIDIA GPU，显存建议 30GB 以上（开启优化模式后最低需求）
CUDA: 11.8 或 12.x
Python: 3.10 - 3.12

前置依赖

确保已安装以下基础工具：

Git
Conda 或 Miniconda (推荐用于环境管理)
FFmpeg (可选，用于视频相关处理)

安装步骤

1. 克隆代码仓库

git clone https://github.com/FireRedTeam/FireRed-Image-Edit.git
cd FireRed-Image-Edit

2. 创建并激活虚拟环境

conda create -n firered python=3.10 -y
conda activate firered

3. 安装依赖

推荐使用国内镜像源加速安装（如清华源）：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

注意：如果需要使用 ComfyUI 工作流，请额外安装 ComfyUI 及相关自定义节点。

4. 下载模型权重

您可以从 Hugging Face 或 ModelScope（国内推荐）下载模型。

方式一：使用 ModelScope 下载（国内速度快）

# 需先安装 modelscope
pip install modelscope -i https://pypi.tuna.tsinghua.edu.cn/simple

# 下载 FireRed-Image-Edit-1.1 模型
python -c "from modelscope import snapshot_download; snapshot_download('FireRedTeam/FireRed-Image-Edit-1.1', cache_dir='./models')"

方式二：手动下载 访问 ModelScope 模型页或 HuggingFace 模型页下载权重文件至 ./models 目录。

基本使用

极速推理模式（推荐）

FireRed-Image-Edit 提供了经过蒸馏、量化和静态编译优化的推理脚本，仅需 30GB 显存即可在约 4.5 秒内完成单张图像生成。

准备一张输入图片（例如 input.jpg）和编辑指令，运行以下命令：

python inference.py \
    --input_image ./assets/example_input.jpg \
    --prompt "为人物添加欧美 Y2K 妆：使用冷白皮哑光粉底均匀肤色，描绘粗平的深棕色挑眉..." \
    --output_dir ./outputs \
    --optimized True \
    --model_path ./models/FireRedTeam/FireRed-Image-Edit-1.1

参数说明：

--input_image: 原始图片路径。
--prompt: 自然语言编辑指令（支持中文）。
--optimized True: 关键参数，启用极速优化模式（包含蒸馏 LoRA、量化等）。
--model_path: 本地模型权重路径。

多图像融合示例

该模型支持自动多图处理（Agent 模式），无需复杂提示词工程即可实现多元素融合。

python inference.py \
    --input_image "./assets/img1.jpg" "./assets/img2.jpg" "./assets/img3.jpg" \
    --prompt "将图 2 的男人穿着图 2 的夹克，站在图 1 的球场上，手里拿着图 3 的滑板，脚边放着图 3 的奖杯。" \
    --output_dir ./outputs_multi \
    --optimized True \
    --agent_mode True

使用 ComfyUI (可视化工作流)

如果您偏好图形化界面，可以导入官方提供的 ComfyUI 工作流：

下载工作流文件：FireRed-Image-Edit-1.0-ComfyUI
启动 ComfyUI 并加载 JSON 工作流文件。
上传参考图片并输入提示词即可运行。

更多高级功能（如 LoRA 训练、特定风格微调）请参考项目仓库中的 train 目录及详细文档。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 160k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|今天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架