[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-erwold--qwen2vl-flux":3,"tool-erwold--qwen2vl-flux":62},[4,18,26,35,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,2,"2026-04-10T11:39:34",[14,15,13],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":32,"last_commit_at":41,"category_tags":42,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[43,13,15,14],"插件",{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":10,"last_commit_at":50,"category_tags":51,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[52,15,13,14],"语言模型",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[14,15,13,61],"视频",{"id":63,"github_repo":64,"name":65,"description_en":66,"description_zh":67,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":78,"owner_email":66,"owner_twitter":66,"owner_website":66,"owner_url":79,"languages":80,"stars":85,"forks":86,"last_commit_at":87,"license":88,"difficulty_score":89,"env_os":90,"env_gpu":91,"env_ram":92,"env_deps":93,"category_tags":101,"github_topics":66,"view_count":32,"oss_zip_url":66,"oss_zip_packed_at":66,"status":17,"created_at":103,"updated_at":104,"faqs":105,"releases":106},6463,"erwold\u002Fqwen2vl-flux","qwen2vl-flux",null,"qwen2vl-flux 是一款强大的开源图像生成模型，旨在通过统一文本与图像的双重引导，实现高度可控的图片创作。它巧妙地将 Qwen2VL 多模态理解能力融入 Flux 架构，取代了传统方案中单一的文字编码器，从而让模型不仅能“听懂”文字指令，更能“看懂”参考图片。\n\n这一设计有效解决了现有工具在复杂场景下理解力不足、结构控制不精准的问题。无论是基于草图生成细节丰富的成品、对现有图片进行智能重绘与修补，还是依据深度图或线条图进行精确构图，qwen2vl-flux 都能提供卓越的表现。其内置的 ControlNet 支持进一步增强了用户对画面结构的掌控力，支持变化生成、图生图、局部重绘等多种灵活模式。\n\n该工具特别适合 AI 研究人员、开发者以及需要高质量视觉内容创作的专业设计师使用。由于运行需要较高的显存资源（推荐 48GB+）及特定的环境配置，它目前更偏向于技术探索与专业工作流集成，而非普通消费者的即开即用产品。对于追求极致多模态交互体验和精细生成控制的技术团队而言，qwen2vl-flux 提供了一个极具潜力的前沿解决方案。","# Qwen2VL-Flux: Unifying Image and Text Guidance for Controllable Image Generation\n\nThis repository contains a powerful image generation model that combines the capabilities of Stable Diffusion with multimodal understanding. The model can generate, modify, and transform images using both text and image inputs.\n\nThis implementation uses Qwen2VL as the vision-language model for enhanced multimodal understanding, integrated with the Flux architecture. It also supports ControlNet features including depth estimation and line detection for more precise image generation control.\n\nFor technical details, please refer to our [technical report](technical-report.pdf).\n\n## Model Architecture\n\nThe Flux model enhances Stable Diffusion by replacing the traditional text encoder with a vision-language model (Qwen2VL), enabling superior multimodal understanding and generation:\n\n![Flux Architecture](flux-architecture.svg)\n\nKey architectural features:\n- Vision-Language Understanding: Utilizes Qwen2VL for superior image and text comprehension\n- Enhanced Control: Integrates ControlNet for precise structural guidance\n- Flexible Pipeline: Supports various generation modes including variation, img2img, and inpainting\n\n## Features\n\n- **Multiple Generation Modes**:\n  - `variation`: Generate variations of input images\n  - `img2img`: Transform images based on reference images\n  - `inpaint`: Intelligent image inpainting with masks\n  - `controlnet`: Precise image generation with structural guidance\n  - `controlnet-inpaint`: Combine ControlNet guidance with inpainting\n\n- **Multimodal Understanding**: \n  - Advanced text-to-image capabilities\n  - Image-to-image transformation\n  - Visual reference understanding\n\n- **ControlNet Integration**:\n  - Line detection guidance\n  - Depth-aware generation\n  - Adjustable control strengths\n\n- **Advanced Features**:\n  - Attention mechanism for focused generation\n  - Customizable aspect ratios\n  - Batch image generation\n  - Turbo mode for faster inference\n\n## Requirements\n\n- Python 3.8 or higher\n- CUDA compatible GPU (recommended)\n- PyTorch 2.4.1 or higher\n- 48GB+ GPU memory\n\n### Environment Setup\n\nThe model requires the following main dependencies:\n- PyTorch >= 2.4.1\n- Transformers 4.45.0\n- Diffusers 0.30.0\n- Accelerate 0.33.0\n\nFor a complete list of dependencies, see `requirements.txt`.\n\n## Installation\n\n1. Clone this repository:\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fyourusername\u002Fflux-model.git\ncd flux-model\n```\n\n2. Create a virtual environment (recommended):\n```bash\npython -m venv venv\nsource venv\u002Fbin\u002Factivate  # Linux\u002FMac\n# or\nvenv\\Scripts\\activate  # Windows\n```\n\n3. Install dependencies:\n```bash\npip install -r requirements.txt\n```\n\n4. Download model checkpoints:\n\nThe model requires several checkpoint files to run. Please follow these steps:\n\na) Main model files:\n- Download the Qwen2VL-Flux model files from [Hugging Face](https:\u002F\u002Fhuggingface.co\u002FDjrango\u002FQwen2vl-Flux)\n- Place them in the `checkpoints` directory with the following structure:\n  ```\n  checkpoints\u002F\n  ├── flux\u002F              # Main Flux model files\n  ├── qwen2-vl\u002F          # Qwen2VL model files\n  ```\n\nb) For ControlNet features (optional):\n- depth-anything-v2\n- mistoline\n- segment-anything-v2\n\n5. Configure model paths:\n\nModify the following paths in `model.py` to match your setup:\n```python\nFLUX_MODEL_PATH = \"\u002Fcheckpoints\u002Fflux\"\nCONTROLNET_MODEL_PATH = \"\u002Fcheckpoints\u002Fcontrolnet\"\nQWEN2VL_MODEL_PATH = \"\u002Fcheckpoints\u002Fqwen2-vl\"\nDEPTHANYTHING_MODEL_PATH = \"\u002Fcheckpoints\u002Fdepth-anything-v2\"\nMISTOLINE_MODEL_PATH = \"\u002Fcheckpoints\u002Fanyline\"\nSAM2_MODEL_PATH = \"\u002Fcheckpoints\u002Fsegment-anything-v2\"\n```\n\n## Usage\n\n### Basic Command Structure\n\n```bash\npython main.py --mode \u003Cmode> --input_image \u003Cpath> [additional options]\n```\n\n### Common Options\n\n- `--mode`: Generation mode (`variation`\u002F`img2img`\u002F`inpaint`\u002F`controlnet`\u002F`controlnet-inpaint`)\n- `--input_image`: Path to the input image\n- `--prompt`: Text prompt to guide generation\n- `--output_dir`: Directory for saving generated images (default: 'outputs')\n- `--image_count`: Number of images to generate (default: 1)\n- `--aspect_ratio`: Output image ratio (`1:1`\u002F`16:9`\u002F`9:16`\u002F`2.4:1`\u002F`3:4`\u002F`4:3`)\n- `--steps`: Number of inference steps (default: 28)\n- `--guidance_scale`: Generation guidance scale (default: 3.5)\n- `--device`: Computing device (`cuda`\u002F`cpu`)\n\n### Environment Configuration\n\nThe model paths can be configured in two ways:\n1. Default path: Place all model files in the `checkpoints` directory in your project root\n2. Custom path: Set the `CHECKPOINT_DIR` environment variable to your desired location\n\nExpected directory structure:\n```\ncheckpoints\u002F\n├── flux\u002F              # Main Flux model files\n├── qwen2-vl\u002F          # Qwen2VL model files\n├── controlnet\u002F        # ControlNet model (optional)\n├── depth-anything-v2\u002F # Depth estimation model (optional)\n├── anyline\u002F          # Line detection model (optional)\n└── segment-anything-2\u002F # SAM2 model (optional)\n```\n\n### Model Loading Optimization\n\nThe model implements smart loading - it only loads the components needed for your specific task:\n- Basic generation only loads core models\n- ControlNet features are loaded only when using controlnet modes\n- Depth and line detection models are loaded only when those features are explicitly requested\n- SAM2 is loaded only for inpainting tasks\n\n### Examples\n\n1. **Basic Image Variation (Minimal Loading)**\n```bash\npython main.py --mode variation \\\n               --input_image path\u002Fto\u002Fimage.jpg \\\n               --prompt \"A beautiful landscape\" \\\n               --image_count 4\n```\n\n2. **Image-to-Image Translation**\n```bash\npython main.py --mode img2img \\\n               --input_image source.jpg \\\n               --reference_image target.jpg \\\n               --prompt \"xxxxxxxxxxxx\" \\\n               --denoise_strength 0.75\n```\n\n3. **Inpainting with Mask**\n```bash\npython main.py --mode inpaint \\\n               --input_image image.jpg \\\n               --mask_image mask.png \\\n               --prompt \"Fill with beautiful flowers\"\n```\n\n4. **ControlNet with Line and Depth Guidance**\n```bash\npython main.py --mode controlnet \\\n               --input_image image.jpg \\\n               --line_mode \\\n               --depth_mode \\\n               --line_strength 0.4 \\\n               --depth_strength 0.2 \\\n               --prompt \"xxxxxxxxxxxxxxxxxxxxx\"\n```\n\n5. **Custom Model Path Configuration**\n```bash\n# Using environment variable to specify model location\nCHECKPOINT_DIR=\u002Fpath\u002Fto\u002Fmodels python main.py \\\n               --mode variation \\\n               --input_image image.jpg \\\n               --prompt \"xxxxxxxxxxxxxxxxxxxxxxxxx\"\n```\n\n6. **Memory-Optimized ControlNet Usage**\n```bash\n# Only loads depth model without line detection\npython main.py --mode controlnet \\\n               --input_image image.jpg \\\n               --depth_mode \\\n               --depth_strength 0.3 \\\n               --prompt \"xxxxxxxxxxxxxxxxxxxxxxxx\"\n\n# Only loads line detection without depth model\npython main.py --mode controlnet \\\n               --input_image image.jpg \\\n               --line_mode \\\n               --line_strength 0.4 \\\n               --prompt \"xxxxxxxxxxxxxxxxxxxxxxxxxxx\"\n```\n\n7. **Focused Generation with Attention**\n```bash\npython main.py --mode variation \\\n               --input_image image.jpg \\\n               --center_x 0.5 \\\n               --center_y 0.5 \\\n               --radius 0.3 \\\n               --prompt \"xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx\"\n```\n\n### Advanced Options\n\n- **Attention Control**:\n  - `--center_x`: X coordinate of attention center (0-1)\n  - `--center_y`: Y coordinate of attention center (0-1)\n  - `--radius`: Radius of attention circle (0-1)\n\n- **ControlNet Settings**:\n  - `--line_mode`: Enable line detection\n  - `--depth_mode`: Enable depth awareness\n  - `--line_strength`: Line guidance strength (0-1)\n  - `--depth_strength`: Depth guidance strength (0-1)\n\n- **Performance**:\n  - `--turbo`: Enable faster inference\n  - `--device`: Choose computing device\n\n## Model Architecture\n\nThis model enhances the Stable Diffusion architecture by replacing the T5-XXL text encoder with a vision-language model, enabling superior multimodal understanding and generation capabilities. The architecture includes:\n\n- Modified Flux backbone\n- Vision-Language understanding module\n- ControlNet integration for structural guidance\n- Advanced attention mechanisms\n\n## Technical Details\n\n### Documentation\nFor a comprehensive understanding of the model architecture, implementation details, and technical innovations, please refer to the following resources:\n\n- [Technical Report](technical-report.pdf): Detailed explanation of the model architecture, training process, and experimental results\n- [Architecture Diagram](flux-architecture.svg): High-resolution version of the model architecture diagram\n- [Hugging Face Model Card](https:\u002F\u002Fhuggingface.co\u002FDjrango\u002FQwen2vl-Flux): Model weights and additional technical details\n\n### Model Components\n\n- **Core Model**: \n  - Qwen2VL-Flux backbone\n  - Modified Stable Diffusion pipeline\n  - Custom attention mechanisms\n\n- **Additional Components** (Optional):\n  - Depth Anything V2 (depth estimation)\n  - Mistoline (line detection)\n  - Segment Anything V2 (image segmentation)\n\n### Citation\n\nIf you use this model in your research, please cite our technical report:\n\n```bibtex\n@misc{erwold-2024-qwen2vl-flux,\n  title={Qwen2VL-Flux: Unifying Image and Text Guidance for Controllable Image Generation},\n  author={Pengqi Lu},\n  year={2024},\n  url={https:\u002F\u002Fgithub.com\u002Ferwold\u002Fqwen2vl-flux}\n}\n```\n\n## Acknowledgments\n\n- Based on the Stable Diffusion architecture\n- Integrates ControlNet for enhanced control\n- Uses modified Flux model components\n\n## Contributing\n\nContributions are welcome! Please feel free to submit a Pull Request.\n","# Qwen2VL-Flux：统一图像与文本引导的可控图像生成\n\n本仓库包含一个强大的图像生成模型，它结合了Stable Diffusion的能力与多模态理解功能。该模型可以使用文本和图像输入来生成、修改和转换图像。\n\n此实现采用Qwen2VL作为视觉-语言模型以增强多模态理解能力，并将其与Flux架构集成。它还支持ControlNet功能，包括深度估计和线条检测，以便更精确地控制图像生成。\n\n有关技术细节，请参阅我们的[技术报告](technical-report.pdf)。\n\n## 模型架构\n\nFlux模型通过用视觉-语言模型（Qwen2VL）替换传统的文本编码器来增强Stable Diffusion，从而实现更出色的多模态理解和生成：\n\n![Flux架构](flux-architecture.svg)\n\n关键架构特性：\n- 视觉-语言理解：利用Qwen2VL实现卓越的图像和文本理解能力\n- 增强的控制：集成ControlNet以提供精确的结构引导\n- 灵活的流程：支持多种生成模式，包括变体生成、图生图和修复填充\n\n## 特性\n\n- **多种生成模式**：\n  - `variation`：生成输入图像的变体\n  - `img2img`：基于参考图像转换图像\n  - `inpaint`：使用掩码进行智能图像修复\n  - `controlnet`：通过结构引导进行精确图像生成\n  - `controlnet-inpaint`：结合ControlNet引导与修复填充\n\n- **多模态理解**：\n  - 先进的文本到图像能力\n  - 图像到图像转换\n  - 视觉参考理解\n\n- **ControlNet集成**：\n  - 线条检测引导\n  - 深度感知生成\n  - 可调节的控制强度\n\n- **高级特性**：\n  - 注目机制用于聚焦生成\n  - 可自定义宽高比\n  - 批量图像生成\n  - Turbo模式以加快推理速度\n\n## 需求\n\n- Python 3.8或更高版本\n- 支持CUDA的GPU（推荐）\n- PyTorch 2.4.1或更高版本\n- 48GB及以上显存\n\n### 环境设置\n\n该模型需要以下主要依赖项：\n- PyTorch >= 2.4.1\n- Transformers 4.45.0\n- Diffusers 0.30.0\n- Accelerate 0.33.0\n\n完整的依赖列表请参见`requirements.txt`。\n\n## 安装\n\n1. 克隆本仓库：\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fyourusername\u002Fflux-model.git\ncd flux-model\n```\n\n2. 创建虚拟环境（推荐）：\n```bash\npython -m venv venv\nsource venv\u002Fbin\u002Factivate  # Linux\u002FMac\n# 或\nvenv\\Scripts\\activate  # Windows\n```\n\n3. 安装依赖项：\n```bash\npip install -r requirements.txt\n```\n\n4. 下载模型检查点：\n\n运行该模型需要若干检查点文件。请按照以下步骤操作：\n\na) 主要模型文件：\n- 从[Hugging Face](https:\u002F\u002Fhuggingface.co\u002FDjrango\u002FQwen2vl-Flux)下载Qwen2VL-Flux模型文件\n- 将其放置在`checkpoints`目录中，目录结构如下：\n  ```\n  checkpoints\u002F\n  ├── flux\u002F              # 主Flux模型文件\n  ├── qwen2-vl\u002F          # Qwen2VL模型文件\n  ```\n\nb) 对于ControlNet功能（可选）：\n- depth-anything-v2\n- mistoline\n- segment-anything-v2\n\n5. 配置模型路径：\n\n修改`model.py`中的以下路径以匹配您的设置：\n```python\nFLUX_MODEL_PATH = \"\u002Fcheckpoints\u002Fflux\"\nCONTROLNET_MODEL_PATH = \"\u002Fcheckpoints\u002Fcontrolnet\"\nQWEN2VL_MODEL_PATH = \"\u002Fcheckpoints\u002Fqwen2-vl\"\nDEPTHANYTHING_MODEL_PATH = \"\u002Fcheckpoints\u002Fdepth-anything-v2\"\nMISTOLINE_MODEL_PATH = \"\u002Fcheckpoints\u002Fanyline\"\nSAM2_MODEL_PATH = \"\u002Fcheckpoints\u002Fsegment-anything-v2\"\n```\n\n## 使用方法\n\n### 基本命令结构\n\n```bash\npython main.py --mode \u003C模式> --input_image \u003C路径> [其他选项]\n```\n\n###常用选项\n\n- `--mode`：生成模式（`variation`\u002F`img2img`\u002F`inpaint`\u002F`controlnet`\u002F`controlnet-inpaint`）\n- `--input_image`：输入图像的路径\n- `--prompt`：指导生成的文本提示\n- `--output_dir`：保存生成图像的目录（默认为‘outputs’）\n- `--image_count`：生成图像的数量（默认为1）\n- `--aspect_ratio`：输出图像的宽高比（`1:1`\u002F`16:9`\u002F`9:16`\u002F`2.4:1`\u002F`3:4`\u002F`4:3`）\n- `--steps`：推理步数（默认为28）\n- `--guidance_scale`：生成引导尺度（默认为3.5）\n- `--device`：计算设备（`cuda`\u002F`cpu`）\n\n### 环境配置\n\n可以通过两种方式配置模型路径：\n1. 默认路径：将所有模型文件放置在项目根目录下的`checkpoints`目录中\n2. 自定义路径：设置`CHECKPOINT_DIR`环境变量指向您希望的位置\n\n预期目录结构如下：\n```\ncheckpoints\u002F\n├── flux\u002F              # 主Flux模型文件\n├── qwen2-vl\u002F          # Qwen2VL模型文件\n├── controlnet\u002F        # ControlNet模型（可选）\n├── depth-anything-v2\u002F # 深度估计模型（可选）\n├── anyline\u002F          # 线条检测模型（可选）\n└── segment-anything-2\u002F # SAM2模型（可选）\n```\n\n### 模型加载优化\n\n该模型实现了智能加载——仅加载完成特定任务所需的组件：\n- 基本生成仅加载核心模型\n- ControlNet功能仅在使用ControlNet模式时加载\n- 深度和线条检测模型仅在明确请求这些功能时加载\n- SAM2仅在执行修复填充任务时加载。\n\n### 示例\n\n1. **基础图像变体（最小化加载）**\n```bash\npython main.py --mode variation \\\n               --input_image path\u002Fto\u002Fimage.jpg \\\n               --prompt \"一幅美丽的风景\" \\\n               --image_count 4\n```\n\n2. **图生图转换**\n```bash\npython main.py --mode img2img \\\n               --input_image source.jpg \\\n               --reference_image target.jpg \\\n               --prompt \"xxxxxxxxxxxx\" \\\n               --denoise_strength 0.75\n```\n\n3. **带掩码的修复填充**\n```bash\npython main.py --mode inpaint \\\n               --input_image image.jpg \\\n               --mask_image mask.png \\\n               --prompt \"用美丽的花朵填充\"\n```\n\n4. **带有线条和深度引导的ControlNet**\n```bash\npython main.py --mode controlnet \\\n               --input_image image.jpg \\\n               --line_mode \\\n               --depth_mode \\\n               --line_strength 0.4 \\\n               --depth_strength 0.2 \\\n               --prompt \"xxxxxxxxxxxxxxxxxxxxx\"\n```\n\n5. **自定义模型路径配置**\n```bash\n# 使用环境变量指定模型位置\nCHECKPOINT_DIR=\u002Fpath\u002Fto\u002Fmodels python main.py \\\n               --mode variation \\\n               --input_image image.jpg \\\n               --prompt \"xxxxxxxxxxxxxxxxxxxxxxxxx\"\n```\n\n6. **内存优化的ControlNet使用**\n```bash\n# 仅加载深度模型而不进行线条检测\npython main.py --mode controlnet \\\n               --input_image image.jpg \\\n               --depth_mode \\\n               --depth_strength 0.3 \\\n               --prompt \"xxxxxxxxxxxxxxxxxxxxxxxx\"\n\n# 仅加载线稿检测，不使用深度模型\npython main.py --mode controlnet \\\n               --input_image image.jpg \\\n               --line_mode \\\n               --line_strength 0.4 \\\n               --prompt \"xxxxxxxxxxxxxxxxxxxxxxxxxxx\"\n```\n\n7. **注意力聚焦生成**\n```bash\npython main.py --mode variation \\\n               --input_image image.jpg \\\n               --center_x 0.5 \\\n               --center_y 0.5 \\\n               --radius 0.3 \\\n               --prompt \"xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx\"\n```\n\n### 高级选项\n\n- **注意力控制**：\n  - `--center_x`：注意力中心的 X 坐标（0-1）\n  - `--center_y`：注意力中心的 Y 坐标（0-1）\n  - `--radius`：注意力圆的半径（0-1）\n\n- **ControlNet 设置**：\n  - `--line_mode`：启用线稿检测\n  - `--depth_mode`：启用深度感知\n  - `--line_strength`：线稿引导强度（0-1）\n  - `--depth_strength`：深度引导强度（0-1）\n\n- **性能**：\n  - `--turbo`：启用更快的推理\n  - `--device`：选择计算设备\n\n## 模型架构\n\n本模型通过用视觉-语言模型替换 T5-XXL 文本编码器，增强了 Stable Diffusion 架构，从而具备更出色的多模态理解和生成能力。该架构包括：\n\n- 修改后的 Flux 主干网络\n- 视觉-语言理解模块\n- ControlNet 集成，用于结构引导\n- 先进的注意力机制\n\n## 技术细节\n\n### 文档\n如需全面了解模型架构、实现细节及技术创新，请参阅以下资源：\n\n- [技术报告](technical-report.pdf)：详细说明模型架构、训练过程及实验结果\n- [架构图](flux-architecture.svg)：高分辨率版本的模型架构图\n- [Hugging Face 模型卡片](https:\u002F\u002Fhuggingface.co\u002FDjrango\u002FQwen2vl-Flux)：模型权重及其他技术细节\n\n### 模型组件\n\n- **核心模型**：\n  - Qwen2VL-Flux 主干网络\n  - 修改后的 Stable Diffusion 流水线\n  - 自定义注意力机制\n\n- **附加组件**（可选）：\n  - Depth Anything V2（深度估计）\n  - Mistoline（线稿检测）\n  - Segment Anything V2（图像分割）\n\n### 引用\n如果您在研究中使用本模型，请引用我们的技术报告：\n\n```bibtex\n@misc{erwold-2024-qwen2vl-flux,\n  title={Qwen2VL-Flux：统一图像与文本指导的可控图像生成},\n  author={Pengqi Lu},\n  year={2024},\n  url={https:\u002F\u002Fgithub.com\u002Ferwold\u002Fqwen2vl-flux}\n}\n```\n\n## 致谢\n\n- 基于 Stable Diffusion 架构\n- 集成了 ControlNet 以增强可控性\n- 使用了修改后的 Flux 模型组件\n\n## 贡献\n\n欢迎贡献！请随时提交 Pull Request。","# Qwen2VL-Flux 快速上手指南\n\nQwen2VL-Flux 是一款强大的可控图像生成模型，它结合了 Stable Diffusion 的生成能力与 Qwen2VL 的多模态理解能力。该模型支持文本和图像双重输入，可实现图像变体生成、图生图、智能修复以及基于深度\u002F线条的精确控制（ControlNet）。\n\n## 环境准备\n\n在开始之前，请确保您的系统满足以下硬件和软件要求：\n\n*   **操作系统**: Linux \u002F macOS \u002F Windows\n*   **Python**: 3.8 或更高版本\n*   **GPU**: 推荐 NVIDIA CUDA 兼容显卡，显存需 **48GB+**\n*   **核心依赖**:\n    *   PyTorch >= 2.4.1\n    *   Transformers 4.45.0\n    *   Diffusers 0.30.0\n    *   Accelerate 0.33.0\n\n> **国内加速建议**：安装依赖时建议使用国内镜像源以提升下载速度。\n> 例如使用清华源：`pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`\n\n## 安装步骤\n\n### 1. 克隆项目\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fyourusername\u002Fflux-model.git\ncd flux-model\n```\n\n### 2. 创建并激活虚拟环境\n```bash\npython -m venv venv\nsource venv\u002Fbin\u002Factivate  # Linux\u002FMac\n# Windows 用户请使用: venv\\Scripts\\activate\n```\n\n### 3. 安装依赖\n```bash\npip install -r requirements.txt\n# 国内用户推荐：pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n### 4. 下载模型权重\n从 [Hugging Face](https:\u002F\u002Fhuggingface.co\u002FDjrango\u002FQwen2vl-Flux) 下载所需模型文件，并按以下结构放置在 `checkpoints` 目录中：\n\n```text\ncheckpoints\u002F\n├── flux\u002F              # Flux 主模型文件\n├── qwen2-vl\u002F          # Qwen2VL 模型文件\n├── controlnet\u002F        # ControlNet 模型 (可选)\n├── depth-anything-v2\u002F # 深度估计模型 (可选)\n├── anyline\u002F           # 线条检测模型 (可选)\n└── segment-anything-2\u002F# SAM2 分割模型 (可选)\n```\n\n> **注意**：模型具有智能加载机制，仅在使用特定功能（如 ControlNet 或修复）时才会加载对应的辅助模型。\n\n### 5. 配置模型路径\n编辑 `model.py` 文件，将路径变量修改为您本地的实际路径：\n\n```python\nFLUX_MODEL_PATH = \"\u002Fcheckpoints\u002Fflux\"\nCONTROLNET_MODEL_PATH = \"\u002Fcheckpoints\u002Fcontrolnet\"\nQWEN2VL_MODEL_PATH = \"\u002Fcheckpoints\u002Fqwen2-vl\"\nDEPTHANYTHING_MODEL_PATH = \"\u002Fcheckpoints\u002Fdepth-anything-v2\"\nMISTOLINE_MODEL_PATH = \"\u002Fcheckpoints\u002Fanyline\"\nSAM2_MODEL_PATH = \"\u002Fcheckpoints\u002Fsegment-anything-v2\"\n```\n\n或者，您也可以通过设置环境变量 `CHECKPOINT_DIR` 来指定根目录，无需修改代码。\n\n## 基本使用\n\n### 命令格式\n```bash\npython main.py --mode \u003C模式> --input_image \u003C图片路径> [其他选项]\n```\n\n### 常用参数说明\n*   `--mode`: 生成模式 (`variation`, `img2img`, `inpaint`, `controlnet`, `controlnet-inpaint`)\n*   `--input_image`: 输入图片路径\n*   `--prompt`: 引导生成的文本提示词\n*   `--output_dir`: 输出目录 (默认: `outputs`)\n*   `--image_count`: 生成图片数量\n*   `--aspect_ratio`: 宽高比 (`1:1`, `16:9`, `9:16` 等)\n\n### 使用示例\n\n#### 1. 基础图像变体生成 (Variation)\n基于输入图片生成变体，仅需加载核心模型。\n```bash\npython main.py --mode variation \\\n               --input_image path\u002Fto\u002Fimage.jpg \\\n               --prompt \"A beautiful landscape\" \\\n               --image_count 4\n```\n\n#### 2. 图生图转换 (Image-to-Image)\n参考另一张图片进行风格或内容转换。\n```bash\npython main.py --mode img2img \\\n               --input_image source.jpg \\\n               --reference_image target.jpg \\\n               --prompt \"xxxxxxxxxxxx\" \\\n               --denoise_strength 0.75\n```\n\n#### 3. 智能修复 (Inpainting)\n使用掩码图片对指定区域进行重绘。\n```bash\npython main.py --mode inpaint \\\n               --input_image image.jpg \\\n               --mask_image mask.png \\\n               --prompt \"Fill with beautiful flowers\"\n```\n\n#### 4. 精确控制生成 (ControlNet)\n结合线条和深度信息进行结构化控制生成。\n```bash\npython main.py --mode controlnet \\\n               --input_image image.jpg \\\n               --line_mode \\\n               --depth_mode \\\n               --line_strength 0.4 \\\n               --depth_strength 0.2 \\\n               --prompt \"xxxxxxxxxxxxxxxxxxxxx\"\n```\n\n#### 5. 自定义模型路径运行\n通过环境变量指定模型存放位置，无需修改代码。\n```bash\nCHECKPOINT_DIR=\u002Fpath\u002Fto\u002Fmodels python main.py \\\n               --mode variation \\\n               --input_image image.jpg \\\n               --prompt \"xxxxxxxxxxxxxxxxxxxxxxxxx\"\n```","某电商设计团队需要在促销季快速将手绘的商品草图转化为多风格、高精度的营销海报，同时保持商品结构不变。\n\n### 没有 qwen2vl-flux 时\n- 设计师需先用传统工具提取草图线条和深度信息，再分步导入不同模型，工作流割裂且耗时。\n- 纯文本提示词难以精准描述草图中的复杂空间关系，导致生成的商品结构变形或比例失调。\n- 修改局部细节（如更换背景但保留商品）时，往往需要重绘整张图，无法智能识别掩膜区域。\n- 面对“赛博朋克风”或“水墨风”等抽象风格指令，模型缺乏视觉理解力，输出结果与预期偏差大。\n- 批量生成不同变体时，需反复调整参数试错，显存占用高且推理速度慢，严重拖慢上线节奏。\n\n### 使用 qwen2vl-flux 后\n- 直接输入手绘草图和文字指令，qwen2vl-flux 利用内置的 ControlNet 自动识别线条与深度，一键完成结构化生成。\n- 依托 Qwen2VL 的多模态理解能力，模型能精准读懂草图布局，确保商品主体结构在风格变换中毫厘不差。\n- 结合 `controlnet-inpaint` 模式，只需涂抹背景区域并输入新提示词，即可智能替换背景而完美保留商品细节。\n- 无论是抽象艺术风格还是具体材质要求，qwen2vl-flux 都能通过视觉参考准确捕捉意图，输出高度一致的高质量图像。\n- 开启 Turbo 模式支持批量并发处理，大幅降低显存门槛的同时，将单张海报生成时间从分钟级缩短至秒级。\n\nqwen2vl-flux 通过统一视觉理解与生成控制，将原本繁琐的多步骤设计流程简化为“草图 + 指令”的即时创作，极大提升了商业美术的生产效率。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ferwold_qwen2vl-flux_12b71945.png","erwold","StableKirito","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Ferwold_b33990f9.jpg","luer5old@gmail.com","None","Beijing","https:\u002F\u002Fgithub.com\u002Ferwold",[81],{"name":82,"color":83,"percentage":84},"Python","#3572A5",100,572,34,"2026-04-06T12:05:35","MIT",4,"Linux, macOS, Windows","需要兼容 CUDA 的 GPU（推荐），显存需求 48GB+","未说明",{"notes":94,"python":95,"dependencies":96},"模型支持智能加载，仅加载任务所需的组件以优化内存使用；需手动下载主模型文件及可选的 ControlNet 组件（如 Depth Anything V2, Mistoline, SAM2）并配置路径；支持多种生成模式包括图像变异、图生图、修复及 ControlNet 控制。","3.8+",[97,98,99,100],"torch>=2.4.1","transformers==4.45.0","diffusers==0.30.0","accelerate==0.33.0",[15,102],"其他","2026-03-27T02:49:30.150509","2026-04-11T10:05:41.605971",[],[]]