[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-wangjiangshan0725--RF-Solver-Edit":3,"tool-wangjiangshan0725--RF-Solver-Edit":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",157379,2,"2026-04-15T23:32:42",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":76,"owner_location":76,"owner_email":76,"owner_twitter":76,"owner_website":76,"owner_url":77,"languages":78,"stars":87,"forks":88,"last_commit_at":89,"license":76,"difficulty_score":90,"env_os":91,"env_gpu":92,"env_ram":91,"env_deps":93,"category_tags":100,"github_topics":102,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":111,"updated_at":112,"faqs":113,"releases":143},7937,"wangjiangshan0725\u002FRF-Solver-Edit","RF-Solver-Edit","[🚀ICML 2025] \"Taming Rectified Flow for Inversion and Editing\"  Using FLUX and HunyuanVideo for image and video editing!","RF-Solver-Edit 是一款专为图像和视频编辑打造的开源 AI 工具，由清华大学与腾讯 ARC 实验室等团队联合研发，并荣获 ICML 2025 收录。它基于先进的“整流流”（Rectified Flow）生成模型，旨在解决传统方法在图像反演重建时误差较大、编辑后容易丢失原图结构或细节的痛点。\n\n该工具包含两大核心组件：RF-Solver 通过优化算法显著降低了数学求解过程中的误差，大幅提升了生成质量和还原精度；RF-Edit 则利用这一优势，实现了对 FLUX（图像）和 HunyuanVideo\u002FOpenSora（视频）模型的精准控制。无论是修改画面风格、替换物体，还是对视频内容进行局部调整，RF-Solver-Edit 都能在保持原始内容结构完整性的同时，高质量地执行编辑指令。\n\n其技术亮点在于独特的特征共享机制：在图像编辑中，它在模型单层块内共享特征以保留源图结构；在视频编辑中，则利用空间注意力模块捕捉并维持视频的时空一致性。目前，该项目已开放代码并提供 Hugging Face 在线演示及 ComfyUI 插件，既适合研究人员探索生成模型的反演机制，也方便开发者集成应用","RF-Solver-Edit 是一款专为图像和视频编辑打造的开源 AI 工具，由清华大学与腾讯 ARC 实验室等团队联合研发，并荣获 ICML 2025 收录。它基于先进的“整流流”（Rectified Flow）生成模型，旨在解决传统方法在图像反演重建时误差较大、编辑后容易丢失原图结构或细节的痛点。\n\n该工具包含两大核心组件：RF-Solver 通过优化算法显著降低了数学求解过程中的误差，大幅提升了生成质量和还原精度；RF-Edit 则利用这一优势，实现了对 FLUX（图像）和 HunyuanVideo\u002FOpenSora（视频）模型的精准控制。无论是修改画面风格、替换物体，还是对视频内容进行局部调整，RF-Solver-Edit 都能在保持原始内容结构完整性的同时，高质量地执行编辑指令。\n\n其技术亮点在于独特的特征共享机制：在图像编辑中，它在模型单层块内共享特征以保留源图结构；在视频编辑中，则利用空间注意力模块捕捉并维持视频的时空一致性。目前，该项目已开放代码并提供 Hugging Face 在线演示及 ComfyUI 插件，既适合研究人员探索生成模型的反演机制，也方便开发者集成应用，甚至让设计师和普通用户能通过可视化界面轻松体验专业的音视频编辑能力。","\u003Cdiv align=\"center\">\n  \n# Taming Rectified Flow for Inversion and Editing\n\n[Jiangshan Wang](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=HoKoCv0AAAAJ&hl=en)\u003Csup>1,2\u003C\u002Fsup>, [Junfu Pu](https:\u002F\u002Fpujunfu.github.io\u002F)\u003Csup>2\u003C\u002Fsup>, [Zhongang Qi](https:\u002F\u002Fscholar.google.com\u002Fcitations?hl=en&user=zJvrrusAAAAJ&view_op=list_works&sortby=pubdate)\u003Csup>2\u003C\u002Fsup>, [Jiayi Guo](https:\u002F\u002Fwww.jiayiguo.net)\u003Csup>1\u003C\u002Fsup>, [Yue Ma](https:\u002F\u002Fmayuelala.github.io\u002F)\u003Csup>3\u003C\u002Fsup>, \u003Cbr> [Nisha Huang](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=wTmPkSsAAAAJ&hl=en)\u003Csup>1\u003C\u002Fsup>, [Yuxin Chen](https:\u002F\u002Fscholar.google.com\u002Fcitations?hl=en&user=dEm4OKAAAAAJ)\u003Csup>2\u003C\u002Fsup>, [Xiu Li](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=Xrh1OIUAAAAJ&hl=en&oi=ao)\u003Csup>1\u003C\u002Fsup>, [Ying Shan](https:\u002F\u002Fscholar.google.com\u002Fcitations?hl=en&user=4oXBp9UAAAAJ&view_op=list_works&sortby=pubdate)\u003Csup>2\u003C\u002Fsup>\n\n\u003Csup>1\u003C\u002Fsup> Tsinghua University,  \u003Csup>2\u003C\u002Fsup> Tencent ARC Lab,  \u003Csup>3\u003C\u002Fsup> HKUST  \n\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-RFSolverEdit-b31b1b.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.04746)\n\u003Ca href='https:\u002F\u002Frf-solver-edit.github.io\u002F'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FProject-Page-Green'>\u003C\u002Fa>\n[![Huggingface space](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🤗-Huggingface%20Space-orange.svg)](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fwjs0725\u002FRF-Solver-Edit) \n[![ComfyUI](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FComfyUI-Demo-blue.svg)](https:\u002F\u002Fgithub.com\u002Flogtd\u002FComfyUI-Fluxtapoz) \n\u003C\u002Fdiv>\n\n\n\n\n\n\u003Cp>\nWe propose \u003Cstrong>RF-Solver\u003C\u002Fstrong> to solve the rectified flow ODE with less error, thus enhancing both sampling quality and inversion-reconstruction accuracy for rectified-flow-based generative models. Furthermore, we propose \u003Cstrong>RF-Edit\u003C\u002Fstrong> to leverage the \u003Cstrong>RF-Solver\u003C\u002Fstrong> for image and video editing tasks. Our methods achieve impressive performance on various tasks, including text-to-image generation, image\u002Fvideo inversion, and image\u002Fvideo editing. \n\u003C\u002Fp>\n\n\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwangjiangshan0725_RF-Solver-Edit_readme_61bd61066cf7.jpg\" width=\"1080px\"\u002F>\n\u003C\u002Fp>\n\n# 🔥 News\n- [2025.5.1] 🎉 Our paper is accepted by ICML 2025.\n- [2025.3.24] We have re-organized our code, and releasing the code for video editing!\n- [2024.11.30] Our demo is available on 🤗 [Huggingface Space](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fwjs0725\u002FRF-Solver-Edit)!\n- [2024.11.24] Thanks @[logtd](https:\u002F\u002Fgithub.com\u002Flogtd) for implementing RF-Solver in [LTX-Video](https:\u002F\u002Fgithub.com\u002Flogtd\u002FComfyUI-LTXTricks)!\n- [2024.11.18] More examples for style transfer are available!\n- [2024.11.18] Gradio Demo for image editing is available!\n- [2024.11.16] Thanks @[logtd](https:\u002F\u002Fgithub.com\u002Flogtd) for integrating RF-Solver into [ComfyUI](https:\u002F\u002Fgithub.com\u002Flogtd\u002FComfyUI-Fluxtapoz)! \n- [2024.11.11] The [homepage](https:\u002F\u002Frf-solver-edit.github.io\u002F) of the project is available!\n- [2024.11.08] Code for image editing is released!\n- [2024.11.08] Paper released!\n\n# 👨‍💻 ToDo\n- ☑️ Release the gradio demo\n- ☑️ Release scripts for more image editing cases\n- ☑️ Release the code for video editing\n\n\n# 🖼️ Code for Image Editing\n\nFor image editing, RF-Edit employs FLUX as the backbone, which comprises several double blocks and single blocks. Double blocks independently modulate text and image features, while single blocks concatenate these features for unified modulation. In this architecture, RF-Edit shares features within the single blocks, as they capture information from both the source image and the source prompt, enhancing the ability of the model to preserve the structural information of the source image.\n\n\u003Cstrong>We have provided the code and demo for image editing using FLUX as the backbone, which can be found \u003Ca href=\".\u002FFLUX_Image_Edit\">Here\u003C\u002Fa>.\u003C\u002Fstrong>\n\n# 🎥 Code for Video Editing\n\nFor video editing, in our paper, we employ OpenSora as the backbone. The DiT blocks in OpenSora include spatial attention, temporal attention, and text cross-attention. Within this architecture, the structural information of the source video is captured in the spatial attention module, where we implement feature sharing.\n\nNote that the more powerful video generation model HunyuanVideo is released recently, which is also a RF-based method. The code for video editing in this Repo is implemented based on HunyuanVideo.\n\n\n\u003Cstrong> We have provided the code and demo for video editing using HunyuanVideo as the backbone, which can be found \u003Ca href=\".\u002FHunyuanvideo_Video_Edit\">Here\u003C\u002Fa>.\u003C\u002Fstrong>\n\n\n\n# 🎨 Gallery\n\n\n## Image Stylization\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwangjiangshan0725_RF-Solver-Edit_readme_bbbe3f289e96.jpg\" width=\"1080px\"\u002F>\n\u003C\u002Fp>\n\n## Image Editing\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwangjiangshan0725_RF-Solver-Edit_readme_e0a685246b0d.jpg\" width=\"1080px\"\u002F>\n\u003C\u002Fp>\n\n## Video Editing\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwangjiangshan0725_RF-Solver-Edit_readme_b19aecab38c7.gif\" width=\"1080px\"\u002F>\n\u003C\u002Fp>\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwangjiangshan0725_RF-Solver-Edit_readme_fa0e63fc192e.jpg\" width=\"1080px\"\u002F>\n\u003C\u002Fp>\n\n## Inversion and Reconstruction  \n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwangjiangshan0725_RF-Solver-Edit_readme_49c3ef4cf7df.jpg\" width=\"1080px\"\u002F>\n\u003C\u002Fp>\n\n\n\n\n# 📖 Method\n## RF-Solver\n\u003Cp>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwangjiangshan0725_RF-Solver-Edit_readme_6df0ed26a2b7.jpg\" width=\"1080px\"\u002F>\nWe derive the exact formulation of the solution for Rectified Flow ODE. The non-linear part in this solution is processed by Taylor Expansion. Through higher order expansion, the approximation error in the solution is significantly reduced, thus achieving impressive performance on both text-to-image sampling and image\u002Fvideo inversion.\n\u003C\u002Fp>\n\n## RF-Edit\n\u003Cp>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwangjiangshan0725_RF-Solver-Edit_readme_ad7a82ea65ad.jpg\" width=\"1080px\"\u002F>\nBased on RF-Solver, we further propose the RF-Edit for image and video editing. RF-Edit framework leverages the features from inversion in the denoising process, which enables high-quality editing while preserving the structural information of source image\u002Fvideo. RF-Edit contains two sub-modules, especially for image editing and video editing.\n\u003C\u002Fp>\n\n# 🖋️ Citation\n\nIf you find our work helpful, please **star 🌟** this repo and **cite 📑** our paper. Thanks for your support!\n\n```\n@article{wang2024taming,\n  title={Taming Rectified Flow for Inversion and Editing},\n  author={Wang, Jiangshan and Pu, Junfu and Qi, Zhongang and Guo, Jiayi and Ma, Yue and Huang, Nisha and Chen, Yuxin and Li, Xiu and Shan, Ying},\n  journal={arXiv preprint arXiv:2411.04746},\n  year={2024}\n}\n```\n\n# Acknowledgements\nWe thank [FLUX](https:\u002F\u002Fgithub.com\u002Fblack-forest-labs\u002Fflux\u002Ftree\u002Fmain) and [HunyuanVideo](https:\u002F\u002Fgithub.com\u002FTencent\u002FHunyuanVideo) for their clean codebase.\n\n# Contact\nThe code in this repository is still being reorganized. Errors that may arise during the organizing process could lead to code malfunctions or discrepancies from the original research results. If you have any questions or concerns, please send emails to wjs23@mails.tsinghua.edu.cn.\n","\u003Cdiv align=\"center\">\n  \n# 驯服修正流以实现反演与编辑\n\n[Jiangshan Wang](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=HoKoCv0AAAAJ&hl=en)\u003Csup>1,2\u003C\u002Fsup>, [Junfu Pu](https:\u002F\u002Fpujunfu.github.io\u002F)\u003Csup>2\u003C\u002Fsup>, [Zhongang Qi](https:\u002F\u002Fscholar.google.com\u002Fcitations?hl=en&user=zJvrrusAAAAJ&view_op=list_works&sortby=pubdate)\u003Csup>2\u003C\u002Fsup>, [Jiayi Guo](https:\u002F\u002Fwww.jiayiguo.net)\u003Csup>1\u003C\u002Fsup>, [Yue Ma](https:\u002F\u002Fmayuelala.github.io\u002F)\u003Csup>3\u003C\u002Fsup>, \u003Cbr> [Nisha Huang](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=wTmPkSsAAAAJ&hl=en)\u003Csup>1\u003C\u002Fsup>, [Yuxin Chen](https:\u002F\u002Fscholar.google.com\u002Fcitations?hl=en&user=dEm4OKAAAAAJ)\u003Csup>2\u003C\u002Fsup>, [Xiu Li](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=Xrh1OIUAAAAJ&hl=en&oi=ao)\u003Csup>1\u003C\u002Fsup>, [Ying Shan](https:\u002F\u002Fscholar.google.com\u002Fcitations?hl=en&user=4oXBp9UAAAAJ&view_op=list_works&sortby=pubdate)\u003Csup>2\u003C\u002Fsup>\n\n\u003Csup>1\u003C\u002Fsup> 清华大学,  \u003Csup>2\u003C\u002Fsup> 腾讯ARC实验室,  \u003Csup>3\u003C\u002Fsup> 香港科技大学  \n\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-RFSolverEdit-b31b1b.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.04746)\n\u003Ca href='https:\u002F\u002Frf-solver-edit.github.io\u002F'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FProject-Page-Green'>\u003C\u002Fa>\n[![Huggingface space](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🤗-Huggingface%20Space-orange.svg)](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fwjs0725\u002FRF-Solver-Edit) \n[![ComfyUI](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FComfyUI-Demo-blue.svg)](https:\u002F\u002Fgithub.com\u002Flogtd\u002FComfyUI-Fluxtapoz) \n\u003C\u002Fdiv>\n\n\n\n\n\n\u003Cp>\n我们提出了\u003Cstrong>RF-Solver\u003C\u002Fstrong>，用于以更小的误差求解修正流常微分方程，从而提升基于修正流的生成模型的采样质量和反演重建精度。此外，我们还提出了\u003Cstrong>RF-Edit\u003C\u002Fstrong>,利用\u003Cstrong>RF-Solver\u003C\u002Fstrong>来完成图像和视频编辑任务。我们的方法在文本到图像生成、图像\u002F视频反演以及图像\u002F视频编辑等多个任务上均取得了令人瞩目的效果。\n\u003C\u002Fp>\n\n\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwangjiangshan0725_RF-Solver-Edit_readme_61bd61066cf7.jpg\" width=\"1080px\"\u002F>\n\u003C\u002Fp>\n\n# 🔥 最新消息\n- [2025.5.1] 🎉 我们的论文已被ICML 2025接收。\n- [2025.3.24] 我们已重新整理代码，并发布了用于视频编辑的代码！\n- [2024.11.30] 我们的演示已在🤗 [Huggingface Space](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fwjs0725\u002FRF-Solver-Edit) 上线！\n- [2024.11.24] 感谢@[logtd](https:\u002F\u002Fgithub.com\u002Flogtd) 将RF-Solver集成到[LTX-Video](https:\u002F\u002Fgithub.com\u002Flogtd\u002FComfyUI-LTXTricks)中！\n- [2024.11.18] 更多风格迁移示例现已上线！\n- [2024.11.18] 图像编辑的Gradio演示现已可用！\n- [2024.11.16] 感谢@[logtd](https:\u002F\u002Fgithub.com\u002Flogtd) 将RF-Solver整合进[ComfyUI](https:\u002F\u002Fgithub.com\u002Flogtd\u002FComfyUI-Fluxtapoz)！\n- [2024.11.11] 项目\u003Chttps:\u002F\u002Frf-solver-edit.github.io\u002F>的主页现已上线！\n- [2024.11.08] 图像编辑的代码已发布！\n- [2024.11.08] 论文正式发表！\n\n# 👨‍💻 待办事项\n- ☑️ 发布Gradio演示\n- ☑️ 发布更多图像编辑案例的脚本\n- ☑️ 发布用于视频编辑的代码\n\n\n# 🖼️ 图像编辑代码\n\n对于图像编辑，RF-Edit采用FLUX作为骨干网络，该网络由多个双模块和单模块组成。双模块分别独立地调制文本和图像特征，而单模块则将这些特征拼接起来进行统一调制。在此架构中，RF-Edit在单模块内共享特征，因为它们同时捕捉了源图像和源提示的信息，从而增强了模型保留源图像结构信息的能力。\n\n\u003Cstrong>我们提供了以FLUX为骨干网络的图像编辑代码及演示，可点击\u003Ca href=\".\u002FFLUX_Image_Edit\">此处\u003C\u002Fa>查看。\u003C\u002Fstrong>\n\n# 🎥 视频编辑代码\n\n对于视频编辑，在我们的论文中，我们采用了OpenSora作为骨干网络。OpenSora中的DiT块包括空间注意力、 temporal注意力和文本交叉注意力。在这个架构中，源视频的结构信息被空间注意力模块捕获，我们在其中实现了特征共享。\n\n值得注意的是，功能更强大的视频生成模型HunyuanVideo最近发布，它同样是一种基于修正流的方法。本仓库中的视频编辑代码是基于HunyuanVideo实现的。\n\n\n\u003Cstrong>我们提供了以HunyuanVideo为骨干网络的视频编辑代码及演示，可点击\u003Ca href=\".\u002FHunyuanvideo_Video_Edit\">此处\u003C\u002Fa>查看。\u003C\u002Fstrong>\n\n\n\n# 🎨 作品集\n\n\n## 图像风格化\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwangjiangshan0725_RF-Solver-Edit_readme_bbbe3f289e96.jpg\" width=\"1080px\"\u002F>\n\u003C\u002Fp>\n\n## 图像编辑\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwangjiangshan0725_RF-Solver-Edit_readme_e0a685246b0d.jpg\" width=\"1080px\"\u002F>\n\u003C\u002Fp>\n\n## 视频编辑\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwangjiangshan0725_RF-Solver-Edit_readme_b19aecab38c7.gif\" width=\"1080px\"\u002F>\n\u003C\u002Fp>\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwangjiangshan0725_RF-Solver-Edit_readme_fa0e63fc192e.jpg\" width=\"1080px\"\u002F>\n\u003C\u002Fp>\n\n## 反演与重建  \n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwangjiangshan0725_RF-Solver-Edit_readme_49c3ef4cf7df.jpg\" width=\"1080px\"\u002F>\n\u003C\u002Fp>\n\n\n\n\n# 📖 方法\n## RF-Solver\n\u003Cp>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwangjiangshan0725_RF-Solver-Edit_readme_6df0ed26a2b7.jpg\" width=\"1080px\"\u002F>\n我们推导出了修正流常微分方程解的精确形式。该解中的非线性部分通过泰勒展开进行处理。通过更高阶的展开，解的近似误差显著降低，从而在文本到图像采样以及图像\u002F视频反演任务上都取得了出色的效果。\n\u003C\u002Fp>\n\n## RF-Edit\n\u003Cp>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwangjiangshan0725_RF-Solver-Edit_readme_ad7a82ea65ad.jpg\" width=\"1080px\"\u002F>\n基于RF-Solver，我们进一步提出了用于图像和视频编辑的RF-Edit框架。RF-Edit在去噪过程中利用反演得到的特征，能够在高质量编辑的同时保留源图像\u002F视频的结构信息。RF-Edit包含两个子模块，分别针对图像编辑和视频编辑。\n\u003C\u002Fp>\n\n# 🖋️ 引用\n\n如果您觉得我们的工作有所帮助，请为本仓库**点赞🌟**并**引用📑**我们的论文。感谢您的支持！\n\n```\n@article{wang2024taming,\n  title={Taming Rectified Flow for Inversion and Editing},\n  author={Wang, Jiangshan and Pu, Junfu and Qi, Zhongang and Guo, Jiayi and Ma, Yue and Huang, Nisha and Chen, Yuxin and Li, Xiu and Shan, Ying},\n  journal={arXiv preprint arXiv:2411.04746},\n  year={2024}\n}\n```\n\n# 致谢\n我们感谢[FLUX](https:\u002F\u002Fgithub.com\u002Fblack-forest-labs\u002Fflux\u002Ftree\u002Fmain)和[HunyuanVideo](https:\u002F\u002Fgithub.com\u002FTencent\u002FHunyuanVideo)提供的整洁代码库。\n\n# 联系方式\n本仓库中的代码仍在整理中。整理过程中可能出现的错误可能导致代码运行异常或与原始研究结果存在偏差。如有任何疑问或顾虑，请发送邮件至wjs23@mails.tsinghua.edu.cn。","# RF-Solver-Edit 快速上手指南\n\nRF-Solver-Edit 是一个基于修正流（Rectified Flow）的高级生成式 AI 工具，旨在通过更精确的 ODE 求解器（RF-Solver）提升采样质量和反演重建精度，并在此基础上实现高质量的图像与视频编辑（RF-Edit）。该项目支持 FLUX（图像）和 HunyuanVideo（视频）作为骨干模型。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 20.04+) 或 macOS。Windows 用户建议使用 WSL2。\n*   **GPU**: NVIDIA GPU，显存建议 16GB 以上（图像编辑），24GB 以上（视频编辑）。\n*   **Python**: 3.9 或更高版本。\n*   **CUDA**: 11.8 或 12.1+ (根据 PyTorch 版本需求)。\n*   **前置依赖**:\n    *   `git`\n    *   `conda` 或 `venv` (强烈推荐使用 conda 管理环境)\n\n> **国内加速提示**：建议配置 pip 国内镜像源以加快依赖下载速度。\n> ```bash\n> pip config set global.index-url https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> ```\n\n## 安装步骤\n\n本项目代码分为图像编辑和视频编辑两个独立模块，请根据需求选择安装。\n\n### 1. 克隆仓库\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FTencentARC\u002FRF-Solver-Edit.git\ncd RF-Solver-Edit\n```\n\n### 2. 创建虚拟环境\n```bash\nconda create -n rf-solver python=3.10 -y\nconda activate rf-solver\n```\n\n### 3. 安装核心依赖\n首先安装基础的 PyTorch 环境（请以官方推荐的 CUDA 版本为准）：\n```bash\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\n```\n\n#### 方案 A：安装图像编辑模块 (基于 FLUX)\n```bash\ncd FLUX_Image_Edit\npip install -r requirements.txt\n# 下载预训练模型权重 (需手动放置到指定目录，具体参考该文件夹下的 README)\n```\n\n#### 方案 B：安装视频编辑模块 (基于 HunyuanVideo)\n```bash\ncd Hunyuanvideo_Video_Edit\npip install -r requirements.txt\n# 下载预训练模型权重 (需手动放置到指定目录，具体参考该文件夹下的 README)\n```\n\n> **注意**：由于项目正在重构中，若遇到依赖冲突，请优先参考对应子目录下的具体说明文档。\n\n## 基本使用\n\n以下提供最基础的命令行使用示例。使用前请确保已下载对应的模型权重文件。\n\n### 图像编辑示例 (FLUX)\n\n进入图像编辑目录并运行脚本。以下命令演示了如何将源图像根据新的文本提示进行风格迁移或内容编辑：\n\n```bash\ncd FLUX_Image_Edit\n\npython edit_image.py \\\n    --source_image_path .\u002Fassets\u002Fexamples\u002Fsource.png \\\n    --source_prompt \"a photo of a cat\" \\\n    --target_prompt \"a photo of a cat in cyberpunk style\" \\\n    --output_dir .\u002Foutputs \\\n    --steps 50 \\\n    --solver_order 2\n```\n\n*   `--solver_order`: RF-Solver 的核心参数，提高阶数（如 2 或 3）可减少近似误差，提升重建和编辑质量。\n*   `--steps`: 采样步数，通常 30-50 步即可获得良好效果。\n\n### 视频编辑示例 (HunyuanVideo)\n\n进入视频编辑目录运行。以下命令演示了对源视频进行编辑：\n\n```bash\ncd Hunyuanvideo_Video_Edit\n\npython edit_video.py \\\n    --source_video_path .\u002Fassets\u002Fexamples\u002Fsource.mp4 \\\n    --source_prompt \"a dog running in the park\" \\\n    --target_prompt \"a robot dog running in the park\" \\\n    --output_dir .\u002Foutputs \\\n    --frames 16 \\\n    --solver_order 2\n```\n\n### 启动 Gradio 演示界面 (可选)\n\n如果希望使用图形化界面进行操作，可以在对应目录下启动本地 Demo：\n\n```bash\n# 在 FLUX_Image_Edit 或 Hunyuanvideo_Video_Edit 目录下\npython app.py\n```\n启动后，浏览器访问终端显示的地址（通常为 `http:\u002F\u002F127.0.0.1:7860`）即可交互使用。\n\n---\n*注：由于代码库正在重组中，如遇运行错误，请检查模型路径配置或联系作者邮箱 wjs23@mails.tsinghua.edu.cn。*","某广告公司创意总监急需将一段已拍摄好的产品演示视频中的背景从“办公室”替换为“赛博朋克城市”，同时必须严格保留人物动作轨迹和产品光影细节。\n\n### 没有 RF-Solver-Edit 时\n- **结构严重失真**：传统基于扩散模型的编辑方法在重绘背景时，往往导致前景人物肢体扭曲或产品边缘模糊，破坏原始视频的空间一致性。\n- **逆过程误差大**：将原视频逆向还原为噪声的过程中积累大量误差，导致重建画面与原片差异明显，无法精准定位需要修改的区域。\n- **动态连贯性差**：生成的新背景在帧与帧之间出现闪烁或抖动，缺乏时间维度上的平滑过渡，后期修复耗时极长。\n- **依赖繁琐蒙版**：为了保住主体，人工绘制逐帧精细蒙版成为必经步骤，极大拖慢了从创意到成片的流转效率。\n\n### 使用 RF-Solver-Edit 后\n- **完美保留结构**：利用 RF-Solver 求解整流流 ODE 的低误差特性，结合单块特征共享机制，精准锁定并保留了人物姿态与产品轮廓的原始结构信息。\n- **高保真逆向重建**：RF-Solver 显著提升了反转 - 重建的准确度，确保输入视频能被无损映射到潜空间，为后续编辑提供完美的“画布”。\n- **时空自然流畅**：基于 OpenSora 架构的视频编辑能力，在替换背景时自动维持了空间注意力与时间注意力的一致性，输出视频无闪烁、动作连贯。\n- **免蒙版高效编辑**：无需手动绘制复杂蒙版，仅需输入文本提示词（如“赛博朋克城市背景”），即可智能完成局部重绘，将数小时的工作压缩至分钟级。\n\nRF-Solver-Edit 通过攻克整流流的求解难题，实现了在大幅修改视频内容的同时，像手术刀般精准地保全原始画面的结构与动态神韵。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwangjiangshan0725_RF-Solver-Edit_61bd6106.jpg","wangjiangshan0725","Jiangshan Wang","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fwangjiangshan0725_2ed75e9f.png",null,"https:\u002F\u002Fgithub.com\u002Fwangjiangshan0725",[79,83],{"name":80,"color":81,"percentage":82},"Python","#3572A5",98.6,{"name":84,"color":85,"percentage":86},"Shell","#89e051",1.4,620,16,"2026-04-14T18:39:07",4,"未说明","需要 NVIDIA GPU（基于 FLUX 和 HunyuanVideo 架构推断），具体显存大小和 CUDA 版本未在文中明确说明",{"notes":94,"python":91,"dependencies":95},"该工具主要包含图像编辑（基于 FLUX）和视频编辑（基于 HunyuanVideo）两个模块。代码库正在重组中，可能会遇到运行错误或结果差异。视频编辑部分原本论文使用 OpenSora，但本仓库代码已改为基于最近发布的 HunyuanVideo 实现。建议通过邮件联系作者以获取最新支持。",[96,97,98,99,38],"FLUX","HunyuanVideo","OpenSora","Gradio",[101,35,15],"视频",[103,104,105,106,107,108,109,110],"flux","image-editing","image-inversion","opensora","rectified-flow","video-editing","video-inversion","diffusion-transformer","2026-03-27T02:49:30.150509","2026-04-16T08:12:12.765034",[114,119,124,129,134,139],{"id":115,"question_zh":116,"answer_zh":117,"source_url":118},35538,"如何为 FLUX 模型集成微调后的 LoRA？","可以使用 `AutoPipelineForText2Image` 加载模型并启用 PEFT，然后加载 LoRA 权重提取状态字典，最后将其应用到主模型中。参考代码如下：\nif load_lora:\n    pipe = AutoPipelineForText2Image.from_pretrained(\n        \"black-forest-labs\u002FFLUX.1-dev\", \n        torch_dtype=torch.bfloat16,\n        use_peft=True\n    )\n    pipe.load_lora_weights(args.lora_path, weight_name='pytorch_lora_weights.safetensors')\n    model_state_dict = pipe.transformer.state_dict()\n    del pipe\n# 初始化其他组件后应用权重\nif model_state_dict is not None:\n    model.load_state_dict(model_state_dict, strict=False)","https:\u002F\u002Fgithub.com\u002Fwangjiangshan0725\u002FRF-Solver-Edit\u002Fissues\u002F1",{"id":120,"question_zh":121,"answer_zh":122,"source_url":123},35539,"使用 flux-schnell 进行图像重建或编辑时效果不佳怎么办？","建议调整 `inject_step` 参数（范围从 1 到 7），大多数情况下可以获得满意的结果。如果仍然无效，可以尝试增加时间步数（timestep）。此外，`guidance`、`inject` 和 `num_steps` 等参数也会显著影响重建质量，需要根据具体任务进行微调。","https:\u002F\u002Fgithub.com\u002Fwangjiangshan0725\u002FRF-Solver-Edit\u002Fissues\u002F15",{"id":125,"question_zh":126,"answer_zh":127,"source_url":128},35540,"如何实现标准的 Rectified Flow (RF) 反转（Vanilla RF Inversion）用于测试？","实现标准 RF 反转的核心步骤是将时间步顺序反转。具体流程为：\n1. 使用 `ae.encoder` 编码输入图像。\n2. 反转时间步：`timesteps = timesteps[::-1]`。\n3. 使用模型执行反转过程（添加噪声）得到潜在噪声。\n4. 使用原始顺序的时间步对潜在噪声去噪。\n5. 使用 `ae.decoder` 解码回像素空间。\n伪代码逻辑确认正确，详细实现可参考项目源代码。","https:\u002F\u002Fgithub.com\u002Fwangjiangshan0725\u002FRF-Solver-Edit\u002Fissues\u002F11",{"id":130,"question_zh":131,"answer_zh":132,"source_url":133},35541,"视频编辑代码是否已经发布？","是的，视频编辑的代码已经发布。此前曾计划稍后发布以配合论文录用情况，但目前用户已可以在仓库中找到相关代码。维护者也在探索使用更强大的视频生成模型（如 Mochi）来进行视频编辑，以期获得比 OpenSora 更好的效果。","https:\u002F\u002Fgithub.com\u002Fwangjiangshan0725\u002FRF-Solver-Edit\u002Fissues\u002F12",{"id":135,"question_zh":136,"answer_zh":137,"source_url":138},35542,"如何处理非正方形输入视频导致的编辑结果崩溃问题？","如果输入视频不是正方形（例如 640x368），模型可能无法生成有效结果。这通常与随机种子（random seeds）的选择有关，不同的种子会导致结果差异巨大。建议提供具体的运行命令和源视频给维护者以排查问题。同时，尝试调整 `inject_step` 和 `embedded-cfg-scale` 参数可能会有所帮助，但改善程度有限。","https:\u002F\u002Fgithub.com\u002Fwangjiangshan0725\u002FRF-Solver-Edit\u002Fissues\u002F30",{"id":140,"question_zh":141,"answer_zh":142,"source_url":123},35543,"为什么尝试改变图像颜色（如白衬衫变红）时编辑不生效？","这可能是由于参数设置不当或 Flux 编辑本身的局限性。用户反馈在使用提供的默认参数脚本时，此类颜色变换往往不起作用。建议参考社区讨论，尝试大幅调整 `guidance`、`inject_step` 和 `num_steps` 等参数。如果标准反转（vanilla rectified flow inversion）工作正常但特定编辑失败，通常需要针对该特定类型的变换进行专门的参数搜索。",[]]