Awesome-Deep-Research
Awesome-Deep-Research 是一个专注于“代理式深度研究”(Agentic Deep Research)领域的开源资源合集,旨在为探索人工智能与自主智能体交叉前沿的用户提供一站式指南。随着信息检索范式从传统的网页搜索向具备推理能力的智能体搜索转变,该仓库解决了从业者难以系统性获取最新行业动态、开源实现及学术成果的痛点。
它精心整理了包括 Google Gemini、OpenAI、Perplexity 等巨头发布的领先产品,以及相关的开源工具、最新研究论文和评估基准。其独特亮点在于不仅提供了资源列表,还关联了阐述该领域未来方向的位置论文,并推荐了相关的 RAG 与推理技术集合,帮助用户深入理解如何利用智能体进行复杂的信息分析与推理。
无论是希望紧跟技术趋势的研究人员、需要落地实现的开发者,还是对自主智能体充满热情的爱好者,都能从中找到极具价值的参考内容。通过汇聚全球前沿成果,Awesome-Deep-Research 成为了连接理论研究与工程实践的重要桥梁,助力用户高效掌握下一代智能搜索与分析技术的核心脉络。
使用场景
某金融科技公司的量化分析师需要在 48 小时内完成一份关于“全球生成式 AI 在医疗影像诊断领域”的深度竞品与技术趋势报告,以支撑下一季度的投资决策。
没有 Awesome-Deep-Research 时
- 信息搜集碎片化:分析师需手动在 Google Scholar、arXiv、GitHub 及各大科技博客间反复切换搜索,难以系统性覆盖最新开源项目与商业产品。
- 技术栈评估耗时:面对海量零散的 RAG(检索增强生成)与推理代理论文,缺乏权威的基准测试(Benchmarks)参考,难以快速判断哪些算法具备落地价值。
- 错失前沿动态:由于无法实时追踪如 OpenAI Deep Research API 或 Grok Agents 等刚刚发布的行业级解决方案,导致报告中的竞品分析滞后于市场现状。
- 验证成本高昂:找到的开源代码库质量参差不齐,缺乏经过社区筛选的实现列表,需花费大量时间复现并排除不可用的项目。
使用 Awesome-Deep-Research 后
- 资源一站式聚合:直接利用该仓库 curated 的清单,瞬间获取从 Google Gemini Deep Research 到最新 arXiv 论文的全链路资源,覆盖学术与工业界双视角。
- 精准技术选型:通过仓库中整理的评估基准与应用案例,快速锁定表现最优的 Agentic Deep Research 架构,将技术验证周期从数天缩短至数小时。
- 同步最前沿情报:借助其维护的“行业领先产品”列表,即时纳入 Manus、Anthropic Research 等 2025 年最新发布的平台,确保竞品分析具备极高的时效性。
- 高效落地实施:直接复用仓库推荐的成熟开源实现工具,避免了重复造轮子,让团队能专注于业务逻辑整合而非基础架构搭建。
Awesome-Deep-Research 将原本需要数周的信息挖掘与验证工作压缩至天级别,成为连接前沿 AI 研究与实际商业落地的关键加速器。
运行环境要求
未说明
未说明

快速开始
🤖 令人惊叹的代理式深度研究资源
欢迎来到 Awesome-Deep-Research!🚀 本仓库是您通往代理式深度研究前沿世界的全面指南。我们精心整理了一系列资源供您使用。
无论您是研究人员、开发者还是爱好者,这个仓库都是您探索人工智能与自主代理之间迷人交汇点的入口。如需深入了解信息搜索范式的转变,请查阅我们的立场论文:从网络搜索迈向代理式深度研究:以推理代理激励搜索 📄,其中概述了当前领域的趋势及未来发展方向。对于关注 RAG 与推理更广泛交叉的研究人员,我们也推荐您浏览我们的综合资源集 Awesome-RAG-Reasoning 🔥🔥🔥。
目录
行业领先的产品
Gemini Deep Research: Google 的高级研究助手,用于深度分析(2024年12月11日)
Deep Research: OpenAI 的深度研究平台 [API 指南](2025年2月2日)
Perplexity Deep Research: Perplexity 的深度研究与分析产品(2025年2月14日)
Grok Agents: xAI 基于 Grok-3 的自主 DeepSearch 代理(2025年2月19日)
Copilot Researcher: Microsoft 365 Copilot 中的研究员与分析师功能(2025年3月25日)
Research: Anthropic 的研究平台,用于查找并推理信息(2025年4月15日)
Manus: 高级研究与分析平台(2025年3月6日)- 🦌 DeerFlow: 字节跳动的研究与分析解决方案(2025年5月9日)
Deep Research: 阿里巴巴基于通义千问的研究助手(2025年5月14日)
Kimi-Researcher: Moonshot 基于 Kimi 的研究助手(2025年6月20日)
开源实现
- gemini-fullstack-langgraph-quickstart:Gemini 全栈与 LangGraph 集成。
- multi-agent research system:Anthropic 的多智能体研究系统。博客文章
- gpt-researcher:用于综合性研究任务的自主智能体。
- DeerFlow:字节跳动开源的深度研究框架。
- r1-reasoning-rag:推理增强型检索增强生成框架。
- nanoDeepResearch:轻量级深度研究工具包。
- deep-research (Aomni):Aomni 的深度研究助手。
- deep-research (u14app):u14app 的深度研究平台。
- open-deep-research:开源深度研究框架。
- deep-searcher:深度搜索与研究工具包。
- node-DeepResearch:用于寻找正确答案的深度研究工具包。
- Auto-Deep-Research:自动化深度研究智能体。
- langgraph-deep-research:使用 LangGraph 的深度研究工作流。
- DeepResearchAgent:SkyworkAI 的深度研究智能体。
- OpenManus:一个用于构建通用 AI 智能体的开源框架。
- PraisonAI:一款具备内置深度研究能力、可直接投入生产的多智能体框架。
- AtomSearcher:一款自动化的深度研究智能体。
最新研究论文
🔥🔥🔥 本节展示了代理式深度研究领域中最新且最具影响力的科研论文。每一篇论文都代表着在自主研究智能体、搜索能力及推理框架发展方面的重大进展。论文按时间顺序排列,最新的发表内容位于顶部。涵盖的关键领域包括:
- 🤖 用于深度研究的代理式框架
- 🔍 搜索增强型推理模型
- 🌐 用于深度研究的网络智能体
- 🔄 推理与检索增强型生成
- 📊 多模态深度研究
🚀🚀🚀 敬请关注该领域的最新突破!
| 标题 | 日期及代码 | 基础模型 | 优化方法 | 搜索引擎 | 代理架构 | 训练数据集 | 评估数据集 |
|---|---|---|---|---|---|---|---|
| Dr. Zero: 无需训练数据的自进化搜索代理 | 2026/01/11 |
Qwen2.5-3B-Instruct, Qwen2.5-7B-Instruct | HRPO | 网络搜索 | 多智能体 | — | NQ, TriviaQA, PopQA, HotpotQA, 2WikiMultihopQA (2WikiMQA), MuSiQue, Bamboogle |
| LEAPS: 阿里巴巴AI搜索的LLM赋能自适应插件 | 2026/01/09 | Qwen3-14B | REINFORCE++, GRPO, GSPO | 本地检索 | 单智能体 | — | — |
| SmartSearch: 面向搜索代理的过程奖励引导查询精炼 | 2026/01/08 |
Qwen2.5-3B-Instruct | SFT, DPO, GRPO | 网络搜索 | 单智能体 | Asearcher-Base | 2WikiMultihopQA, HotpotQA, Bamboogle, MuSiQue, GAIA, WebWalker |
| O-Researcher: 基于多智能体蒸馏与智能体强化学习的开放式深度研究模型 | 2026/01/07 |
Qwen-2.5-72B-Instruct | GRPO | 网络搜索 | 多智能体 | 知乎KOL、WideSearch、ELI5 | DeepResearch Bench, DeepResearchGym |
| WebAnchor: 锚定式智能体规划以稳定长 horizon 网络推理 | 2026/01/06 | WebSailor-3B/7B, Tongyi-DR-30B, Qwen-2.5-72B | GRPO | 本地检索 | 单智能体 | — | BrowseComp-en, BrowseComp-zh, XBench-DeepSearch, GAIA |
| 预算感知的工具使用实现高效的智能体扩展 | 2025/11/21 | Gemini-2.5-Flash, Gemini-2.5-Pro, Claude-Sonnet-4 | 提示工程 | 网络搜索 | 单智能体 | — | — |
| AutoTool: 面向大型语言模型智能体的高效工具选择 | 2025/11/18 |
Llama4-Scout-17B | 提示工程 | 网络搜索 | 单智能体 | — | AlfWorld, ScienceWorld, ToolQuery-Academia |
| 多智能体深度研究:使用M-GRPO训练多智能体系统 | 2025/11/17 |
Qwen3-30B-A3B | M-GRPO | 网络搜索 | 多智能体 | — | GAIA, XBench-DeepSearch, WebWalkerQA |
| 通义深度研究技术报告 | 2025/10/28 |
Qwen3-30B-A3B-Base | SFT, RL | 网络搜索 | 单智能体 | — | HLE, BrowseComp, BrowseComp-ZH, GAIA, XBench-DeepSearch, WebWalkerQA, FRAMES, XBench-DeepSearch-2510 |
| TOOLRM: 向智能体工具使用奖励建模迈进 | 2025/10/30 |
Qwen3-4B, Qwen3-8B | RL | 网络搜索 | 单智能体 | ToolPref-Pairwise-30K | TRBench, ACEBench |
| ToolScope: 一种用于视觉引导和长 horizon 工具使用的智能体框架 | 2025/10/31 | GPT-4o, Gemini-2.5, Qwen2.5-VL, Llama-3.2-Vision | 提示工程 | 本地检索 | 多智能体 | — | — |
| WebSeer: 通过带有自我反思的强化学习训练更深层次的搜索代理 | 2025/10/21 |
Qwen-2.5-14B, Qwen-3-14B | RL(冷启动+RL;自我反思) | 网络搜索 | 单智能体 | — | HotpotQA, SimpleQA |
| 企业深度研究:面向企业分析的可引导多智能体深度研究 | 2025/10/20 |
— | 提示工程 | 网络搜索 | 多智能体 | — | DeepResearch Bench, DeepConsult |
| Stop-RAG: 基于价值的迭代RAG检索控制 | 2025/10/16 |
Llama-3.1-8B-Instruct | 微调 | 本地检索 | 单智能体 | MuSiQue, HotpotQA, 2WikiMultihopQA | HotpotQA, MuSiQue, 2WikiMultihopQA |
| 迈向搜索环境中具有智能体特性的自学习LLM | 2025/10/16 |
Qwen-2.5-7B-Instruct | RL | 网络搜索 | 多智能体 | — | NQ, TriviaQA, PopQA, HotpotQA, 2WikiMultihopQA, MuSiQue, Bamboogle |
| GOAT: 面向目标导向型工具使用智能体的训练框架 | 2025/10/14 | Qwen-2-7B, Llama-3-8B-Instruct, Llama-3-70B-Instruct | 微调 | 网络搜索 | 单智能体 | — | GOATBench |
| ResearStudio: 一种可供人类干预的可控深度研究智能体构建框架 | 2025/10/14 |
gpt-4.1, gpt-4.1-mini, o4-mini, Llama-3.3-70B | 提示工程 | 网络搜索 | 单智能体 | — | GAIA |
| HiPRAG: 用于高效智能体增强检索生成的层次化过程奖励 | 2025/10/09 |
Qwen2.5-3B-Instruct, Qwen2.5-7B-Instruct, Llama-3.2-3B-Instruct | PPO, GRPO | 网络搜索 | 单智能体 | NQ, HotpotQA | NQ, TriviaQA, PopQA, HotpotQA, 2Wiki, MuSiQue, Bamboogle |
| A2SEARCH: 基于强化学习的歧义感知问答 | 2025/10/09 |
Qwen-2.5系列 | RL | 网络搜索 | 单智能体 | NQ | MuSiQue, HotpotQA, 2Wiki, Bamboogle, NQ, TriviaQA, PopQA, AmbigQA |
| ReSeek: 一种具有指导性奖励的自纠正搜索代理框架 | 2025/10/01 | Qwen2.5-7B-Instruct, Qwen2.5-3B-Instruct | GRPO | 网络搜索、本地检索 | 单智能体 | NQ, HotpotQA | NQ, TriviaQA, PopQA, HotpotQA, 2WikiMQA, MuSiQue, Bamboogle, FictionalHot |
| 面向交互式多模态工具使用智能体的过程监督强化学习 | 2025/09/17 | Qwen3-8B, Qwen2.5-Omni-7B | RL | 本地检索 | 单智能体 | τ-bench, APIGen-MT | τ-bench |
| ReSum: 通过上下文摘要解锁长 horizon 搜索智能 | 2025/09/16 |
Qwen3-30B-A3B-Thinking | GRPO, SFT | 网络搜索 | 单智能体 | SailorFog-QA | BrowseComp-en/zh |
| WebWeaver: 利用动态提纲构建网络规模证据,支持开放式深度研究 | 2025/09/16 |
Qwen3-30B-A3B-Instruct | SFT | 网络搜索 | 单智能体 | WebWeaver-3k | BrowseComp-en/zh, GAIA, XBench-DeepSearch |
| WebResearcher: 在长 horizon 智能体中释放无限推理能力 | 2025/09/16 |
Qwen3-30B-A3B | RFT, RL | 网络搜索 | 多智能体 | WebFrontier | BrowseComp-en/zh, GAIA, WebWalkerQA, FRAMES, HotpotQA, MuSiQue, 2WikiMultihopQA |
| WebSailor-V2: 通过合成数据和可扩展RL弥合与专有智能体的鸿沟 | 2025/09/16 |
Qwen3-30B-A3B | SFT, RL | 网络搜索、本地检索 | 单智能体 | SailorFog-QA-V2 | BrowseComp-EN, BrowseComp-ZH, HLE |
| WebExplorer: 探索与进化以训练长 horizon 网络智能体 | 2025/09/08 |
Qwen3-8B | GRPO, SFT | 网络搜索 | 单智能体 | WebExplorer-QA | BrowseComp-en/zh, GAIA, WebWalkerQA, FRAMES, XBench-DeepSearch, HLE |
| Atom-Searcher: 通过细粒度原子级思维奖励提升智能体深度研究 | 2025/08/18 |
Qwen2.5-7B | RL(GRPO) | 网络搜索 | 单智能体 | NQ, SimpleQA, HotpotQA, 2WikiMultihopQA, MuSiQue, MultiHopRAG | Bamboogle, NQ, SimpleQA, HotpotQA, 2WikiMultihopQA, MuSiQue, MultiHopRAG |
| MMSearch-R1: 激励LMMs进行搜索 | 2025/06/25 |
Qwen2.5-VL-7B | RL(GRPO) | 网络搜索 | 单智能体 | VQA, MetaClip, FVQA, InfoSeek | FVQA-test, InfoSeek, MMSearch, SimpleVQA, LiveVQA |
| VideoDeepResearch: 具有智能体工具使用的长视频理解 | 2025/06/12 |
GPT-4o, Gemini1.5-pro, Qwen2.5-VL-72B-Instruct | 提示工程 | 本地检索 | 多智能体 | — | MLVU, Video-MME, LVBench, LongVideoBench |
| 多模态DeepResearcher: 使用智能体框架从零开始生成文本-图表交错报告 | 2025/06/03 | Claude3.7-Sonnet, GPT-4o-mini, Qwen3-235B-A22B, Qwen2.5-VL-72B-Instruct | 提示工程 | 网络搜索 | 多智能体 | — | Pew Research, Our World in Data, Open Knowledge Foundation |
| RAG-Gym: 针对检索增强生成的语言智能体的系统性优化 | 2025/05/31 |
Llama3.1-8B-Instruct, Qwen2.5-7B-Instruct, GPT-4o-mini | SFT, RL(PPO, DPO) | 本地检索 | 单智能体 | HotpotQA, MedQA | HotpotQA, 2Wiki, Bamboogle, MedQA |
| MaskSearch: 一个通用预训练框架,用于增强智能体搜索能力 | 2025/05/27 |
Llama3.1-8B, Llama3.2-3B, Llama3.2-1B, Llama3, Qwen2.5-7B, Qwen2.5-3B, Qwen2.5-1.5B, Qwen2.5 | SFT, RL(DAPO) | 本地检索 | 多智能体 | HotpotQA | HotpotQA, FanoutQA, Musique, 2WikiMultihopQA, Bamboogle, FreshQA |
| SimpleDeepSearcher: 通过网络驱动的推理轨迹合成进行深度信息获取 | 2025/05/25 |
Qwen2.5-7B-Instruct, Qwen2.5-32B-Instruct, DeepseekDistilled-Qwen2.5-32B, QwQ-32B | SFT | 网络搜索 | 单智能体 | NQ, SimpleQA, HotpotQA, 2WikiMultihopQA, MuSiQue, MultiHopRAG | Bamboogle, FRAMES, GAIA, NQ, SimpleQA, HotpotQA, 2WikiMultihopQA, MuSiQue, MultiHopRAG |
| WebAgent-R1: 通过端到端多轮强化学习训练网络智能体 | 2025/05/22 |
Qwen2.5-3B, Llama3.1-8B | SFT, RL(M-GRPO) | 网络搜索 | 单智能体 | WebArena-Lite, WebArena | WebArena-Lite, WebArena |
| R1-Searcher++: 通过强化学习激励LLM的动态知识获取 | 2025/05/22 |
Qwen2.5-7B-Instruct | SFT, RL | 本地检索 | 单智能体 | HotpotQA, 2WikiMultihopQA | HotpotQA, 2WikiMultihopQA, Musique, Bamboogle |
| 过程奖励 vs. 结果奖励:哪一种更适合智能体RAG强化学习? | 2025/05/22 |
Qwen2.5-7B-Instruct | RL(DPO) | 本地检索 | 单智能体 | PopQA, HotpotQA, 2WikiMultihopQA | PopQA, HotpotQA, 2WikiMultihopQA, Bamboogle, MuSiQue |
| s3 - 通过RL高效而有效的搜索智能体训练 | 2025/05/20 |
Qwen2.5-7B-Instruct | RL(PPO) | 本地检索 | 单智能体 | NQ, HotpotQA | NQ, TriviaQA, PopQA, HotpotQA, 2wiki, Musique, MedQA-US, MedMCQA, PubMedQA, BioASQ-Y/N, MMLU-Med |
| 揭秘并提升基于大型语言模型的搜索智能体效率 | 2025/05/17 |
Qwen2.5-14B, Qwen2.5-7B | 提示工程 | 本地检索 | 单智能体 | — | Musique, NQ, 2WikiMultihopQA, HotpotQA, Bamboogle, StrategyQA |
| 强化内外部知识协同推理,以实现高效的自适应搜索智能体 | 2025/05/12 |
Qwen2.5-3B-Instruct, Qwen2.5-7B-Instruct | RL(GRPO) | 本地检索 | 单智能体 | NQ, HotpotQA | PopQA, 2WikiMultihopQA |
| ZeroSearch: 在不进行搜索的情况下激励LLM的搜索能力 | 2025/05/07 |
Qwen2.5-3B-Base, Qwen2.5-7B-Base, Qwen2.5-7B-Instruct, Qwen2.5-3B-Instruct, Llama3.2-3B-Instruct, Llama3.2-3B-Base | RL(Reinforce, GRPO, PPO) | 网络搜索 | 单智能体 | NQ, HotpotQA | NQ, TriviaQA, PopQA, HotpotQA, 2WikiMultihopQA, Musique, Bamboogle |
| Webthinker: 用深度研究能力赋能大型推理模型 | 2025/04/30 |
GPT-o1, GPT-o3, Deepseek-R1, QwQ-32B, Qwen2.5-32B-Instruct | RL(DPO) | 网络搜索 | 单智能体 | SuperGPQA, WebWalkerQA, OpenThoughts, NaturalReasoning, NuminaMath | GPQA, GAIA, WebWalkerQA, Humanity’s Last Exam |
| 盘古超算:在Ascend NPU上突破密集型大型语言模型的极限 | 2025/04/11 |
盘古超算-135B | SFT, RL | 本地检索 | 单智能体 | — | — |
| 开放深度搜索:用开源推理智能体 democratize 搜索 | 2025/03/26 |
Llama3.1-70B, Deepseek-R1 | 提示工程 | 网络搜索 | 单智能体 | — | SimpleQA, FRAME |
| DeepResearcher: 在真实环境中通过强化学习扩展深度研究 | 2025/03/26 |
Qwen2.5-7B-Instruct | RL(GRPO) | 网络搜索 | 多智能体 | NQ, TQ, HotpotQA, 2WikiMultihopQA | MuSiQue, Bamboogle, PopQA, NQ, TQ, HotpotQA, 2WikiMultihopQA |
| ReSearch: 通过强化学习让LLM学会利用搜索引擎进行推理 | 2025/03/25 |
Qwen2.5-7B-Instruct, Qwen2.5-32B-Instruct | RL(GRPO) | 网络搜索 | 单智能体 | MuSiQue | HotpotQA, 2WikiMultihopQA, Musique, Bamboogle |
| Search-R1: 通过强化学习训练LLM进行推理并利用搜索引擎 | 2025/03/12 |
Qwen2.5-7B-Instruct, Qwen2.5-7B-Base, Qwen2.5-3B-Instruct, Qwen2.5-3B-Base | RL(PPO, GRPO) | 网络搜索 | 单智能体 | NQ, HotpotQA | NQ, TriviaQA, PopQA, HotpotQA, 2WikiMultihopQA, Musique, Bamboogle |
| 超越提纲:用异构递归规划实现语言模型的自适应长篇写作 | 2025/03/11 |
GPT-4o, Claude3.5-Sonnet | 提示工程 | 网络搜索 | 多智能体 | — | TELL ME A STORY, WildSeek |
| R1-Searcher: 通过强化学习激励LLM的搜索能力 | 2025/03/07 |
Qwen2.5-7B-Base, Llama3.1-8B-Instruct | SFT, RL(GRPO, Reinforce++) | 网络搜索、本地检索 | 单智能体 | HotpotQA, 2WikiMultihopQA | HotpotQA, 2WikiMultihopQA, Musique, Bamboogle |
| AutoAgent: 一个完全自动化且零代码的LLM智能体框架 | 2025/02/18 |
Claude3.5-Sonnet | 提示工程 | 网络搜索 | 多智能体 | — | GAIA |
| 智能体推理:使用工具对LLM进行深度研究推理 | 2025/02/07 |
无 | 提示工程 | 网络搜索 | 多智能体 | — | GPQA |
| Search-o1: 具有智能体增强功能的大型推理模型 | 2025/01/09 |
QwQ-32B-Preview | 提示工程 | 网络搜索 | 单智能体 | — | GPQA, MATH500, AMC2023, AIME2024, LiveCodeBench, NQ, TriviaQA, HotpotQA, 2WikiMultihopQA, MuSiQue, Bamboogle |
基准测试与应用
- 人类的最后一场考试 [论文] [代码]
- BrowseComp:一个简单但具有挑战性的浏览代理基准测试 [论文] [代码]
- BrowseComp-ZH:中文环境下大型语言模型的网页浏览能力基准测试 '[论文]' [代码]
- DeepResearch 基准:面向深度研究代理的综合性基准测试 [论文] [代码]
- MedBrowseComp:医学领域的深度研究与计算机使用能力基准测试 [论文] [代码]
- Mind2Web 2:以代理为评判者的代理式搜索评估 [论文] [代码]
贡献与引用
🤝 我们欢迎各位贡献者一起扩充这份全面的代理式深度研究资源合集!
📝 如何贡献
添加新的研究论文和基准测试:
- 提交一个问题,附上论文详细信息(标题、arXiv 链接、我们论文表格中的所有类别,以及如果有 GitHub 仓库的话,请提供链接)
- 或者创建一个拉取请求,将论文添加到研究论文表格或基准测试部分
添加新的开源实现和新产品:
- 提交一个问题,附上仓库的详细信息(名称、描述、发布日期、如果有 GitHub 链接请一并提供)
- 或者创建一个拉取请求,将实现添加到开源和产品部分
📖 引用
🔥🔥🔥 如果您觉得本仓库对您有所帮助,请引用我们的论文:
@article{zhang2025web,
title={从网络搜索到代理式深度研究:以推理代理激励搜索},
author={Zhang, Weizhi and Li, Yangning and Bei, Yuanchen and Luo, Junyu and Wan, Guancheng and Yang, Liangwei and Xie, Chenxuan and Yang, Yuyao and Huang, Wei-Chieh and Miao, Chunyu and others},
journal={arXiv 预印本 arXiv:2506.18959},
year={2025}
}
@article{li2025towards,
title={迈向具有深度推理能力的代理式 RAG:LLMs 中 RAG-推理系统的综述},
author={Li, Yangning and Zhang, Weizhi and Yang, Yuyao and Huang, Wei-Chieh and Wu, Yaozu and Luo, Junyu and Bei, Yuanchen and Zou, Henry Peng and Luo, Xiao and Zhao, Yusheng and others},
journal={arXiv 预印本 arXiv:2507.09477},
year={2025}
}
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器