autoresearch

GitHub
3.3k 250 简单 1 次阅读 今天MIT图像开发框架Agent其他
AI 解读 由 AI 自动生成,仅供参考

autoresearch 是一款能将 Claude Code 转化为“自动进化引擎”的开源技能。它灵感源自 Andrej Karpathy 的 autoresearch 项目,旨在通过自主循环迭代,帮助用户在任何可量化的领域实现持续优化。

传统开发或优化过程往往依赖人工反复试错,效率低且容易中断。autoresearch 解决了这一痛点,它确立目标与核心指标后,能自动执行“修改→验证→保留或回滚”的闭环流程。系统会基于历史结果智能选择下一步操作,每次仅做一个聚焦的改动,若验证通过则提交,若效果变差则自动撤销,确保进步层层累积而不会倒退。

这款工具特别适合开发者、数据科学家、运维工程师以及任何希望通过数据驱动方式优化代码、营销策略或业务流程的专业人士。无论是机器学习模型调优、代码重构,还是内容生成优化,只要你有明确的衡量指标,它都能发挥作用。

其独特亮点在于将复杂的自动化探索简化为机械式的可靠循环:利用 Git 作为记忆库记录每一次尝试,支持自动回滚错误操作,并能全天候无人值守运行。你只需设定好目标和评分标准,剩下的交给 autoresearch 日夜不停地迭代,醒来即可收获优化成果。它证明了无需通用人工智能(AGI),仅需明确的目标、指标和不知疲倦的循环,就能产生复利般的增益效果。

使用场景

某电商初创团队的后端工程师需要在周五下班前,将订单推荐算法的响应延迟从 200ms 优化至 100ms 以内,同时确保单元测试通过率保持 100%。

没有 autoresearch 时

  • 工程师只能凭经验手动修改代码,每次调整后需人工运行测试,耗时且容易遗漏边界情况。
  • 遇到性能回退时,往往需要翻阅大量 Git 记录才能定位是哪次提交导致了问题,排查效率极低。
  • 由于精力有限,一天仅能尝试 3-5 种优化方案,难以覆盖更多潜在的最优解空间。
  • 深夜疲劳作战容易导致判断失误,可能误将带有隐蔽 Bug 的代码合并到主分支。
  • 缺乏系统性的实验记录,无法量化对比不同优化策略的实际收益,决策依赖直觉。

使用 autoresearch 后

  • 设定“延迟低于 100ms"为目标和自动化测试为指标后,autoresearch 自动执行“修改 - 验证 - 保留/回滚”循环,无需人工干预。
  • 一旦某次修改导致测试失败或性能下降,工具立即自动 Git 回滚并记录原因,确保持续集成环境始终稳定。
  • 整夜可自主完成上百次迭代实验,快速遍历各种参数组合与重构方案,挖掘出人类难以想到的优化路径。
  • 所有实验结果自动生成 TSV 日志,清晰展示每次尝试的得失,让团队次日直接基于数据决策而非猜测。
  • 工程师只需定义初始范围和约束,即可安心休息,醒来时直接获得经过充分验证的最优代码版本。

核心价值在于将繁琐的试错过程转化为无人值守的自动化增益引擎,让开发者从重复劳动中解放出来专注于架构设计。

运行环境要求

操作系统
  • Linux
  • macOS
  • Windows
GPU

未说明

内存

未说明

依赖
notes该工具并非独立的 Python 脚本,而是专为 'Claude Code' CLI 工具设计的插件/技能。运行前必须安装并配置好 Claude Code 环境及有效的 Anthropic API Key。支持通过插件市场安装或手动复制文件到 .claude 目录。无特定的 GPU、内存或 Python 版本硬性要求,其运行资源取决于宿主机器运行 Claude Code 及被操作项目的需求。
python未说明
Claude Code (Anthropic)
autoresearch hero image

快速开始

Claude 自动研究

Claude Code 转化为一个不懈改进的引擎。

基于 Karpathy 的 autoresearch — 约束 + 机械指标 + 自主迭代 = 复利式增长。

Claude Code 技能 版本 许可证:MIT

基于 关注 @iuditg 支持


“设定目标 → Claude 执行循环 → 你醒来时已有成果”

你不需要 AGI。你需要的是一个目标、一个指标,以及永不停歇的循环。


工作原理 · 命令 · 快速入门 · 指南 · 常见问题


      计划              循环             调试              修复            安全            发布
 ┌──────────┐     ┌──────────┐     ┌──────────┐     ┌──────────┐     ┌──────────┐     ┌──────────┐
 │   目标   │     │  修改  │     │   查找   │     │   修复    │     │  STRIDE  │     │  阶段   │
 │  指标  │────▶│  验证  │────▶│   缺陷   │────▶│  错误  │────▶│  OWASP   │────▶│  部署  │
 │  范围   │     │  保留/   │     └──────────┘     └──────────┘     │  团队    │     └──────────┘
/autoresearch:    └──────────┘    /autoresearch:    /autoresearch:   └──────────┘    /autoresearch:
  计划            /autoresearch     调试              修复          /autoresearch:      发布
                                                                     安全

                  ┌──────────┐     ┌──────────┐     ┌──────────┐     ┌──────────┐
                  │ 场景   │     │ 预测  │     │  学习   │     │  推理  │
                  │   边缘   │     │ 5位专家 │     │   文档   │     │  辩论  │
                  │   案例  │     │  群体   │     │   生成   │     │ 收敛  │
                  └──────────┘     └──────────┘     └──────────┘     └──────────┘
                 /autoresearch:   /autoresearch:   /autoresearch:   /autoresearch:
                   场景         预测           学习           推理

为何存在

Karpathy 的 autoresearch 证明,仅用一段 630 行的 Python 脚本,就能在遵循简单原则的情况下——单一指标、受限范围、快速验证、自动回滚、以 Git 作为记忆——实现机器学习模型的自主优化,每晚完成 100 次实验

Claude Autoresearch 将这些原则推广到任何领域。 不仅限于机器学习——代码、内容、营销、销售、人力资源、DevOps,或任何可量化的事物。


工作原理

循环(无限次或 N 次):
  1. 回顾当前状态 + Git 历史 + 结果日志
  2. 根据成功、失败和未尝试过的方案,选择下一次改动
  3. 进行一次专注的改动
  4. 在验证前提交 Git 提交
  5. 执行机械验证(测试、基准测试、评分)
  6. 若有改进 → 保留;若变差 → Git 回滚;若崩溃 → 修复或跳过。
  7. 记录结果
  8. 重复。除非你中断,否则永不结束(或直到完成 N 次迭代)。

每一次改进都会叠加。每次失败都会自动回滚。进展会以 TSV 格式记录。

设置阶段

在进入循环之前,Claude 会进行一次性设置:

  1. 读取上下文 — 读取所有相关文件
  2. 定义目标 — 提取或询问一个可量化的指标
  3. 定义范围 — 哪些文件可以修改,哪些只读
  4. 建立基线 — 对当前状态进行验证(第 0 次迭代)
  5. 确认并开始 — 展示设置后,开始循环

8 条关键规则

序号 规则
1 循环直至完成 — 无限制:永远持续。有限制:N 次后总结
2 先读后写 — 在修改之前充分理解上下文
3 每次迭代一次改动 — 原子级变更。若出错,便知原因
4 仅进行机械验证 — 不依赖主观“看起来不错”。使用指标
5 自动回滚 — 失败的更改会立即回滚
6 越简单越好 — 在效果相同的情况下,代码越少越保留
7 Git 是记忆 — 实验以 experiment: 为前缀提交,git revert 会将失败的实验保留在历史中,代理在每次迭代前必须阅读 git loggit diff
8 卡住时,再深入思考 — 重新阅读、结合接近成功的尝试、尝试激进的改变

命令

命令 功能
/autoresearch 运行自主迭代循环(无限次)
Iterations: N 添加到内联配置,运行恰好 N 次迭代后停止
/autoresearch:plan 交互式向导:目标 → 范围、指标、验证配置
/autoresearch:security 自主 STRIDE + OWASP + 红队安全审计
/autoresearch:ship 通用发布流程(代码、内容、营销、销售、研究、设计)
/autoresearch:debug 自主漏洞挖掘循环 — 科学方法 + 迭代式调查
/autoresearch:fix 自主修复循环 — 迭代修复错误,直至全部解决
/autoresearch:scenario 场景驱动的用例生成器 — 探索各种情况、边缘案例及衍生场景
/autoresearch:predict 多角色预测
/autoresearch:learn 自主文档生成引擎 — 搜集代码库信息,生成/更新文档,验证并修复
/autoresearch:reason 对抗性优化 — 通过隔离的多智能体辩论,让盲评小组对主观内容达成共识
Guard: <command> 可选的安全网 — 必须通过才能保留更改

所有命令在未提供参数时,都会使用 AskUserQuestion 进行交互式设置。 只需输入命令,Claude 会根据你的代码库,逐步询问你需要的内容,并提供智能默认值。高级用户可以直接在命令中添加标志来跳过向导。

快速决策指南

我想... 使用
提高测试覆盖率 / 减少打包体积 / 任何指标 /autoresearch(对于有限次运行,添加 Iterations: N
不知道该使用什么指标 /autoresearch:plan
运行安全审计 /autoresearch:security
发布 PR / 部署 / 版本 /autoresearch:ship
在不破坏现有测试的情况下优化 添加 Guard: npm test
搜索代码库中的所有 bug /autoresearch:debug(对于有限次运行,添加 Iterations: 20
修复所有错误(测试、类型检查、lint) /autoresearch:fix
先调试再自动修复 /autoresearch:debug --fix
检查某项内容是否已准备好发布 /autoresearch:ship --checklist-only
探索某个功能的边界情况 /autoresearch:scenario
生成测试场景 /autoresearch:scenario --domain software --format test-scenarios
对用户流程进行压力测试 /autoresearch:scenario --depth deep
在开始前想要专家意见 /autoresearch:predict
从多个角度分析 /autoresearch:predict --chain debug
为新代码库生成文档 /autoresearch:learn --mode init
更新变更后的现有文档 /autoresearch:learn --mode update
检查文档是否过时 /autoresearch:learn --mode check
讨论架构决策 /autoresearch:reason --domain software
以对抗性方式完善提案或方案 /autoresearch:reason --domain business
先达成最佳设计共识再进行验证 /autoresearch:reason --chain predict

快速入门

1. 安装

选项 A — 插件安装(推荐):

在 Claude Code 中运行:

/plugin marketplace add uditgoenka/autoresearch
/plugin install autoresearch@autoresearch

完成!重启 Claude Code 后,所有 10 条命令即可使用。

注意: 安装后请启动一个新的 Claude Code 会话。在同一会话中无法解析引用文件——这是 Claude Code 平台的限制。

更新(无需重新安装):

/plugin update autoresearch

这将拉取最新版本。运行 /reload-plugins 即可激活,无需卸载或重新克隆。

选项 B — 手动复制:

git clone https://github.com/uditgoenka/autoresearch.git

# 将技能及子命令复制到您的项目中
cp -r autoresearch/claude-plugin/skills/autoresearch .claude/skills/autoresearch
cp -r autoresearch/claude-plugin/commands/autoresearch .claude/commands/autoresearch
cp autoresearch/claude-plugin/commands/autoresearch.md .claude/commands/autoresearch.md

或者全局安装:

cp -r autoresearch/claude-plugin/skills/autoresearch ~/.claude/skills/autoresearch
cp -r autoresearch/claude-plugin/commands/autoresearch ~/.claude/commands/autoresearch
cp autoresearch/claude-plugin/commands/autoresearch.md ~/.claude/commands/autoresearch.md

注意: commands/ 目录是使子命令(如 /autoresearch:ship/autoresearch:plan/autoresearch:security)正常运行所必需的。

2. 运行它

/autoresearch
目标:将测试覆盖率从 72% 提升至 90%
范围:src/**/*.test.ts, src/**/*.ts
指标:覆盖率 %(越高越好)
验证:npm test -- --coverage | grep "All files"

3. 离开

Claude 会读取所有文件,建立基线并开始迭代——每次只做一次更改。保留改进,自动回滚失败,并记录所有操作。除非您中断,否则不会停止(或直到达到设定的迭代次数)。


/autoresearch:plan — 目标 → 配置向导

最难的部分不是循环本身,而是正确地定义范围、指标和验证步骤。/autoresearch:plan 可以将您的自然语言目标转化为经过验证、可直接执行的配置。

/autoresearch:plan
目标:让 API 响应更快

向导会引导您完成 5 个步骤:捕捉目标 → 定义范围 → 定义指标 → 定义方向 → 验证验证命令(干运行)。每个环节都有严格的要求——范围必须能解析为文件,指标必须输出一个数字,验证必须通过干运行。


/autoresearch:security — 自主安全审计

基于 STRIDE 威胁建模、OWASP Top 10 检查以及红队对抗性分析(使用 4 种敌对角色)的只读安全审计。

/autoresearch:security
迭代次数:10

它的工作方式: 代码库侦察 → 资产清单 → 信任边界 → STRIDE 威胁模型 → 攻击面地图 → 自主测试循环 → 结构化报告。

每个发现都需提供 代码证据(文件:行 + 攻击场景)。不含任何理论上的空谈。

标志 用途
--diff 仅审计自上次审计以来更改的文件
--fix 自动修复确认的严重/高危问题
--fail-on <severity> 如果出现指定级别的问题,则退出非零状态,用于 CI/CD 门控

输出: 创建 security/{日期}-{slug}/ 文件夹,包含 7 个结构化的报告文件。


/autoresearch:ship — 通用发布工作流

通过 8 个阶段发布任何内容:识别 → 清点 → 检查清单 → 准备 → 干运行 → 发布 → 验证 → 日志记录。

/autoresearch:ship --auto

它可以自动检测您要发布的对象(代码 PR、部署、博客文章、邮件营销活动、销售演示文稿、研究论文、设计资产),并生成特定领域的检查清单——每项内容均可机械验证。

标志 用途
--dry-run 验证所有内容但不实际发布
--auto 如果检查清单通过则自动批准
--force 跳过非关键项(但仍强制执行关键项)
--rollback 撤销上一次发布操作
--monitor N 发布后监控 N 分钟
--type <type> 覆盖自动检测结果
--checklist-only 仅检查准备情况

支持的类型: code-pr、code-release、deployment、content、marketing-email、marketing-campaign、sales、research、design。


/autoresearch:debug — 自主 Bug 搜寻器(v1.3.0)

科学方法与 autoresearch 循环相结合。它不会只找到一个 bug——而是通过可证伪的假设、基于证据的调查以及 7 种调查技术,迭代式地搜寻所有 bugs。

/autoresearch:debug
范围:src/api/**/*.ts
症状:API 在 POST /users 请求时返回 500 错误
迭代次数:20

工作原理: 收集症状 → 侦察(绘制错误表面) → 提出假设(具体且可测试) → 测试(每次迭代进行一项实验) → 分类(确认/证伪/不确定) → 记录 → 重复。

每个发现都需要 代码证据(文件:行 + 复现步骤)。所有被证伪的假设都会被记录下来——同样具有价值。它使用 7 种技术:二分查找、差异调试、最小化复现、跟踪执行、模式搜索、逆向推理、橡皮鸭法。

标志 用途
--fix 搜寻完成后自动切换到 /autoresearch:fix
--scope <glob> 限制调查范围
--symptom "<text>" 预先填写症状
--severity <level> 最低报告级别

/autoresearch:fix — 自主错误修复器(v1.3.0)

接收一个存在错误的状态,并通过迭代逐步修复,直到所有问题都解决。每次迭代仅修复一处。操作具有原子性、提交后会验证,若失败则自动回滚。

/autoresearch:fix

工作原理: 自动检测哪些部分存在问题(测试、类型检查、代码风格检查、构建)→ 按优先级排序(阻塞问题优先)→ 修复其中一处 → 提交 → 验证错误数量是否减少 → 安全检查(确保无回归)→ 继续或回滚 → 重复此过程,直至错误数为零。

当错误数降为零时自动停止 — 即使在无界模式下也是如此。

标志 用途
--target <command> 显式验证命令
--guard <command> 必须始终通过的安全检查命令
--category <type> 仅修复特定类型的错误(测试、类型检查、代码风格检查、构建)
--from-debug 从最近的调试会话中读取发现的问题

串联使用: 先运行 /autoresearch:debug 并设置 Iterations: 15,再运行 /autoresearch:fix --from-debug 并设置 Iterations: 30


/autoresearch:learn — 自主文档生成引擎

扫描代码库 → 生成文档 → 验证 → 修复 → 重复。提供四种模式:init(从零开始创建)、update(更新现有文档)、check(只读健康报告)、summarize(快速概览)。

/autoresearch:learn --mode init --depth deep

动态发现文档(扫描 docs/*.md 文件),自动检测项目类型,进行验证-修复循环(最多重试三次),根据规模调整扫描范围,利用 git-diff 确定更新范围,支持通过 --file 选择性更新单个文档。自动生成 Mermaid 架构图、条件化文档(API 参考、测试指南、配置指南、变更日志)、文档间的交叉引用链接以及依赖关系文档。支持 --format 参数以输出其他格式。


/autoresearch:predict — 多角色预测(v1.7.0)

在调试、修复或发布之前——两分钟内获取五位专家的观点。

/autoresearch:predict 模拟一支由架构师、安全分析师、性能工程师、可靠性工程师和“魔鬼代言人”组成的专家团队,他们独立分析你的代码,讨论发现并达成共识。其输出可直接串联到其他任何命令:

  • /autoresearch:predict --chain debug — 在调试前对假设进行预排名
  • /autoresearch:predict --chain security — 多角色红队分析
  • /autoresearch:predict --chain scenario,debug,fix — 完整的质量流程

/autoresearch:reason — 对抗式优化(v1.9.0)

将 autoresearch 扩展至主观领域,即不存在客观度量标准的场景。盲评小组本身就是适应度函数——它用于评估架构决策、产品战略、内容质量和设计讨论等。

/autoresearch:reason
任务:我们的订单管理系统是否应采用事件溯源?
领域:软件
迭代次数:8

工作原理: 生成 A → 批评者提出攻击性观点(稻草人论证)→ 作者 B 回应 → 合成器整合 → 盲评小组(随机打标签)选出胜者 → 胜者成为新的 A → 重复此过程,直至收敛。

关键不变性: 每个参与者都是全新启动的独立调用——无共享会话,无历史信息泄露。评委永远不会看到 A/B/AB 的标签,只会看到 X/Y/Z。

标志 用途
--iterations N 有界模式——精确执行 N 轮
--judges N 评委人数(3–7 人,建议奇数)
--convergence N 连续获胜达到收敛的次数(默认:3)
--mode <mode> 收敛模式(默认)、创意模式、辩论模式
--domain <type> 软件、产品、业务、安全、研究、内容等领域
--chain <targets> 将收敛后的结果串联到任何 autoresearch 命令

串联模式: reason → predict(先收敛再压力测试)、reason → plan,fix(先收敛再实施)、reason → scenario(先收敛再探索边界情况)。

输出: 创建 reason/{date}-{slug}/ 目录,包含 lineage.md、candidates.md、judge-transcripts.md、reason-results.tsv 和 handoff.json。


/autoresearch:scenario — 场景探索器(v1.6.0)

自主场景探索引擎。以一个初始场景为起点,按 12 个维度迭代生成各种情境——正常路径、错误场景、边界情况、滥用、规模、并发、时间相关、数据变化、权限、集成、恢复以及状态转换。

/autoresearch:scenario
场景:用户尝试使用多种支付方式结账
迭代次数:25

工作原理: 分析初始场景 → 分解为 12 个维度 → 每次迭代生成一种情境 → 分类(新情境/变体/重复)→ 拓展边界情况 → 记录 → 重复此过程,直至所有维度都被探索完毕。

自适应设置:根据你提供的上下文信息,系统会提出 4–8 个问题。只需输入 /autoresearch:scenario,无需其他参数,系统便会引导你完成整个流程。

标志 用途
--domain <type> 领域:软件、产品、业务、安全、营销
--depth <level> 深度:浅层(10)、标准(25)、深层(50+)
--format <type> 输出格式:用例、用户故事、测试场景、威胁场景
--focus <area> 优先处理:边界情况、失败场景、安全问题、规模相关问题
--scope <glob> 限制于特定文件或功能

支持 5 种领域,并针对不同领域定制维度优先级和输出格式。可与 /autoresearch:debug 串联,以在发现的边界情况下查找 bug;或与 /autoresearch:security 串联,以审计发现的威胁场景。


Guard — 防止回归(v1.0.4)

在优化某个指标时,循环可能会破坏现有行为。Guard 是一个可选的安全保障机制。

/autoresearch
目标:将 API 响应时间降至 100ms 以下
验证:npm run bench:api | grep "p95"
Guard:npm test
  • Verify = “指标是否改善了?”(目标)
  • Guard = “是否有其他部分被破坏了?”(安全保障)

如果指标改善但安全检查未通过,Claude 会重新调整优化方案(最多尝试两次)。安全检查或测试文件绝不会被修改。

鸣谢: Guard 由 @pronskiy(JetBrains)在 PR #7 中贡献。


结果跟踪

每一轮迭代都会以 TSV 格式记录:

iteration  commit   metric  delta   status    description
0          a1b2c3d  85.2    0.0     baseline  初始状态
1          b2c3d4e  87.1    +1.9    keep      添加认证边界情况的测试
2          -        86.5    -0.6    discard   重构测试辅助工具(导致 2 个测试失败)
3          c3d4e5f  88.3    +1.2    keep      添加错误处理测试

每 10 次迭代,Claude 会打印一次进度摘要。有界循环会在最后打印一份包含基线与当前最佳结果的总结。


故障恢复

故障 应对措施
语法错误 立即修复,不计入迭代次数
运行时错误 尝试修复(最多 3 次),然后继续
资源耗尽 回滚,尝试较小的变体
无限循环/卡死 超时后终止进程,回滚
外部依赖问题 跳过,记录日志,尝试其他方法

仓库结构

autoresearch/
├── README.md
├── COMPARISON.md                                  ← Karpathy 的 Autoresearch 与 Claude Autoresearch 的对比
├── guide/                                         ← 综合指南 — 每个命令对应一篇,另加高级模式
│   ├── README.md                                  ← 指南索引
│   ├── getting-started.md                         ← 安装、核心概念、常见问题解答
│   ├── autoresearch.md                            ← 自主循环
│   ├── autoresearch-plan.md                       ← 设置向导
│   ├── autoresearch-debug.md                      ← 捕捉错误
│   ├── autoresearch-fix.md                        ← 修复错误
│   ├── autoresearch-security.md                   ← 安全审计员
│   ├── autoresearch-ship.md                       ← 发布工作流
│   ├── autoresearch-scenario.md                   ← 场景探索者
│   ├── autoresearch-predict.md                    ← 多角色群体预测
│   ├── autoresearch-learn.md                      ← 文档生成引擎
│   ├── autoresearch-reason.md                     ← 对抗性优化
│   ├── chains-and-combinations.md                 ← 多命令流水线
│   ├── examples-by-domain.md                      ← 按领域划分的真实场景示例
│   ├── advanced-patterns.md                       ← 防护机制、MCP、CI/CD、常见问题解答
│   └── scenario/                                  ← 10 个真实场景操作指南
│       ├── README.md                              ← 场景指南索引
│       ├── real-time-chat-messaging.md
│       ├── multi-tenant-saas-onboarding.md
│       ├── cicd-pipeline-deployment.md
│       ├── healthcare-appointment-scheduling.md
│       ├── social-media-content-moderation.md
│       ├── iot-firmware-updates.md
│       ├── document-collaboration.md
│       ├── cross-border-wire-transfers.md
│       ├── search-autocomplete.md
│       ├── mobile-push-notifications.md
│       └── adversarial-architecture-decisions.md
├── LICENSE
├── .claude-plugin/
│   └── marketplace.json                           ← 插件市场清单(来源:./claude-plugin)
├── claude-plugin/                                 ← 分发包(用户安装的内容)
│   ├── .claude-plugin/
│   │   └── plugin.json                            ← 插件元数据 + 版本
│   ├── commands/
│   │   ├── autoresearch.md                        ← 主命令 /autoresearch
│   │   └── autoresearch/
│   │       ├── ship.md                            ← /autoresearch:ship 注册
│   │       ├── plan.md                            ← /autoresearch:plan 注册
│   │       ├── security.md                        ← /autoresearch:security 注册
│   │       ├── debug.md                           ← /autoresearch:debug 注册
│   │       ├── fix.md                             ← /autoresearch:fix 注册
│   │       ├── scenario.md                        ← /autoresearch:scenario 注册
│   │       ├── predict.md                         ← /autoresearch:predict 注册
│   │       ├── learn.md                           ← /autoresearch:learn 注册
│   │       └── reason.md                          ← /autoresearch:reason 注册
│   └── skills/
│       └── autoresearch/
│           ├── SKILL.md                           ← 主技能(由 Claude Code 加载)
│           └── references/
│               ├── autonomous-loop-protocol.md    ← 8 阶段循环协议
│               ├── core-principles.md             ← 7 条通用原则
│               ├── plan-workflow.md               ← 计划向导协议
│               ├── security-workflow.md           ← 安全审计协议
│               ├── ship-workflow.md               ← 发布工作流协议
│               ├── debug-workflow.md              ← 调试循环协议
│               ├── fix-workflow.md                ← 修复循环协议
│               ├── scenario-workflow.md           ← 场景探索协议
│               ├── predict-workflow.md            ← 多角色群体预测协议
│               ├── learn-workflow.md              ← 文档生成引擎协议
│               ├── reason-workflow.md             ← 对抗性优化协议
│               └── results-logging.md             ← TSV 格式跟踪记录

常见问题解答

问:我不知道该使用什么指标。 答:运行 /autoresearch:plan — 它会分析你的代码库,建议合适的指标,并在你正式开始之前先进行一次验证命令的试运行。

问:这个工具适用于任何项目吗? 答:是的。无论语言、框架或领域,都可以使用。你可以通过 /plugin marketplace add uditgoenka/autoresearch 进行安装,或者手动从 claude-plugin/ 目录中复制。

问:如何停止循环? 答:按 Ctrl+C 即可停止,或者在内联配置中添加 Iterations: N 来指定只运行 N 次迭代。Claude 会在验证之前提交更改,因此你的最后一次成功状态始终会保存在 Git 中。

问:我可以用它处理非代码任务吗? 答:当然可以。销售邮件、营销文案、人力资源政策、操作手册等,只要能设定可衡量的指标即可。更多信息请参阅 按领域划分的示例

问:/autoresearch:security 会修改我的代码吗? 答:不会。它是只读模式——仅分析代码并生成结构化报告。如果需要自动修复已确认的严重或高危问题,可以使用 --fix 参数。

问:我可以使用 MCP 服务器吗? 答:可以。任何在 Claude Code 中配置的 MCP 服务器都可以在循环过程中用于数据库查询、API 调用、数据分析等。详情请参阅 高级模式

问:/autoresearch:predict 和 /autoresearch:reason 有什么区别? 答:Predict 是一次性分析——5 位专家会针对你现有的代码展开讨论。而 Reason 则是一个迭代优化的循环过程——系统会生成多个候选方案,经过评审、整合和盲评等多个轮次,直到结果趋于一致。建议在需要行动前使用 Predict 进行分析;而在缺乏客观指标的情况下做决策时,则应使用 Reason。


参与贡献

欢迎贡献!详情请参阅 CONTRIBUTING.md

感兴趣的领域:新的领域示例、验证脚本模板、CI/CD 集成、实际基准测试。所有指南都位于 guide/ 文件夹中。


星标历史

星标历史图表

许可证

MIT — 详见 LICENSE


致谢


关于作者

Udit Goenka

Udit Goenka — AI 产品专家、创始人兼天使投资人

一位自学成才的创业者,从印度那里的慢速网络起步,最终创立了多家公司,并帮助超过700家初创企业累计创造了逾2500万美元的收入。

创建的企业: TinyCheque(印度首家代理式 AI 创业工作室)· Firstsales.io(销售自动化平台)

投资方面: 已支持38家初创企业,其中6家成功退出。专注于早期阶段的AI和SaaS领域。

联系方式: udit.co · @iuditg · @uditgoenka · 博客

“当您限制任务范围、明确成功标准、实现验证流程的自动化,并让智能体负责优化执行策略、而人类专注于战略规划时,自主性才能真正规模化。”

版本历史

v1.9.02026/03/31
v1.8.22026/03/21
v1.8.12026/03/21
v1.8.02026/03/20
v1.7.62026/03/20
v1.7.52026/03/19
v1.7.42026/03/19
v1.7.32026/03/18
v1.7.22026/03/18
v1.7.12026/03/18
v1.7.02026/03/18
v1.6.22026/03/17
v1.6.12026/03/17
v1.6.02026/03/17
v1.5.02026/03/17
v1.4.02026/03/17
v1.3.32026/03/16
v1.3.22026/03/16
v1.3.12026/03/16
v1.3.02026/03/16

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|今天
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|昨天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

141.5k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.9k|★★☆☆☆|今天
开发框架图像Agent

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|今天
语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。

88.9k|★★★☆☆|今天
开发框架图像Agent