academic-research-skills
academic-research-skills 是一套专为 Claude Code 设计的学术科研辅助技能包,覆盖从文献调研、初稿撰写、逻辑审查到最终定稿的全流程。它并非旨在替代研究者自动完成论文,而是作为智能副驾,承担查找参考文献、格式化引用、验证数据一致性等繁琐工作,让使用者能专注于核心思考,如定义研究问题、选择方法论及阐述核心观点。
该工具主要解决了完全自动化 AI 科研中常见的幻觉、方法捏造及逻辑漏洞等痛点,坚持“人在回路”的理念,确保学术严谨性。它特别适合高校研究人员、研究生及需要撰写高质量学术论文的学者使用。
其技术亮点包括:由 13 个智能体组成的深度调研团队,支持苏格拉底式引导与 PRISMA 系统综述;独特的“风格校准”功能可学习用户过往文风,避免机器生成感;内置多重完整性检查门控,能有效识别并阻断 AI 常见的研究失败模式;同时集成 Semantic Scholar API 进行引文核实,并利用多模型交叉验证提升结果可靠性。通过人机协作,academic-research-skills 致力于提升学术写作的质量与效率,而非单纯追求自动化速度。
使用场景
博士生李明正在准备一篇关于“大语言模型在医疗诊断中偏差”的综述论文,面临从海量文献筛选到最终定稿的巨大压力。
没有 academic-research-skills 时
- 文献大海捞针:手动在多个数据库检索并筛选上百篇文献,耗时数天且容易遗漏关键研究,难以严格执行 PRISMA 系统 review 标准。
- 引用格式混乱:不同来源的参考文献格式不一,手动调整 BibTeX 或 EndNote 条目极易出错,导致反复返工修改。
- 逻辑与事实风险:高强度写作下容易出现论证逻辑断层,甚至因疲劳而无意中引入“幻觉”数据或错误的因果推断。
- 风格割裂感:若借助普通 AI 润色,文章常带有明显的机器生成痕迹,缺乏个人学术声音,难以通过审稿人的"AI 检测”直觉。
使用 academic-research-skills 后
- 自动化深度调研:调用内置的 13 智能体团队自动执行 Socratic 引导式检索与意图识别,快速完成符合 PRISMA 标准的文献筛选与交叉验证。
- 零误差引文管理:工具自动追踪并格式化所有引用,结合 Semantic Scholar API 实时核验元数据,确保参考文献准确无误。
- 多重完整性门禁:在写作流程的关键节点(如 Stage 2.5 和 4.5)自动运行 7 模式检查清单,拦截逻辑不一致、方法论捏造及引用幻觉等常见错误。
- 个性化风格校准:通过"Style Calibration"功能学习李明过往论文的写作语调,在提升表达质量的同时保留其独特的学术声音,避免机器味。
academic-research-skills 将研究者从繁琐的机械劳动中解放出来,让人类专家专注于核心观点的构建与深度解读,真正实现"AI 为副驾驶,人类为主驾”的高效科研协作。
运行环境要求
- 未说明
不需要本地 GPU
未说明

快速开始
针对 Claude Code 的学术研究技能
一套全面的 Claude Code 学术研究技能,覆盖从研究到发表的完整流程。
AI 是你的副驾驶,而不是主驾驶。 这个工具不会替你写论文。它会处理那些繁琐的工作——查找参考文献、格式化引用、验证数据、检查逻辑一致性——这样你就可以专注于真正需要动脑的部分:明确研究问题、选择研究方法、解读数据含义,以及写出“我认为……”之后的那一句。
与那些试图掩盖你使用了 AI 的工具不同,这个工具帮助你写出更好的文章。风格校准功能会根据你过去的作品学习你的写作风格;写作质量检查则能捕捉那些让文字显得机械化重复的模式。我们的目标是提升论文质量,而不是作弊。
为什么采用人机协作而非完全自动化?
Lu 等人(2026,《自然》第 651 期:914–919)构建了 AI 科学家——首个通过盲审在顶级机器学习会议(ICLR 2025 工作坊,评分 6.33/10,而工坊平均分为 4.87)上发表论文的完全自主 AI 研究系统。他们在局限性部分列举了任何完全自主的 AI 研究流程都会面临的失败模式:实现中的错误、幻觉式的结果、依赖捷径、将 bug 重新包装成洞见、捏造方法论、思维定势、引用幻觉等。
ARS 的设计基于这样一个前提:由 AI 增强的人类研究人员比单独依靠 AI 或单独依靠人类更能避免这些失败模式。在第 2.5 阶段和第 4.5 阶段设置了完整性检查点,运行一个包含 7 种故障模式的阻断清单(详见 academic-pipeline/references/ai_research_failure_modes.md);评审者还提供了一个可选的校准模式,可以根据用户提供的黄金标准集来衡量其假阴性率和假阳性率。
v3.3 的灵感来源于 PaperOrchestra(Song、Song、Pfister 和 Yoon,2026,Google):包括 Semantic Scholar API 验证、防泄漏协议、VLM 图表验证以及分数轨迹追踪等功能。
架构与流程
👉 docs/ARCHITECTURE.md — 完整的流程视图:流程图、各阶段矩阵、数据访问流程、技能依赖图、质量检查点以及模式列表。
该架构文档取代了此前此处冗长的流程描述。关于 哪些技能在哪个阶段运行 的所有信息现在都集中在一个地方。
设置与安装
👉 docs/SETUP.md — 安装 Claude Code、设置 API 密钥、可选的 Pandoc/tectonic 用于 DOCX/PDF 转换、跨模型验证(ARS_CROSS_MODEL),以及四种安装方式,包括从 claude.ai 导入项目。
性能与成本
👉 docs/PERFORMANCE.md — 各模式的 token 预算、全流程估算(一篇 1.5 万字的论文大约需花费 4–6 美元),以及推荐的 Claude Code 设置(跳过权限检查;代理团队为可选项)。
指南与文章
- 学术写作不应该是单打独斗 — 全流程讲解(英文)
- 學術寫作不該是一個人的事:一套開源 AI 協作工具如何改變研究者的工作流 — 完整使用指南(繁體中文)
功能概览
- 深度研究 — 13 个代理组成的科研团队,配备苏格拉底式引导模式、PRISMA 系统综述、意图检测、对话健康监测、可选的跨模型 DA、Semantic Scholar API 验证。
- 学术论文撰写 — 12 个代理协同完成论文写作,具备风格校准、写作质量检查、LaTeX 加固、可视化、修改指导、引用转换、防泄漏协议以及 VLM 图表验证等功能。
- 学术论文评审 — 7 个代理组成的多视角同行评审,采用 0–100 分的质量评分标准(主编 + 3 名动态评审员 + 反方意见者),设有让步阈值协议、攻击强度保持机制、可选的跨模型 DA 评论/校准、R&R 追溯矩阵以及只读约束。
- 学术流程编排器 — 10 阶段的流程编排系统,具备适应性检查点、主张验证、材料护照、可选的
repro_lock、可选的跨模型完整性验证、对话中强化机制以及分数轨迹追踪功能。 - 数据访问级别元数据(v3.3.2+)— 每项技能都会声明
data_access_level(raw/redacted/verified_only);由scripts/check_data_access_level.py强制执行。这一模式借鉴自 Anthropic 的自动化 w2s 研究者(2026)。详情请参阅shared/ground_truth_isolation_pattern.md。 - 任务类型标注(v3.3.2+)— 每项技能都会声明
task_type(开放式或可评分型)。目前 ARS 中的所有技能均为开放式。 - 基准报告模式(v3.3.5+)— JSON Schema + lint,用于进行诚实的基准比较。详情请参阅
shared/benchmark_report_pattern.md。 - 成果可复现锁文件(v3.3.5+)— 材料护照上可选的
repro_lock子模块。配置文档,而非重现保证 — LLM 的输出无法实现逐字节的复现。详情请参阅shared/artifact_reproducibility_pattern.md。
展示:真实流程输出
查看一次真实的10个阶段流程运行所产生的完整成果——同行评审报告、完整性验证报告以及最终论文:
| 成果 | 描述 |
|---|---|
| 最终论文(英文) | APA 7.0 格式,由 LaTeX 编译生成 |
| 最终论文(中文) | 中文版,APA 7.0 格式 |
| 完整性报告 — 审前 | 阶段 2.5:检测出 15 条伪造引用 + 3 处统计错误 |
| 完整性报告 — 最终 | 阶段 4.5:确认无任何抄袭行为 |
| 第一轮同行评审 | 主编 + 3 位审稿人 + 反方辩手 |
| 复审 | 修改后的验证性审查 |
| 第二轮同行评审 | 后续跟进评审 |
| 对审稿人的回复 | 作者逐条回应 |
| 出版后审计报告 | 独立的全参考文献审计:发现 3 轮完整性检查遗漏了 21 处问题 |
伴侣工具:实验代理
如果你的研究需要在写作之前进行实验(无论是代码实验还是人类研究),那么 实验代理 技能可以填补 ARS 流程第 1 阶段(研究)与第 2 阶段(写作)之间的空白。
ARS 第 1 阶段 研究 → 研究问题简报 + 方法论蓝图
↓
实验代理 → 执行/管理实验 → 验证结果
↓
ARS 第 2 阶段 写作 → 携验证过的实验结果撰写论文
功能说明:实时监控并执行代码实验(Python、R 等);使用 IRB 伦理检查清单管理人类研究方案;通过 11 种谬误检测来解读统计数据;并验证实验的可重复性。
使用方法:在 ARS 流程的第 1 阶段结束后暂停,开启一个独立的实验代理会话来运行实验,随后将实验结果(连同材料护照)带回 ARS 的第 2 阶段。ARS 无需任何修改。请参阅 实验代理的 README 获取设置说明。
使用方法
快速入门
# 启动完整研究流程
你: “我想写一篇关于人工智能对高等教育质量保障影响的研究论文”
# 从苏格拉底式引导开始
你: “指导我研究人工智能在教育评估中的应用”
# 在引导下撰写论文
你: “指导我完成一篇关于人口减少问题的论文”
# 审阅现有论文
你: “审阅这篇论文”(随后提供论文)
# 查询流程状态
你: “状态”
单项技能
深度研究(7 种模式)
“研究人工智能对高等教育的影响” → 全模式
“给我一个关于 X 的快速简报” → 快速模式
“用 PRISMA 做 X 的系统综述” → 系统综述模式
“指导我研究 X” → 苏格拉底模式(引导式)
“核实这些说法的真实性” → 事实核查模式
“做 X 的文献综述” → 文献综述模式
“评估这篇论文的研究质量” → 评审模式
学术论文写作(10 种模式)
“写一篇关于 X 的论文” → 全模式
“指导我完成论文写作” → 计划模式(引导式)
“构建论文提纲” → 提纲模式
“我已有草稿,这是审稿人的意见” → 修改模式
“将这些审稿意见整理成改进路线图” → 修改辅导模式
“为这篇论文撰写摘要” → 摘要模式
“将其改写成文献综述论文” → 文献综述模式
“转换为 LaTeX 格式” / “将引文转为 IEEE 格式” → 格式转换模式
“检查引文” → 引文检查模式
“为 NeurIPS 会议生成 AI 信息披露声明” → 信息披露模式
学术论文审稿人(6 种模式)
“审阅这篇论文” → 全模式(主编 + R1/R2/R3 + 反方辩手)
“快速评估这篇论文” → 快速模式
“指导我改进这篇论文” → 引导模式
“检查方法学部分” → 方法学重点模式
“验证修改内容” → 复审模式
“根据我的黄金标准校准这位审稿人” → 校准模式
学术论文流程(协调器)
“我想完成一篇完整的学术论文” → 从第 1 阶段开始的全流程
“我已经有一篇论文,帮我审阅一下” → 从中途第 2.5 阶段进入(先进行完整性检查)
“我收到了审稿人的意见” → 从中途第 4 阶段进入
流程最后会进入 第 6 阶段:过程总结 — 自动生成一份包含 6 维协作质量评估(1–100 分制评分)的论文创作过程记录。
支持的语言
- 繁体中文 — 当用户以中文书写时默认使用
- 英语 — 当用户以英语书写时默认使用
- 学术论文支持中英双语摘要
使用其他语言? 苏格拉底模式(深度研究)和计划模式(学术论文)采用 基于意图的激活机制 —— 它们会识别你的请求含义,而非特定关键词。这意味着它们可以在 任何语言 下正常工作,无需修改。
然而,用于决定是否触发技能的一般
触发关键词部分仍然列出了英语和繁体中文关键词。如果你发现技能在你的语言中无法可靠触发,可以将你所在语言的关键词添加到每个SKILL.md文件中的### 触发关键词部分,以提高匹配的置信度。
支持的引用格式
- APA 7.0(默认,包括中文引用规则)
- 芝加哥格式(注释与作者-日期)
- MLA
- IEEE
- 温哥华格式
支持的论文结构
- IMRaD(实证研究)
- 主题式文献综述
- 理论分析
- 案例研究
- 政策简报
- 会议论文
技能详情
各代理的职责及各阶段的成果现存放于 docs/ARCHITECTURE.md。版本号也在此处固定,以便发布元数据集中管理。
深度研究(v2.8)
由 13 名研究人员组成的团队。模式包括:全模式、快速模式、评审模式、文献综述模式、事实核查模式、苏格拉底模式、系统综述模式。完整的代理名单及成果,请参阅 ARCHITECTURE.md 第 3 节。
学术论文写作(v3.0)
由12个智能体组成的论文写作流水线。模式包括:完整模式、计划模式、仅提纲模式、修订模式、修订指导模式、仅摘要模式、文献综述模式、格式转换模式、引用检查模式、披露模式。输出格式:MD + DOCX(在可用时通过Pandoc转换)+ LaTeX(APA 7.0 apa7 类 / IEEE / 芝加哥风格)→ 通过Tectonic生成PDF。完整智能体名单及各阶段职责:参见ARCHITECTURE.md 第3节。
学术论文评审(v1.8)
由7个智能体组成的多视角评审,采用0-100分质量评分标准。模式包括:完整模式、复审模式、快速模式、方法论聚焦模式、引导模式、校准模式。决策映射:≥80分接受,65-79分小修,50-64分大修,<50分拒绝。初轮评审团队与狭义复审团队的界限:参见ARCHITECTURE.md 第3节第3阶段/3'阶段。
学术流程(v3.2)
10个阶段的协调器,具备完整性验证、两阶段评审、苏格拉底式辅导和协作评估功能。流程保障:每个阶段均设有用户确认检查点;完整性验证阶段(第2.5和4.5阶段)不可跳过;R&R可追溯矩阵(方案11)独立验证作者的修订声明。各阶段的智能体、产出物及关卡矩阵:参见ARCHITECTURE.md 第3节。
v3.0优化:我们对AI结构性局限的发现
发生了什么
在使用ARS撰写关于高等教育中AI的反思文章时,我遇到了三个无论怎样进行提示工程都无法解决的结构性问题:
框架锁定:我要求AI就其自身论点展开“反方辩论”。它确实进行了——四轮辩论,每一轮都比上一轮更加精细。然而,每一回合始终局限于我设定的框架内。反方只攻击论点,从未质疑前提。它从未提出“我们讨论的问题是否正确?”这一根本性问题。这与v2.7压力测试中31%引用错误率出现的原因如出一辙:验证AI和生成AI共享同一认知框架。
面对反驳时的阿谀奉承:每当我对反方的论点提出质疑时,它总是过于迅速地让步。它的撤回速度远远快于提出新观点的速度。模型训练过程中更倾向于对话中的和谐氛围——因此,“用户提出了反对意见”往往被解读为该论点本身存在问题,而实际上这只是表明用户坚持己见而已。
意图误判:苏格拉底导师在我仍在深入探讨时,不断试图收敛并产出成果(“需要我帮你总结一下吗?”)。它无法区分“用户希望进行深刻的哲学讨论”与“用户想要一个简短的研究问题陈述”。这两种情况在外表上都很相似,但所需的AI行为却截然相反。
我们做了哪些改变(v3.0)
反方辩论——让步阈值协议(deep-research + academic-paper-reviewer)
- 反方现在必须在回应之前,先对每一次反驳打1-5分
- 只有当反驳直接针对核心论点且有证据支持时(得分≥4),才允许让步
- 得分≤3:坚持原有立场并重申最初的论点
- 反阿谀奉承规则:禁止连续让步,追踪让步频率,并在每次检查点后检测框架锁定现象。
苏格拉底导师——意图识别层(deep-research)
- 在对话开始时以及每三轮之后,将用户的意图分类为探索型或目标导向型
- 探索模式:禁用自动收敛功能,将最大轮数提高至60轮,禁止发出“需要我帮你总结一下吗?”的提示
- 目标导向模式:采用标准的收敛行为
- 防止过早结束规则:在探索模式下,由用户决定何时停止。
苏格拉底导师——对话健康指标(deep-research)
- 每隔5轮进行一次自我评估,从三个方面考察:持续一致、回避冲突、过早收敛
- 当检测到一致性模式时,会自动插入具有挑战性的提问
- 对用户不可见(以防止被操纵),但日志可供会话结束后查阅。
这些改变的意义
这些优化并不能消除AI的结构性局限,而是让这些局限变得可见且可控。即使受到强烈挑战,反方最终仍会做出让步。苏格拉底导师也依然存在一定的收敛倾向。但现在有了明确的检查点,能够减缓阿谀奉承的现象,迫使反方为自己的让步提供合理依据,并防止导师在用户尚未准备好的情况下草草收尾。
更深层次的启示是:AI素养并非仅仅在于学会如何使用AI工具、遵守伦理规范或担忧AI带来的风险。真正的AI素养在于深入与AI互动,从而亲自发现它的结构性局限——同时也在这一过程中认识到自身的思维局限。
许可证
本作品采用CC-BY-NC 4.0许可协议授权。
您可以自由地:
- 分享——复制并重新分发本材料
- 改编——混编、转换并在此基础上创作新作品
但需遵守以下条件:
- 署名——您必须适当注明出处
- 非商业性使用——您不得将本材料用于商业目的
署名格式:
基于吴政宜的学术研究技能
https://github.com/Imbad0202/academic-research-skills
贡献者
Cheng-I Wu(吴政宜)——作者兼维护者
aspi6246——贡献者。v3.1的优化灵感来源于Claude-Code-Skills-for-Academics中的模式:只读约束模式、将反模式正式纳入设计考量、采用认知框架方法(教授“思考方式”而非单纯的操作步骤)以及精简技能规模的理念。
mchesbro1——贡献者。最初提出并起草了academic-paper-reviewer/references/top_journals_by_field.md中的8种期刊清单(Issue #5)。
cloudenochcsis——贡献者。将8种期刊的清单扩展为完整的11种“资深学者精选期刊”——新增《决策支持系统》、《信息与管理》以及《信息与组织》(Issue #7,PR #8)。资料来源于AIS资深学者顶级期刊列表。
更改记录
v3.3.6(2026-04-15)— README 精简与 ARCHITECTURE 文档
- 新增
docs/ARCHITECTURE.md,作为管道结构(流程、矩阵、数据访问、依赖图、质量关卡、模式)的唯一权威文档。通过 PR #18 合并至主分支。 - 新增
docs/SETUP.md(先决条件、API 密钥、Pandoc/tectonic、跨模型验证、安装方法)和docs/PERFORMANCE.md(token 预算、推荐的 Claude Code 设置)。README 现已链接至这两份文档,而非将其内嵌其中。 - 精简 README:移除了 ASCII 管道图和 16 条关键特性列表(已被 ARCHITECTURE.md 取代);“技能详情”部分现固定版本号,并引导读者前往 ARCHITECTURE.md §3 查看各代理的清单。
- 注意:所有技能的功能未作任何更改。此次仅为文档重组。套件版本提升至
3.3.6。
v3.3.5(2026-04-15)
- 新增
benchmark_report.schema.json和 Material Passport 上的可选repro_lock块。两者均附带模式文档、语法检查及示例。首次正式引入 Python 开发依赖清单(requirements-dev.txt)。
v3.3.4(2026-04-15)— README 更改日志同步补丁
- 同步了
README.md和README.zh-TW.md中嵌入的更改日志部分,使其包含缺失的v3.3.3和v3.3.2发布摘要。 - 扩展了
scripts/check_spec_consistency.py,以确保未来 README 更改日志出现偏差时会触发 CI 失败。
v3.3.3(2026-04-15)— 发布准备 + 语法检查强化
- 强化了 SKILL 前言部分的语法检查:缺少结束的
---分隔符现在会直接报错,而不会被解析为有效 YAML。 - 对于虽能解析为有效 YAML 但并非映射类型的前言内容,将输出可读性错误信息,而非直接崩溃。
- 修复了两个 README 中发布后审计报告展示链接的错误。
- 在规范一致性检查中加入了 README 相对链接验证,确保死链会触发 CI 失败。
- 统一了文档的 DOCX 输出协议:直接生成
.docx文件依赖 Pandoc,Markdown 加转换说明则作为备用方案。 - 准备了
v3.3.3版本的发布工作:套件版本提升,academic-paper升级至 v3.0.2,academic-pipeline升级至 v3.2.2。
v3.3.2(2026-04-15)— 数据访问级别 + 任务类型元数据
- 在所有顶级
SKILL.md文件中新增了metadata.data_access_level元数据,并强制使用以下词汇:raw、redacted、verified_only。 - 在所有顶级
SKILL.md文件中新增了metadata.task_type元数据,并强制使用以下词汇:open-ended、outcome-gradable。 - 为这两个元数据字段添加了语法检查脚本和单元测试,并将其集成到 GitHub Actions 的规范一致性工作流中。
- 新增了
shared/ground_truth_isolation_pattern.md,并将新词汇从shared/handoff_schemas.md中链接进来。
v3.3.1(2026-04-14)— 规范一致性补丁
- 同步了 README、
.claude/CLAUDE.md、MODE_REGISTRY.md和SKILL.md文件中的模式数量及已发布的技能版本。 - 修正了跨模型表述:完整性样本检查和独立 DA 评审已于今日实施;第六位评审员的同行评审仍处于计划阶段。
- 明确了自适应检查点语义,确保 SLIM 检查点仍需等待用户明确确认。
- 重申 Stage 2.5 和 Stage 4.5 的完整性关卡不可跳过。
- 添加了一项轻量级的规范一致性检查及 GitHub Actions 工作流,以防止未来的偏差。
v3.3(2026-04-09)— 受 PaperOrchestra 启发的增强功能
整合了来自 PaperOrchestra(Song、Song、Pfister & Yoon,2026,Google)的技术。
- Semantic Scholar API 核实 — 通过 S2 API 进行 0 级程序化参考文献存在性检查。标题 Levenshtein 匹配度 ≥ 0.70,DOI 不匹配检测,以及基于 S2 ID 的参考文献去重。若 API 不可用,则优雅降级。
- 防泄漏协议 — 知识隔离指令优先考虑会话材料而非 LLM 参数记忆。对于缺失内容,会标记
[MATERIAL GAP]而非从记忆中填补。从而降低 Mode 5/6 失败的风险。 - VLM 图像核实(可选) — 使用具备视觉能力的 LLM 对渲染图像进行闭环核实。包含 10 项检查清单,最多允许 2 次迭代优化。
- 评分轨迹协议 — 在各轮修订中跟踪每个维度的评分变化(共 7 个维度)。若发现退步(评分变化 < -3),则会触发强制性检查点。
- Stage 2 并行化 — 提纲完成后,可视化与论证构建可并行进行。
- 新版本:deep-research v2.8,academic-paper v3.0,academic-pipeline v3.2。
v3.2(2026-04-09)— 整合 Lu 2026 Nature 论文成果
整合了 Lu 等人(2026,《Nature》651:914–919)的研究洞见——这是首个通过盲审的端到端自主 AI 研究系统。
- 7 种 AI 研究失败模式检查表 — 在疑似实现错误、幻觉结果、依赖捷径、将错误视为洞见、捏造方法论或陷入框架锁定时,会在 Stage 2.5/4.5 阻断管道。扩展了现有的 5 类引用幻觉分类法。
- 评审校准模式(academic-paper-reviewer v1.8) — 用户可选择针对其提供的黄金数据集测量 FNR/FPR/平衡准确率。采用 5 次集成、跨模型默认开启,并在会话范围内披露置信度。
- 披露模式(academic-paper v2.9) — 针对不同会议生成特定的 AI 使用声明。v1 支持 ICLR、NeurIPS、Nature、Science、ACL 和 EMNLP。
- 提前停止准则(academic-pipeline v3.1) — 在管道启动时进行收敛性检查并公开预算透明度。
- 保真度-原创性模式谱系 — 根据 Lu 2026 Fig 1c,将所有模式按 3 个技能类别进行分类。
- 新版本:academic-paper v2.9,academic-paper-reviewer v1.8,academic-pipeline v3.1。
v3.1.1(2026-04-09)— IS 资深学者精选期刊篮子(11 篇)
外部贡献:@mchesbro1 最初提出并起草了 IS 篮子中的 8 篇期刊(Issue #5);@cloudenochcsis 将其扩展至完整的资深学者精选期刊篮子(11 篇)(Issue #7,PR #8)。更新了 academic-paper-reviewer/references/top_journals_by_field.md 第 7 节,新增了 Decision Support Systems、Information & Management 和 Information and Organization。资料来源:AIS 资深学者首选期刊列表。
v3.1 (2026-04-06) — 抗情境漂移 + 认知框架 + 精简规模
灵感源自 aspi6246/Claude-Code-Skills-for-Academics 中的模式。
第一波:抗情境漂移锚点
- 涵盖全部4项技能的29个明确反模式(每项技能7–8个,以表格形式呈现“为何失效”与“正确行为”)
- 22条铁律标记,用于标识在长时间对话中也绝不能违背的关键规则
- 学术论文审稿人角色设置为只读约束(审稿人不可修改稿件)
第二波:可追溯性 + 认知框架 + 强化机制
- R&R 可追溯性矩阵(模式11):在复审输出中新增“作者主张”和“已验证?”列,便于独立验证修订主张
- 3份认知框架参考文件,教导智能体“如何思考”而非仅“做什么”:
argumentation_reasoning_framework.md— 图尔敏模型、布拉德福德·希尔因果推理、最佳解释推理、认识论地位分类review_quality_thinking.md— 三重视角(内部效度、外部效度、贡献度)、常见审稿陷阱、校准问题writing_judgment_framework.md— 清晰度测试、读者旅程、学科特定语态、修订决策矩阵
- 对话中期强化协议:在每个流程节点转换时,按阶段提醒铁律与反模式
- 在每个完整检查点设置自检问题(引用完整性、溜须拍马式让步、质量轨迹、范围与学科匹配、内容完整性)
第三波:精简技能规模
- SKILL.md 总大小由142KB降至85KB(减少40%),通过将详细协议提取至
references/文件实现 - 新增约15份参考文件(复审协议、引导模式、系统综述、流程摘要、外部评审等)
- SKILL.md 中保留所有铁律标记;详细内容按需加载
- 新版本:深度研究v2.7、学术论文v2.8、学术论文审稿人v1.7、学术流程v3.0
v3.0 (2026-04-03) — 反溜须拍马 + 意图识别 + 对话健康度
- 反方论证让步阈值(深度研究 + 学术论文审稿人):反方必须先对反驳打1–5分再作回应。仅当评分≥4时才可让步。不得连续让步。全程追踪让步率。每次检查点后检测框架锁定状态。
- 攻击强度保持(学术论文审稿人):反方在受到反驳时不会软化。配备明确偏转检测的反驳评估协议。反溜须拍马规则防止持续施压被视为有效证据。
- 意图识别层(深度研究苏格拉底式):将用户意图划分为探索型与目标导向型。探索模式下禁用自动收敛,提高最大轮次限制,并禁止过早结束。每3轮重新评估一次。
- 对话健康度指标(深度研究苏格拉底式):每5轮进行一次自我检查,监测是否存在持续一致、回避冲突或过早收敛的情况。一旦检测到一致倾向,会自动引入挑战。
- 跨模型验证协议(共享,可选):使用GPT-5.4 Pro或Gemini 3.1 Pro进行样本交叉核验及独立的反方批判。第六位审稿人的同行评审仍在计划中,尚未实施。通过设置
ARS_CROSS_MODEL环境变量启用——未设置时,一切照旧。完整设置指南、API模式及成本估算见shared/cross_model_verification.md。 - AI自我反思报告(学术流程第6阶段):流程结束后对AI行为模式的自我评估——反方让步率、检查点跳过率、健康警报、溜须拍马风险评级(低/中/高)、框架锁定事件、收敛模式分析。附带讽刺说明:“本次自我反思本身即由可能曾有溜须拍马行为的同一AI生成。”
- 背景:源于一次四轮辩证实验,其中反方过快让步,苏格拉底导师试图过早收敛,整个辩论始终被人类设定的框架所束缚。
- 版本:深度研究v2.5、学术论文审稿人v1.5、学术流程v2.8
v2.9 (2026-03-27) — 文风校准 + 写作质量检查
- 文风校准(学术论文录入第10步,可选):提供3篇以上过往论文,流程将学习用户的写作风格——句式节奏、词汇偏好、引文整合方式。在校稿过程中作为柔性指导应用;学科规范始终优先。优先级体系:学科规范(硬性)>期刊规范(强性)>个人风格(柔性)。详情参见
shared/style_calibration_protocol.md。 - 写作质量检查(
academic-paper/references/writing_quality_check.md):在草稿自审时应用的写作质量检查清单。包含5大类:AI高频词警告(25个术语)、标点符号模式控制(破折号≤3个)、清嗓子式开头检测、结构模式警告(三段法则、段落统一、同义词循环)以及句长变化检测。这些都是良好写作规范,而非规避检测的手段。 - 文风档案贯穿学术流程物料护照(见
shared/handoff_schemas.md中的模式10)。 - 深度研究报告编译器也可选择性地使用这两项功能。
- 版本:学术论文v2.5、深度研究v2.4、学术流程v2.7
v2.8 (2026-03-22) — SCR循环第一阶段:陈述-质疑-反思
- 苏格拉底导师代理(深度研究 + 学术论文):集成SCR(陈述-质疑-反思)协议
- 承诺关卡:在每一层/章节过渡时,在展示证据前收集用户的预测
- 确定性触发的矛盾:检测高自信用语(如“显然”、“清楚地”),并适时提出反证
- 强度自适应:跟踪承诺准确率,动态调整质疑频率
- 自我校准信号(S5):新增一种收敛信号,用于追踪用户在整个对话中的自我校准成长
- SCR开关:用户可在对话中途说“跳过预测”来关闭该功能,或“重新开启预测”来恢复;苏格拉底式提问则照常进行
deep-research/references/socratic_questioning_framework.md:SCR叠加协议,将SCR各阶段映射至苏格拉底式提问的功能- 新增
CHANGELOG.md
v2.7 (2026-03-09) — 完整性验证 v2.0:反幻觉全面升级
- integrity_verification_agent v2.0:反幻觉强制执行(无需AI记忆验证),取消灰色地带分类(仅保留VERIFIED/NOT_FOUND/MISMATCH),每条引用必须附带WebSearch审计追踪,新增4.5阶段的独立复核,以及灰色地带预防规则。
- 已知幻觉模式:结合GPTZero与NeurIPS 2025研究提出的5类分类法(TF/PAC/IH/PH/SH)、5种复合欺骗模式、真实案例分析及文献统计。
- 发表后审计:对所有68篇参考文献进行全面WebSearch核查,发现21处问题(错误率31%),这些问题此前已通过三轮完整性检查——证明了外部验证的必要性。
- 论文更正:删除4篇伪造的参考文献,修正6处作者错误,纠正7处元数据错误,修复2处格式问题。
v2.6.2 (2026-03-09) — 基于意图的模式激活
- deep-research:苏格拉底模式现采用基于意图的激活机制,而非关键词匹配。支持任意语言——系统会识别语义含义(如“用户希望获得引导式思考”),而非单纯匹配特定字符串。
- academic-paper:计划模式现同样采用基于意图的激活机制。无论何种语言,系统都能检测到用户的意图信号,例如“用户不确定如何开始”或“用户需要分步指导”。
- 两种模式现均设有默认规则:当意图模糊时,优先选择
socratic/plan模式而非full模式——这样更安全,先进行引导。 - 采用两层架构:第一层(技能激活)使用双语关键词以提高匹配置信度;第二层(模式路由)则利用与语言无关的意图信号。
v2.6.1 (2026-03-09) — 双语触发关键词
- deep-research:新增繁体中文触发关键词,用于通用激活及苏格拉底模式。
- academic-paper:新增繁体中文触发关键词,并增设计划模式触发部分。
- 两种模式选择指南现均包含双语示例及针对中文用户的误选场景说明。
v2.6 / v2.4 / v1.4 (2026-03-08) — 15项以上改进
- deep-research v2.3:新增系统综述/PRISMA模式(第7种);新增3个代理(risk_of_bias、meta_analysis、monitoring);提供PRISMA协议和报告模板;引入苏格拉底模式收敛标准(4种信号+自动结束);推出快速模式选择指南。
- academic-paper v2.4:新增2个代理(visualization、revision_coach);提供包含4种状态类型的修订跟踪模板;支持APA↔Chicago↔MLA↔IEEE↔Vancouver等不同引用格式之间的转换;制定统计可视化标准;引入苏格拉底模式收敛标准;提供修订恢复示例;并对LaTeX输出进行加固——强制使用
apa7文档类,修复文本两端对齐问题(ragged2e+etoolbox),优化表格列宽公式,实现双语摘要居中,统一字体栈为Times New Roman + Source Han Serif TC VF + Courier New,且PDF仅通过tectonic生成。 - academic-paper-reviewer v1.4:引入质量评分细则,采用0–100分制并辅以行为指标;制定决策映射(≥80分接受,65–79分轻微修改,50–64分重大修改,<50分拒绝);提供快速模式选择指南。
- academic-pipeline v2.6:引入自适应检查点系统(FULL/SLIM/MANDATORY);在完整性检查中加入E阶段的主张验证;为中途引入的材料提供材料护照以追溯来源;新增跨技能模式顾问(14种场景);制定团队协作协议;优化交接方案(共9种);并提供完整性失败恢复示例。
v2.4 / v1.3 (2026-03-08)
- academic-pipeline v2.4:新增第6阶段PROCESS SUMMARY——自动生成结构化的论文创作流程记录(MD → LaTeX → PDF,双语);强制要求撰写最后一章:协作质量评估,从方向设定、智力贡献、质量把关、迭代纪律、授权效率及元学习六个维度分别打分1–100分,同时提供坦诚反馈及改进建议;管道流程由此前的9个阶段扩展至10个。
v2.3 / v1.3 (2026-03-08)
- academic-pipeline v2.3:第5阶段FINALIZE现会提示用户选择格式风格(APA 7.0 / Chicago / IEEE);PDF必须通过
tectonic从LaTeX编译生成(禁止使用HTML转PDF);APA 7.0需使用apa7文档类(man模式),并搭配XeCJK以支持双语CJK字符;字体栈为Times New Roman + Source Han Serif TC VF + Courier New。
v2.2 / v1.3 (2025-03-05)
- 跨代理质量对齐:在所有代理中统一定义(同行评审、时效性规则、CRITICAL严重程度、来源等级)。
- deep-research v2.2:新增综合反模式、苏格拉底模式自动结束条件、DOI+WebSearch验证、强化伦理完整性检查以及模式转换矩阵。
- academic-paper v2.2:引入4级论证评分体系、剽窃筛查功能,并新增两条失败处理路径(F11案头驳回恢复、F12会议转期刊);支持从计划模式转换至完整模式。
- academic-paper-reviewer v1.3:明确DA与R3角色边界,制定CRITICAL发现标准,引入共识分类机制(4/3/SPLIT/DA-CRITICAL),调整置信度评分权重,并纳入亚洲及区域期刊作为参考。
- academic-pipeline v2.2:完善检查点确认语义、模式切换矩阵、失败回退矩阵、状态归属协议以及材料版本控制机制。
v2.0.1 (2026-03)
- 简化4个SKILL.md文件(减少371行,降幅16.5%):移除跨技能重复内容,将内联模板改为文件引用,清理冗余路由表及重复的模式选择章节。
- 修复academic-paper与academic-pipeline之间关于修订循环上限的矛盾。
v2.0 (2026-02)
- academic-pipeline v2.0:流程由5个阶段增至9个,强制执行完整性验证,实行两阶段评审,提供苏格拉底式修订辅导,并确保结果可重复性。
- academic-paper-reviewer v1.1:新增“魔鬼代言人审稿人”(第7个代理),增加复审模式(验证用途),并在审稿后提供苏格拉底式辅导。
- 新增代理:
integrity_verification_agent——负责100%的引用/数据验证,并附带审计追踪。 - 新增代理:
devils_advocate_reviewer_agent——具备8维度论点挑战能力。 - 输出顺序:优先通过Pandoc将MD转换为DOCX(若不可用则提供操作说明),随后请求LaTeX编译,确认无误后再生成PDF。
v1.0 (2026-02)
- 初始发布版本。
- deep-research v2.0(10个代理,6种模式,包括苏格拉底模式)。
- academic-paper v2.0(10个代理,8种模式,包括计划模式)。
- academic-paper-reviewer v1.0(6个代理,4种模式,包括引导式模式)。
- academic-pipeline v1.0(协调器)。
版本历史
v3.3.42026/04/15v3.3.22026/04/15v3.3.32026/04/15v3.32026/04/09v3.22026/04/09v3.12026/04/06v3.02026/04/03v2.92026/03/27v2.82026/03/22常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
funNLP
funNLP 是一个专为中文自然语言处理(NLP)打造的超级资源库,被誉为"NLP 民工的乐园”。它并非单一的软件工具,而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。 面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点,funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具,还独特地收录了丰富的垂直领域资源,如法律、医疗、金融行业的专用词库与数据集,甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性,从基础的字典词典到前沿的 BERT、GPT-2 模型代码,再到高质量的标注数据和竞赛方案,应有尽有。 无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师,还是从事人工智能研究的学者,都能在这里找到急需的“武器弹药”。对于开发者而言,它能大幅减少寻找数据和复现模型的时间;对于研究者,它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神,极大地降低了中文自然语言处理的开发与研究成本,是中文 AI 社区不可或缺的宝藏仓库。
cs-video-courses
cs-video-courses 是一个精心整理的计算机科学视频课程清单,旨在为自学者提供系统化的学习路径。它汇集了全球知名高校(如加州大学伯克利分校、新南威尔士大学等)的完整课程录像,涵盖从编程基础、数据结构与算法,到操作系统、分布式系统、数据库等核心领域,并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。 面对网络上零散且质量参差不齐的教学资源,cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容,仅收录真正的大学层级课程,排除了碎片化的简短教程或商业广告,确保用户能接触到严谨的学术内容。 这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员,以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽,不仅包含传统的软件工程与网络安全,还细分了生成式 AI、大语言模型、计算生物学等新兴学科,并直接链接至官方视频播放列表,让用户能一站式获取高质量的教育资源,免费享受世界顶尖大学的课堂体验。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。
PaddleOCR
PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来,转换成计算机可读取的结构化数据,让机器真正“看懂”图文内容。 面对海量纸质或电子文档,PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域,它扮演着连接图像与大型语言模型(LLM)的桥梁角色,能将视觉信息直接转化为文本输入,助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显:不仅支持全球 100 多种语言的识别,还能在 Windows、Linux、macOS 等多个系统上运行,并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目,PaddleOCR 既能满足快速集成的需求,也能支撑前沿的视觉语言研究,是处理文字识别任务的理想选择。