gpt_paper_assistant
gpt_paper_assistant 是一款基于 GPT-4 打造的个性化 ArXiv 论文助手,旨在帮助科研人员从海量学术文献中高效筛选出真正感兴趣的内容。面对每日激增的预印本论文,研究者往往难以及时捕捉与自己研究方向或关注学者相关的最新成果。这款工具通过每日自动扫描 ArXiv,结合用户自定义的研究主题和特定作者列表,利用大模型智能过滤并生成精选论文日报。
它特别适合人工智能领域的研究人员、博士生以及需要紧跟前沿技术的开发者使用。用户只需简单配置关注的领域(如 cs.CL)和目标作者,gpt_paper_assistant 即可通过 GitHub Actions 定时运行,将结果以静态网页形式发布,或直接推送到 Slack 频道,实现信息的无缝流转。
其技术亮点在于巧妙融合了语义学者(Semantic Scholar)的作者 ID 匹配机制与 GPT-4 的语义理解能力,不仅能精准追踪特定大牛的最新动态,还能根据标题和摘要的相关性进行深度筛选。此外,项目在设计上充分考虑了成本效益,通过标题预过滤等策略,使得全量扫描特定领域的日均 API 成本极低(例如扫描 cs.CL 类别仅需约 0.07 美元),让个性化的学术资讯订阅变得经济且易于部署。
使用场景
某高校自然语言处理实验室的博士生李明,正致力于跟踪大模型推理方向的最新进展,每天需面对 ArXiv 上爆发的数百篇新论文。
没有 gpt_paper_assistant 时
- 信息过载严重:每天手动浏览
cs.CL等分类下的上百篇论文标题和摘要,耗时超过 2 小时,极易遗漏关键研究。 - 个性化匹配困难:难以从海量数据中精准筛选出特定导师(如 Percy Liang)或特定细分主题(如“思维链”)的相关文章,全靠人工记忆和关键词搜索。
- 协作同步滞后:发现的好文章需要手动复制链接发到课题组 Slack 群,经常因忙碌而忘记分享,导致团队信息不同步。
- 成本与效率失衡:若尝试用普通脚本全量调用大模型分析所有论文,API 费用高昂且速度慢,无法作为日常工具持续运行。
使用 gpt_paper_assistant 后
- 智能每日精选:gpt_paper_assistant 每天自动扫描 ArXiv,利用 GPT-4 结合预设主题过滤无关内容,仅推送最相关的几篇核心论文,将阅读时间压缩至 15 分钟。
- 精准作者与主题追踪:通过配置 Semantic Scholar 作者 ID 和自定义主题文件,工具能精准捕捉目标学者的新作及特定技术方向的突破,不再依赖人工检索。
- 自动化团队分发:筛选结果自动发布至静态网页并推送到实验室 Slack 频道,确保团队成员第一时间获取高价值情报,促进即时讨论。
- 低成本稳定运行:借助标题预过滤机制,单日运行成本仅需几分钱(如 $0.07),并通过 GitHub Actions 实现无人值守的常态化更新。
gpt_paper_assistant 将研究人员从繁琐的信息筛选中解放出来,实现了低成本、高精度的个性化学术情报自动化闭环。
运行环境要求
- Linux
- macOS
- Windows
不需要 GPU
未说明

快速开始
GPT4论文助手:每日ArXiv扫描器
这个仓库实现了一个非常简单的ArXiv每日扫描工具,它利用GPT4和作者匹配功能来寻找你可能感兴趣的论文。该工具会通过GitHub Actions每天自动运行,并可以通过机器人将信息发布到Slack,或者直接在静态的GitHub Pages网站上展示。
一个简单的每日论文演示可以在这里查看,当前运行在cs.CL类别下。
作为成本估算,在2024年2月7日,对整个cs.CL类别运行此工具的成本为0.07美元。
更改记录
- 2024年2月15日:修复了RSS格式中作者解析的错误,以及标题过滤导致成本估算不准确的问题;同时修复了当源中没有论文时程序崩溃的故障。
- 2024年2月7日:修复了由于ArXiv更改其RSS格式而引发的关键问题,并添加并启用了标题过滤以降低成本。
快速入门
以下是让扫描器运行所需的最少步骤。强烈建议阅读完整文档,以便决定如何配置和运行。
在GitHub Actions上运行
- 复制或分叉本仓库到一个新的GitHub仓库,如果你是分叉的话,请启用计划工作流。
- 将
config/paper_topics.template.txt复制到config/paper_topics.txt,并填写你希望关注的论文类型。 - 将
config/authors.template.txt复制到config/authors.txt,列出你真正想关注的作者。作者后面的数字非常重要,它们是Semantic Scholar的作者ID,你可以在Semantic Scholar上搜索作者后,从URL末尾获取这些数字。 - 在
config/config.ini中设置你期望的ArXiv类别。 - 将你的OpenAI密钥(
OAI_KEY)作为GitHub秘密变量进行设置。 - 在你的仓库设置中,将GitHub Pages的构建源设置为GitHub Actions。
至此,你的机器人应该会每天运行,并发布一个静态网站。你可以手动运行GitHub Actions工作流来测试这一点。
可选但强烈推荐:
- 获取并设置Semantic Scholar API密钥(
S2_KEY)作为GitHub秘密变量。否则,作者搜索步骤将会非常缓慢。 - 设置一个Slack机器人,获取OAuth密钥,并将其设置为GitHub秘密变量
SLACK_KEY。 - 为机器人创建一个频道(并邀请它加入该频道),获取其Slack频道ID,并将其设置为GitHub秘密变量
SLACK_CHANNEL_ID。 - 查看
configs/config.ini文件,调整过滤规则。 - 将GitHub仓库设为私有,以避免GitHub Actions在60天后被自动禁用。
每天UTC时间下午1点,机器人将会运行,向Slack发送消息,并发布GitHub Pages网站(详情请参阅publish_md和cron_runs工作流)。
本地运行
步骤与上述大致相同,但你需要通过requirements.txt来设置环境。
不同于通过GitHub秘密变量传递凭证,你需要设置环境变量OAI_KEY、SLACK_KEY和SLACK_CHANNEL_ID。
要运行所有内容,只需调用main.py即可。
其他注意事项:
你也可以选择不推送至Slack,此时可在config/config.ini中的dump_json、dump_md和push_to_slack字段中设置你期望的输出端点(JSON、Markdown或Slack)。
如果Semantic Scholar API出现超时或响应缓慢的情况,你应该获取一个S2 API密钥,并将其设置为环境变量S2_KEY。(由于GitHub Actions的限制,只有在本地运行代码时才能起到效果)
使其独立运行:
整个系统几乎不需要计算资源,因此你可以租用AWS上最便宜的虚拟机,将此仓库部署到其中,并安装requirements.txt中的依赖项。然后正确设置环境变量,并添加以下crontab:
0 13 * * * python ~/arxiv_scanner/main.py
这条crontab将在每天UTC下午1点(太平洋时间下午6点)运行脚本。
如何编写paper_topics.txt提示
paper_topics.txt文件用于生成GPT的提示语,它是一个你希望关注的主题列表。
一组示例可能如下所示:
1. RLHF或指令跟随方面的新型方法论改进,即为了提升语言模型在各类任务中更好地遵循用户指令而采取的具体微调步骤。
- 相关:讨论RLHF等具体方法、指令微调数据集、改进这些方法或对其进行分析的论文。
- 不相关:仅涉及某种任务适应的论文。单纯地遵循指令或输入并不足以说明问题。
2. 展示针对语言模型的新型强大测试集污染检测或成员推理方法。测试集污染是指语言模型在预训练过程中接触到基准数据集的现象。
- 相关:能够检测语言模型中基准数据集污染的统计指标,尤其是能提供可靠保证的统计方法;同样相关的还有适用于语言模型的通用成员推理方法。
- 不相关:任何不涉及语言模型,或未考虑测试集污染的论文。
3. 显示扩散式语言模型性能的重大突破。
- 相关:研究既是扩散模型又是语言模型的论文。连续扩散模型更为重要,而离散扩散模型则相对次要。
- 不相关:关于DALL-E或Stable Diffusion等图像扩散模型的论文,以及未明确提及语言模型或文本应用的论文。
这只是一个标准的提示语,但越具体越好,尤其是在“扩散式语言模型”或“指令跟随”这类主题上,因为语言模型可能会混淆图像扩散是否相关,或者仅仅提高某项任务的表现是否足以改善指令跟随能力。
你还可以在后面补充一些更广泛的兴趣领域,例如:
在为你朋友推荐论文时,请记住他喜欢统计机器学习和自然语言处理中的生成建模方面的论文。此外,他也乐于了解语言模型中令人惊讶的实证结果,以及巧妙的统计技巧。但他并不希望阅读那些主要关注方法在特定领域应用的论文。
工作原理详解
该脚本通过 RSS 订阅源抓取特定日期的 ArXiv 论文候选集。为避免重复推送论文,它只会获取过去一天内的 RSS 源。为了不遗漏任何论文,建议每天运行一次。
脚本会过滤掉所有标记为“已更新”的论文,仅推送新的论文。
过滤逻辑非常简单:首先检查作者是否匹配。
- 在 Semantic Scholar 上查询作者,获取可能的匹配列表。
- 检查论文中的作者。如果某位作者的 Semantic Scholar ID 与
authors.txt文件中的某个人匹配,则该论文会被加入候选集,并赋予默认分数author_match_score。
接下来,脚本会根据 GPT 评估的相关性进行筛选。这一过程分为两步:
- 过滤掉所有没有 h-index 高于
config.ini中hcutoff值的作者的论文,以降低成本。 - 将剩余的论文分批提交给
config.ini中指定的 GPT 模型进行评估。调试时应仅使用 GPT-3.5,因为它在此任务中效果不佳! 此步骤采用configs/中定义的以下提示模板:
你是一位贴心的论文阅读助手,负责每日浏览 ArXiv 的最新帖子,为你的朋友挑选几篇可能相关的论文。以下是最多五篇论文,请从中找出符合以下条件的论文:
- 条件一
- 条件二
[论文列表]
请以 JSONL 格式在每行中输出 {ARXIVID, COMMENT, RELEVANCE, NOVELTY},每篇论文对应一行。 ARXIVID 应为论文的 ArXiv ID。 COMMENT 应指明是否有某条条件与论文高度契合;若有,需明确指出具体是哪一条(无需提及未匹配的条件)。 匹配依据不应是“语言建模”或“进展”等宽泛术语,而应具体指向某一明确条件。 RELEVANCE 是相关性评分,范围为 1 到 10:10 分表示论文与特定条件完全吻合,关键词近似且作者在该领域享有盛名;1 分表示与任何条件均无关,也与你朋友的兴趣领域毫不相干;2–3 分表示论文虽与兴趣领域相关,但未满足具体条件;5 分则表示与某一特定条件直接匹配。 NOVELTY 是创新性评分,范围为 1 到 10:10 分代表具有突破性的通用发现,将彻底改变整个领域;1 分则表示仅改进了问题的某个方面,或应用于非常特定的子领域。请仔细阅读摘要来判断,并假设作者关于创新性的声明不可信。
- GPT 会对论文的相关性和创新性分别打分(评分范围均为 1–10)。
- 如果论文的相关性或创新性得分低于
config.ini中设定的阈值,则将其过滤掉。 - 最后,根据相关性和创新性得分各占一半的权重,计算每篇论文的综合得分。
最终,所有论文将按照其 author_match_score 与 GPT 评定的相关性和创新性得分之和的最大值进行排序(相关性和创新性得分仅在高于配置文件中设定的阈值时才会出现在最终输出中)。随后,这些论文会被渲染并推送到各自的端点(文本文件或 Slack)。
贡献说明
本仓库使用 ruff 工具:ruff check . 和 ruff format .。
请通过运行 pre-commit install 安装预提交钩子。
测试与优化 GPT 过滤器
filter_papers.py 脚本也可以作为独立脚本运行。
它会从 in/debug_papers.json 中读取一批论文,按照当前的配置和提示模板进行处理,并将结果输出到 out/filter_paper_test.debug.json。如果发现机器人存在误判,可以找到对应的批次文件 out/gpt_paper_batches.debug.json,将其复制到相应的 debug_papers 文件中。
这样可以帮助你构建过滤器的基准测试,并查看最终的输出结果。
其他信息
本仓库及代码最初由 Tatsunori Hashimoto 开发,采用 Apache 2.0 许可证授权。感谢 Chenglei Si 对 GPT 过滤器的测试与基准测试工作。
常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
Deep-Live-Cam
Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。