[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-mobarski--ask-my-pdf":3,"tool-mobarski--ask-my-pdf":64},[4,17,26,36,44,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",142651,2,"2026-04-06T23:34:12",[13,14,15],"开发框架","Agent","语言模型","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":10,"last_commit_at":23,"category_tags":24,"status":16},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[25,13],"插件",{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":16},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,3,"2026-04-06T11:19:32",[15,35,14,13],"图像",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":10,"last_commit_at":42,"category_tags":43,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,15],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":10,"last_commit_at":50,"category_tags":51,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85013,"2026-04-06T11:09:19",[35,52,53,25,14,54,15,13,55],"数据工具","视频","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":32,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[14,35,13,15,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":79,"owner_location":80,"owner_email":79,"owner_twitter":79,"owner_website":79,"owner_url":81,"languages":82,"stars":94,"forks":95,"last_commit_at":96,"license":97,"difficulty_score":10,"env_os":98,"env_gpu":99,"env_ram":99,"env_deps":100,"category_tags":108,"github_topics":109,"view_count":10,"oss_zip_url":79,"oss_zip_packed_at":79,"status":16,"created_at":114,"updated_at":115,"faqs":116,"releases":145},4763,"mobarski\u002Fask-my-pdf","ask-my-pdf","Question answering system for PDF files","ask-my-pdf 是一个基于 GPT-3 构建的开源问答系统，旨在让用户能够直接对 PDF 文档内容进行自然语言提问并获取精准答案。它主要解决了从长篇技术手册、规则书或学术文献中快速查找特定信息的痛点，用户无需通读全文即可通过对话形式获取关键内容。虽然其设计初衷是辅助桌游玩家查询游戏规则，但同样适用于各类文档检索场景。\n\n该工具特别适合开发者、研究人员以及需要频繁处理大量 PDF 文档的专业人士使用。对于希望本地部署私有知识库或探索检索增强生成（RAG）技术的开发者而言，ask-my-pdf 提供了清晰的代码实现参考。值得注意的是，该项目目前定位为概念验证（Proof of Concept），用户在体验时需自行配置 OpenAI API 密钥。\n\n在技术层面，ask-my-pdf 创新性地结合了 RALM（上下文检索增强语言模型）与 HyDE（假设性文档嵌入）两项前沿学术成果。这种组合不仅提升了检索的相关性，还有效缓解了大模型可能产生的“幻觉”问题，使回答更加准确可靠。项目支持多种存储后端（如本地文件系统、S3、Redis），具备良好的扩展性与灵活性，是理解现代文档问答架构的优秀范","ask-my-pdf 是一个基于 GPT-3 构建的开源问答系统，旨在让用户能够直接对 PDF 文档内容进行自然语言提问并获取精准答案。它主要解决了从长篇技术手册、规则书或学术文献中快速查找特定信息的痛点，用户无需通读全文即可通过对话形式获取关键内容。虽然其设计初衷是辅助桌游玩家查询游戏规则，但同样适用于各类文档检索场景。\n\n该工具特别适合开发者、研究人员以及需要频繁处理大量 PDF 文档的专业人士使用。对于希望本地部署私有知识库或探索检索增强生成（RAG）技术的开发者而言，ask-my-pdf 提供了清晰的代码实现参考。值得注意的是，该项目目前定位为概念验证（Proof of Concept），用户在体验时需自行配置 OpenAI API 密钥。\n\n在技术层面，ask-my-pdf 创新性地结合了 RALM（上下文检索增强语言模型）与 HyDE（假设性文档嵌入）两项前沿学术成果。这种组合不仅提升了检索的相关性，还有效缓解了大模型可能产生的“幻觉”问题，使回答更加准确可靠。项目支持多种存储后端（如本地文件系统、S3、Redis），具备良好的扩展性与灵活性，是理解现代文档问答架构的优秀范例。","# Ask my PDF\n\n\n\nThank you for your interest in my application. Please be aware that this is only a **Proof of Concept system** and may contain bugs or unfinished features. If you like this app you can ❤️ [follow me](https:\u002F\u002Ftwitter.com\u002FKerbalFPV) on Twitter for news and updates.\n\n\n\n### Ask my PDF - Question answering system built on top of GPT3\n\n\n\n🎲 The primary use case for this app is to assist users in answering  questions about board game rules based on the instruction manual. While  the app can be used for other tasks, helping users with board game rules is particularly meaningful to me since I'm an avid fan of board games  myself. Additionally, this use case is relatively harmless, even in  cases where the model may experience hallucinations.\n\n\n\n🌐 The app can be accessed on the Streamlit Community Cloud at https:\u002F\u002Fask-my-pdf.streamlit.app\u002F. 🔑 However, to use the app, you will need your own [OpenAI's API key](https:\u002F\u002Fplatform.openai.com\u002Faccount\u002Fapi-keys).\n\n\n\n📄 The app implements the following academic papers:\n\n- [In-Context Retrieval-Augmented Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.00083) aka **RALM**\n\n- [Precise Zero-Shot Dense Retrieval without Relevance Labels](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10496) aka **HyDE** (Hypothetical Document Embeddings)\n\n\n\n### Installation\n\n\n\n1. Clone the repo:\n\n   `git clone https:\u002F\u002Fgithub.com\u002Fmobarski\u002Fask-my-pdf`\n\n2. Install dependencies:\n\n   `pip install -r ask-my-pdf\u002Frequirements.txt`\n\n3. Run the app:\n\n   `cd ask-my-pdf\u002Fsrc`\n   \n   `run.sh` or `run.bat`\n\n\n\n### High-level documentation\n\n\n\n#### RALM + HyDE\n\n![RALM + HyDE](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmobarski_ask-my-pdf_readme_55e91f438baf.jpg)\n\n\n\n#### RALM + HyDE + context\n\n![RALM + HyDE + context](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmobarski_ask-my-pdf_readme_0ff1cdcdcb08.jpg)\n\n\n\n### Environment variables used for configuration\n\n\n\n##### General configuration:\n\n- **STORAGE_SALT** - cryptograpic salt used when deriving user\u002Ffolder name and encryption key from API key, hexadecimal notation, 2-16 characters\n\n- **STORAGE_MODE** - index storage mode:  S3, LOCAL, DICT (default)\n\n- **STATS_MODE** - usage stats storage mode: REDIS, DICT (default)\n\n- **FEEDBACK_MODE** - user feedback storage mode: REDIS, NONE (default)\n\n- **CACHE_MODE** - embeddings cache mode: S3, DISK, NONE (default)\n\n  \n\n##### Local filesystem configuration (storage \u002F cache):\n\n- **STORAGE_PATH** - directory path for index storage\n\n- **CACHE_PATH** - directory path for embeddings cache\n\n  \n\n##### S3 configuration (storage \u002F cache):\n\n- **S3_REGION** - region code\n\n- **S3_BUCKET** - bucket name (storage)\n\n- **S3_SECRET** - secret key\n\n- **S3_KEY** - access key\n\n- **S3_URL** - URL\n\n- **S3_PREFIX** - object name prefix\n\n- **S3_CACHE_BUCKET** - bucket name (cache)\n\n- **S3_CACHE_PREFIX** - object name prefix (cache)\n\n  \n\n##### Redis configuration (for persistent usage statistics \u002F user feedback):\n\n- **REDIS_URL** - Redis DB URL (redis[s]:\u002F\u002F:password@host:port\u002F[db])\n\n  \n\n##### Community version related options:\n\n- **OPENAI_KEY** - API key used for the default user\n- **COMMUNITY_DAILY_USD** - default user's daily budget\n- **COMMUNITY_USER** - default user's code\n\n","# 问我PDF\n\n\n\n感谢您对我的应用感兴趣。请注意，这只是一个**概念验证系统**，可能包含错误或未完成的功能。如果您喜欢这个应用，可以❤️ 在Twitter上[关注我](https:\u002F\u002Ftwitter.com\u002FKerbalFPV)，以获取最新消息和更新。\n\n\n\n### 问我PDF - 基于GPT3构建的问答系统\n\n\n\n🎲 该应用的主要用途是根据桌游说明书，帮助用户解答关于桌游规则的问题。虽然该应用也可以用于其他任务，但对我个人而言，协助用户解决桌游规则问题尤其有意义，因为我本人就是一位狂热的桌游爱好者。此外，即使模型可能出现幻觉，这种应用场景的风险也相对较低。\n\n\n\n🌐 您可以通过Streamlit社区云访问该应用：https:\u002F\u002Fask-my-pdf.streamlit.app\u002F。🔑 不过，要使用该应用，您需要拥有自己的[OpenAI API密钥](https:\u002F\u002Fplatform.openai.com\u002Faccount\u002Fapi-keys)。\n\n\n\n📄 该应用实现了以下学术论文：\n\n- [上下文检索增强语言模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.00083)，又称**RALM**\n\n- [无需相关性标签的精确零样本密集检索](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10496)，又称**HyDE**（假设文档嵌入）\n\n\n\n### 安装\n\n\n\n1. 克隆仓库：\n\n   `git clone https:\u002F\u002Fgithub.com\u002Fmobarski\u002Fask-my-pdf`\n\n2. 安装依赖：\n\n   `pip install -r ask-my-pdf\u002Frequirements.txt`\n\n3. 运行应用：\n\n   `cd ask-my-pdf\u002Fsrc`\n   \n   `run.sh` 或 `run.bat`\n\n\n\n### 高层次文档\n\n\n\n#### RALM + HyDE\n\n![RALM + HyDE](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmobarski_ask-my-pdf_readme_55e91f438baf.jpg)\n\n\n\n#### RALM + HyDE + 上下文\n\n![RALM + HyDE + 上下文](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmobarski_ask-my-pdf_readme_0ff1cdcdcb08.jpg)\n\n\n\n### 用于配置的环境变量\n\n\n\n##### 通用配置：\n\n- **STORAGE_SALT** - 从API密钥派生用户\u002F文件夹名和加密密钥时使用的密码学盐，十六进制表示，长度为2–16个字符\n\n- **STORAGE_MODE** - 索引存储模式：S3、LOCAL、DICT（默认）\n\n- **STATS_MODE** - 使用统计信息存储模式：REDIS、DICT（默认）\n\n- **FEEDBACK_MODE** - 用户反馈存储模式：REDIS、NONE（默认）\n\n- **CACHE_MODE** - 嵌入缓存模式：S3、DISK、NONE（默认）\n\n  \n\n##### 本地文件系统配置（存储\u002F缓存）：\n\n- **STORAGE_PATH** - 索引存储的目录路径\n\n- **CACHE_PATH** - 嵌入缓存的目录路径\n\n  \n\n##### S3配置（存储\u002F缓存）：\n\n- **S3_REGION** - 区域代码\n\n- **S3_BUCKET** - 存储桶名称\n\n- **S3_SECRET** - 秘密访问密钥\n\n- **S3_KEY** - 访问密钥\n\n- **S3_URL** - URL地址\n\n- **S3_PREFIX** - 对象名称前缀\n\n- **S3_CACHE_BUCKET** - 缓存存储桶名称\n\n- **S3_CACHE_PREFIX** - 缓存对象名称前缀\n\n  \n\n##### Redis配置（用于持久化使用统计\u002F用户反馈）：\n\n- **REDIS_URL** - Redis数据库URL（redis[s]:\u002F\u002F:password@host:port\u002F[db]）\n\n  \n\n##### 社区版相关选项：\n\n- **OPENAI_KEY** - 默认用户使用的API密钥\n\n- **COMMUNITY_DAILY_USD** - 默认用户的每日预算\n\n- **COMMUNITY_USER** - 默认用户的代码","# Ask My PDF 快速上手指南\n\nAsk My PDF 是一个基于 GPT-3 构建的问答系统，核心采用 **RALM**（上下文检索增强语言模型）和 **HyDE**（假设文档嵌入）技术。虽然其设计初衷是辅助回答桌游规则问题，但同样适用于各类 PDF 文档的智能问答。\n\n> **注意**：本项目目前为概念验证（Proof of Concept）版本，可能包含 Bug 或未完善的功能。使用前请确保你拥有 [OpenAI API Key](https:\u002F\u002Fplatform.openai.com\u002Faccount\u002Fapi-keys)。\n\n## 环境准备\n\n在开始之前，请确保你的开发环境满足以下要求：\n\n*   **操作系统**：Linux、macOS 或 Windows\n*   **Python 版本**：建议 Python 3.8 及以上\n*   **依赖管理工具**：`pip`\n*   **版本控制**：`git`\n*   **必要凭证**：有效的 OpenAI API Key\n\n## 安装步骤\n\n按照以下步骤克隆仓库并安装依赖：\n\n1.  **克隆项目仓库**\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002Fmobarski\u002Fask-my-pdf\n    ```\n\n2.  **进入项目目录并安装依赖**\n    ```bash\n    cd ask-my-pdf\n    pip install -r requirements.txt\n    ```\n    > 💡 **国内加速提示**：如果下载依赖较慢，推荐使用国内镜像源（如清华源）：\n    > `pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`\n\n3.  **配置 API Key**\n    在运行前，你需要设置 OpenAI API Key。可以通过环境变量设置，或者在应用启动后的界面中输入。\n    \n    *Linux\u002FmacOS:*\n    ```bash\n    export OPENAI_KEY=\"你的_OPENAI_API_KEY\"\n    ```\n    \n    *Windows (PowerShell):*\n    ```powershell\n    $env:OPENAI_KEY=\"你的_OPENAI_API_KEY\"\n    ```\n\n## 基本使用\n\n安装完成后，即可启动 Streamlit 应用界面：\n\n1.  **进入源码目录**\n    ```bash\n    cd src\n    ```\n\n2.  **运行应用**\n    \n    *Linux\u002FmacOS:*\n    ```bash\n    .\u002Frun.sh\n    ```\n    \n    *Windows:*\n    ```bat\n    run.bat\n    ```\n\n3.  **开始问答**\n    *   浏览器会自动打开应用界面（通常地址为 `http:\u002F\u002Flocalhost:8501`）。\n    *   上传你的 PDF 文件（例如桌游说明书或其他文档）。\n    *   在对话框中输入关于文档内容的问题，系统将基于检索增强生成技术返回答案。\n\n---\n*更多高级配置（如 S3 存储、Redis 统计等）可通过设置相应的环境变量进行调整，详见项目原文档。*","桌游店老板李明正在为新员工培训，需要让他们快速掌握几十款复杂桌游的详尽规则，以便随时解答顾客的疑问。\n\n### 没有 ask-my-pdf 时\n- 面对厚达数十页的英文规则书，新员工必须逐字通读才能查找特定机制的说明，培训周期长达数周。\n- 遇到顾客询问冷门细节（如“某张卡牌在三人局中的特殊结算顺序”）时，店员需手忙脚乱地翻阅纸质手册，导致服务体验下降。\n- 不同员工对规则的理解存在主观偏差，口头传授容易产生信息遗漏或错误解读，引发客诉风险。\n- 更新游戏规则或扩展包后，重新整理和分发知识给全员耗时耗力，信息同步严重滞后。\n\n### 使用 ask-my-pdf 后\n- 新员工只需将规则书 PDF 上传至 ask-my-pdf，即可通过自然语言提问瞬间获取精准答案，培训时间缩短至几天。\n- 面对顾客的刁钻问题，店员直接输入问题，ask-my-pdf 基于 RALM 和 HyDE 技术从文档中定位并生成准确回复，响应速度提升至秒级。\n- 所有回答均严格依据上传的官方文档生成，消除了人为记忆偏差，确保了对每位顾客解释的一致性和权威性。\n- 每当发布新规则或扩展包，只需替换对应的 PDF 文件，ask-my-pdf 即刻拥有最新知识库，实现了团队知识的实时同步。\n\nask-my-pdf 通过将静态文档转化为可交互的智能问答系统，彻底解决了非结构化文档检索难、效率低的核心痛点。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmobarski_ask-my-pdf_bafc545e.png","mobarski","Maciej Obarski","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fmobarski_0e0f09c1.jpg",null,"Warsaw, Poland","https:\u002F\u002Fgithub.com\u002Fmobarski",[83,87,91],{"name":84,"color":85,"percentage":86},"Python","#3572A5",99.4,{"name":88,"color":89,"percentage":90},"Batchfile","#C1F12E",0.3,{"name":92,"color":93,"percentage":90},"Shell","#89e051",596,276,"2026-03-25T09:20:16","MIT","Linux, macOS, Windows","未说明",{"notes":101,"python":99,"dependencies":102},"该工具是一个基于 GPT-3 的概念验证系统，主要依赖 OpenAI API 进行推理，因此本地无需高性能 GPU。运行前必须配置 OpenAI API 密钥。支持将索引和缓存存储在本地文件系统、S3 或 Redis 中，需根据配置设置相应的环境变量（如 STORAGE_MODE, REDIS_URL 等）。在 Windows 上运行需使用 run.bat 脚本，Linux\u002FmacOS 使用 run.sh。",[103,104,105,106,107],"streamlit","openai","langchain","faiss-cpu","tiktoken",[15,25],[110,111,112,103,104,113],"gpt3","pdf","qna","openai-api","2026-03-27T02:49:30.150509","2026-04-07T09:51:06.952125",[117,122,127,132,136,141],{"id":118,"question_zh":119,"answer_zh":120,"source_url":121},21632,"遇到 'PdfFileReader is deprecated' 弃用错误怎么办？","该错误是因为 PyPDF2 3.0.0 移除了 PdfFileReader。解决方案是更新代码使用 PdfReader 替代。维护者已合并分支修复了此问题，不再使用弃用函数。如果通过 \"pip install -r requirements.txt\" 安装依赖，可能会使用旧版本，建议确保安装最新版本的 pypdf 库。","https:\u002F\u002Fgithub.com\u002Fmobarski\u002Fask-my-pdf\u002Fissues\u002F1",{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},21633,"提示 'maximum context length is 8191 tokens' 超出上下文长度限制如何解决？","当 PDF 内容过大导致 token 数量超过模型限制（如 8191）时会报错。解决方法是减少 prompt 长度或优化文本分割逻辑。该问题已在 Pull Request #47 中通过代码调整解决，建议更新项目代码以应用修复。","https:\u002F\u002Fgithub.com\u002Fmobarski\u002Fask-my-pdf\u002Fissues\u002F46",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},21634,"启动时出现 'ClientError: InvalidArgument when calling ListObjects' S3 存储错误如何处理？","此错误发生在未配置 S3 凭证但程序尝试初始化 S3 存储时。在 v0.4.1 版本中已修复：默认改用 DictStorage（内存存储）。如果必须使用 S3，请确保在环境变量中正确配置了 S3 凭证；否则程序将自动禁用 S3 存储以避免崩溃。建议升级到 0.4.1 或更高版本。","https:\u002F\u002Fgithub.com\u002Fmobarski\u002Fask-my-pdf\u002Fissues\u002F3",{"id":133,"question_zh":134,"answer_zh":135,"source_url":121},21635,"如何处理多栏排版的 PDF 文档以获得更好的提取效果？","虽然有人建议使用 pdfplumber，但维护者测试发现 PyPDF（特别是新版 pypdf）在处理多栏文档时表现更好。项目已重写代码使用 PdfReader 来替代旧版接口，以优化对复杂排版 PDF 的支持。无需额外切换库，保持使用项目默认的 pypdf 即可。",{"id":137,"question_zh":138,"answer_zh":139,"source_url":140},21636,"大文件加载响应时间过长，支持像 ChatGPT 那样的流式输出吗？","目前该项目在处理大 PDF 时是一次性渲染整个文本块，导致加载较慢。Issue 中讨论了分段流式输出的可能性，但尚未在项目中实现。如果急需流式体验，可以尝试使用外部服务如 chatpdf.com，或者关注项目后续更新以查看是否添加此功能。","https:\u002F\u002Fgithub.com\u002Fmobarski\u002Fask-my-pdf\u002Fissues\u002F43",{"id":142,"question_zh":143,"answer_zh":144,"source_url":121},21637,"安装依赖后仍然报 PyPDF2 弃用错误，如何强制使用新版本？","如果运行 \"pip install -r requirements.txt\" 后仍报错，说明 requirements.txt 中锁定了旧版本。维护者计划更新该文件。临时解决方法是手动升级库：运行 \"pip install --upgrade pypdf\" 以确保安装包含 PdfReader 的最新版本，而不是已弃用的 PyPDF2。",[]]