[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-dCaples--AutoDidact":3,"tool-dCaples--AutoDidact":62},[4,18,26,36,46,54],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",160784,2,"2026-04-19T11:32:54",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":42,"last_commit_at":43,"category_tags":44,"status":17},8272,"opencode","anomalyco\u002Fopencode","OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。\n\n这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。\n\n在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信",144296,1,"2026-04-16T14:50:03",[13,45],"插件",{"id":47,"name":48,"github_repo":49,"description_zh":50,"stars":51,"difficulty_score":32,"last_commit_at":52,"category_tags":53,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,"2026-04-18T11:18:24",[14,15,13],{"id":55,"name":56,"github_repo":57,"description_zh":58,"stars":59,"difficulty_score":32,"last_commit_at":60,"category_tags":61,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[45,13,15,14],{"id":63,"github_repo":64,"name":65,"description_en":66,"description_zh":67,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":78,"owner_email":77,"owner_twitter":77,"owner_website":79,"owner_url":80,"languages":81,"stars":90,"forks":91,"last_commit_at":92,"license":77,"difficulty_score":10,"env_os":93,"env_gpu":94,"env_ram":93,"env_deps":95,"category_tags":102,"github_topics":77,"view_count":32,"oss_zip_url":77,"oss_zip_packed_at":77,"status":17,"created_at":103,"updated_at":104,"faqs":105,"releases":129},9824,"dCaples\u002FAutoDidact","AutoDidact","Autonomously train research-agent LLMs on custom data using reinforcement learning and self-verification.","AutoDidact 是一款专为小型大语言模型设计的开源训练框架，旨在让模型通过强化学习自主提升研究与推理能力。它主要解决了小参数模型在面对复杂任务时，难以有效利用外部知识库进行多步搜索和精准回答的难题。\n\n该工具的核心亮点在于“自举式”训练机制：模型能基于文档自动生成问答对，并利用自我验证机制评估答案准确性，形成闭环反馈。借助 GRPO（群组相对策略优化）算法，AutoDidact 能在单张消费级显卡（如 RTX 4090）上高效运行，引导模型从最初胡乱调用搜索工具或产生幻觉，进化为能够制定策略、多次迭代查询并精准定位信息的智能代理。实验显示，仅经过一小时训练，Llama-8B 在特定任务上的准确率即可翻倍。\n\nAutoDidact 非常适合 AI 研究人员、开发者以及希望探索低成本模型微调方案的技术团队使用。它不仅提供了一个完全本地化、开源的训练流水线，还展示了小模型如何通过自主交互实现能力跃迁，是研究智能体搜索与推理进化的理想工具。","# **AutoDidact: Bootstrapping Search Through Self-Verification**\n\n**Research exploring how small LLMs can autonomously enhance their own research and reasoning capabilities by generating, researching, and answering self-created question-answer pairs, learning agentic search via reinforcement learning. All running on a single RTX 4090!**\n\n**Credits:** This project was built using [Unsloth's Efficient GRPO code](https:\u002F\u002Funsloth.ai\u002Fblog\u002Fr1-reasoning), and adds support for function calling and agentic loops.\n\n---\n\n## 🚀 **Key Features**\n\n- **Self-Bootstrapping with Llama-8B:** Llama-8B autonomously generates meaningful question-answer pairs from documents, then trains itself to search the corpus effectively to answer these self-generated questions.\n- **Autonomous Self-Verification:** Llama-8B evaluates the accuracy of its own answers, creating a self-improving feedback loop.\n- **GRPO Reinforcement Learning:** Implements Group Relative Policy Optimization (GRPO) to refine Llama-8B’s ability to research, search, and reason effectively.\n- **Fully Autonomous Open-Source Pipeline:**\n  Every step, including question generation, answer research, verification, embedding creation, and reinforcement learning, runs locally using open-source models.\n\n---\n## 📊 **Demonstrated Results**\n\n![Alt Text](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FdCaples_AutoDidact_readme_c982e7419457.png)\n\nAfter just **100 steps of GRPO training** (1 hour on a single RTX 4090 GPU), Llama-8B significantly improved its ability to research and answer questions from the Apollo 13 mission report.\n\nOn a validation set of 68 questions, **accuracy more than doubled from 23% to 59%**.\n\n---\n\n## 🔍 **Example: Adaptive Search Trajectory**\n\nAt the start of training, the model frequently **misused the search tool**, often:\n\n- Formatting tool calls incorrectly.\n- Hallucinating responses instead of actually querying the corpus.\n- Generating entire sequences where it **role-played both** the search engine and itself, responding to imaginary search results.\n\nThrough training, however, the model **learned to reason and search effectively**. It began issuing **well-formed queries**, refining its searches based on partial results, and successfully retrieving accurate answers.\n\nThe following example demonstrates this learned adaptive search behavior **after training**.\n\n### **Example Question**\n\n**What was the reason for substituting the backup Command Module Pilot 3 days prior to the Apollo 13 flight?**\n\n### **Step-by-Step Search Process**\n\n1. **Query** : `\"Apollo 13 Command Module Pilot substitution\"`\n\n   - **Outcome**: Retrieved operational support details, but no explanation for the substitution.\n   - **Agent's Action**: Recognized missing information → **Refined query**.\n2. **Query** : `\"Apollo 13 Command Module Pilot substitution reason\"`\n\n   - **Outcome**: Retrieved general mission anomaly details, but still no direct answer.\n   - **Agent's Action**: Increased query specificity.\n3. **Query** : `\"Apollo 13 John 'Jack' Swigert substitution\"`\n\n   - **Outcome**: Found general mission reports, but still lacked a clear reason for substitution.\n   - **Agent's Action**: Hypothesized illness might be a factor → **Refined query accordingly**.\n4. **Query** : `\"Apollo 13 Jack Swigert illness substitution\"`\n\n   - **Outcome**: Retrieved the **exact explanation**:\n     *\"Several days prior to launch, the backup Lunar Module Pilot became sick with measles. Examinations of the prime crew indicated that the Command Module Pilot was not immune to the disease; therefore, the backup Command Module Pilot was substituted.\"*\n\n### **Final Answer**\n\nThe original Command Module Pilot lacked immunity to measles, necessitating his replacement by Jack Swigert.\n\nThis example shows how llama learns to do multiple searches to find answers to its questions.\n\n---\n\n## 📈 **Quickstart**\n\n### **Installation**\n\n```bash\npip install -r requirements.txt\n```\n\n### **Data Generation & Training**\n\nBegin by generating the embeddings, questions, and answers:\n\n```bash\npython generate_data.py  # Generate QA pairs and embeddings for your documents\n```\n\nNow, run `autodidact.ipynb` and watch your research agent learn!\n\n---\n\n## 🛠️ **Code Structure**\n\n- **`generate_data.py`** – Automates QA pair generation and indexing.\n- **`search_module.py`** – Enables semantic search over document corpus.\n- **`embeddings.py`** – Manages document\u002Fquery embedding generation.\n- **`rl_helpers.py`** – Controls agent interactions and reward logic.\n- **`autodidact.ipynb`** – Full training pipeline example.\n\n---\n\n## 🔬 **Customizing the Dataset**\n\nReplace the existing Apollo 13 mission report (`data\u002Fmission_report.md`) with your own markdown file. Then, rerun:\n\n```bash\npython generate_data.py\n```\n\nThis will generate new question-answer pairs and build a search index, allowing you to train a research agent on **any dataset**.\n\n---\n","# **AutoDidact：通过自我验证实现自举式搜索**\n\n**研究探索小型大语言模型如何通过生成、研究并回答自己创建的问答对，利用强化学习中的代理式搜索来自主提升自身的研究与推理能力。这一切都在一台 RTX 4090 上运行！**\n\n**致谢：** 本项目基于 [Unsloth 的高效 GRPO 代码](https:\u002F\u002Funsloth.ai\u002Fblog\u002Fr1-reasoning) 构建，并新增了函数调用和代理循环的支持。\n\n---\n\n## 🚀 **核心特性**\n\n- **使用 Llama-8B 自我启动：** Llama-8B 能够从文档中自主生成有意义的问答对，随后训练自身以高效地检索语料库，从而回答这些自动生成的问题。\n- **自主自我验证：** Llama-8B 会评估自身答案的准确性，形成一个自我改进的反馈循环。\n- **GRPO 强化学习：** 实现了分组相对策略优化（GRPO），以不断精进 Llama-8B 的研究、检索和推理能力。\n- **完全自主的开源流水线：** 从问题生成、答案研究、验证、嵌入创建到强化学习，所有步骤均在本地使用开源模型完成。\n\n---\n## 📊 **实验结果**\n\n![Alt Text](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FdCaples_AutoDidact_readme_c982e7419457.png)\n\n仅经过 **100 步 GRPO 训练**（在单张 RTX 4090 显卡上耗时约 1 小时），Llama-8B 在从阿波罗 13 号任务报告中研究并回答问题的能力上有了显著提升。\n\n在包含 68 个问题的验证集上，**准确率从 23% 提升至 59%**，增幅超过一倍。\n\n---\n\n## 🔍 **示例：自适应搜索轨迹**\n\n在训练初期，模型经常 **误用搜索工具**，具体表现为：\n\n- 工具调用格式错误；\n- 幻觉式回应，而非真正查询语料库；\n- 甚至会生成完整的对话序列，其中它 **同时扮演** 搜索引擎和自身角色，对虚构的搜索结果作出回应。\n\n然而，随着训练的进行，模型逐渐 **学会了有效推理与搜索**。它开始发出 **规范的查询请求**，根据部分结果不断优化搜索策略，并成功获取准确的答案。\n\n以下示例展示了训练后模型所展现出的自适应搜索行为。\n\n### **示例问题**\n\n**阿波罗 13 号发射前 3 天，为何要更换替补指令舱飞行员？**\n\n### **逐步搜索过程**\n\n1. **查询**：“阿波罗 13 指令舱飞行员更换”\n   - **结果**：检索到了任务支持的相关信息，但并未解释更换原因。\n   - **行动**：模型意识到信息不足 → **优化查询**。\n2. **查询**：“阿波罗 13 指令舱飞行员更换原因”\n   - **结果**：获取了任务异常的一般性说明，但仍无直接答案。\n   - **行动**：进一步细化查询内容。\n3. **查询**：“阿波罗 13 约翰·“杰克”·斯威格特更换”\n   - **结果**：找到了任务报告的相关内容，但仍未明确更换原因。\n   - **行动**：模型推测可能是健康因素导致 → **相应调整查询**。\n4. **查询**：“阿波罗 13 杰克·斯威格特患病更换”\n   - **结果**：最终找到了 **确切的解释**：\n     *“发射前几天，替补登月舱飞行员感染麻疹。经检查，主乘组中的指令舱飞行员对麻疹没有免疫力，因此决定更换替补指令舱飞行员。”*\n\n### **最终答案**\n\n原指令舱飞行员对麻疹缺乏免疫力，因此需要由杰克·斯威格特替代。\n\n此示例展示了 Llama 模型如何通过多次搜索找到问题的答案。\n\n---\n\n## 📈 **快速入门**\n\n### **安装**\n\n```bash\npip install -r requirements.txt\n```\n\n### **数据生成与训练**\n\n首先生成嵌入、问题和答案：\n\n```bash\npython generate_data.py  # 为您的文档生成 QA 对及嵌入\n```\n\n然后运行 `autodidact.ipynb`，观看您的研究代理学习成长！\n\n---\n\n## 🛠️ **代码结构**\n\n- **`generate_data.py`** – 自动化生成 QA 对并建立索引。\n- **`search_module.py`** – 支持对文档语料库的语义搜索。\n- **`embeddings.py`** – 管理文档\u002F查询嵌入的生成。\n- **`rl_helpers.py`** – 控制智能体交互及奖励逻辑。\n- **`autodidact.ipynb`** – 完整的训练流程示例。\n\n---\n\n## 🔬 **自定义数据集**\n\n将现有的阿波罗 13 号任务报告（`data\u002Fmission_report.md`）替换为您自己的 Markdown 文件。然后重新运行：\n\n```bash\npython generate_data.py\n```\n\n这将生成新的问答对并构建搜索索引，使您能够基于 **任意数据集** 训练研究代理。\n---","# AutoDidact 快速上手指南\n\nAutoDidact 是一个开源研究项目，旨在通过自验证机制引导小型大语言模型（如 Llama-8B）自主提升研究与推理能力。它利用强化学习（GRPO）让模型学会生成问题、搜索文档并自我验证答案，所有流程均可在单张 RTX 4090 显卡上本地运行。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**：Linux (推荐) 或 macOS\n*   **GPU**：NVIDIA GPU，显存建议 24GB 及以上（如 RTX 3090\u002F4090），需支持 CUDA\n*   **Python**：版本 3.10 或更高\n*   **前置依赖**：\n    *   PyTorch (适配您的 CUDA 版本)\n    *   Unsloth 库 (用于高效的 GRPO 训练)\n    *   Hugging Face Transformers & Accelerate\n\n> **国内加速建议**：\n> 安装依赖时，建议使用清华或阿里镜像源以加快下载速度：\n> ```bash\n> pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> ```\n> 拉取模型时，可配置 `HF_ENDPOINT` 环境变量使用镜像站：\n> ```bash\n> export HF_ENDPOINT=https:\u002F\u002Fhf-mirror.com\n> ```\n\n## 安装步骤\n\n1.  **克隆项目代码**\n    ```bash\n    git clone \u003Crepository-url>\n    cd \u003Crepository-directory>\n    ```\n\n2.  **安装依赖包**\n    执行以下命令安装项目所需的所有 Python 库：\n    ```bash\n    pip install -r requirements.txt\n    ```\n\n## 基本使用\n\n以下是训练一个具备自主搜索能力的研究代理的最简流程。\n\n### 1. 生成数据与索引\n首先，需要基于文档生成问答对（QA Pairs）并构建向量索引。默认数据集为阿波罗 13 号任务报告。\n\n```bash\npython generate_data.py\n```\n*注：若要使用自定义数据集，只需将您的 Markdown 文件替换 `data\u002Fmission_report.md`，然后重新运行上述命令即可。*\n\n### 2. 启动训练\n数据准备完成后，打开 Jupyter Notebook 运行完整的训练流水线。模型将通过 GRPO 强化学习算法，在约 100 步迭代后显著提升搜索与回答准确率。\n\n```bash\njupyter notebook autodidact.ipynb\n```\n\n在 Notebook 中按顺序执行单元格，即可观察模型如何从“胡乱调用工具”进化为“自适应多步搜索”的过程。","某航天历史研究团队正利用本地部署的 Llama-8B 模型，构建一个能深度解读阿波罗任务原始档案的智能问答系统。\n\n### 没有 AutoDidact 时\n- **检索能力薄弱**：模型面对复杂问题时，常因无法构造有效搜索关键词而直接“幻觉”出错误答案，而非真正查阅文档。\n- **缺乏自我修正**：生成的回答准确率极低（仅约 23%），且模型无法判断自身错误，陷入盲目自信的循环。\n- **工具调用混乱**：经常格式错误地调用搜索工具，甚至自导自演虚构搜索结果，导致整个推理链条失效。\n- **依赖人工标注**：若要提升效果，需耗费大量人力编写高质量的问答对和搜索轨迹数据进行微调。\n\n### 使用 AutoDidact 后\n- **自主进化检索策略**：AutoDidact 让模型通过强化学习（GRPO）自我训练，学会了像人类专家一样多次迭代查询（如从泛泛搜索细化到特定人员病因），精准定位信息。\n- **建立自查闭环**：模型能自动生成问答对并评估答案准确性，形成自我验证反馈回路，将特定领域的回答准确率从 23% 提升至 59%。\n- **规范工具使用**：彻底纠正了胡乱调用搜索工具的毛病，能够输出格式严谨的查询指令，并基于真实返回结果进行逻辑推理。\n- **零成本数据启动**：无需人工标注，AutoDidact 仅需单张 RTX 4090 显卡，即可在 1 小时内自动完成从数据生成到模型增强的全流程。\n\nAutoDidact 的核心价值在于让小型开源模型具备了“自学成才”的能力，仅需极低成本即可将其转化为精通特定领域文档的独立研究智能体。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FdCaples_AutoDidact_c982e741.png","dCaples","Diego Caples","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FdCaples_613b005a.jpg","Founder @ Markov Robotics",null,"🌉","https:\u002F\u002Fdiegocaples.com","https:\u002F\u002Fgithub.com\u002FdCaples",[82,86],{"name":83,"color":84,"percentage":85},"Jupyter Notebook","#DA5B0B",88,{"name":87,"color":88,"percentage":89},"Python","#3572A5",12,689,62,"2026-04-17T13:01:22","未说明","必需，NVIDIA RTX 4090 (演示环境)，需支持 Unsloth 及 GRPO 训练",{"notes":96,"python":93,"dependencies":97},"该项目基于 Unsloth 的高效 GRPO 代码构建，支持函数调用和代理循环。演示表明在单张 RTX 4090 GPU 上运行 1 小时（100 步训练）即可显著提升模型能力。所有步骤（包括问题生成、搜索、验证和强化学习）均可在本地使用开源模型完成。用户可替换 markdown 文件以自定义数据集。",[98,99,100,101],"unsloth","torch","transformers","accelerate",[35,14,13],"2026-03-27T02:49:30.150509","2026-04-20T07:17:57.914068",[106,111,116,121,125],{"id":107,"question_zh":108,"answer_zh":109,"source_url":110},44113,"AutoDidact 与 R1-Searcher 项目有什么主要区别？","主要区别在于训练数据的依赖性。R1-Searcher 需要一个包含问题和答案的数据集来学习如何在语料库中进行检索；而 AutoDidact 框架让模型自己提出问题，并学习如何搜索和回答这些问题，完全不需要监督式的问答数据集（No supervised QA set necessary）。","https:\u002F\u002Fgithub.com\u002FdCaples\u002FAutoDidact\u002Fissues\u002F1",{"id":112,"question_zh":113,"answer_zh":114,"source_url":115},44114,"运行 AutoDidact 需要什么样的硬件环境？","该项目可以在单张消费级显卡上运行，例如 RTX 4090。它不需要昂贵的集群或云端资源即可实现模型的自主学习和推理能力提升。","https:\u002F\u002Fgithub.com\u002FdCaples\u002FAutoDidact\u002Fissues\u002F3",{"id":117,"question_zh":118,"answer_zh":119,"source_url":120},44115,"推荐使用哪个版本的 Python 以避免依赖冲突？","建议使用 Python 3.12。有用户反馈在 Python 3.10 环境下会与 xformers 等库产生冲突，而在 Python 3.12 环境下运行正常。","https:\u002F\u002Fgithub.com\u002FdCaples\u002FAutoDidact\u002Fissues\u002F7",{"id":122,"question_zh":123,"answer_zh":124,"source_url":120},44116,"安装 AutoDidact 需要哪些具体的依赖库版本？","以下是经过验证的 requirements.txt 配置（基于 Python 3.12）：\naccelerate==1.6.0\naiofiles==24.1.0\naiohttp==3.11.16\nbitsandbytes==0.45.5\ncupy-cuda12x==13.4.1\ndatasets==3.5.0\ndiffusers==0.33.1\neinops==0.8.1\nfaiss-cpu==1.10.0\nfastapi==0.115.12\nGitPython==3.1.44\ntransformers (隐含依赖)\n其他关键库包括：compressed-tensors==0.9.2, cut-cross-entropy==25.1.1, gguf==0.10.0。请确保 CUDA 版本与 cupy-cuda12x 匹配。",{"id":126,"question_zh":127,"answer_zh":128,"source_url":115},44117,"AutoDidact 模型的自我学习效果如何？","该模型展现了显著的自举（bootstrapping）学习能力。通过生成问题、自主搜索答案并自我验证的循环，模型准确率从初始的 23% 提升到了 53%。其搜索行为也从最初的混乱逐渐演变为精确查询。",[]]