[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-RUC-NLPIR--Search-o1":3,"tool-RUC-NLPIR--Search-o1":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":75,"owner_avatar_url":76,"owner_bio":77,"owner_company":78,"owner_location":78,"owner_email":78,"owner_twitter":78,"owner_website":79,"owner_url":80,"languages":81,"stars":90,"forks":91,"last_commit_at":92,"license":93,"difficulty_score":10,"env_os":94,"env_gpu":95,"env_ram":94,"env_deps":96,"category_tags":101,"github_topics":102,"view_count":23,"oss_zip_url":78,"oss_zip_packed_at":78,"status":16,"created_at":113,"updated_at":114,"faqs":115,"releases":145},2217,"RUC-NLPIR\u002FSearch-o1","Search-o1","🔍 Search-o1: Agentic Search-Enhanced Large Reasoning Models [EMNLP 2025]","Search-o1 是一款专为提升大型推理模型（LRM）能力而设计的开源框架，其核心理念是将“智能体搜索”与深度推理相结合。针对如 OpenAI o1 等现有模型在长链条推理过程中，常因内部知识储备不足而产生不确定性或事实性错误的问题，Search-o1 赋予了模型主动调用外部搜索工具的能力。它不再让模型仅依赖训练数据中的静态知识“闭门造车”，而是在遇到知识盲区时，像人类专家一样实时检索最新、最准确的外部信息，从而显著提高了复杂任务（如高难度数学解题或专业问答）的准确率与可靠性。\n\n该项目特别适合人工智能研究人员、大模型开发者以及需要构建高可信度推理应用的技术团队使用。其独特的技术亮点在于\"Agentic Search\"（智能体搜索）机制，即模型能够自主判断何时需要搜索、如何构建查询以及如何将检索结果整合进推理步骤中，形成闭环的自我修正过程。作为一篇已被 EMNLP 2025 主会录用的研究成果，Search-o1 提供了完整的代码实现，旨在帮助社区突破纯参数化模型的知识边界，探索神经符号结合的新方向。","\n\u003Ch1 align=\"center\"> 🔍 Search-o1: Agentic Search-Enhanced\u003C\u002Fbr> Large Reasoning Models\u003C\u002Fa>\u003C\u002Fh1>\n\n\n\n\n\u003Cdiv align=\"center\"> \n\n[![Homepage](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHomepage-Search--o1-red)](https:\u002F\u002Fsearch-o1.github.io\u002F) \n[![Paper](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPaper-arXiv-b5212f.svg?logo=arxiv)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.05366) \n[![License](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLICENSE-MIT-green.svg)](https:\u002F\u002Fopensource.org\u002Flicenses\u002FMIT) \n[![Python 3.9+](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPython-3.9+-blue.svg)](https:\u002F\u002Fwww.python.org\u002Fdownloads\u002Frelease\u002Fpython-390\u002F) \n[![X (formerly Twitter) URL](https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Furl?url=https%3A%2F%2Fx.com%2FKevin_GuoweiXu%2Fstatus%2F1858338565463421244)](https:\u002F\u002Fx.com\u002F_akhaliq\u002Fstatus\u002F1877584951840764166?t=fnbTblnqhiPtAyYr1PHbbw&s=19)\n\u003C\u002Fdiv>\n\n\n\u003C!-- \u003Cdiv align=\"center\">\n    \u003Cspan style=\"display:inline-block; margin-right: 10px;\">\n        \u003Ca href=\"https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Fmathematical-reasoning-on-aime24?p=search-o1-agentic-search-enhanced-large\">\n            \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fendpoint.svg?url=https:\u002F\u002Fpaperswithcode.com\u002Fbadge\u002Fsearch-o1-agentic-search-enhanced-large\u002Fmathematical-reasoning-on-aime24\" alt=\"AIME24 Badge\">\n        \u003C\u002Fa>\n    \u003C\u002Fspan>\n    \u003Cspan style=\"display:inline-block; margin-right: 10px;\">\n        \u003Ca href=\"https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Fmathematical-reasoning-on-amc23?p=search-o1-agentic-search-enhanced-large\">\n            \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fendpoint.svg?url=https:\u002F\u002Fpaperswithcode.com\u002Fbadge\u002Fsearch-o1-agentic-search-enhanced-large\u002Fmathematical-reasoning-on-amc23\" alt=\"AMC23 Badge\">\n        \u003C\u002Fa>\n    \u003C\u002Fspan>\n  \u003Cspan style=\"display:inline-block; margin-right: 10px;\">\n        \u003Ca href=\"https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Fon-gpqa?p=search-o1-agentic-search-enhanced-large\">\n            \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fendpoint.svg?url=https:\u002F\u002Fpaperswithcode.com\u002Fbadge\u002Fsearch-o1-agentic-search-enhanced-large\u002Fon-gpqa\" alt=\"GPQA Badge\">\n        \u003C\u002Fa>\n    \u003C\u002Fspan>\n\u003C\u002Fdiv> -->\n\n\n\n\u003Ch5 align=\"center\"> If you like our project, please give us a star ⭐ on GitHub for the latest update.\u003C\u002Fh5>\n\n## 📣 Latest News\n- **08\u002F21\u002F2025**: 🎉 Search-o1 is accepted by EMNLP 2025 main conference!\n- **05\u002F01\u002F2025**: 🎉 **Our new framework WebThinker is available**, which empowers reasoning models with **deep research** capability. You can access the [Github Repo](https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FWebThinker) and the [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.21776).\n- **01\u002F10\u002F2025**: The brief introduction of our Search-o1 can be found on platforms like [X](https:\u002F\u002Fx.com\u002F_akhaliq\u002Fstatus\u002F1877584951840764166?t=fnbTblnqhiPtAyYr1PHbbw&s=19), [Zhihu](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F17527068532), and [WeChat](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002FJ_n5cn_Zp4lRs8ESqFEFmg).\n- **01\u002F10\u002F2025**: The paper for Search-o1 is available. You can access it on [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.05366), [alphaXiv](https:\u002F\u002Fwww.alphaxiv.org\u002Fabs\u002F2501.05366) and [HF-paper](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2501.05366).\n- **01\u002F06\u002F2025**: The homepage for Search-o1 is available. You can access it [here](https:\u002F\u002Fsearch-o1.github.io\u002F).\n- **01\u002F05\u002F2025**: The code for Search-o1 has been released. You can now apply Search-o1 to enhance your large reasoning models.\n\n## ✏️ To Do List\n- [ ] Add results of Search-o1 with different backbone reasoning models like [Sky-T1](https:\u002F\u002Fnovasky-ai.github.io\u002Fposts\u002Fsky-t1) and [DeepSeek-R1](https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002FDeepSeek-R1).\n- [ ] Train the reasoning models to better utilize search tool.\n- [ ] Add more tools (e.g., calculators, code interpreters, ...) to further improve the capabilities of reasoning models.\n\n## 💡 Overview\n\nLarge Reasoning Models (LRMs) like OpenAI's o1 have showcased remarkable long stepwise reasoning capabilities through large-scale reinforcement learning. Despite their strengths, these models often encounter knowledge insufficiencies during prolonged reasoning processes, resulting in frequent uncertainties and potential errors, as shown in the following figure.\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRUC-NLPIR_Search-o1_readme_2c3ead1a6e09.jpg\" width=\"95%\" \u002F>\n\u003C\u002Fp>\n\n### ✨ Method\n\nTo overcome these challenges, we present **Search-o1**, a framework that augments LRMs with an **agentic Retrieval-Augmented Generation (RAG)** mechanism and a **Reason-in-Documents** module for deep analysis and integration of retrieved documents into the reasoning chain.\n- **Agentic Search Workflow**: Integrates an agentic search process into the reasoning workflow, allowing models itself to dynamically retrieve external knowledge whenever they encounter uncertain information.\n- **Reason-in-Documents Module**: Seamlessly integrates the retrieved information, reducing noise and maintaining a coherent reasoning chain.\n\n![Model Comparison](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRUC-NLPIR_Search-o1_readme_0f6478f4755f.png)\n\n\n### ✨ Inference Process\n\nSearch-o1 incorporates a batch generation mechanism with interleaved search. We initialize reasoning sequences by combining task instructions with input questions. It simultaneously generates tokens for all sequences, detecting search queries to retrieve relevant documents in batches. These documents are then refined and seamlessly integrated back into the reasoning chains, iterating this process until all sequences are completed and final answers are produced.\n\n![Inference](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRUC-NLPIR_Search-o1_readme_1b9b7e880e51.png)\n\nThis approach enhances the reliability and accuracy of LRMs, enabling them to handle complex reasoning tasks more effectively by addressing knowledge gaps in real-time.\n\n\n## 🔧 Installation\n\n### 1. Environment Setup\n```bash\n# Create conda environment\nconda create -n search_o1 python=3.9\nconda activate search_o1\n\n# Install requirements\ncd Search-o1\npip install -r requirements.txt\n```\n\n## 🏃 Quick Start\n\n### Data Preparation\n\nUse the code provided in `data\u002Fdata_pre_process.ipynb` to preprocess each dataset into our standardized JSON format. The datasets we utilize are categorized into two types:\n\n- **Challenging Reasoning Tasks:** \n    - **PhD-level Science QA:** GPQA\n    - **Math Benchmarks:** MATH500, AMC2023, AIME2024\n    - **Code Benchmark:** LiveCodeBench\n- **Open-domain QA Tasks:**\n    - **Single-hop QA:** NQ, TriviaQA\n    - **Multi-hop QA:** HotpotQA, 2WikiMultihopQA, MuSiQue, Bamboogle\n\nTo preprocess the datasets, follow these steps:\n\n1. Open the Jupyter notebook `data\u002Fdata_pre_process.ipynb`.\n2. For each dataset, run the corresponding preprocessing cells to convert the raw data into a unified JSON format.\n3. The processed datasets will be saved in the `data\u002F` directory.\n\nIf your task does not belong to any of the datasets mentioned above, for generation tasks such as QA, math, or code, etc., format the data as `{'Question': str, 'answer': str}`. For multi-choice tasks, format the data as `{'Question': str, 'Correct Choice': str}`. Additionally, modify `scripts\u002Fevaluate.py`, `scripts\u002Fprompts.py`, and `scripts\u002Frun_xxx_xxx.py` to match your task.\n\n### Model Inference\n\nYou can run different inference modes using the provided scripts. Below are examples of how to execute each mode:\n\n1. **Direct Reasoning (Direct Generation)**\n```bash\npython scripts\u002Frun_direct_gen.py \\\n    --dataset_name gpqa \\\n    --split diamond \\\n    --model_path \"YOUR_MODEL_PATH\"\n```\n\n2. **Naive Retrieval-Augmented Generation (RAG)**\n```bash\npython scripts\u002Frun_naive_rag.py \\\n    --dataset_name gpqa \\\n    --split diamond \\\n    --use_jina True \\\n    --model_path \"YOUR_MODEL_PATH\" \\\n    --jina_api_key \"YOUR_JINA_API_KEY\" \\\n    --bing_subscription_key \"YOUR_BING_SUBSCRIPTION_KEY\"\n```\n\n3. **RAG with Agentic Search**\n```bash\npython scripts\u002Frun_rag_agent.py \\\n    --dataset_name gpqa \\\n    --split diamond \\\n    --max_search_limit 5 \\\n    --max_url_fetch 5 \\\n    --max_turn 10 \\\n    --top_k 10 \\\n    --use_jina True \\\n    --model_path \"YOUR_MODEL_PATH\" \\\n    --jina_api_key \"YOUR_JINA_API_KEY\" \\\n    --bing_subscription_key \"YOUR_BING_SUBSCRIPTION_KEY\"\n```\n\n4. **Search-o1 (Ours)**\n```bash\npython scripts\u002Frun_search_o1.py \\\n    --dataset_name aime \\\n    --split test \\\n    --max_search_limit 5 \\\n    --max_turn 10 \\\n    --top_k 10 \\\n    --max_doc_len 3000 \\\n    --use_jina True \\\n    --model_path \"YOUR_MODEL_PATH\" \\\n    --jina_api_key \"YOUR_JINA_API_KEY\" \\\n    --bing_subscription_key \"YOUR_BING_SUBSCRIPTION_KEY\"\n```\n\n**Parameters Explanation:**\n- `--dataset_name`: Name of the dataset to use (e.g., gpqa, aime).\n- `--split`: Data split to run (e.g., train, test, diamond).\n- `--model_path`: Path to the pre-trained LRM model.\n- `--bing_subscription_key`: Your Bing Search API subscription key.\n- `--max_search_limit`: Maximum number of search queries per reasoning session.\n- `--max_url_fetch`: Maximum number of URLs to fetch per search.\n- `--max_turn`: Maximum number of reasoning turns.\n- `--top_k`: Number of top documents to retrieve.\n- `--max_doc_len`: Maximum length of each retrieved document.\n- `--use_jina`: Whether to use Jina for document processing.\n- `--jina_api_key`: Your Jina API subscription key for URL content fetching.\n\nEnsure you replace `\"YOUR_MODEL_PATH\"` with your actual model path, replace `\"YOUR_BING_SUBSCRIPTION_KEY\"` and `\"YOUR_JINA_API_KEY\"` with your Bing Search and Jina API key.\n\n### Evaluation\n\nOur model inference scripts will automatically save the model's input and output texts for evaluation. However, for methods with retrieval, since the model has not been trained to use the retrieved text effectively, it often fails to provide a final answer. We apply a backoff strategy to use the direct generation result when the retrieval-based methods do not provide a final answer for a given data point.\n\nTo use this backoff strategy, you need to provide the path to the direct generation results in the `scripts\u002Fevaluate.py` file, and then use the following command to get the backoff results for retrieval-based methods:\n\n```bash\npython scripts\u002Fevaluate.py \\\n    --output_path outputs\u002F... \\\n    --apply_backoff\n```\n\n\n## 📄 Citation\n\nIf you find this work helpful, please cite our paper:\n```bibtex\n@article{Search-o1,\n  author       = {Xiaoxi Li and\n                  Guanting Dong and\n                  Jiajie Jin and\n                  Yuyao Zhang and\n                  Yujia Zhou and\n                  Yutao Zhu and\n                  Peitian Zhang and\n                  Zhicheng Dou},\n  title        = {Search-o1: Agentic Search-Enhanced Large Reasoning Models},\n  journal      = {CoRR},\n  volume       = {abs\u002F2501.05366},\n  year         = {2025},\n  url          = {https:\u002F\u002Fdoi.org\u002F10.48550\u002FarXiv.2501.05366},\n  doi          = {10.48550\u002FARXIV.2501.05366},\n  eprinttype    = {arXiv},\n  eprint       = {2501.05366},\n  timestamp    = {Wed, 19 Feb 2025 21:19:08 +0100},\n  biburl       = {https:\u002F\u002Fdblp.org\u002Frec\u002Fjournals\u002Fcorr\u002Fabs-2501-05366.bib},\n  bibsource    = {dblp computer science bibliography, https:\u002F\u002Fdblp.org}\n}\n```\n\n## 📄 License\n\nThis project is released under the [MIT License](LICENSE).\n\n## 📞 Contact\n\nFor any questions or feedback, please reach out to us at [xiaoxi_li@ruc.edu.cn](xiaoxi_li@ruc.edu.cn).\n\n## 🌟 Star History\n\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRUC-NLPIR_Search-o1_readme_c74f5c8daecf.png)](https:\u002F\u002Fstar-history.com\u002F#sunnynexus\u002FSearch-o1&Date)\n","\u003Ch1 align=\"center\"> 🔍 Search-o1：代理式搜索增强型\u003C\u002Fbr> 大型推理模型\u003C\u002Fa>\u003C\u002Fh1>\n\n\n\n\n\u003Cdiv align=\"center\"> \n\n[![主页](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHomepage-Search--o1-red)](https:\u002F\u002Fsearch-o1.github.io\u002F) \n[![论文](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPaper-arXiv-b5212f.svg?logo=arxiv)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.05366) \n[![许可证](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLICENSE-MIT-green.svg)](https:\u002F\u002Fopensource.org\u002Flicenses\u002FMIT) \n[![Python 3.9+](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPython-3.9+-blue.svg)](https:\u002F\u002Fwww.python.org\u002Fdownloads\u002Frelease\u002Fpython-390\u002F) \n[![X（前Twitter）链接](https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Furl?url=https%3A%2F%2Fx.com%2FKevin_GuoweiXu%2Fstatus%2F1858338565463421244)](https:\u002F\u002Fx.com\u002F_akhaliq\u002Fstatus\u002F1877584951840764166?t=fnbTblnqhiPtAyYr1PHbbw&s=19)\n\u003C\u002Fdiv>\n\n\n\u003C!-- \u003Cdiv align=\"center\">\n    \u003Cspan style=\"display:inline-block; margin-right: 10px;\">\n        \u003Ca href=\"https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Fmathematical-reasoning-on-aime24?p=search-o1-agentic-search-enhanced-large\">\n            \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fendpoint.svg?url=https:\u002F\u002Fpaperswithcode.com\u002Fbadge\u002Fsearch-o1-agentic-search-enhanced-large\u002Fmathematical-reasoning-on-aime24\" alt=\"AIME24徽章\">\n        \u003C\u002Fa>\n    \u003C\u002Fspan>\n    \u003Cspan style=\"display:inline-block; margin-right: 10px;\">\n        \u003Ca href=\"https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Fmathematical-reasoning-on-amc23?p=search-o1-agentic-search-enhanced-large\">\n            \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fendpoint.svg?url=https:\u002F\u002Fpaperswithcode.com\u002Fbadge\u002Fsearch-o1-agentic-search-enhanced-large\u002Fmathematical-reasoning-on-amc23\" alt=\"AMC23徽章\">\n        \u003C\u002Fa>\n    \u003C\u002Fspan>\n  \u003Cspan style=\"display:inline-block; margin-right: 10px;\">\n        \u003Ca href=\"https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Fon-gpqa?p=search-o1-agentic-search-enhanced-large\">\n            \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fendpoint.svg?url=https:\u002F\u002Fpaperswithcode.com\u002Fbadge\u002Fsearch-o1-agentic-search-enhanced-large\u002Fon-gpqa\" alt=\"GPQA徽章\">\n        \u003C\u002Fa>\n    \u003C\u002Fspan>\n\u003C\u002Fdiv> -->\n\n\n\n\u003Ch5 align=\"center\"> 如果您喜欢我们的项目，请在GitHub上为我们点亮一颗星⭐，以获取最新更新。\u003C\u002Fh5>\n\n## 📣 最新消息\n- **2025年8月21日**：🎉 Search-o1已被EMNLP 2025主会接收！\n- **2025年5月1日**：🎉 **我们全新的框架WebThinker现已发布**，它赋予推理模型强大的**深度研究**能力。您可以通过[Github仓库](https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FWebThinker)和[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.21776)进行访问。\n- **2025年1月10日**：关于Search-o1的简要介绍已在[X](https:\u002F\u002Fx.com\u002F_akhaliq\u002Fstatus\u002F1877584951840764166?t=fnbTblnqhiPtAyYr1PHbbw&s=19)、[知乎](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F17527068532)和[微信](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002FJ_n5cn_Zp4lRs8ESqFEFmg)等平台上发布。\n- **2025年1月10日**：Search-o1的论文已公开。您可以在[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.05366)、[alphaXiv](https:\u002F\u002Fwww.alphaxiv.org\u002Fabs\u002F2501.05366)和[HF-paper](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2501.05366)上查阅。\n- **2025年1月6日**：Search-o1的主页已上线。您可以通过[这里](https:\u002F\u002Fsearch-o1.github.io\u002F)访问。\n- **2025年1月5日**：Search-o1的代码已发布。现在您可以应用Search-o1来增强您的大型推理模型。\n\n## ✏️ 待办事项\n- [ ] 添加Search-o1与不同骨干推理模型（如[Sky-T1](https:\u002F\u002Fnovasky-ai.github.io\u002Fposts\u002Fsky-t1)和[DeepSeek-R1](https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002FDeepSeek-R1)）的实验结果。\n- [ ] 训练推理模型，使其更好地利用搜索工具。\n- [ ] 增加更多工具（如计算器、代码解释器等），以进一步提升推理模型的能力。\n\n## 💡 概述\n\n大型推理模型（LRMs）如OpenAI的o1，通过大规模强化学习展现了卓越的长步骤推理能力。尽管这些模型具有强大优势，但在长时间推理过程中，它们常常面临知识不足的问题，导致频繁的不确定性及潜在错误，如下图所示。\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRUC-NLPIR_Search-o1_readme_2c3ead1a6e09.jpg\" width=\"95%\" \u002F>\n\u003C\u002Fp>\n\n### ✨ 方法\n\n为克服这些挑战，我们提出了**Search-o1**，该框架通过**代理式检索增强生成（RAG）**机制以及**文档内推理**模块，将检索到的文档深度分析并整合进推理链中。\n- **代理式搜索流程**：将代理式搜索过程融入推理流程，使模型能够在遇到不确定信息时动态检索外部知识。\n- **文档内推理模块**：无缝整合检索到的信息，减少噪声并保持推理链条的连贯性。\n\n![模型对比](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRUC-NLPIR_Search-o1_readme_0f6478f4755f.png)\n\n\n### ✨ 推理过程\n\nSearch-o1采用批量生成机制，并穿插搜索过程。我们首先结合任务指令和输入问题初始化推理序列。同时为所有序列生成标记，检测搜索查询以批量检索相关文档。随后对这些文档进行精炼，并无缝地重新整合回推理链中，循环此过程直至所有序列完成并产生最终答案。\n\n![推理](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRUC-NLPIR_Search-o1_readme_1b9b7e880e51.png)\n\n这种方法提高了LRMs的可靠性和准确性，使其能够通过实时填补知识空白，更有效地处理复杂的推理任务。\n\n\n## 🔧 安装\n\n### 1. 环境搭建\n```bash\n# 创建conda环境\nconda create -n search_o1 python=3.9\nconda activate search_o1\n\n# 安装依赖\ncd Search-o1\npip install -r requirements.txt\n```\n\n## 🏃 快速入门\n\n### 数据准备\n\n使用`data\u002Fdata_pre_process.ipynb`中提供的代码，将每个数据集预处理为我们的标准化JSON格式。我们使用的数据集分为两类：\n\n- **挑战性推理任务：**\n    - **博士级科学问答：** GPQA\n    - **数学基准测试：** MATH500、AMC2023、AIME2024\n    - **代码基准测试：** LiveCodeBench\n- **开放领域问答任务：**\n    - **单跳问答：** NQ、TriviaQA\n    - **多跳问答：** HotpotQA、2WikiMultihopQA、MuSiQue、Bamboogle\n\n预处理数据集的步骤如下：\n\n1. 打开Jupyter笔记本`data\u002Fdata_pre_process.ipynb`。\n2. 对于每个数据集，运行相应的预处理单元格，将原始数据转换为统一的JSON格式。\n3. 处理后的数据集将保存在`data\u002F`目录下。\n\n如果您处理的任务不属于上述任何数据集，对于QA、数学或代码等生成任务，应将数据格式化为`{'Question': str, 'answer': str}`。对于选择题任务，则应格式化为`{'Question': str, 'Correct Choice': str}`。此外，还需修改`scripts\u002Fevaluate.py`、`scripts\u002Fprompts.py`和`scripts\u002Frun_xxx_xxx.py`以匹配您的任务。\n\n### 模型推理\n\n您可以使用提供的脚本运行不同的推理模式。以下是每种模式的执行示例：\n\n1. **直接推理（直接生成）**\n```bash\npython scripts\u002Frun_direct_gen.py \\\n    --dataset_name gpqa \\\n    --split diamond \\\n    --model_path \"YOUR_MODEL_PATH\"\n```\n\n2. **朴素检索增强生成（RAG）**\n```bash\npython scripts\u002Frun_naive_rag.py \\\n    --dataset_name gpqa \\\n    --split diamond \\\n    --use_jina True \\\n    --model_path \"YOUR_MODEL_PATH\" \\\n    --jina_api_key \"YOUR_JINA_API_KEY\" \\\n    --bing_subscription_key \"YOUR_BING_SUBSCRIPTION_KEY\"\n```\n\n3. **基于智能体搜索的RAG**\n```bash\npython scripts\u002Frun_rag_agent.py \\\n    --dataset_name gpqa \\\n    --split diamond \\\n    --max_search_limit 5 \\\n    --max_url_fetch 5 \\\n    --max_turn 10 \\\n    --top_k 10 \\\n    --use_jina True \\\n    --model_path \"YOUR_MODEL_PATH\" \\\n    --jina_api_key \"YOUR_JINA_API_KEY\" \\\n    --bing_subscription_key \"YOUR_BING_SUBSCRIPTION_KEY\"\n```\n\n4. **Search-o1（我们的方法）**\n```bash\npython scripts\u002Frun_search_o1.py \\\n    --dataset_name aime \\\n    --split test \\\n    --max_search_limit 5 \\\n    --max_turn 10 \\\n    --top_k 10 \\\n    --max_doc_len 3000 \\\n    --use_jina True \\\n    --model_path \"YOUR_MODEL_PATH\" \\\n    --jina_api_key \"YOUR_JINA_API_KEY\" \\\n    --bing_subscription_key \"YOUR_BING_SUBSCRIPTION_KEY\"\n```\n\n**参数说明：**\n- `--dataset_name`: 要使用的数据集名称（例如，gpqa、aime）。\n- `--split`: 要运行的数据划分（例如，train、test、diamond）。\n- `--model_path`: 预训练LRM模型的路径。\n- `--bing_subscription_key`: 您的必应搜索API订阅密钥。\n- `--max_search_limit`: 每次推理会话的最大搜索查询次数。\n- `--max_url_fetch`: 每次搜索最多获取的URL数量。\n- `--max_turn`: 最大推理轮数。\n- `--top_k`: 要检索的前k个文档。\n- `--max_doc_len`: 每个检索文档的最大长度。\n- `--use_jina`: 是否使用Jina进行文档处理。\n- `--jina_api_key`: 用于获取URL内容的Jina API订阅密钥。\n\n请确保将 `\"YOUR_MODEL_PATH\"` 替换为您的实际模型路径，并将 `\"YOUR_BING_SUBSCRIPTION_KEY\"` 和 `\"YOUR_JINA_API_KEY\"` 替换为您自己的必应搜索和Jina API密钥。\n\n### 评估\n\n我们的模型推理脚本会自动保存模型的输入和输出文本以供评估。然而，对于包含检索的方法，由于模型并未经过训练以有效利用检索到的文本，因此通常无法给出最终答案。我们采用回退策略：当基于检索的方法未能为某个数据点提供最终答案时，就使用直接生成的结果。\n\n要使用此回退策略，您需要在 `scripts\u002Fevaluate.py` 文件中提供直接生成结果的路径，然后使用以下命令获取基于检索方法的回退结果：\n\n```bash\npython scripts\u002Fevaluate.py \\\n    --output_path outputs\u002F... \\\n    --apply_backoff\n```\n\n\n## 📄 引用\n\n如果您觉得这项工作有所帮助，请引用我们的论文：\n```bibtex\n@article{Search-o1,\n  author       = {Xiaoxi Li and\n                  Guanting Dong and\n                  Jiajie Jin and\n                  Yuyao Zhang and\n                  Yujia Zhou and\n                  Yutao Zhu and\n                  Peitian Zhang and\n                  Zhicheng Dou},\n  title        = {Search-o1: Agentic Search-Enhanced Large Reasoning Models},\n  journal      = {CoRR},\n  volume       = {abs\u002F2501.05366},\n  year         = {2025},\n  url          = {https:\u002F\u002Fdoi.org\u002F10.48550\u002FarXiv.2501.05366},\n  doi          = {10.48550\u002FARXIV.2501.05366},\n  eprinttype    = {arXiv},\n  eprint       = {2501.05366},\n  timestamp    = {Wed, 19 Feb 2025 21:19:08 +0100},\n  biburl       = {https:\u002F\u002Fdblp.org\u002Frec\u002Fjournals\u002Fcorr\u002Fabs-2501-05366.bib},\n  bibsource    = {dblp computer science bibliography, https:\u002F\u002Fdblp.org}\n}\n```\n\n## 📄 许可证\n\n本项目采用 [MIT许可证](LICENSE) 开放。\n\n## 📞 联系方式\n\n如有任何问题或反馈，请通过 [xiaoxi_li@ruc.edu.cn](xiaoxi_li@ruc.edu.cn) 联系我们。\n\n## 🌟 星标历史\n\n[![星标历史图表](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRUC-NLPIR_Search-o1_readme_c74f5c8daecf.png)](https:\u002F\u002Fstar-history.com\u002F#sunnynexus\u002FSearch-o1&Date)","# Search-o1 快速上手指南\n\nSearch-o1 是一个通过**代理式搜索（Agentic Search）**增强大型推理模型（LRMs）的框架。它允许模型在推理过程中动态检索外部知识，解决知识不足导致的幻觉问题，特别适用于高难度数学、科学问答及代码生成任务。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux 或 macOS (Windows 需使用 WSL)\n*   **Python 版本**: 3.9 或更高版本\n*   **依赖管理**: 推荐使用 `conda` 管理虚拟环境\n*   **API 密钥**:\n    *   **Bing Search API**: 用于搜索引擎查询 (`bing_subscription_key`)\n    *   **Jina AI API**: 用于网页内容抓取与清洗 (`jina_api_key`)\n\n## 安装步骤\n\n### 1. 创建并激活虚拟环境\n建议使用 Conda 创建独立的 Python 3.9 环境以避免依赖冲突。\n\n```bash\nconda create -n search_o1 python=3.9\nconda activate search_o1\n```\n\n### 2. 克隆项目并安装依赖\n下载源码并安装所需的 Python 包。国内用户若遇到 pip 下载慢的问题，可临时切换至清华或阿里镜像源。\n\n```bash\n# 克隆仓库 (假设已 git clone 或在项目目录下)\ncd Search-o1\n\n# 安装依赖 (推荐使用国内镜像加速)\npip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n## 基本使用\n\n使用前请准备好预处理后的数据集，并确保拥有有效的 Bing 和 Jina API Key。以下是最核心的 **Search-o1 推理模式** 运行示例。\n\n### 1. 数据预处理 (可选)\n如果您使用官方支持的数据集（如 GPQA, MATH, AIME 等），请先运行 Notebook 将数据转换为标准 JSON 格式：\n*   打开 `data\u002Fdata_pre_process.ipynb`\n*   运行对应数据集的单元格，生成的文件将保存在 `data\u002F` 目录。\n\n### 2. 运行 Search-o1 推理\n执行以下命令启动带有代理搜索功能的推理流程。请将占位符替换为您的实际配置。\n\n```bash\npython scripts\u002Frun_search_o1.py \\\n    --dataset_name aime \\\n    --split test \\\n    --max_search_limit 5 \\\n    --max_turn 10 \\\n    --top_k 10 \\\n    --max_doc_len 3000 \\\n    --use_jina True \\\n    --model_path \"YOUR_MODEL_PATH\" \\\n    --jina_api_key \"YOUR_JINA_API_KEY\" \\\n    --bing_subscription_key \"YOUR_BING_SUBSCRIPTION_KEY\"\n```\n\n**关键参数说明：**\n*   `--model_path`: 本地大型推理模型的路径。\n*   `--dataset_name`: 数据集名称 (例如: `gpqa`, `aime`, `math`)。\n*   `--max_search_limit`: 单次推理允许的最大搜索次数。\n*   `--max_turn`: 最大推理轮数。\n*   `--use_jina`: 设为 `True` 以启用 Jina 进行网页内容提取。\n\n### 3. 结果评估\n推理完成后，脚本会自动保存输入输出文本。若需评估带检索方法的效果（包含回退策略），运行：\n\n```bash\npython scripts\u002Fevaluate.py \\\n    --output_path outputs\u002F... \\\n    --apply_backoff\n```\n\n> **提示**: 对于简单的直接生成测试（无搜索），可使用 `scripts\u002Frun_direct_gen.py`；对于传统 RAG 测试，可使用 `scripts\u002Frun_naive_rag.py`。","某量化研究团队正在利用大语言模型自动解析复杂的金融衍生品定价公式，并基于最新的市场监管文件进行合规性验证。\n\n### 没有 Search-o1 时\n- 模型仅依赖训练数据中的静态知识，面对 2024 年后发布的最新巴塞尔协议 III 最终版细节时，频繁出现“知识幻觉”，编造不存在的条款。\n- 在长链条推理过程中，一旦遇到不确定的参数定义，模型只能强行猜测，导致后续所有计算步骤基于错误前提，最终结果完全不可用。\n- 研究人员需要人工中断生成过程，手动搜索核实每一个存疑的法规点，再重新输入上下文，严重打断了自动化分析的流畅性。\n- 面对高难度的数学推导与实时政策结合的复杂问题，模型因缺乏外部信息支撑，往往直接拒绝回答或给出模糊的通用建议。\n\n### 使用 Search-o1 后\n- Search-o1 能在推理遇到知识盲区时自主调用搜索引擎，实时获取最新的监管文件原文，确保引用的条款准确无误且时效性强。\n- 当推导过程卡顿时，Search-o1 会像人类专家一样暂停思考，主动检索缺失的参数定义或公式变体，修正推理路径后再继续执行，大幅降低逻辑断层率。\n- 整个“检索 - 推理 - 验证”过程完全自动化，模型能独立闭环完成从政策解读到数值计算的全流程，无需人工中途干预核实。\n- 即使面对极度冷门的跨境金融合规场景，Search-o1 也能通过多轮深度检索整合分散信息，输出逻辑严密且证据确凿的专业分析报告。\n\nSearch-o1 通过将实时搜索能力内化为推理本能，彻底解决了大模型在专业领域因知识滞后和不确定性导致的“胡编乱造”难题。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRUC-NLPIR_Search-o1_0f6478f4.png","RUC-NLPIR","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FRUC-NLPIR_de7305eb.jpg","",null,"https:\u002F\u002Fruc-nlpir.github.io\u002F","https:\u002F\u002Fgithub.com\u002FRUC-NLPIR",[82,86],{"name":83,"color":84,"percentage":85},"Python","#3572A5",96.2,{"name":87,"color":88,"percentage":89},"Jupyter Notebook","#DA5B0B",3.8,1193,104,"2026-04-04T04:49:15","MIT","未说明","未说明（需运行大型推理模型 LRM，通常建议配备高性能 NVIDIA GPU）",{"notes":97,"python":98,"dependencies":99},"1. 必须配置 Bing Search API 密钥 (--bing_subscription_key) 用于搜索。\n2. 必须配置 Jina API 密钥 (--jina_api_key) 用于获取网页内容。\n3. 需要自行准备预训练的大型推理模型路径 (--model_path)。\n4. 建议使用 conda 创建名为 search_o1 的虚拟环境进行安装。","3.9+",[100],"requirements.txt 中定义的依赖包（具体列表未在 README 中展示）",[13],[103,104,105,106,107,108,109,110,111,112],"aimo","amc","gpqa","livecode","math","o1","qwq","r1","rag","reasoning","2026-03-27T02:49:30.150509","2026-04-06T07:05:47.943657",[116,121,125,130,135,140],{"id":117,"question_zh":118,"answer_zh":119,"source_url":120},10196,"代码中 `jina_api_key` 参数报错导致无法获取网页内容，如何解决？","这是一个已知的参数传递问题。在 `run_search_o1.py` 中调用 `fetch_page_content` 时传入了 `jina_api_key` 参数，但该函数定义中并未包含此参数，导致抛出 'unexpected keyword argument' 错误。虽然脚本捕获了该错误未终止执行，但这会导致 URL 内容获取失败（返回错误信息），进而影响后续基于全文的推理模块，使其只能依赖搜索片段。\n解决方案：需要检查 `scripts\u002Fbing_search.py` 中 `fetch_page_content` 函数的定义，确保其接受 `jina_api_key` 参数，或者在调用处移除该参数（如果不需要）。维护者确认这会影响结果，需修复代码以正确传递 API Key。","https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FSearch-o1\u002Fissues\u002F28",{"id":122,"question_zh":123,"answer_zh":124,"source_url":120},10197,"当模型无法生成标准的 \\boxed{} 格式答案时，评估策略（Backoff Strategy）是如何工作的？","本项目采用的回退策略是：如果无法通过正则提取 `\\boxed{}` 中的答案，则直接使用模型生成的原始回答进行评估。\n这是因为使用的 `qwg-32b-preview` 模型指令遵循能力稍弱，调用搜索并返回结果有时会干扰推理连贯性，导致无法稳定输出 `\\boxed{}`。维护者指出这个问题在新版本的 `qwq-32b` 模型中应有所缓解。在复现论文结果时，需注意这一逻辑是否自动应用，必要时需在评估代码中手动开启相关回退选项。",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},10198,"论文中 GPQA 数据集的结果使用的是哪个评估指标？其他生成类任务呢？","对于 **GPQA** 数据集，论文中使用的是 **EM (Exact Match)** 指标，因为答案通常只是一个字母选项。\n对于其他生成类任务：\n- **数学类任务**：使用 `math_equal` 指标。\n- **Open QA 任务**：可以使用 `em`、`f1` 或 `acc`。\n维护者明确回复：“gpqa 就按照这里的 EM 吧...其他生成类任务，数学用 math_equal，open qa 用 em，f1，acc 都可以”。","https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FSearch-o1\u002Fissues\u002F34",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},10199,"为什么项目没有使用受限解码（Constrained Decoding）来强制模型输出特定的搜索标签格式？","主要原因是受限解码实现起来比较困难。维护者解释说，如果简单地通过指令让模型使用 `\u003C|begin_search_query|>` 这样的格式，模型通常能够正确生成，很少出现格式不匹配的情况，因此暂时未采用复杂的受限解码方案。\n此外，维护者提到虽然大语言推理模型（LRMs）在数学和编码等复杂任务上表现强劲，但在通用场景下可能表现不一，未来会考虑在专用推理能力和通用可用性之间取得平衡。","https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FSearch-o1\u002Fissues\u002F15",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},10200,"如果模型未能生成搜索查询标签（如 `\u003C|end_search_query|>`），应该如何处理？","这种情况通常发生在指令遵循能力较弱的模型上，它们可能不会生成预期的搜索查询标签，从而导致搜索流程无法触发。\n维护者确认这是一个已知问题，目前的解决方法主要是尝试对模型进行训练以提升其指令遵循能力，或者考虑使用更强的模型来解决此问题。代码逻辑本身是通过检测 `\u003C|end_search_query|>` 来暂停生成并执行搜索的，如果模型不输出该标签，搜索步骤就会被跳过。","https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FSearch-o1\u002Fissues\u002F19",{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},10201,"Search-o1 的工作流是否支持调用闭源模型（如 OpenAI、DeepSeek）的 API？与开源模型有何区别？","Search-o1 的核心机制是在生成搜索查询后暂停推理，插入搜索结果，然后继续推理。代码通过检测 LLM 输出的特定标签（如 `\u003C|end_search_query|>`）来实现暂停。\n理论上，可以通过重复调用闭源模型 API 来模拟这一过程：第一次调用生成查询 -> 执行搜索 -> 将结果拼接到 Prompt -> 第二次调用继续生成。维护者在讨论中指出，这种“暂停 - 插入 - 继续”的逻辑并不排斥闭源模型，只要能够通过多次 API 调用来实现状态的保持和上下文的更新即可。区别主要在于开源模型可以更灵活地控制生成停止点（stop tokens），而闭源模型需要依靠应用层逻辑来分割请求。","https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FSearch-o1\u002Fissues\u002F24",[]]