[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-SimpleBerry--LLaMA-O1":3,"tool-SimpleBerry--LLaMA-O1":61},[4,18,28,37,45,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":24,"last_commit_at":25,"category_tags":26,"status":17},9989,"n8n","n8n-io\u002Fn8n","n8n 是一款面向技术团队的公平代码（fair-code）工作流自动化平台，旨在让用户在享受低代码快速构建便利的同时，保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点，帮助用户轻松连接 400 多种应用与服务，实现复杂业务流程的自动化。\n\nn8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”：既可以通过直观的可视化界面拖拽节点搭建流程，也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外，n8n 原生集成了基于 LangChain 的 AI 能力，支持用户利用自有数据和模型构建智能体工作流。在部署方面，n8n 提供极高的自由度，支持完全自托管以保障数据隐私和控制权，也提供云端服务选项。凭借活跃的社区生态和数百个现成模板，n8n 让构建强大且可控的自动化系统变得简单高效。",184740,2,"2026-04-19T23:22:26",[16,14,13,15,27],"插件",{"id":29,"name":30,"github_repo":31,"description_zh":32,"stars":33,"difficulty_score":10,"last_commit_at":34,"category_tags":35,"status":17},10095,"AutoGPT","Significant-Gravitas\u002FAutoGPT","AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台，核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点，让用户只需设定目标，AI 即可自主规划步骤、调用工具并持续运行直至完成任务。\n\n无论是开发者、研究人员，还是希望提升工作效率的普通用户，都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体；研究人员能基于开源架构探索多智能体协作机制；而非技术背景用户也可直接选用预置的智能体模板，立即投入实际工作场景。\n\nAutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑，每个块负责单一动作，灵活且易于调试。同时，平台支持本地自托管与云端部署两种模式，兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本，即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛，让人人都能成为 AI 的创造者与受益者。",183572,"2026-04-20T04:47:55",[13,36,27,14,15],"语言模型",{"id":38,"name":39,"github_repo":40,"description_zh":41,"stars":42,"difficulty_score":10,"last_commit_at":43,"category_tags":44,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":46,"name":47,"github_repo":48,"description_zh":49,"stars":50,"difficulty_score":24,"last_commit_at":51,"category_tags":52,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",161147,"2026-04-19T23:31:47",[14,13,36],{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":24,"last_commit_at":59,"category_tags":60,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,"2026-04-18T11:18:24",[14,15,13],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":72,"owner_avatar_url":73,"owner_bio":74,"owner_company":75,"owner_location":75,"owner_email":75,"owner_twitter":76,"owner_website":75,"owner_url":77,"languages":78,"stars":83,"forks":84,"last_commit_at":85,"license":75,"difficulty_score":10,"env_os":86,"env_gpu":87,"env_ram":86,"env_deps":88,"category_tags":93,"github_topics":75,"view_count":24,"oss_zip_url":75,"oss_zip_packed_at":75,"status":17,"created_at":94,"updated_at":95,"faqs":96,"releases":132},9987,"SimpleBerry\u002FLLaMA-O1","LLaMA-O1","Large Reasoning Models","LLaMA-O1 是一个致力于推动开源大型推理模型发展的框架，专注于利用 PyTorch 和 HuggingFace 生态实现模型的训练、推理与评估。它旨在解决当前大模型在复杂逻辑推理和长思维链（Long CoT）任务中能力不足且缺乏透明开源方案的问题，让社区能够复现并优化类似 o1 的高级推理能力。\n\n该项目不仅发布了预训练和指令微调后的模型权重，还公开了关键的长思维链数据集，涵盖了从数据构建到监督微调的全流程资源。其独特的技术亮点在于引入了“标记化长思维链”方法，并正在推进基于自我对弈的强化学习（RLHF）以及推理时增强框架，以提升模型在数学、代码及逻辑难题上的表现。\n\nLLaMA-O1 非常适合 AI 研究人员、大模型开发者以及对深度推理技术感兴趣的技术爱好者使用。研究人员可基于其公开的数据和论文复现前沿实验；开发者能利用现有权重进行二次开发或部署本地推理服务；而普通用户则可通过在线演示体验长思维链带来的更强解题能力。作为一个完全开源的项目，LLaMA-O1 为构建更智能、更透明的推理系统提供了坚实的基础设施。","# LLaMA-O1: Open Large Reasoning Model Frameworks For Training, Inference and Evaluation With PyTorch and HuggingFace\n\nTowards Open-Source Large Reasoning Models\n\n## News\n\nThe first version of LLaMA-O1 has been uploaded to HF now! Here We Come!\n\n\nSupervised:\n\n\nhttps:\u002F\u002Fhuggingface.co\u002FSimpleBerry\u002FLLaMA-O1-Supervised-1129\n\n\nBase(Pretrain):\n\n\nhttps:\u002F\u002Fhuggingface.co\u002FSimpleBerry\u002FLLaMA-O1-Base-1127\n\n\nSupervised Finetune Dataset:\n\n\nhttps:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FSimpleBerry\u002FOpenLongCoT-SFT\n\n\nPretraining Dataset:\n\n\nhttps:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FSimpleBerry\u002FOpenLongCoT-Pretrain-1202\n\n\nRLHF is on the way! View our GitHub Repo:\n\n\nhttps:\u002F\u002Fgithub.com\u002FSimpleBerry\u002FLLaMA-O1\n\n\nOur ongoing related researches:\n\n\nhttps:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2406.07394\n\n\nhttps:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2410.02884\n\n\nhttps:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2411.18203\n\n\nGGUF:https:\u002F\u002Fhuggingface.co\u002FLyte\u002FLLaMA-O1-Supervised-1129-Q4_K_M-GGUF\n\n\nOnline Demo (CPU-only): https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FSimpleBerry\u002FLLaMA-O1-Supervised-1129-Demo\n\n## RoadMaps of LLaMA-O1\n- Marked Language of Long CoT (Done)\n- Pretrain Dataset (Done)\n- Supervised Dataset (Done)\n- PRM token rectifcation Dataset (Done)\n- Reinforcement Learning With Self-Play (Codes done, training)\n- Inference-time Reasoning Enhancement Frameworks (Codes done, Temporarily postponed)\n","# LLaMA-O1：基于PyTorch和HuggingFace的开源大型推理模型框架，用于训练、推理与评估\n\n迈向开源大型推理模型\n\n## 新闻\n\nLLaMA-O1 的首个版本现已上传至 Hugging Face！我们来了！\n\n\n监督微调模型：\n\n\nhttps:\u002F\u002Fhuggingface.co\u002FSimpleBerry\u002FLLaMA-O1-Supervised-1129\n\n\n基础预训练模型：\n\n\nhttps:\u002F\u002Fhuggingface.co\u002FSimpleBerry\u002FLLaMA-O1-Base-1127\n\n\n监督微调数据集：\n\n\nhttps:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FSimpleBerry\u002FOpenLongCoT-SFT\n\n\n预训练数据集：\n\n\nhttps:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FSimpleBerry\u002FOpenLongCoT-Pretrain-1202\n\n\nRLHF 正在推进中！请查看我们的 GitHub 仓库：\n\n\nhttps:\u002F\u002Fgithub.com\u002FSimpleBerry\u002FLLaMA-O1\n\n\n我们正在进行的相关研究：\n\n\nhttps:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2406.07394\n\n\nhttps:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2410.02884\n\n\nhttps:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2411.18203\n\n\nGGUF 格式：https:\u002F\u002Fhuggingface.co\u002FLyte\u002FLLaMA-O1-Supervised-1129-Q4_K_M-GGUF\n\n\n在线演示（仅 CPU）：https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FSimpleBerry\u002FLLaMA-O1-Supervised-1129-Demo\n\n## LLaMA-O1 路线图\n- 长链思维标记语言（已完成）\n- 预训练数据集（已完成）\n- 监督微调数据集（已完成）\n- PRM 令牌校正数据集（已完成）\n- 自对弈强化学习（代码已完成，正在训练）\n- 推理时推理增强框架（代码已完成，暂时搁置）","# LLaMA-O1 快速上手指南\n\nLLaMA-O1 是一个基于 PyTorch 和 HuggingFace 的开源大推理模型框架，旨在推动开源长思维链（Long CoT）模型的发展。本指南将帮助您快速部署和使用该模型。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 20.04+) 或 macOS。\n*   **Python 版本**: 3.9 或更高版本。\n*   **硬件要求**:\n    *   **推理**: 建议至少 16GB VRAM (对于量化版本可更低)，CPU 推理也可行但速度较慢。\n    *   **训练\u002F微调**: 需要多卡 GPU 环境（如 A100\u002FH100），具体显存需求取决于模型尺寸和批次大小。\n*   **前置依赖**:\n    *   PyTorch (最新稳定版)\n    *   Transformers (HuggingFace)\n    *   Accelerate\n    *   Git LFS (用于拉取大模型文件)\n\n**安装基础依赖命令：**\n\n```bash\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\npip install transformers accelerate datasets\ngit lfs install\n```\n\n> **提示**：国内开发者若下载 PyTorch 或 HuggingFace 资源受阻，建议使用清华源或阿里源加速，或在代码中配置 `HF_ENDPOINT` 环境变量指向国内镜像。\n\n## 安装步骤\n\n目前 LLaMA-O1 主要通过 HuggingFace 直接加载使用，无需复杂的源码编译安装。您可以选择直接使用预训练的基座模型或监督微调（SFT）版本。\n\n1.  **克隆项目仓库（可选，用于查看训练代码和最新进展）：**\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FSimpleBerry\u002FLLaMA-O1.git\ncd LLaMA-O1\n```\n\n2.  **验证模型访问权限：**\n    确保您已登录 HuggingFace CLI，以便顺利拉取模型权重。\n\n```bash\nhuggingface-cli login\n```\n\n## 基本使用\n\n以下示例展示如何使用 Python 和 `transformers` 库加载 **LLaMA-O1-Supervised-1129**（监督微调版）进行简单的推理测试。\n\n### 1. 加载模型与分词器\n\n```python\nfrom transformers import AutoTokenizer, AutoModelForCausalLM\nimport torch\n\n# 指定模型路径 (Supervised 版本)\nmodel_name = \"SimpleBerry\u002FLLaMA-O1-Supervised-1129\"\n\n# 加载分词器\ntokenizer = AutoTokenizer.from_pretrained(model_name)\n\n# 加载模型\n# 若显存不足，可添加 device_map=\"auto\" 或 load_in_8bit=True (需 bitsandbytes)\nmodel = AutoModelForCausalLM.from_pretrained(\n    model_name,\n    torch_dtype=torch.float16,\n    device_map=\"auto\"\n)\n```\n\n### 2. 执行推理\n\nLLaMA-O1 擅长长思维链推理，建议在 Prompt 中引导模型逐步思考。\n\n```python\nprompt = \"Please reason step by step to solve the following math problem: If a train travels 120 km in 2 hours, what is its average speed?\"\n\ninputs = tokenizer(prompt, return_tensors=\"pt\").to(model.device)\n\n# 生成回答\n# max_new_tokens 设置较大值以允许模型输出完整的推理过程\noutputs = model.generate(\n    inputs.input_ids,\n    max_new_tokens=1024,\n    do_sample=True,\n    temperature=0.7,\n    top_p=0.9\n)\n\nresponse = tokenizer.decode(outputs[0], skip_special_tokens=True)\nprint(response)\n```\n\n### 3. 使用量化版本 (GGUF) - 可选\n\n如果您的本地资源有限，可以使用社区提供的 GGUF 量化版本（需安装 `llama-cpp-python` 或使用支持 GGUF 的工具）：\n\n*   **模型地址**: `Lyte\u002FLLaMA-O1-Supervised-1129-Q4_K_M-GGUF`\n*   **在线体验**: [HuggingFace Space Demo](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FSimpleBerry\u002FLLaMA-O1-Supervised-1129-Demo) (仅 CPU 运行)","某金融科技公司的量化分析团队正试图从海量非结构化的财经新闻与财报电话会议记录中，自动推导潜在的市场风险因子并生成可执行的交易策略代码。\n\n### 没有 LLaMA-O1 时\n- **逻辑链条断裂**：通用大模型在处理多步推理任务时，往往直接跳跃到结论，无法展示“识别宏观信号→关联行业数据→推导个股影响”的完整思维过程，导致分析师难以信任其结果。\n- **复杂数学失效**：面对需要结合历史波动率进行动态计算的场景，模型常出现“幻觉”计算错误，生成的策略回测数据完全不可用。\n- **调试成本高昂**：由于缺乏中间推理步骤（Chain of Thought），开发人员无法定位模型是在哪一步逻辑判断上出错，只能盲目调整提示词或重新训练，效率极低。\n- **长上下文迷失**：在输入长达数万字的深度研报时，模型容易丢失关键约束条件，导致最终输出的策略与原始风控要求背道而驰。\n\n### 使用 LLaMA-O1 后\n- **思维过程透明化**：LLaMA-O1 基于 OpenLongCoT 数据集训练，能输出详尽的长链式推理步骤，清晰展示从新闻情感分析到具体仓位建议的每一步逻辑，让决策有据可依。\n- **数理推理精准度提升**：得益于其强化的推理架构，LLaMA-O1 在处理复杂的金融公式推导和概率计算时表现稳定，显著减少了数值幻觉，生成的代码可直接用于回测。\n- **错误定位秒级完成**：当策略输出异常时，团队可直接检查 LLaMA-O1 生成的中间推理标记，快速发现是数据提取偏差还是逻辑规则冲突，大幅缩短迭代周期。\n- **长程依赖捕捉能力强**：LLaMA-O1 能有效维持超长上下文中的逻辑一致性，确保在分析整本财报时，不会遗漏位于文档末尾的关键风险提示条款。\n\nLLaMA-O1 通过将黑盒猜测转化为可验证的逻辑推演，彻底解决了金融高阶分析中“可信度”与“复杂度”难以兼得的核心痛点。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSimpleBerry_LLaMA-O1_c5b30656.png","SimpleBerry","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FSimpleBerry_520ba1c8.jpg","",null,"simpleberrylab","https:\u002F\u002Fgithub.com\u002FSimpleBerry",[79],{"name":80,"color":81,"percentage":82},"Python","#3572A5",100,805,47,"2026-03-28T22:02:18","未说明","训练和推理通常依赖 PyTorch，建议配备 NVIDIA GPU；提供 CPU-only 在线演示，表明推理可在 CPU 运行，但具体显存和 CUDA 版本要求未在文中明确",{"notes":89,"python":86,"dependencies":90},"该项目是一个基于 PyTorch 和 HuggingFace 的大规模推理模型框架。虽然提供了仅 CPU 的在线演示链接，暗示推理支持 CPU 环境，但 README 未详细列出具体的操作系统、Python 版本、内存大小或 CUDA 版本要求。模型权重和数据集托管在 HuggingFace 上，另有 GGUF 量化版本可供资源受限的设备使用。",[91,92],"PyTorch","HuggingFace (transformers)",[36,14],"2026-03-27T02:49:30.150509","2026-04-20T12:53:59.939561",[97,102,107,112,117,122,127],{"id":98,"question_zh":99,"answer_zh":100,"source_url":101},44869,"在使用非 Gemma 模型（如 Qwen2.5 或 Llama3.1）时，遇到 'RuntimeError: a Tensor with X elements cannot be converted to Scalar' 错误怎么办？","该错误是因为代码原本针对 Gemma 模型设计，直接替换为其他模型会导致维度不匹配。维护者已更新离线数据收集脚本以支持非 Gemma 模型。对于 Llama3 等模型，需要重写相关函数：获取倒数第二个 hidden state 上表达正向评分预测 token 的 logit。具体逻辑是修改代码以适配指令跟随（instruction-following）模式，使没有特殊 token 的模型也能用于数据收集。请拉取最新代码测试离线脚本。","https:\u002F\u002Fgithub.com\u002FSimpleBerry\u002FLLaMA-O1\u002Fissues\u002F3",{"id":103,"question_zh":104,"answer_zh":105,"source_url":106},44870,"运行 online_train.py 时出现 'RecursionError: maximum recursion depth exceeded' 递归深度超限错误如何解决？","这是由于 MCTS 搜索过程中树结构过深导致的。目前开发计划中推理框架的开发已被推迟，团队正专注于模型训练和数据收集。作为临时解决方案，建议直接使用维护者提供的监督微调模型：https:\u002F\u002Fhuggingface.co\u002FSimpleBerry\u002FLLaMA-O1-Supervised-1129，或者尝试减少搜索迭代次数以避免递归过深。","https:\u002F\u002Fgithub.com\u002FSimpleBerry\u002FLLaMA-O1\u002Fissues\u002F23",{"id":108,"question_zh":109,"answer_zh":110,"source_url":111},44871,"如何在 Llama3.1 等非 Gemma 模型中使用该项目，报错提示缺少 added_tokens（如 \u003Cstart_of_rating> 等）？","Gemma 模型特有的特殊 token（如 \u003Cconclusion>, \u003Ccritic>, \u003Cstart_of_rating> 等）在其他模型中不存在，直接加载会报错。维护者已在最新的离线脚本中修复了此问题。解决方法是更改头部结构为指令跟随（instruction-following）模式，从而允许不使用这些特殊 token 的模型进行数据收集。如果是手动修改，需删除配置中对这些特定 token ID 的依赖行。","https:\u002F\u002Fgithub.com\u002FSimpleBerry\u002FLLaMA-O1\u002Fissues\u002F6",{"id":113,"question_zh":114,"answer_zh":115,"source_url":116},44872,"针对 Llama3 模型，如何正确重写 log_probs 计算逻辑以解决张量转换错误？","对于 Llama3 模型，需要重写获取 log_probs 的函数。核心逻辑是：利用输入中特殊 token '\u003Cstart_of_rating>' 对应的输出预测 logits 来预测下一个 token（即 '\u003Cpositive_rating>' 或 '\u003Cnegative_rating>'）。具体实现应获取倒数第二个 hidden state 的表达正向评分预测 token 的 logit。注意，虽然代码中将 \"\u003Cpositive_rating>\" 添加到了输入文本末尾，但这主要是为了对齐位置，实际使用的是其前一个位置的输出 logits 进行判断。","https:\u002F\u002Fgithub.com\u002FSimpleBerry\u002FLLaMA-O1\u002Fissues\u002F12",{"id":118,"question_zh":119,"answer_zh":120,"source_url":121},44873,"发现 root_node.state 中包含了解决方案（solution），导致答案泄露到 prompt 中，这是否合理？","这是一个已确认的代码疏忽。原本 `sample_initial_state` 函数的返回值已更改为同时返回初始状态和真实解（gt），但在调用该函数创建 `root_node` 时未同步更新，导致解决方案被错误地包含在状态中并泄露到 prompt。维护者承诺将在下一次提交中修复此问题，正确的做法是将初始状态和真实解分开处理，确保 prompt 中只包含问题状态。","https:\u002F\u002Fgithub.com\u002FSimpleBerry\u002FLLaMA-O1\u002Fissues\u002F11",{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},44874,"本项目（LLaMA-O1）与论文 'LLaMA-Berry' 是什么关系？online_train.py 是用于 PPRM 训练吗？","本项目并非 'LLaMA-Berry' 论文的官方实现仓库，而是一个全新的高度实验性项目。因此，`online_train.py` 的实现方法与论文中描述的可能不同。默认数据集使用 openai\u002Fgms8k 而非论文中的 PRM800，旨在探索不同的训练目标和方法。如果您寻找的是严格复现论文的工作，请注意区分；本项目主要用于探索 O1 类数学推理的新方法。","https:\u002F\u002Fgithub.com\u002FSimpleBerry\u002FLLaMA-O1\u002Fissues\u002F13",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},44875,"代码中 get_max_node_id_in_tree 函数的逻辑看起来自相矛盾（if not node.parent 后接 while node.parent），这是 Bug 吗？","用户指出的逻辑矛盾确实存在，这通常是一个代码错误。维护者已确认该问题并通过 Pull Request #8 进行了修复。在修复后的版本中，该函数的逻辑已被修正，能够正确遍历树节点以获取最大节点 ID。如果遇到此问题，请确保您的代码库已更新到包含该修复的最新版本。","https:\u002F\u002Fgithub.com\u002FSimpleBerry\u002FLLaMA-O1\u002Fissues\u002F7",[]]