[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-openai--lm-human-preferences":3,"tool-openai--lm-human-preferences":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",150037,2,"2026-04-10T23:33:47",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":77,"owner_email":77,"owner_twitter":77,"owner_website":78,"owner_url":79,"languages":80,"stars":85,"forks":86,"last_commit_at":87,"license":88,"difficulty_score":89,"env_os":90,"env_gpu":91,"env_ram":92,"env_deps":93,"category_tags":101,"github_topics":77,"view_count":32,"oss_zip_url":77,"oss_zip_packed_at":77,"status":17,"created_at":102,"updated_at":103,"faqs":104,"releases":130},4926,"openai\u002Flm-human-preferences","lm-human-preferences","Code for the paper Fine-Tuning Language Models from Human Preferences","lm-human-preferences 是 OpenAI 为复现论文《基于人类偏好微调语言模型》而开源的代码库。它主要解决了如何让 AI 生成的文本更符合人类价值观和具体需求的问题，通过引入“人类反馈强化学习”（RLHF）机制，让模型不再仅仅预测下一个字，而是学会写出人类认为更优质、更描述性或更安全的內容。\n\n这套工具的核心流程分为两步：首先利用人类标注的数据训练一个“奖励模型”，让它学会给文本质量打分；随后利用这个奖励模型作为指导信号，对语言模型（如 GPT-2）进行微调优化。其技术亮点在于完整实现了从奖励建模到策略优化的闭环，并提供了预训练模型以便研究者直接开展实验或采样测试。\n\n需要注意的是，该项目目前处于归档状态，代码按原样提供且不再更新，部分云端路径已迁移，可能需用户自行调整配置。此外，官方仅在较小规模的 GPT-2 模型上验证过代码效果。因此，lm-human-preferences 最适合从事自然语言处理对齐研究的研究人员、希望深入理解 RLHF 底层实现的算法工程师，以及需要复现经典论文的开发者使用。对于普通用户而言，由于缺乏图形界面且依赖特定的深度学习环境配置，上手","lm-human-preferences 是 OpenAI 为复现论文《基于人类偏好微调语言模型》而开源的代码库。它主要解决了如何让 AI 生成的文本更符合人类价值观和具体需求的问题，通过引入“人类反馈强化学习”（RLHF）机制，让模型不再仅仅预测下一个字，而是学会写出人类认为更优质、更描述性或更安全的內容。\n\n这套工具的核心流程分为两步：首先利用人类标注的数据训练一个“奖励模型”，让它学会给文本质量打分；随后利用这个奖励模型作为指导信号，对语言模型（如 GPT-2）进行微调优化。其技术亮点在于完整实现了从奖励建模到策略优化的闭环，并提供了预训练模型以便研究者直接开展实验或采样测试。\n\n需要注意的是，该项目目前处于归档状态，代码按原样提供且不再更新，部分云端路径已迁移，可能需用户自行调整配置。此外，官方仅在较小规模的 GPT-2 模型上验证过代码效果。因此，lm-human-preferences 最适合从事自然语言处理对齐研究的研究人员、希望深入理解 RLHF 底层实现的算法工程师，以及需要复现经典论文的开发者使用。对于普通用户而言，由于缺乏图形界面且依赖特定的深度学习环境配置，上手门槛较高。","**Status:** Archive (code is provided as-is, no updates expected)\n\n**Status:** All references to `gs:\u002F\u002Flm-human-preferences\u002F` were updated to `https:\u002F\u002Fopenaipublic.blob.core.windows.net\u002Flm-human-preferences`, as we migrated from GCP to Azure. The code provided as is may no longer work. Pull requests welcome\n\n# lm-human-preferences\n\nThis repository contains code for the paper [Fine-Tuning Language Models from Human Preferences](https:\u002F\u002Farxiv.org\u002Fabs\u002F1909.08593).  See also our [blog post](https:\u002F\u002Fopenai.com\u002Fblog\u002Ffine-tuning-gpt-2\u002F).\n\nWe provide code for:\n- Training reward models from human labels\n- Fine-tuning language models using those reward models\n\nIt does not contain code for generating labels.  However, we have released human labels collected for our experiments, at `gs:\u002F\u002Flm-human-preferences\u002Flabels`.\nFor those interested, the question and label schemas are simple and documented in [`label_types.py`](.\u002Flm_human_preferences\u002Flabel_types.py).\n\nThe code has only been tested using the smallest GPT-2 model (124M parameters).\n\n## Instructions\n\nThis code has only been tested using Python 3.7.3.  Training has been tested on GCE machines with 8 V100s, running Ubuntu 16.04, but development also works on Mac OS X.\n\n### Installation\n\n- Install [pipenv](https:\u002F\u002Fgithub.com\u002Fpypa\u002Fpipenv#installation).\n\n- Install [tensorflow](https:\u002F\u002Fwww.tensorflow.org\u002Finstall\u002Fgpu):  Install CUDA 10.0 and cuDNN 7.6.2, then `pipenv install tensorflow-gpu==1.13.1`.  The code may technically run with tensorflow on CPU but will be very slow.\n\n- Install [`gsutil`](https:\u002F\u002Fcloud.google.com\u002Fstorage\u002Fdocs\u002Fgsutil_install)\n\n- Clone this repo.  Then:\n  ```\n  pipenv install\n  ```\n\n- (Recommended) Install [`horovod`](https:\u002F\u002Fgithub.com\u002Fhorovod\u002Fhorovod#install) to speed up the code, or otherwise substitute some fast implementation in the `mpi_allreduce_sum` function of [`core.py`](.\u002Flm_human_preferences\u002Futils\u002Fcore.py).  Make sure to use pipenv for the install, e.g. `pipenv install horovod==0.18.1`.\n\n### Running\n\nThe following examples assume we are aiming to train a model to continue text in a physically descriptive way.\nYou can read [`launch.py`](.\u002Flaunch.py) to see how the `descriptiveness` experiments and others are defined.\n\nNote that we provide pre-trained models, so you can skip directly to RL fine-tuning or even to sampling from a trained policy, if desired.\n\n#### Training a reward model\n\nTo train a reward model, use a command such as\n```\nexperiment=descriptiveness\nreward_experiment_name=testdesc-$(date +%y%m%d%H%M)\npipenv run .\u002Flaunch.py train_reward $experiment $reward_experiment_name\n```\n\nThis will save outputs (and tensorboard event files) to the directory `\u002Ftmp\u002Fsave\u002Ftrain_reward\u002F$reward_experiment_name`.  The directory can be changed via the `--save_dir` flag.\n\n#### Finetuning a language model\n\nOnce you have trained a reward model, you can finetune against it.\n\nFirst, set\n```\ntrained_reward_model=\u002Ftmp\u002Fsave\u002Ftrain_reward\u002F$reward_experiment_name\n```\nor if using our pretrained model,\n```\ntrained_reward_model=gs:\u002F\u002Flm-human-preferences\u002Fruns\u002Fdescriptiveness\u002Freward_model\n```\n\nThen,\n```\nexperiment=descriptiveness\npolicy_experiment_name=testdesc-$(date +%y%m%d%H%M)\npipenv run .\u002Flaunch.py train_policy $experiment $policy_experiment_name --rewards.trained_model $trained_reward_model --rewards.train_new_model 'off'\n```\n\nThis will save outputs (and tensorboard event files) to the directory `\u002Ftmp\u002Fsave\u002Ftrain_policy\u002F$policy_experiment_name`.  The directory can be changed via the `--save_dir` flag.\n\n#### Both steps at once\n\nYou can run a single command to train a reward model and then finetune against it\n```\nexperiment=descriptiveness\nexperiment_name=testdesc-$(date +%y%m%d%H%M)\npipenv run .\u002Flaunch.py train_policy $experiment $experiment_name\n```\n\nIn this case, outputs are in the directory `\u002Ftmp\u002Fsave\u002Ftrain_policy\u002F$policy_experiment_name`, and the reward model is saved to a subdirectory `reward_model`.  The directory can be changed via the `--save_dir` flag.\n\n#### Sampling from a trained policy\n\nSpecify the policy to load:\n```\nsave_dir=\u002Ftmp\u002Fsave\u002Ftrain_policy\u002F$policy_experiment_name\n```\nor if using our pretrained model,\n```\nsave_dir=gs:\u002F\u002Flm-human-preferences\u002Fruns\u002Fdescriptiveness\n```\n\nThen run:\n```\npipenv run .\u002Fsample.py sample --save_dir $save_dir --savescope policy\n```\n\nNote that this script can run on less than 8 GPUs.  You can pass the flag `--mpi 1`, for exapmle, if you only have one GPU.\n\n## LICENSE\n\n[MIT](.\u002FLICENSE)\n\n## Citation\n\nPlease cite the paper with the following bibtex entry:\n```\n@article{ziegler2019finetuning,\n  title={Fine-Tuning Language Models from Human Preferences},\n  author={Ziegler, Daniel M. and Stiennon, Nisan and Wu, Jeffrey and Brown, Tom B. and Radford, Alec and Amodei, Dario and Christiano, Paul and Irving, Geoffrey},\n  journal={arXiv preprint arXiv:1909.08593},\n  url={https:\u002F\u002Farxiv.org\u002Fabs\u002F1909.08593},\n  year={2019}\n}\n```\n","**状态:** 归档（代码按原样提供，预计不会更新）\n\n**状态:** 由于我们已从 GCP 迁移到 Azure，所有对 `gs:\u002F\u002Flm-human-preferences\u002F` 的引用均已更新为 `https:\u002F\u002Fopenaipublic.blob.core.windows.net\u002Flm-human-preferences`。按原样提供的代码可能已无法正常运行。欢迎提交 Pull 请求。\n\n# lm-human-preferences\n\n此仓库包含论文《从人类偏好中微调语言模型》（[arXiv:1909.08593](https:\u002F\u002Farxiv.org\u002Fabs\u002F1909.08593)）的代码。另请参阅我们的 [博客文章](https:\u002F\u002Fopenai.com\u002Fblog\u002Ffine-tuning-gpt-2\u002F)。\n\n我们提供了以下代码：\n- 从人类标注数据训练奖励模型\n- 使用这些奖励模型对语言模型进行微调\n\n本仓库不包含用于生成标注数据的代码。不过，我们已在 `gs:\u002F\u002Flm-human-preferences\u002Flabels` 上公开了为实验收集的人类标注数据。对于感兴趣的研究者，问题和标注的格式非常简单，并在 [`label_types.py`](.\u002Flm_human_preferences\u002Flabel_types.py) 中进行了说明。\n\n该代码仅在最小的 GPT-2 模型（1.24亿参数）上进行了测试。\n\n## 使用说明\n\n此代码仅在 Python 3.7.3 环境下经过测试。训练已在配备 8 块 V100 显卡、运行 Ubuntu 16.04 的 GCE 机器上完成测试，但开发工作也可以在 Mac OS X 上进行。\n\n### 安装\n\n- 安装 [pipenv](https:\u002F\u002Fgithub.com\u002Fpypa\u002Fpipenv#installation)。\n\n- 安装 [TensorFlow GPU 版本](https:\u002F\u002Fwww.tensorflow.org\u002Finstall\u002Fgpu)：首先安装 CUDA 10.0 和 cuDNN 7.6.2，然后运行 `pipenv install tensorflow-gpu==1.13.1`。虽然代码理论上可以在 CPU 上运行 TensorFlow，但速度会非常慢。\n\n- 安装 [`gsutil`](https:\u002F\u002Fcloud.google.com\u002Fstorage\u002Fdocs\u002Fgsutil_install)。\n\n- 克隆本仓库，然后执行：\n  ```\n  pipenv install\n  ```\n\n- （推荐）安装 [`horovod`](https:\u002F\u002Fgithub.com\u002Fhorovod\u002Fhorovod#install)，以加速代码运行；或者在 [`core.py`](.\u002Flm_human_preferences\u002Futils\u002Fcore.py) 的 `mpi_allreduce_sum` 函数中替换为其他高效的实现。请务必使用 pipenv 进行安装，例如 `pipenv install horovod==0.18.1`。\n\n### 运行\n\n以下示例假设我们旨在训练一个能够以物理描述方式继续文本的模型。您可以通过阅读 [`launch.py`](.\u002Flaunch.py) 了解如何定义“描述性”等实验。\n\n请注意，我们提供了预训练模型，因此您可以直接跳到强化学习微调阶段，甚至直接从训练好的策略中采样，视需求而定。\n\n#### 训练奖励模型\n\n要训练奖励模型，可以使用如下命令：\n```\nexperiment=descriptiveness\nreward_experiment_name=testdesc-$(date +%y%m%d%H%M)\npipenv run .\u002Flaunch.py train_reward $experiment $reward_experiment_name\n```\n\n这会将输出文件（包括 TensorBoard 事件文件）保存到 `\u002Ftmp\u002Fsave\u002Ftrain_reward\u002F$reward_experiment_name` 目录下。可通过 `--save_dir` 参数更改保存目录。\n\n#### 微调语言模型\n\n在训练好奖励模型后，您可以基于该模型进行微调。\n\n首先设置：\n```\ntrained_reward_model=\u002Ftmp\u002Fsave\u002Ftrain_reward\u002F$reward_experiment_name\n```\n或者，如果您使用我们的预训练模型：\n```\ntrained_reward_model=gs:\u002F\u002Flm-human-preferences\u002Fruns\u002Fdescriptiveness\u002Freward_model\n```\n\n然后运行：\n```\nexperiment=descriptiveness\npolicy_experiment_name=testdesc-$(date +%y%m%d%H%M)\npipenv run .\u002Flaunch.py train_policy $experiment $policy_experiment_name --rewards.trained_model $trained_reward_model --rewards.train_new_model 'off'\n```\n\n这会将输出文件（包括 TensorBoard 事件文件）保存到 `\u002Ftmp\u002Fsave\u002Ftrain_policy\u002F$policy_experiment_name` 目录下。可通过 `--save_dir` 参数更改保存目录。\n\n#### 同时完成两步\n\n您也可以通过一条命令同时训练奖励模型并基于其进行微调：\n```\nexperiment=descriptiveness\nexperiment_name=testdesc-$(date +%y%m%d%H%M)\npipenv run .\u002Flaunch.py train_policy $experiment $experiment_name\n```\n\n在这种情况下，输出将保存到 `\u002Ftmp\u002Fsave\u002Ftrain_policy\u002F$policy_experiment_name` 目录，奖励模型则会保存到子目录 `reward_model` 中。可通过 `--save_dir` 参数更改保存目录。\n\n#### 从训练好的策略中采样\n\n指定要加载的策略的保存路径：\n```\nsave_dir=\u002Ftmp\u002Fsave\u002Ftrain_policy\u002F$policy_experiment_name\n```\n或者，如果您使用我们的预训练模型：\n```\nsave_dir=gs:\u002F\u002Flm-human-preferences\u002Fruns\u002Fdescriptiveness\n```\n\n然后运行：\n```\npipenv run .\u002Fsample.py sample --save_dir $save_dir --savescope policy\n```\n\n请注意，此脚本可以在少于 8 张 GPU 上运行。例如，如果您只有一张 GPU，可以添加 `--mpi 1` 参数。\n\n## 许可证\n\n[MIT](.\u002FLICENSE)\n\n## 引用\n\n请使用以下 BibTeX 条目引用该论文：\n```\n@article{ziegler2019finetuning,\n  title={Fine-Tuning Language Models from Human Preferences},\n  author={Ziegler, Daniel M. and Stiennon, Nisan and Wu, Jeffrey and Brown, Tom B. and Radford, Alec and Amodei, Dario and Christiano, Paul and Irving, Geoffrey},\n  journal={arXiv preprint arXiv:1909.08593},\n  url={https:\u002F\u002Farxiv.org\u002Fabs\u002F1909.08593},\n  year={2019}\n}\n```","# lm-human-preferences 快速上手指南\n\n> **注意**：本项目目前处于归档状态（Archive），代码按原样提供，不再更新。部分依赖谷歌云存储（GCP）的路径已迁移至 Azure，原始代码可能无法直接运行，需自行调整存储路径。\n\n## 环境准备\n\n- **操作系统**：推荐 Ubuntu 16.04（训练环境），开发可在 Mac OS X 上进行。\n- **Python 版本**：仅测试通过 Python 3.7.3。\n- **硬件要求**：训练建议在配备 8 张 V100 GPU 的机器上进行；采样可单卡运行。\n- **核心依赖**：\n  - CUDA 10.0\n  - cuDNN 7.6.2\n  - TensorFlow GPU 1.13.1\n  - pipenv\n  - gsutil（用于访问数据集，若使用本地数据可忽略）\n  - Horovod（可选，用于多卡加速）\n\n> 💡 **国内加速建议**：由于 TensorFlow 旧版本及谷歌资源在国内访问困难，建议配置国内镜像源（如清华、阿里镜像）安装依赖，或手动下载 CUDA\u002FcuDNN 及 TensorFlow whl 包进行离线安装。\n\n## 安装步骤\n\n1. 安装 `pipenv`：\n   ```bash\n   pip install pipenv\n   ```\n\n2. 安装 CUDA 10.0 和 cuDNN 7.6.2（请根据 NVIDIA 官方文档或国内镜像源安装）。\n\n3. 克隆仓库并安装 Python 依赖：\n   ```bash\n   git clone https:\u002F\u002Fgithub.com\u002Fopenai\u002Flm-human-preferences.git\n   cd lm-human-preferences\n   pipenv install tensorflow-gpu==1.13.1\n   pipenv install\n   ```\n\n4. （可选）安装 Horovod 以加速训练：\n   ```bash\n   pipenv install horovod==0.18.1\n   ```\n   > 若不使用 Horovod，需修改 `lm_human_preferences\u002Futils\u002Fcore.py` 中的 `mpi_allreduce_sum` 函数。\n\n## 基本使用\n\n以下示例演示如何训练一个奖励模型（Reward Model）并基于该模型微调语言模型（Policy），以实现“更具物理描述性”的文本生成。\n\n### 1. 训练奖励模型\n\n```bash\nexperiment=descriptiveness\nreward_experiment_name=testdesc-$(date +%y%m%d%H%M)\npipenv run .\u002Flaunch.py train_reward $experiment $reward_experiment_name\n```\n输出默认保存至 `\u002Ftmp\u002Fsave\u002Ftrain_reward\u002F$reward_experiment_name`。\n\n### 2. 微调语言模型\n\n使用上一步训练的奖励模型进行微调：\n\n```bash\ntrained_reward_model=\u002Ftmp\u002Fsave\u002Ftrain_reward\u002F$reward_experiment_name\nexperiment=descriptiveness\npolicy_experiment_name=testdesc-$(date +%y%m%d%H%M)\npipenv run .\u002Flaunch.py train_policy $experiment $policy_experiment_name --rewards.trained_model $trained_reward_model --rewards.train_new_model 'off'\n```\n\n### 3. 一键执行（训练奖励模型 + 微调）\n\n也可通过一条命令完成全流程：\n\n```bash\nexperiment=descriptiveness\nexperiment_name=testdesc-$(date +%y%m%d%H%M)\npipenv run .\u002Flaunch.py train_policy $experiment $experiment_name\n```\n奖励模型将保存在输出目录的 `reward_model` 子文件夹中。\n\n### 4. 从训练好的策略中采样文本\n\n```bash\nsave_dir=\u002Ftmp\u002Fsave\u002Ftrain_policy\u002F$policy_experiment_name\npipenv run .\u002Fsample.py sample --save_dir $save_dir --savescope policy\n```\n若仅有一张 GPU，可添加 `--mpi 1` 参数运行。","某教育科技团队正在开发一款智能作文辅导助手，希望模型不仅能生成通顺的文字，还能像真人老师一样写出描写生动、细节丰富的评语。\n\n### 没有 lm-human-preferences 时\n- 模型仅依靠最大似然估计训练，生成的评语虽然语法正确，但往往空洞乏味，缺乏具体的画面感。\n- 开发者难以将“描写生动”这种主观的人类偏好量化为具体的损失函数，导致优化方向模糊。\n- 调整模型风格主要依赖反复修改提示词（Prompt）或手动筛选数据，效率低下且效果不稳定。\n- 无法利用分散的人类打分数据来构建奖励信号，模型难以学习到人类认为“好”的标准。\n\n### 使用 lm-human-preferences 后\n- 团队利用该工具加载开源的人类偏好标签，快速训练出一个能精准识别“描写生动度”的奖励模型。\n- 通过基于奖励模型的强化学习微调，语言模型主动优化输出策略，显著增加了形容词和感官细节的使用。\n- 原本抽象的“写得好”被转化为可计算的奖励分数，使模型训练过程有了明确的数学优化目标。\n- 仅需少量人类标注数据即可驱动整个微调流程，大幅降低了收集大规模特定领域数据的成本。\n\nlm-human-preferences 的核心价值在于它将模糊的人类主观偏好转化为可执行的奖励信号，让语言模型真正学会“投人所好”。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fopenai_lm-human-preferences_0406cb4d.png","openai","OpenAI","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fopenai_1960bbf4.png","",null,"https:\u002F\u002Fopenai.com\u002F","https:\u002F\u002Fgithub.com\u002Fopenai",[81],{"name":82,"color":83,"percentage":84},"Python","#3572A5",100,1382,171,"2026-04-05T16:07:29","MIT",4,"Linux (Ubuntu 16.04), macOS","训练必需（开发可在 CPU 但极慢），测试环境为 8x NVIDIA V100，需安装 CUDA 10.0 和 cuDNN 7.6.2","未说明",{"notes":94,"python":95,"dependencies":96},"该项目已归档，不再更新。代码仅在最小型 GPT-2 模型（124M 参数）上经过测试。原谷歌云存储路径已迁移至 Azure，直接使用提供的代码可能无法运行。建议使用 Horovod 加速分布式训练。","3.7.3",[97,98,99,100],"tensorflow-gpu==1.13.1","pipenv","gsutil","horovod==0.18.1 (推荐)",[35,14],"2026-03-27T02:49:30.150509","2026-04-11T16:57:43.381671",[105,110,115,120,125],{"id":106,"question_zh":107,"answer_zh":108,"source_url":109},22361,"在 PPO 训练中，用于生成 rollout 的策略和用于计算损失的政策是否相同？如何理解 pi(theta)\u002Fpi(old) 的计算？","这是一个常见的困惑点。代码中构建 TensorFlow 图时看似使用了相同的策略，但实际上 `train_minibatch` 函数会被多次调用。在第一个 minibatch 之后，`self.policy` 会更新，从而产生与 `rollouts` 对象中存储的值不同的 `logprobs`。因此，旧策略（存储在 rollout 中）和新策略（当前更新的 policy）是不同的，符合 PPO 算法要求。该函数只是构建计算图，操作直到调用 `train_minibatch` 时才会实际执行。","https:\u002F\u002Fgithub.com\u002Fopenai\u002Flm-human-preferences\u002Fissues\u002F1",{"id":111,"question_zh":112,"answer_zh":113,"source_url":114},22362,"为什么代码中使用 `rewards[:, -1] += scores`，即只在序列的最后一个位置添加奖励？","这是因为奖励仅在生成完整序列后给出。这种处理方式与 SeqGAN 系列训练方法不同，后者是为每个生成的 token 计算奖励。在此实现中，整个序列生成完毕后，将得分加到奖励数组的最后一个时间步（索引 -1）上。","https:\u002F\u002Fgithub.com\u002Fopenai\u002Flm-human-preferences\u002Fissues\u002F12",{"id":116,"question_zh":117,"answer_zh":118,"source_url":119},22363,"访问 Azure 数据存储路径时遇到 404 错误或无法列出目录内容，如何获取数据？","虽然直接列出目录（ls）可能失败或返回 404，但可以直接通过具体的文件 URL 下载数据。例如，可以使用以下 curl 命令获取情感分析数据：\n`curl https:\u002F\u002Fopenaipublic.blob.core.windows.net\u002Flm-human-preferences\u002Flabels\u002Fsentiment\u002Foffline_5k.json`\n如果需要使用 Azure CLI 或其他工具，请确保直接指向具体文件而非尝试列出容器根目录。","https:\u002F\u002Fgithub.com\u002Fopenai\u002Flm-human-preferences\u002Fissues\u002F15",{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},22364,"在 Google Colab 上运行时遇到 Google Cloud Storage (GCS) 凭证错误（DefaultCredentialsError 或 403 Forbidden），如何解决？","不需要申请特殊权限或使用公共凭证。最简单的解决方法是手动下载所需的 JSON 数据文件，并修改代码直接指向本地文件路径，从而完全绕过 Google Storage 的凭证验证问题。这样可以避免配置 `GOOGLE_APPLICATION_CREDENTIALS` 或处理 bucket 访问权限的复杂性。","https:\u002F\u002Fgithub.com\u002Fopenai\u002Flm-human-preferences\u002Fissues\u002F7",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},22365,"项目中的数据链接（如 labels 目录）是否仍然有效？","是的，数据仍然可用。之前出现的链接失效报告是由于用户端的误解或临时性问题。您可以直接访问具体的数据文件 URL 来验证和下载数据。","https:\u002F\u002Fgithub.com\u002Fopenai\u002Flm-human-preferences\u002Fissues\u002F20",[]]