lm-human-preferences

1.4k 171 较难 1 次阅读昨天MIT语言模型开发框架

AI 解读由 AI 自动生成，仅供参考

lm-human-preferences 是 OpenAI 为复现论文《基于人类偏好微调语言模型》而开源的代码库。它主要解决了如何让 AI 生成的文本更符合人类价值观和具体需求的问题，通过引入“人类反馈强化学习”（RLHF）机制，让模型不再仅仅预测下一个字，而是学会写出人类认为更优质、更描述性或更安全的內容。

这套工具的核心流程分为两步：首先利用人类标注的数据训练一个“奖励模型”，让它学会给文本质量打分；随后利用这个奖励模型作为指导信号，对语言模型（如 GPT-2）进行微调优化。其技术亮点在于完整实现了从奖励建模到策略优化的闭环，并提供了预训练模型以便研究者直接开展实验或采样测试。

需要注意的是，该项目目前处于归档状态，代码按原样提供且不再更新，部分云端路径已迁移，可能需用户自行调整配置。此外，官方仅在较小规模的 GPT-2 模型上验证过代码效果。因此，lm-human-preferences 最适合从事自然语言处理对齐研究的研究人员、希望深入理解 RLHF 底层实现的算法工程师，以及需要复现经典论文的开发者使用。对于普通用户而言，由于缺乏图形界面且依赖特定的深度学习环境配置，上手门槛较高。

使用场景

某教育科技团队正在开发一款智能作文辅导助手，希望模型不仅能生成通顺的文字，还能像真人老师一样写出描写生动、细节丰富的评语。

没有 lm-human-preferences 时

模型仅依靠最大似然估计训练，生成的评语虽然语法正确，但往往空洞乏味，缺乏具体的画面感。
开发者难以将“描写生动”这种主观的人类偏好量化为具体的损失函数，导致优化方向模糊。
调整模型风格主要依赖反复修改提示词（Prompt）或手动筛选数据，效率低下且效果不稳定。
无法利用分散的人类打分数据来构建奖励信号，模型难以学习到人类认为“好”的标准。

使用 lm-human-preferences 后

团队利用该工具加载开源的人类偏好标签，快速训练出一个能精准识别“描写生动度”的奖励模型。
通过基于奖励模型的强化学习微调，语言模型主动优化输出策略，显著增加了形容词和感官细节的使用。
原本抽象的“写得好”被转化为可计算的奖励分数，使模型训练过程有了明确的数学优化目标。
仅需少量人类标注数据即可驱动整个微调流程，大幅降低了收集大规模特定领域数据的成本。

lm-human-preferences 的核心价值在于它将模糊的人类主观偏好转化为可执行的奖励信号，让语言模型真正学会“投人所好”。

运行环境要求

操作系统

Linux (Ubuntu 16.04)
macOS

GPU

训练必需（开发可在 CPU 但极慢），测试环境为 8x NVIDIA V100，需安装 CUDA 10.0 和 cuDNN 7.6.2

内存

未说明

依赖

notes该项目已归档，不再更新。代码仅在最小型 GPT-2 模型（124M 参数）上经过测试。原谷歌云存储路径已迁移至 Azure，直接使用提供的代码可能无法运行。建议使用 Horovod 加速分布式训练。

python3.7.3

tensorflow-gpu==1.13.1

pipenv

gsutil

horovod==0.18.1 (推荐)

快速开始

状态: 归档（代码按原样提供，预计不会更新）

状态: 由于我们已从 GCP 迁移到 Azure，所有对 gs://lm-human-preferences/ 的引用均已更新为 https://openaipublic.blob.core.windows.net/lm-human-preferences。按原样提供的代码可能已无法正常运行。欢迎提交 Pull 请求。

lm-human-preferences

此仓库包含论文《从人类偏好中微调语言模型》（arXiv:1909.08593）的代码。另请参阅我们的博客文章。

我们提供了以下代码：

从人类标注数据训练奖励模型
使用这些奖励模型对语言模型进行微调

本仓库不包含用于生成标注数据的代码。不过，我们已在 gs://lm-human-preferences/labels 上公开了为实验收集的人类标注数据。对于感兴趣的研究者，问题和标注的格式非常简单，并在 label_types.py 中进行了说明。

该代码仅在最小的 GPT-2 模型（1.24亿参数）上进行了测试。

使用说明

此代码仅在 Python 3.7.3 环境下经过测试。训练已在配备 8 块 V100 显卡、运行 Ubuntu 16.04 的 GCE 机器上完成测试，但开发工作也可以在 Mac OS X 上进行。

安装

安装 pipenv。
安装 TensorFlow GPU 版本：首先安装 CUDA 10.0 和 cuDNN 7.6.2，然后运行 pipenv install tensorflow-gpu==1.13.1。虽然代码理论上可以在 CPU 上运行 TensorFlow，但速度会非常慢。
安装 gsutil。
克隆本仓库，然后执行：
```
pipenv install
```
（推荐）安装 horovod，以加速代码运行；或者在 core.py 的 mpi_allreduce_sum 函数中替换为其他高效的实现。请务必使用 pipenv 进行安装，例如 pipenv install horovod==0.18.1。

运行

以下示例假设我们旨在训练一个能够以物理描述方式继续文本的模型。您可以通过阅读 launch.py 了解如何定义“描述性”等实验。

请注意，我们提供了预训练模型，因此您可以直接跳到强化学习微调阶段，甚至直接从训练好的策略中采样，视需求而定。

训练奖励模型

要训练奖励模型，可以使用如下命令：

experiment=descriptiveness
reward_experiment_name=testdesc-$(date +%y%m%d%H%M)
pipenv run ./launch.py train_reward $experiment $reward_experiment_name

这会将输出文件（包括 TensorBoard 事件文件）保存到 /tmp/save/train_reward/$reward_experiment_name 目录下。可通过 --save_dir 参数更改保存目录。

微调语言模型

在训练好奖励模型后，您可以基于该模型进行微调。

首先设置：

trained_reward_model=/tmp/save/train_reward/$reward_experiment_name

或者，如果您使用我们的预训练模型：

trained_reward_model=gs://lm-human-preferences/runs/descriptiveness/reward_model

然后运行：

experiment=descriptiveness
policy_experiment_name=testdesc-$(date +%y%m%d%H%M)
pipenv run ./launch.py train_policy $experiment $policy_experiment_name --rewards.trained_model $trained_reward_model --rewards.train_new_model 'off'

这会将输出文件（包括 TensorBoard 事件文件）保存到 /tmp/save/train_policy/$policy_experiment_name 目录下。可通过 --save_dir 参数更改保存目录。

同时完成两步

您也可以通过一条命令同时训练奖励模型并基于其进行微调：

experiment=descriptiveness
experiment_name=testdesc-$(date +%y%m%d%H%M)
pipenv run ./launch.py train_policy $experiment $experiment_name

在这种情况下，输出将保存到 /tmp/save/train_policy/$policy_experiment_name 目录，奖励模型则会保存到子目录 reward_model 中。可通过 --save_dir 参数更改保存目录。

从训练好的策略中采样

指定要加载的策略的保存路径：

save_dir=/tmp/save/train_policy/$policy_experiment_name

或者，如果您使用我们的预训练模型：

save_dir=gs://lm-human-preferences/runs/descriptiveness

然后运行：

pipenv run ./sample.py sample --save_dir $save_dir --savescope policy

请注意，此脚本可以在少于 8 张 GPU 上运行。例如，如果您只有一张 GPU，可以添加 --mpi 1 参数。

许可证

MIT

引用

请使用以下 BibTeX 条目引用该论文：

@article{ziegler2019finetuning,
  title={Fine-Tuning Language Models from Human Preferences},
  author={Ziegler, Daniel M. and Stiennon, Nisan and Wu, Jeffrey and Brown, Tom B. and Radford, Alec and Amodei, Dario and Christiano, Paul and Irving, Geoffrey},
  journal={arXiv preprint arXiv:1909.08593},
  url={https://arxiv.org/abs/1909.08593},
  year={2019}
}

lm-human-preferences 快速上手指南

注意：本项目目前处于归档状态（Archive），代码按原样提供，不再更新。部分依赖谷歌云存储（GCP）的路径已迁移至 Azure，原始代码可能无法直接运行，需自行调整存储路径。

环境准备

操作系统：推荐 Ubuntu 16.04（训练环境），开发可在 Mac OS X 上进行。
Python 版本：仅测试通过 Python 3.7.3。
硬件要求：训练建议在配备 8 张 V100 GPU 的机器上进行；采样可单卡运行。
核心依赖：
- CUDA 10.0
- cuDNN 7.6.2
- TensorFlow GPU 1.13.1
- pipenv
- gsutil（用于访问数据集，若使用本地数据可忽略）
- Horovod（可选，用于多卡加速）

💡 国内加速建议：由于 TensorFlow 旧版本及谷歌资源在国内访问困难，建议配置国内镜像源（如清华、阿里镜像）安装依赖，或手动下载 CUDA/cuDNN 及 TensorFlow whl 包进行离线安装。

安装步骤

安装 pipenv：
```
pip install pipenv
```
安装 CUDA 10.0 和 cuDNN 7.6.2（请根据 NVIDIA 官方文档或国内镜像源安装）。

克隆仓库并安装 Python 依赖：

git clone https://github.com/openai/lm-human-preferences.git
cd lm-human-preferences
pipenv install tensorflow-gpu==1.13.1
pipenv install

（可选）安装 Horovod 以加速训练：
```
pipenv install horovod==0.18.1
```
若不使用 Horovod，需修改 lm_human_preferences/utils/core.py 中的 mpi_allreduce_sum 函数。

基本使用

以下示例演示如何训练一个奖励模型（Reward Model）并基于该模型微调语言模型（Policy），以实现“更具物理描述性”的文本生成。

1. 训练奖励模型

experiment=descriptiveness
reward_experiment_name=testdesc-$(date +%y%m%d%H%M)
pipenv run ./launch.py train_reward $experiment $reward_experiment_name

输出默认保存至 /tmp/save/train_reward/$reward_experiment_name。

2. 微调语言模型

使用上一步训练的奖励模型进行微调：

trained_reward_model=/tmp/save/train_reward/$reward_experiment_name
experiment=descriptiveness
policy_experiment_name=testdesc-$(date +%y%m%d%H%M)
pipenv run ./launch.py train_policy $experiment $policy_experiment_name --rewards.trained_model $trained_reward_model --rewards.train_new_model 'off'

3. 一键执行（训练奖励模型 + 微调）

也可通过一条命令完成全流程：

experiment=descriptiveness
experiment_name=testdesc-$(date +%y%m%d%H%M)
pipenv run ./launch.py train_policy $experiment $experiment_name

奖励模型将保存在输出目录的 reward_model 子文件夹中。

4. 从训练好的策略中采样文本

save_dir=/tmp/save/train_policy/$policy_experiment_name
pipenv run ./sample.py sample --save_dir $save_dir --savescope policy

若仅有一张 GPU，可添加 --mpi 1 参数运行。

常见问题

在 PPO 训练中，用于生成 rollout 的策略和用于计算损失的政策是否相同？如何理解 pi(theta)/pi(old) 的计算？

为什么代码中使用 `rewards[:, -1] += scores`，即只在序列的最后一个位置添加奖励？

访问 Azure 数据存储路径时遇到 404 错误或无法列出目录内容，如何获取数据？

在 Google Colab 上运行时遇到 Google Cloud Storage (GCS) 凭证错误（DefaultCredentialsError 或 403 Forbidden），如何解决？

项目中的数据链接（如 labels 目录）是否仍然有效？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|昨天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 142.7k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|昨天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|今天

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|昨天

语言模型图像Agent