Xwin-LM
Xwin-LM 是一个专注于大语言模型(LLM)对齐技术的开源项目,旨在通过监督微调、奖励建模及人类反馈强化学习(RLHF)等方法,让模型输出更稳定、强大且可复现。它主要解决了开源模型在理解人类意图和生成高质量回答方面难以媲美顶尖闭源模型的难题。
该项目基于 LLaMA-2 架构构建,其最显著的技术亮点在于卓越的基准测试表现:Xwin-LM 曾是首个在 AlpacaEval 评测中超越 GPT-4 的开源模型,并在数学推理(如 MATH、GSM8K)及代码生成任务中多次刷新同量级模型的纪录,部分版本甚至达到了与 GPT-3.5-Turbo 相当的水平。此外,项目详细公开了对齐技术细节,强调了 RLHF 在提升模型性能中的关键作用,具有极高的研究参考价值。
Xwin-LM 非常适合 AI 研究人员深入探索模型对齐机制,也适合开发者直接调用或微调以构建高性能应用。无论是需要强大推理能力的学术实验,还是追求极致效果的生产环境,Xwin-LM 都提供了一个经过验证的强力基座。
使用场景
某初创教育科技公司正致力于开发一款基于开源模型的智能数学辅导助手,旨在为中学生提供高准确率的解题步骤引导。
没有 Xwin-LM 时
- 数学推理能力不足:基于原生 LLaMA-2 的模型在处理复杂代数或几何问题时,常出现逻辑断层或计算错误,无法达到商用标准。
- 对齐效果难以复现:团队尝试自行进行 RLHF(人类反馈强化学习)训练,但过程极不稳定,多次实验无法复现理想的指令遵循效果。
- 过度依赖闭源 API:为保证回答质量,被迫调用 GPT-4 等昂贵接口,导致单次服务成本过高,且面临数据隐私合规风险。
- 代码生成辅助薄弱:在需要生成解题代码(如 Python 绘图验证)时,模型生成的代码往往无法运行或逻辑混乱。
使用 Xwin-LM 后
- 数学性能显著提升:部署 Xwin-Math-70B 版本后,模型在 GSM8K 和 MATH 基准测试中分别取得 90.6% 和 51.9% 的通过率,解题逻辑严密且步骤清晰。
- 开箱即用的高稳定性:直接采用经过严格对齐训练的 Xwin-LM 模型,无需重复昂贵的 RLHF 试错过程,确保了生产环境输出的稳定与可控。
- 实现低成本自主可控:凭借超越 GPT-4 的 AlpacaEval 胜率,团队完全替换了闭源 API,在大幅降低运营成本的同时,将数据完全保留在本地服务器。
- 代码与推理双强:利用 XwinCoder 系列的强大能力,模型不仅能解题,还能生成可执行的正确代码来辅助可视化教学,提升了互动体验。
Xwin-LM 通过提供业界领先的开源对齐模型,帮助团队以极低的成本构建了具备 GPT-4 级数学推理能力的自主教育产品。
运行环境要求
未说明(基于 LLaMA-2 架构,通常运行 7B/13B/70B 模型需要 NVIDIA GPU,显存需求视具体模型大小而定,70B 模型通常需要多卡或高显存)
未说明

快速开始
强大、稳定且可复现的大语言模型对齐技术
用Xwin-LM提升你的大语言模型对齐水平!
Xwin-LM致力于开发并开源大型语言模型的对齐技术,包括监督微调(SFT)、奖励模型(RM)、拒绝采样、人类反馈强化学习(RLHF)等。我们的首个版本基于Llama2基础模型,在AlpacaEval上排名TOP-1。值得注意的是,它是首个在该基准上超越GPT-4的模型。该项目将持续更新。
新闻
- :boom: [2024年5月] 模型Xwin-Math-70B-V1.1和Xwin-Math-7B-V1.1在MATH基准测试中分别取得了51.9和44.7的pass@1分数,在GSM8K基准测试中则分别达到90.6和84.4的pass@1分数。这些都是基于LLaMA-2的最新SOTA模型!
- :boom: [2024年1月] 我们在AlpacaEval上更新了XwinLM-V0.3,在所有开源模型中排名第一。
- :boom: [2023年11月] 模型Xwin-Math-70B-V1.0在MATH基准测试中达到了31.8的pass@1分数,在GSM8K基准测试中则为87.0的pass@1分数。这一表现使其成为所有开源模型中的第一名!
- :boom: [2023年11月] 模型Xwin-Math-7B-V1.0和Xwin-Math-13B-V1.0在GSM8K基准测试中分别取得了66.6和76.2的pass@1分数,分别位居所有基于LLaMA-2的7B和13B开源模型中的第一名!
- :boom: [2023年11月] 我们发布了XwinCoder-7B、XwinCoder-13B和XwinCoder-34B。其中,XwinCoder-34B在HumanEval上的得分为74.2,并且在6个基准测试中与GPT-3.5-turbo的表现相当。
- :boom: [2023年10月12日] Xwin-LM-7B-V0.2和Xwin-LM-13B-V0.2已发布,改进了对比数据和强化学习训练(即PPO)。它们对阵GPT-4的胜率显著提高,分别达到59.83%(7B模型)和70.36%(13B模型)。70B模型也将很快发布。
- :boom: [2023年9月] 我们发布了Xwin-LM-70B-V0.1,在AlpacaEval基准测试上,其对阵Davinci-003的胜率为95.57%,在AlpacaEval中排名第一。这是首个在AlpacaEval上超越GPT-4的模型。此外,它对阵GPT-4的胜率为60.61%。
- :mag: [2023年9月] RLHF在Xwin-LM-V0.1版本的强大性能中发挥了关键作用!
- :boom: [2023年9月] 我们发布了Xwin-LM-13B-V0.1,在AlpacaEval上的胜率为91.76%,在所有13B模型中排名第一。
- :boom: [2023年9月] 我们发布了Xwin-LM-7B-V0.1,在AlpacaEval上的胜率为87.82%,在所有7B模型中排名第一。
模型卡片
| 模型 | 检查点 | 报告 | 许可证 |
|---|---|---|---|
| Xwin-LM-7B-V0.2 | 🤗 HF链接 | 📃论文链接 | Llama 2许可证 |
| Xwin-LM-13B-V0.2 | 🤗 HF链接 | Llama 2许可证 | |
| Xwin-LM-7B-V0.1 | 🤗 HF链接 | Llama 2许可证 | |
| Xwin-LM-13B-V0.1 | 🤗 HF链接 | Llama 2许可证 | |
| Xwin-LM-70B-V0.1 | 🤗 HF链接 | Llama 2许可证 | |
| Xwin-Coder-7B | 🤗 HF链接 | 📃简要介绍 | Llama 2许可证 |
| Xwin-Coder-13B | 🤗 HF链接 | Llama 2许可证 | |
| Xwin-Coder-34B | 🤗 HF链接 | Llama 2许可证 | |
| Xwin-Math-7B-V1.1 | 🤗 HF链接 | 📃论文链接 | Llama 2许可证 |
| Xwin-Math-70B-V1.1 | 🤗 HF链接 | Llama 2许可证 | |
| Xwin-Math-7B-V1.0 | 🤗 HF链接 | Llama 2许可证 | |
| Xwin-Math-13B-V1.0 | 🤗 HF链接 | Llama 2许可证 | |
| Xwin-Math-70B-V1.0 | 🤗 HF链接 | Llama 2许可证 |
基准测试
Xwin-LM 在 AlpacaEval 上的性能。
下表展示了 Xwin-LM 在 AlpacaEval 上的表现,该评测在 805 个问题上评估了其相对于 Text-Davinci-003 的胜率。为了进行全面评估,我们首次同时呈现了其与 ChatGPT 和 GPT-4 的胜率。我们的 Xwin-LM 模型系列在所有指标上均创下新的最先进水平。值得注意的是,Xwin-LM-70B-V0.1 首次超越了 GPT-4,对 Text-Davinci-003 的胜率为 95.57%,对 GPT-4 的胜率为 60.61%。
| 模型 | AlpacaEval(胜率 %) | AlpacaEval(胜率 %) | AlpacaEval(胜率 %) |
|---|---|---|---|
| 对比 Text-Davinci-003 | 对比 ChatGPT | 对比 GPT4 | |
| Xwin-LM-70B-V0.1 | 95.57 | 87.50 | 60.61 |
| GPT-4 | 95.28 | 84.66 | 50.00 |
| Xwin-LM-13B-V0.2 | 93.22 | 87.14 | 70.36 |
| WizardLM-70B-V1.0 | 92.91 | 80.19 | 46.70 |
| Llama-2-70B-Chat | 92.66 | 81.97 | 51.19 |
| Xwin-LM-13B-V0.1 | 91.76 | 81.79 | 55.30 |
| ChatGPT | 89.37 | 50.00 | 16.60 |
| Xwin-LM-7B-V0.2 | 89.31 | 79.60 | 59.83 |
| WizardLM-13B-V1.2 | 89.17 | 75.75 | 41.91 |
| Xwin-LM-7B-V0.1 | 87.35 | 76.40 | 47.57 |
| Llama-2-13B-Chat | 81.09 | 64.22 | 30.92 |
AlpacaEval 案例研究
| 提示词 | GPT4 回答 | Xwin-LM 回答 |
|---|---|---|
| 我把一个盘子放在苹果上面,然后把盘子从厨房拿到餐厅。现在苹果在哪里? | 苹果现在在餐厅里,因为当你把盘子从厨房搬到餐厅时,苹果就在盘子下面。 | 苹果仍然在厨房里,因为你只是移动了盘子而已。苹果在盘子下面,所以如果你想把苹果带到餐厅,你应该直接移动苹果,或者先把苹果放在盘子上,再把盘子一起搬到餐厅。 |
| 回答以下问题。 “晚上好”用法语怎么说? |
法语中,“晚上好”说的是“bonsoir”。 | 法语中,“晚上好”翻译为“bonsoir”。这个问候语用于傍晚和夜间,通常在下午6点以后使用。它由“bon”(意为“好”)和“soir”(意为“晚上”)组成。发音时应念作“bone-swahr”。 |
Xwin-LM 在 NLP 基础任务上的性能。
下表提供了 Xwin-LMs 与其他 LLM 在 Open LLM Leaderboard 中 NLP 基础任务上的比较。
| 模型 | MMLU 5-shot | ARC 25-shot | TruthfulQA 0-shot | HellaSwag 10-shot | 平均 |
|---|---|---|---|---|---|
| Text-davinci-003 | 56.9 | 85.2 | 59.3 | 82.2 | 70.9 |
| Vicuna-13b 1.1 | 51.3 | 53.0 | 51.8 | 80.1 | 59.1 |
| Guanaco 30B | 57.6 | 63.7 | 50.7 | 85.1 | 64.3 |
| WizardLM-7B 1.0 | 42.7 | 51.6 | 44.7 | 77.7 | 54.2 |
| WizardLM-13B 1.0 | 52.3 | 57.2 | 50.5 | 81.0 | 60.2 |
| WizardLM-30B 1.0 | 58.8 | 62.5 | 52.4 | 83.3 | 64.2 |
| Llama-2-7B-Chat | 48.3 | 52.9 | 45.6 | 78.6 | 56.4 |
| Llama-2-13B-Chat | 54.6 | 59.0 | 44.1 | 81.9 | 59.9 |
| Llama-2-70B-Chat | 63.9 | 64.6 | 52.8 | 85.9 | 66.8 |
| Xwin-LM-7B-V0.1 | 49.7 | 56.2 | 48.1 | 79.5 | 58.4 |
| Xwin-LM-13B-V0.1 | 56.6 | 62.4 | 45.5 | 83.0 | 61.9 |
| Xwin-LM-70B-V0.1 | 69.6 | 70.5 | 60.1 | 87.1 | 71.8 |
| Xwin-LM-7B-V0.2 | 50.0 | 56.4 | 49.5 | 78.9 | 58.7 |
| Xwin-LM-13B-V0.2 | 56.6 | 61.5 | 43.8 | 82.9 | 61.2 |
推理
对话模板
为获得理想结果,请在使用我们的模型进行推理时严格遵循对话模板。我们的模型采用 Vicuna 制定的提示格式,并支持 多轮 对话。
一位好奇的用户与人工智能助手之间的对话。助手会针对用户的问题给出有帮助、详细且礼貌的回答。用户:你好! 助手:您好。</s>用户:你是谁? 助手:我是 Xwin-LM。</s>......
HuggingFace 示例
from transformers import AutoTokenizer, AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")
tokenizer = AutoTokenizer.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")
(
prompt := "一位好奇的用户与人工智能助手之间的对话。 "
"助手会针对用户的问题给出有帮助、详细且礼貌的回答。 "
"用户:你好,你能帮我吗? "
"助手:"
)
inputs = tokenizer(prompt, return_tensors="pt")
samples = model.generate(**inputs, max_new_tokens=4096, temperature=0.7)
output = tokenizer.decode(samples[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True)
print(output)
# 当然可以!我在这里帮助您。请随时提出您的问题或描述您遇到的问题,我会尽力为您提供帮助。
vLLM 示例
由于 Xwin-LM 基于 Llama2,它也支持使用 vLLM 进行快速推理。详细的安装说明请参阅 vLLM。
from vllm import LLM, SamplingParams
(
prompt := "一位好奇的用户与人工智能助手之间的对话。 "
"助手会针对用户的问题给出有帮助、详细且礼貌的回答。 "
"用户:你好,你能帮我吗? "
"助手:"
)
sampling_params = SamplingParams(temperature=0.7, max_tokens=4096)
llm = LLM(model="Xwin-LM/Xwin-LM-7B-V0.1")
outputs = llm.generate([prompt,], sampling_params)
for output in outputs:
prompt = output.prompt
generated_text = output.outputs[0].text
print(generated_text)
待办事项
- 发布源代码
- 发布更多能力,例如数学、推理等。
引用
如果您使用了本仓库中的数据或代码,请考虑引用我们的工作。
@software{xwin-lm,
title = {Xwin-LM},
author = {Xwin-LM 团队},
url = {https://github.com/Xwin-LM/Xwin-LM},
version = {预发布},
year = {2023},
month = {9},
}
致谢
感谢 Llama 2、FastChat、AlpacaFarm 和 vLLM。
常见问题
相似工具推荐
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
funNLP
funNLP 是一个专为中文自然语言处理(NLP)打造的超级资源库,被誉为"NLP 民工的乐园”。它并非单一的软件工具,而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。 面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点,funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具,还独特地收录了丰富的垂直领域资源,如法律、医疗、金融行业的专用词库与数据集,甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性,从基础的字典词典到前沿的 BERT、GPT-2 模型代码,再到高质量的标注数据和竞赛方案,应有尽有。 无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师,还是从事人工智能研究的学者,都能在这里找到急需的“武器弹药”。对于开发者而言,它能大幅减少寻找数据和复现模型的时间;对于研究者,它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神,极大地降低了中文自然语言处理的开发与研究成本,是中文 AI 社区不可或缺的宝藏仓库。
gpt4all
GPT4All 是一款让普通电脑也能轻松运行大型语言模型(LLM)的开源工具。它的核心目标是打破算力壁垒,让用户无需依赖昂贵的显卡(GPU)或云端 API,即可在普通的笔记本电脑和台式机上私密、离线地部署和使用大模型。 对于担心数据隐私、希望完全掌控本地数据的企业用户、研究人员以及技术爱好者来说,GPT4All 提供了理想的解决方案。它解决了传统大模型必须联网调用或需要高端硬件才能运行的痛点,让日常设备也能成为强大的 AI 助手。无论是希望构建本地知识库的开发者,还是单纯想体验私有化 AI 聊天的普通用户,都能从中受益。 技术上,GPT4All 基于高效的 `llama.cpp` 后端,支持多种主流模型架构(包括最新的 DeepSeek R1 蒸馏模型),并采用 GGUF 格式优化推理速度。它不仅提供界面友好的桌面客户端,支持 Windows、macOS 和 Linux 等多平台一键安装,还为开发者提供了便捷的 Python 库,可轻松集成到 LangChain 等生态中。通过简单的下载和配置,用户即可立即开始探索本地大模型的无限可能。