WizardLM
WizardLM 是一系列基于“进化指令”(Evol-Instruct)技术构建的大型语言模型家族,涵盖通用对话的 WizardLM、专注代码生成的 WizardCoder 以及擅长数学推理的 WizardMath。它主要解决了传统大模型在面对复杂、多步骤指令时理解能力不足或执行偏差的问题,通过自动将简单指令演化为高难度任务进行训练,显著提升了模型遵循复杂逻辑的能力。
在技术亮点上,WizardLM 独创的 Evol-Instruct 方法无需大量人工标注,即可生成高质量且多样化的复杂指令数据。其衍生模型表现卓越:WizardCoder-33B-V1.1 在 HumanEval 等权威代码评测中超越了 ChatGPT 3.5 和 Gemini Pro,成为开源界领先的编程助手;WizardMath 则在数学解题领域展现了强大的推理实力。
这套工具非常适合开发者用于辅助编程与调试,研究人员可借此探索指令微调的新范式,同时也适合需要处理复杂逻辑分析或专业学科问答的高级用户。作为开源项目,WizardLM 提供了从 7B 到 70B 多种参数量级的模型选择,兼顾了部署灵活性与性能上限,是提升 AI 应用复杂任务处理能力的优质选择。
使用场景
某初创公司的后端团队需要在两天内将遗留的单体应用重构为微服务架构,并生成配套的单元测试代码。
没有 WizardLM 时
- 面对复杂的业务逻辑迁移指令,通用大模型往往只能给出泛泛的代码框架,无法处理多层嵌套的条件判断和特定的异常捕获逻辑。
- 生成的测试用例覆盖率低,经常遗漏边界条件(如空值、并发冲突),导致开发人员必须手动补充大量断言代码。
- 模型对长上下文的理解能力有限,在重构涉及多个文件交互的功能时,容易产生变量命名不一致或接口定义错误的“幻觉”。
- 团队不得不花费大量时间反复调整提示词(Prompt)并人工修正代码错误,严重拖慢了原本紧迫的交付进度。
使用 WizardLM 后
- 借助 WizardLM 强大的复杂指令遵循能力(Evol-Instruct),它能精准理解“保留原有事务一致性同时拆分服务”的高难度需求,直接输出逻辑严密的完整代码。
- 利用 WizardCoder 在代码基准测试中的 SOTA 表现,自动生成的单元测试不仅覆盖了核心路径,还智能包含了各类边缘场景,HumanEval 通过率显著提升。
- 在处理跨文件重构任务时,WizardLM 能准确维护上下文依赖关系,确保新生成的微服务接口与原有数据库模型完美对接,大幅减少幻觉错误。
- 开发人员只需进行一次清晰的指令描述,即可获得高质量的可运行代码,将原本需要数小时的人工调试时间缩短至几分钟的代码审查环节。
WizardLM 通过进化指令微调技术,将开发者从繁琐的代码纠错中解放出来,使其能专注于架构设计的核心价值。
运行环境要求
未说明(根据模型参数量推断:7B 模型建议显存 16GB+,33B/34B 模型建议显存 24GB-80GB,70B 模型需多卡或高显存 GPU)
未说明

快速开始
WizardLM:赋能大型预训练语言模型遵循复杂指令
🏠 首页
🤗 HF 仓库 • 🐦 Twitter • 📃 [WizardLM] @ICLR2024 • 📃 [WizardCoder] @ICLR2024 • 📃 [WizardMath]
👋 加入我们的 Discord
非官方视频介绍
感谢热情的朋友们,他们的视频介绍更加生动有趣。
- NEW WizardLM 70b 🔥 巨型模型... 疯狂性能
- 立即获取 WizardLM!能击败 ChatGPT 的 7B LLM 之王!我太佩服了!
- WizardLM:增强大型语言模型以遵循复杂指令
- WizardCoder AI 是新的 ChatGPT 编码双胞胎!
新闻
- 🔥🔥🔥[2024/01/04] 我们发布了基于 deepseek-coder-33b-base 训练的 WizardCoder-33B-V1.1,在 EvalPlus Leaderboard 上是 SOTA 开源代码 LLM,在 HumanEval 上达到 79.9 pass@1,在 HumanEval-Plus 上达到 73.2 pass@1,在 MBPP 上达到 78.9 pass@1,在 MBPP-Plus 上达到 66.9 pass@1。WizardCoder-33B-V1.1 在 HumanEval 和 HumanEval-Plus 的 pass@1 指标上均优于 ChatGPT 3.5、Gemini Pro 和 DeepSeek-Coder-33B-instruct。在 MBPP 和 MBPP-Plus 的 pass@1 指标上,WizardCoder-33B-V1.1 与 ChatGPT 3.5 相当,并且超越了 Gemini Pro。
- [2023/08/26] 我们发布了 WizardCoder-Python-34B-V1.0,在 HumanEval 基准测试上达到了 73.2 pass@1,超越了 GPT4 (2023/03/15)、ChatGPT-3.5 和 Claude2。更多详情请参阅 WizardCoder。
- [2023/06/16] 我们发布了 WizardCoder-15B-V1.0,在 HumanEval 基准测试上超越了 Claude-Plus (+6.8)、Bard (+15.3) 和 InstructCodeT5+ (+22.3)。更多详情请参阅 WizardCoder。
| 模型 | 检查点 | 论文 | HumanEval | HumanEval+ | MBPP | MBPP+ |
|---|---|---|---|---|---|---|
| GPT-4-Turbo (2023年11月) | - | - | 85.4 | 81.7 | 83.0 | 70.7 |
| GPT-4 (2023年5月) | - | - | 88.4 | 76.8 | - | - |
| GPT-3.5-Turbo (2023年11月) | - | - | 72.6 | 65.9 | 81.7 | 69.4 |
| Gemini Pro | - | - | 63.4 | 55.5 | 72.9 | 57.9 |
| DeepSeek-Coder-33B-instruct | - | - | 78.7 | 72.6 | 78.7 | 66.7 |
| WizardCoder-33B-V1.1 | 🤗 HF 链接 | 📃 [WizardCoder] | 79.9 | 73.2 | 78.9 | 66.9 |
| WizardCoder-Python-34B-V1.0 | 🤗 HF 链接 | 📃 [WizardCoder] | 73.2 | 64.6 | 73.2 | 59.9 |
| WizardCoder-15B-V1.0 | 🤗 HF 链接 | 📃 [WizardCoder] | 59.8 | 52.4 | -- | -- |
| WizardCoder-Python-13B-V1.0 | 🤗 HF 链接 | 📃 [WizardCoder] | 64.0 | -- | -- | -- |
| WizardCoder-Python-7B-V1.0 | 🤗 HF 链接 | 📃 [WizardCoder] | 55.5 | -- | -- | -- |
| WizardCoder-3B-V1.0 | 🤗 HF 链接 | 📃 [WizardCoder] | 34.8 | -- | -- | -- |
| WizardCoder-1B-V1.0 | 🤗 HF 链接 | 📃 [WizardCoder] | 23.8 | -- | -- | -- |
[2023年12月19日] 🔥 我们发布了基于 Mistral-7B 训练的 WizardMath-7B-V1.1,这是 SOTA 7B 数学 LLM,在 GSM8k 上达到 83.2 pass@1,在 MATH 上达到 33.0 pass@1。
[2023年12月19日] 🔥 WizardMath-7B-V1.1 在 GSM8K 的 pass@1 指标上优于 ChatGPT 3.5、Gemini Pro、Mixtral MOE 和 Claude Instant。
[2023年12月19日] 🔥 WizardMath-7B-V1.1 与 ChatGPT 3.5 和 Gemini Pro 相当,在 MATH 的 pass@1 指标上则超越了 Mixtral MOE。
🔥 我们的 WizardMath-70B-V1.0 模型在 GSM8K 上的表现略胜于一些闭源 LLM,包括 ChatGPT 3.5、Claude Instant 1 和 PaLM 2 540B。
🔥 我们的 WizardMath-70B-V1.0 模型在 GSM8k 基准测试上达到了 81.6 pass@1,比 SOTA 开源 LLM 高出 24.8 分。
🔥 我们的 WizardMath-70B-V1.0 模型在 MATH 基准测试上达到了 22.7 pass@1,比 SOTA 开源 LLM 高出 9.2 分。
| 模型 | 检查点 | 论文 | GSM8k | MATH |
|---|---|---|---|---|
| WizardMath-7B-V1.1 | 🤗 HF链接 | 📃 [WizardMath] | 83.2 | 33.0 |
| WizardMath-70B-V1.0 | 🤗 HF链接 | 📃 [WizardMath] | 81.6 | 22.7 |
| WizardMath-13B-V1.0 | 🤗 HF链接 | 📃 [WizardMath] | 63.9 | 14.0 |
| WizardMath-7B-V1.0 | 🤗 HF链接 | 📃 [WizardMath] | 54.9 | 10.7 |
- [2023年8月9日] 我们发布了 WizardLM-70B-V1.0 模型。以下是 完整模型权重。
| 模型 | 检查点 | 论文 | MT-Bench | AlpacaEval | GSM8k | HumanEval | 演示 | 许可证 |
|---|---|---|---|---|---|---|---|---|
| WizardLM-70B-V1.0 | 🤗 HF链接 | 📃即将发布 | 7.78 | 92.91% | 77.6% | 50.6 | Llama 2许可证 | |
| WizardLM-13B-V1.2 | 🤗 HF链接 | 7.06 | 89.17% | 55.3% | 36.6 | 演示 | Llama 2许可证 | |
| WizardLM-13B-V1.1 | 🤗 HF链接 | 6.76 | 86.32% | 25.0 | 非商业用途 | |||
| WizardLM-30B-V1.0 | 🤗 HF链接 | 7.01 | 37.8 | 非商业用途 | ||||
| WizardLM-13B-V1.0 | 🤗 HF链接 | 6.35 | 75.31% | 24.0 | 非商业用途 | |||
| WizardLM-7B-V1.0 | 🤗 HF链接 | 📃 [WizardLM] | 19.1 | 非商业用途 | ||||
引用
如果您使用了 WizardLM 的数据或代码,请引用以下论文:
@inproceedings{
xu2024wizardlm,
title={Wizard{LM}: Empowering Large Pre-Trained Language Models to Follow Complex Instructions},
author={Can Xu and Qingfeng Sun and Kai Zheng and Xiubo Geng and Pu Zhao and Jiazhan Feng and Chongyang Tao and Qingwei Lin and Daxin Jiang},
booktitle={The Twelfth International Conference on Learning Representations},
year={2024},
url={https://openreview.net/forum?id=CfXh93NDgH}
}
如果您使用了 WizardCoder 的数据或代码,请引用以下论文:
@inproceedings{
luo2024wizardcoder,
title={WizardCoder: Empowering Code Large Language Models with Evol-Instruct},
author={Ziyang Luo and Can Xu and Pu Zhao and Qingfeng Sun and Xiubo Geng and Wenxiang Hu and Chongyang Tao and Jing Ma and Qingwei Lin and Daxin Jiang},
booktitle={The Twelfth International Conference on Learning Representations},
year={2024},
url={https://openreview.net/forum?id=UnUwSIgK5W}
}
如果您参考了 WizardMath 的模型、代码、数据或论文,请引用以下文章:
@article{luo2023wizardmath,
title={Wizardmath: Empowering mathematical reasoning for large language models via reinforced evol-instruct},
author={Luo, Haipeng and Sun, Qingfeng and Xu, Can and Zhao, Pu and Lou, Jianguang and Tao, Chongyang and Geng, Xiubo and Lin, Qingwei and Chen, Shifeng and Zhang, Dongmei},
journal={arXiv preprint arXiv:2308.09583},
year={2023}
}
❗关于数据集的说明:
近期,我们整个组织在开源政策及代码、数据和模型的相关规定方面发生了明显变化。 尽管如此,我们仍努力争取率先开放模型权重,但数据涉及更为严格的审核,目前正由我们的法务团队进行审查。 在未获授权的情况下,我们的研究人员无权公开发布这些数据。 感谢您的理解。
招聘
- 🧑🎓 我们正在寻找积极进取的学生加入我们成为实习生,共同打造更智能的AI。请发送邮件至 caxu@microsoft.com 联系我们。
关于模型系统提示使用说明:
为获得与我们的演示 完全一致 的结果,请严格按照 "src/infer_wizardlm13b.py" 中提供的提示和调用方式来使用我们的模型进行推理。我们的模型采用了 Vicuna 的提示格式,并支持 多轮 对话。
对于 WizardLM, 提示应如下所示:
一个好奇的用户与一个人工智能助手之间的对话。助手会针对用户的问题给出有帮助、详细且礼貌的回答。用户:你好 助手:您好。</s>用户:你是谁? 助手:我是 WizardLM。</s>......
对于 WizardCoder, 提示应如下所示:
"以下是一条描述任务的指令。请撰写一段恰当完成请求的回复。\n\n### 指令:\n{instruction}\n\n### 回复:"
对于 WizardMath, 提示应如下所示:
默认版本:
"以下是一条描述任务的指令。请撰写一段恰当完成请求的回复。\n\n### 指令:\n{instruction}\n\n### 回复:"
思维链版本: (❗对于 简单 的数学问题,我们不建议使用思维链提示。)
"以下是一条描述任务的指令。请撰写一段恰当完成请求的回复。\n\n### 指令:\n{instruction}\n\n### 回复:让我们一步步思考。"
GPT-4 自动评估
我们采用 FastChat 提出的基于 GPT-4 的自动评估框架来评估聊天机器人模型的性能。如图所示,WizardLM-30B 的表现优于 Guanaco-65B。
WizardLM-30B 在不同技能上的表现
下图比较了 WizardLM-30B 和 ChatGPT 在 Evol-Instruct 测试集上的技能表现。结果显示,WizardLM-30B 的平均性能达到 ChatGPT 的 97.8%,其中在 18 项技能上几乎达到或超过 100%,在 24 项技能上则超过 90%。
WizardLM 在 NLP 基础任务上的表现
下表提供了 WizardLM 与其他 LLM 在 NLP 基础任务上的对比。结果显示,WizardLM 在同规模的 LLaMa 模型中始终表现出更优异的性能。此外,我们的 WizardLM-30B 模型在 MMLU 和 HellaSwag 基准测试上与 OpenAI 的 Text-davinci-003 表现相当。
| 模型 | MMLU 5-shot | ARC 25-shot | TruthfulQA 0-shot | HellaSwag 10-shot | 平均 |
|---|---|---|---|---|---|
| Text-davinci-003 | 56.9 | 85.2 | 59.3 | 82.2 | 70.9 |
| Vicuna-13b 1.1 | 51.3 | 53.0 | 51.8 | 80.1 | 59.1 |
| Guanaco 30B | 57.6 | 63.7 | 50.7 | 85.1 | 64.3 |
| WizardLM-7B 1.0 | 42.7 | 51.6 | 44.7 | 77.7 | 54.2 |
| WizardLM-13B 1.0 | 52.3 | 57.2 | 50.5 | 81.0 | 60.2 |
| WizardLM-30B 1.0 | 58.8 | 62.5 | 52.4 | 83.3 | 64.2 |
WizardLM 在代码生成任务上的表现
下表全面比较了 WizardLM 与其他几种 LLM 在代码生成任务(即 HumanEval)上的表现,评估指标为 pass@1。结果显示,WizardLM 在同规模的 LLaMa 模型中始终表现出更优异的性能。此外,我们的 WizardLM-30B 模型超越了 StarCoder 和 OpenAI 的 code-cushman-001。同时,我们的 Code LLM,WizardCoder,也展现了卓越的性能,pass@1 得分为 57.3,比开源领域的 SOTA 高出约 20 分。
| 模型 | HumanEval Pass@1 |
|---|---|
| LLaMA-7B | 10.5 |
| LLaMA-13B | 15.8 |
| CodeGen-16B-Multi | 18.3 |
| CodeGeeX | 22.9 |
| LLaMA-33B | 21.7 |
| LLaMA-65B | 23.7 |
| PaLM-540B | 26.2 |
| CodeGen-16B-Mono | 29.3 |
| code-cushman-001 | 33.5 |
| StarCoder | 33.6 |
| WizardLM-7B 1.0 | 19.1 |
| WizardLM-13B 1.0 | 24.0 |
| WizardLM-30B 1.0 | 37.8 |
| WizardCoder-15B 1.0 | 57.3 |
征求反馈
我们欢迎各位使用专业且具有挑战性的指令来评估 WizardLM,并在 issue 讨论 区域向我们展示其表现不佳的案例及您的建议。目前我们正专注于改进 Evol-Instruct 算法,希望在下一版 WizardLM 中解决现有的不足和问题。此后,我们将开放最新 Evol-Instruct 算法的代码和流程,并与您携手共同优化它。
Evol-Instruct 概述
Evol-Instruct 是一种新颖的方法,利用 LLM 代替人工,自动批量生成各种难度级别和技能范围的开放领域指令,从而提升 LLM 的性能。您可以借助我们提供的 Evol Script 轻松开启属于您自己的进化之旅。
免责声明
本项目相关的资源,包括代码、数据和模型权重,仅限于学术研究用途,不得用于商业目的。WizardLM任何版本生成的内容均受随机性等不可控因素影响,因此本项目无法保证输出结果的准确性。本项目不对模型输出内容承担任何法律责任,亦不对其关联资源及输出结果的使用所导致的任何损失负责。
点星历史
版本历史
v1.62023/08/27v1.52023/08/13v1.42023/08/09v1.32023/07/25v1.22023/06/06v1.12023/05/26常见问题
相似工具推荐
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
funNLP
funNLP 是一个专为中文自然语言处理(NLP)打造的超级资源库,被誉为"NLP 民工的乐园”。它并非单一的软件工具,而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。 面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点,funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具,还独特地收录了丰富的垂直领域资源,如法律、医疗、金融行业的专用词库与数据集,甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性,从基础的字典词典到前沿的 BERT、GPT-2 模型代码,再到高质量的标注数据和竞赛方案,应有尽有。 无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师,还是从事人工智能研究的学者,都能在这里找到急需的“武器弹药”。对于开发者而言,它能大幅减少寻找数据和复现模型的时间;对于研究者,它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神,极大地降低了中文自然语言处理的开发与研究成本,是中文 AI 社区不可或缺的宝藏仓库。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。





