UltraChat
UltraChat 是一个专注于大规模、高信息量且多样化的多轮对话数据集及其衍生模型的项目。它旨在解决当前开源大语言模型在训练数据上普遍存在的多样性不足、多轮交互能力弱以及知识覆盖面窄等痛点,为构建更智能的聊天机器人提供坚实的数据基础。
该项目不仅发布了包含超过 157 万条高质量对话的 UltraChat 数据集,还推出了基于此数据训练的 UltraLM 系列模型(包括 13B 和 65B 版本)。值得一提的是,UltraLM-13B 曾在 AlpacaEval 榜单中位列开源模型第一名,展现了卓越的指令遵循与对话能力。此外,项目近期还扩展了 UltraFeedback 偏好数据集以及 UltraRM 奖励模型,进一步支持了对齐优化研究。
UltraChat 非常适合 AI 研究人员、大模型开发者以及希望微调专属对话机器人的技术团队使用。研究人员可利用其丰富的数据探索对话生成机制,开发者则能直接复用高性能的 UltraLM 模型或基于其数据训练特定领域的应用。对于普通用户而言,虽然不直接操作底层数据,但未来基于该技术构建的智能助手将带来更自然、更博学的交互体验。整个项目由清华大学知识工程实验室(THUNLP)等团队推动,持续更新并开放共享,是开源社区中极具价值的资源。
使用场景
某初创团队正致力于开发一款垂直领域的智能客服助手,急需高质量的中文多轮对话数据来微调开源大模型,以应对复杂的用户咨询。
没有 UltraChat 时
- 数据收集成本极高:团队需人工编写或爬取零散的对话记录,耗时数月仅能积累数万条样本,且难以覆盖多样化的业务场景。
- 多轮逻辑薄弱:由于缺乏长上下文训练数据,模型在回答后续问题时经常“失忆”,无法理解用户在前几轮对话中提供的关键约束条件。
- 回复内容空洞:训练数据多为简单的问答对,导致模型生成的回复缺乏信息量,常常给出泛泛而谈的“正确的废话”,无法满足专业咨询需求。
- 领域适应性差:通用数据集缺乏特定行业的深度知识,模型在面对专业技术问题时容易产生幻觉或拒绝回答。
使用 UltraChat 后
- 快速获得海量素材:直接利用 UltraChat 发布的 157 万条大规模、多样化多轮对话数据,几天内即可构建出覆盖广泛场景的高质量训练集。
- 显著提升连贯性:基于 UltraChat 训练的 UltraLM 模型展现出卓越的多轮交互能力,能精准记忆并引用历史对话细节,逻辑流畅自然。
- 内容详实有深度:得益于数据中富含的信息量,模型生成的回答不仅准确,还能提供具体的解决方案和背景知识,大幅减少空话套话。
- 开箱即用的强大基座:团队可直接部署排名领先的 UltraLM-13B 模型,或在其基础上进行轻量级微调,迅速达到甚至超越闭源模型的服务水平。
UltraChat 通过提供大规模、高信息密度的多轮对话数据与模型,彻底解决了开发者在构建高质量聊天机器人时面临的数据匮乏与效果瓶颈问题。
运行环境要求
- 未说明
需要 NVIDIA GPU(基于 LLaMA-13B/65B 及 BMTrain 框架),具体显存需求未说明(通常 13B 模型推理需 24GB+,训练需更高),CUDA 版本未说明
未说明

快速开始
新闻
- ❗️❗️ 2023年9月26日:发布大规模、细粒度、多样化的偏好数据集 UltraFeedback,全新语言模型 UltraLM-13B-v2.0,奖励模型 UltraRM 和批评家模型 UltraCM。
- ❗️❗️ 使用 UltraRM,简单的“最佳16取1”采样在 AlpacaEval 基准测试 上对 text-davinci-003 的胜率分别达到 92.30%(UltraLM2,在13B结果中排名第一)和 91.54%(UltraLM,在 LLaMA-1 结果中排名第一)。
- 2023年8月7日:发布 UltraLM-65B 的第一个版本。
- 2023年6月28日:UltraLM-13B 在 AlpacaEval 排行榜 上位居开源模型榜首!
- 2023年6月27日:我们发布了 UltraLM-13B 的第一个版本,这是一款基于 UltraChat 训练的强大聊天语言模型!
- 2023年4月20日:所有数据均已发布,后续还将进行更多处理并补充数据。
- 2023年4月17日:写作与创作板块剩余部分发布(45.7万条)。
- 2023年4月12日:写作与创作板块第一部分发布。
- 2023年4月9日:在 gpt4all 的支持下,我们现在也拥有一个 Atlas 探索器。
- 2023年4月8日:我们以 GPT-J 为例发布了训练脚本。
- 2023年4月7日:关于世界的问题第二部分发布,包含 29 万条生成的多轮对话。
- 2023年3月31日:关于世界的问题第一部分发布,包含 28 万条生成的多轮对话。
UltraLM
UltraLM 是一系列基于 UltraChat 训练的聊天语言模型。目前我们已发布 13B 版本,该版本在 AlpacaEval 排行榜 上位居开源模型榜首,并在所有模型中排名第四(截至2023年6月28日)。UltraLM-13B 基于 LLaMA-13B 构建,并在训练过程中得到了 BMTrain 的支持。
下载
| 模型 | 链接 | 版本 |
|---|---|---|
| UltraLM-13B | Huggingface 仓库 | v1.0 |
| UltraLM-65B | Huggingface 仓库 | v1.0 |
| UltraLM-13B | Huggingface 仓库 | v2.0 |
| UltraRM-13B | Huggingface 仓库 | v1.0 |
| UltraCM-13B | Huggingface 仓库 | v1.0 |
使用 UltraLM
- 若要重建 UltraLM,请下载 LLaMA-13B 和我们的 Delta 权重。如果您想测试 UltraLM,请使用此链接 Huggingface 仓库;我们尚未评估第三方提供的其他权重。
- 运行
/UltraLM/recover.sh中的脚本,以获得恢复后的最终权重。 - 获得恢复后的模型后,将
/UltraLM/chat_cli.sh中的模型路径替换为您自己的路径,然后运行即可开始聊天!
注:不同的超参数或系统提示会影响输出结果。您可以参考 /UltraLM/inference_cli.py 中的默认设置。
性能
本节报告了三项评估结果:来自斯坦福大学的 Alpaca-Eval、来自微软 WizardLM 的 Evol-instruct,以及我们精心编制的评估集。现代大型语言模型的评估可能存在偏差,并受到多种因素的影响,我们也在积极研究更全面的评估方法。
Alpaca-Eval
AlpacaEval 是一个专门用于评估大型语言模型的排行榜。该排行榜基于 GPT-4 自动评估的对 Text-Davince-003 的胜率而创建。
Evol-instruct
该数据集采用进化策略构建,通过多轮改写指令来获得不同复杂度级别的指令。该基准测试由 WizardLM 项目 开发,这是另一个优秀的聊天语言模型!

我们的评估集
我们编制了一个评估集,其中包括 Vicuna 基准测试 以及额外由 GPT-4 生成的 300 个问题和指令。这些问题/指令涵盖了广泛的主题,包括常识、世界知识、专业知识(特别是物理和生物)、数学,以及不同难度级别的写作任务。我们使用 GPT-4 进行评估。此处 为该数据集。

UltraLM 示例
示例 A:常识问题
用户: 哪种动物被称为人类最好的朋友?
UltraLM: 人类喜爱的伴侣动物有很多,但要回答“哪种动物被称为人类最好的朋友?”这个问题,最突出的答案无疑是家养的狗。家犬已经陪伴人类数万年之久,不仅提供忠实的陪伴和帮助,还能守护人和财产,并在漫长孤独的日子乃至军事行动中给予情感上的支持。狗的品种繁多,体型各异,精力、性格和气质也各不相同,因此几乎可以肯定,总有一只小狗会成为最适合需要它的人的伙伴。
示例 B:常识推理
用户: 一磅羽毛和一磅砖头,哪个更重?
UltraLM: 一磅羽毛和一磅砖头的重量都正好是一磅。这是因为“磅”是一种重量单位,就像“英尺”是长度单位、“秒”是时间单位一样。我们用“磅”(或其他重量单位)来描述不同物体的重量,而不管这些物体是由什么材料制成的。所以,你问题的答案是:一磅羽毛和一磅砖头的重量是一样的。
示例 C:推理
用户:如果一位农夫有17只羊,除了9只以外全都死了,那么还剩下多少只?
UltraLM:剩下的羊总数是9只。
示例 D:推理
用户:如果一栋红房子是由红砖砌成的,而一栋蓝房子是由蓝砖砌成的,那么温室是由什么材料建造的呢?
UltraLM:温室并不是由绿砖建造的,而是由玻璃或塑料等能够让光线透过、为植物生长创造可控环境的材料制成的。温室可以有各种颜色,包括绿色,但建筑物本身的颜色并不会影响其内部植物的生长。
示例 E:创作
用户:写一首关于电磁学的诗。
UltraLM:
电磁学是一种不可忽视的力量,
它是我们所钟爱许多事物的缘由。
在磁场中,导线会发出光芒,
电子们则排列整齐,新旧皆彰。
电与磁紧密相连,相辅相成,
一个产生场,另一个带来作用力。
磁场既能推动,也能吸引,
对通电的导线,它会全力响应。
吸引与排斥带来的力量,
是许多现象背后的根源所在。
从电动机到发电机,再到更多领域,
电磁学正是这一切意义的根基。
它无处不在,环绕在我们身旁,
从指南针到电灯开关,无所不包。
凭借它的威力,能成就诸多奇迹,
小至一根指针,大至火箭的推力。
这种力量不容否认,
因为它已融入我们的生活之中。
电磁学值得我们赞叹,
它的强大与威严,无人能及,毋庸置疑。示例 F:创作
用户:写一篇关于宇宙诞生第一秒的短篇故事。
UltraLM:
宇宙诞生的第一秒,黑暗主宰一切。
那时没有光,没有声音,没有形状,也没有物质。
一切尚未存在,却蕴藏着一股强大的能量,
一种原始之力正等待着被释放。
在无限之中,第一秒握住了创造的潜能。
忽然,一声巨响,一道耀眼的光芒骤然出现。
在这道光芒里,最基本的粒子诞生了,
它们的形态尚不可知,却疯狂碰撞,
展开了一场混沌而热烈的创世之舞。
在这股原始的光明中,
自然界的每一种力量以及生命的每一个组成要素,
都从纯粹的能量中化作了真实的物质。
最初的原子迅速结合,
由此形成了恒星与星系。它们通过核聚变产生了炽热的环境,
推动着虚空不断退缩,
以膨胀与冷却的波纹塑造着整个宇宙。
在这最初的瞬间,任何经验结构——
甚至连时间和空间——都无法确立其法则。
在那一刹那,整个宇宙仿佛处于胚胎般的交汇点,
一个宇宙奇点,所有未来的存在都由此而生。
它是一个微观世界,孕育出宏观宇宙的一部分,
而其诞生的时刻,则象征着贯穿多元宇宙的循环创世过程。
从那一点光芒开始,无限的宇宙就此展开。
几个世纪之后,亿万年过去,直至永恒,
它依然是这场永不停息的旅程中最根本的一瞬,
通往浩瀚无垠的彼岸。
第一秒,便是万物的开端。
UltraChat 概览
本项目旨在利用 Turbo API 构建开源、大规模且多轮次的对话数据集,以助力开发具备通用对话能力的强大语言模型。
出于保护隐私等考虑,我们不会直接使用互联网上的公开数据作为提示语。
UltraChat 由三个部分组成
- 🌏 关于世界的提问:该部分的对话数据来源于对现实世界中的概念、实体和物体的广泛询问。涵盖的主题非常广泛,包括科技、艺术和创业等领域。
- ✍🏻 写作与创作:该部分的对话数据基于从零开始的写作/创作需求,内容涵盖了 AI 助手可能在创作过程中提供的各类帮助,例如撰写电子邮件、创作小说和剧本等。
- 📋 现有材料的辅助处理:该部分的对话数据基于现有材料生成,包括但不限于改写、续写、概括和推理等任务,主题多样。
*免责声明:尽管构建 UltraChat 的过程中并未使用任何公开的基准数据,但在规模扩大到一定程度时,仍有可能与某些评估基准产生重叠。我们再次强调,所有数据均为自动生成(包括指令和回应),我们并未插入任何公开的基准数据。
例如,UltraChat 于 2023 年 4 月发布,而 Alpaca Eval 则于 2023 年 5 月发布。
我们鼓励用户密切关注此类现象,同时也在积极探讨如何更合理地评估大型语言模型。*
UltraChat 示例
数据
本数据集仅用于科研和教育目的,不应被视为反映本数据集创建者、所有者或贡献者的观点或立场。数据采用 MIT 许可证进行分发。
数据发布
在下载之前,您可以先浏览数据,或者使用 Atlas 浏览器查看。
直接下载链接:
数据格式
下载的数据文件中,每行是一个 JSON 字典,包含数据 ID 和对话数据,对话数据以列表形式呈现。以下是一个示例行。
{
"id": "0",
"data": [
"交叉训练如何使跑步者、游泳运动员或举重运动员等群体受益?",
"交叉训练可以通过以下方式使跑步者、游泳运动员或举重运动员等群体受益:……",
"这很有道理。我一直想提高自己的跑步成绩,但从未想过加入力量训练。您能推荐一些具体的练习吗?",
"当然,以下是一些对跑步者有益的力量训练练习:……",
"嗯,我其实不太喜欢举重。我能否在日常训练中加入其他形式的锻炼来提高跑步成绩呢?",
"可以的!……",
"……"
]
}
训练
我们提供了用于在 UltraChat 数据集上微调 LLaMa 的训练代码(但我们不提供 LLaMa 的权重),相关代码位于 .src/ 目录下。训练过程由 BMTrain 加速。
下载已发布的数据,并将其放置在
./data目录下。运行
train_bm.py,例如:WANDB_MODE="offline" torchrun --nnodes=1 --nproc_per_node=8 --rdzv_id=1 --rdzv_backend=c10d --rdzv_endpoint=localhost:50003 train_bm.py --tensorboard ./ultrachat_llama_tb_2 --save_step 5000 --logging_step 100
我们还提供了一个用于在 UltraChat 数据集上微调 GPT-J 的训练脚本,位于 .src/train_legacy/ 目录下,该脚本基于 OpenPrompt 实现。
- 下载已发布的数据,并将其放置在
./data目录下。 - 运行
accelerate launch train.py开始训练。
UltraChat 的构建
UltraChat 的总体思路是使用不同的大语言模型分别生成开场白、模拟用户以及回应问题。
UltraChat 的每个模块都有其独特的挑战,需要采用特定的策略设计。我们将在每个模块发布时详细说明其构建过程。
关于世界的问题
元主题与子主题
- 数据来源于 30 个具有代表性和多样性的元主题(图标来自 flaticon)。
- 基于上述元主题,我们生成了 1100 多个子主题用于数据构建。
- 对于每个子主题,我们生成最多 10 个具体问题。
- 然后,我们利用 Turbo API 为这 10 个问题各自生成新的相关问题。通过精心设计的提示词,指导模型生成涵盖广泛常见概念和对象的多样化问题。
- 对于每一个问题,我们按照上述方法迭代地使用两个模型生成一个 3 到 7 轮的对话。
常见现实实体
- 我们从 Wikidata 中收集了前 10000 名高频命名实体。
- 使用 ChatGPT API 为每个实体生成 5 个元问题。
- 对于每个元问题,再生成 10 个更具体的问题以及 20 个相关但较为一般的题目。
- 我们从中抽取了 20 万个具体问题、25 万个一般问题以及 5 万个元问题,并为每个问题生成一个 3 到 7 轮的对话。
写作与创作
- 首先,我们收集了 20 种不同类型的写作任务,如下所示(图标来自 flaticon)。
- 对于每种写作类型,我们生成 200 条不同的指令,要求 AI 助手生成文本内容,其中 80% 的指令进一步扩展和细化。
- 将生成的指令作为初始输入,分别生成 2 到 4 轮的对话。
现有材料辅助
- 我们从 C4 数据集中提取了约 10 万份多样化的材料。
- 为每份材料生成最多 5 个问题或指令。
- 将材料与每个问题或指令结合,使用一组手动设计的模板作为用户的初始输入,从而启动与 AI 助手的对话。
- 对于每组输入,我们生成一个 2 到 4 轮的对话。
待办事项
- 发布“关于世界的问题”数据的剩余部分。
- 继续发布“写作与创作”数据。
- 未来将继续发布“现有材料辅助”数据。
- 在 UltraChat 数据集上训练模型,并进行深入分析。欢迎使用该数据集来训练您的聊天模型!
- 将推出 UltraChat 的中文版本。
局限性
- 尽管 UltraChat 在多个基准测试中表现良好,但仍存在幻觉等问题。根据我们的经验,UltraLM 在世界知识和创作方面表现较好,但在推理、数学和编程能力方面仍需进一步提升。
引用
如果您认为 UltraChat 有用,请随时引用本仓库。
@article{ding2023enhancing,
title={Enhancing Chat Language Models by Scaling High-quality Instructional Conversations},
author={Ding, Ning and Chen, Yulin and Xu, Bokai and Qin, Yujia and Zheng, Zhi and Hu, Shengding and Liu, Zhiyuan and Sun, Maosong and Zhou, Bowen},
journal={arXiv preprint arXiv:2305.14233},
year={2023}
}
常见问题
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。