RoleLLM-public
RoleLLM 是一个专为提升大语言模型“角色扮演”能力而设计的开源框架。它旨在解决当前主流模型因通用训练和闭源限制,导致在模仿特定人物性格、说话风格及背景知识时表现不足的问题。
该工具不仅提供了一套完整的评估基准 RoleBench(涵盖 100 个古今中外经典角色,含 16 万多条精细样本),还提出了一系列增强方案。其核心技术亮点包括"Context-Instruct",能从长文本中精准提取角色专属知识;以及"RoCIT"技术,通过对开源模型进行微调,诞生了具备出色扮演能力的 RoleLLaMA(英文)和 RoleGLM(中文)模型,效果可媲美基于 GPT-4 的方案。
RoleLLM 非常适合 AI 研究人员、开发者以及对虚拟角色交互有深度需求的产品设计师使用。研究人员可利用其构建的基准数据集进行模型评估;开发者则能基于其微调方法,快速定制具有鲜明个性的垂直领域助手或游戏 NPC。对于希望探索大模型在拟人化交互边界的团队来说,RoleLLM 提供了一站式的解决方案与高质量数据支持。
使用场景
某互动娱乐公司正在开发一款沉浸式历史教育应用,需要让 AI 精准扮演“李白”或“甄嬛传皇帝”等特定角色,与用户进行符合人设的深度对话。
没有 RoleLLM-public 时
- 人设易崩塌:通用大模型缺乏特定角色的背景知识,扮演李白时经常混淆历史朝代,或无法引用其真实诗句,导致“出戏”。
- 语气千篇一律:模型难以模仿角色独特的说话风格(如皇帝的威严或李白的豪放),回复往往带有标准的"AI 助手味”,缺乏个性。
- 构建成本高昂:开发团队需人工编写海量提示词并手动清洗数据来微调模型,耗时数周且效果难以量化评估。
- 长文本知识缺失:面对复杂的角色背景故事,模型无法有效提取关键信息,导致对话内容浅显,无法支撑长篇剧情互动。
使用 RoleLLM-public 后
- 人设高度还原:利用 Context-Instruct 技术自动提取角色专属知识库,让 AI 扮演的李白能准确对答如流,甚至即兴创作符合风格的诗句。
- 风格精准模仿:通过 RoleGPT 模块学习角色语料,模型能完美复刻目标人物的口癖、情绪和修辞习惯,交互极具代入感。
- 开发效率倍增:直接复用 RoleBench 数据集中的 16 万+ 高质量样本进行 RoCIT 微调,将角色定制周期从数周缩短至几天。
- 深度剧情支撑:模型具备处理长文本上下文的能力,能基于角色生平与用户展开多轮复杂剧情演绎,满足深度互动需求。
RoleLLM-public 通过系统化的基准测试与微调框架,将通用大模型瞬间转化为演技精湛的“专业演员”,大幅降低了高质量角色扮演应用的开发门槛。
运行环境要求
未说明
未说明

快速开始
👨🎤 RoleLLM 🪅
RoleLLM:大型语言模型角色扮演能力的基准测试、激发与增强

我们提出了RoleLLM,一个包含数据构建与评估框架(RoleBench)的角色扮演解决方案,以及针对闭源和开源模型的优化方案(RoleGPT、RoleLLaMA、RoleGLM)。此外,我们还提出了Context-Instruct方法,用于长文本知识提取和角色特定知识注入。
摘要
大型语言模型(LLMs)的出现为复杂任务如角色扮演开辟了道路,这种能力通过让模型模仿不同角色来提升用户交互体验。然而,当前最先进的LLMs多为闭源且以通用任务训练为主,这限制了其在角色扮演方面的优化潜力。本文我们提出了RoleLLM,一个用于基准测试、激发并增强LLMs角色扮演能力的框架。RoleLLM包括四个阶段:(1) 针对100个角色的角色档案构建;(2) 基于上下文的指令生成(Context-Instruct),用于提取角色特定知识;(3) 使用GPT进行角色提示(RoleGPT),以模仿不同说话风格;(4) 基于角色条件的指令微调(RoCIT),用于对开源模型进行精调并实现角色定制化。借助Context-Instruct和RoleGPT,我们创建了RoleBench,这是首个系统化、细粒度的角色级别基准数据集,包含168,093个样本。进一步地,在RoleBench上应用RoCIT后,我们得到了RoleLLaMA(英文版)和RoleGLM(中文版),显著提升了角色扮演能力,甚至达到了与RoleGPT(使用GPT-4)相当的效果。
最新动态
- [2023/12/1] 我们的RoleBench已被集成到OpenCompass中,用于LLM的全面评估。
- [2023/10/19] 我们的RoleBench数据已发布。
- [2023/10/3] 我们的论文已发表。
RoleBench统计信息


角色列表
亚伯拉罕·林肯、阿尔维·辛格、安德鲁·德特默、天使、安东尼奥·萨列里、李白(中国)、本杰明·巴顿、布莱尔·沃德夫、布鲁诺·安东尼、卡登·科塔尔、凯撒、教练埃里克·泰勒、汉斯·兰达上校、内森·R·杰塞普上校、科里奥兰纳斯、达达尼昂、大卫·艾姆斯、神秘博士、弗兰克·N·弗特医生、汉尼拔·莱克特医生、甄嬛传中的皇帝(中国)、张飞(中国)、弗莱彻·里德、弗兰克·T.J. 麦基、弗雷德·弗林特斯通、弗莱迪·克鲁格、加斯顿、格雷戈里·豪斯、HAL 9000、哈维·米尔克、甄嬛传中的华妃(中国)、杰克、杰克·斯派洛、杰克·托兰斯、杰基·穆恩、詹姆斯·邦德、詹姆斯·布朗、詹姆斯·卡特、杰夫·斯皮科利、拼图杀人狂、吉姆·莫里森、约翰·科菲、约翰·迪林格、约翰·多伊、约翰·基廷、乔丹·贝尔福特、法官德雷德、朱迪·胡普斯、朱诺·麦克加夫、卡尔·柴尔德斯、克劳斯·米凯尔森、莱昂纳德·谢尔比、利罗伊·杰斯罗·吉布斯、莱斯塔特·德·里昂库尔、洛根、路西法·晨星、琳·卡萨迪、马尔科姆·X、马克·伦顿、玛丽·西布利、拖车机马特、迈克尔·斯科特、墨菲·麦克马努斯、奥利弗·奎因、帕特·索利塔诺、保罗·康罗伊、保罗·维蒂、彼得·帕克、宝、G.H. 多尔教授、凯瑟琳王后、伊丽莎白一世女王、瑞秋·朗、兰德尔·麦克默菲、雷兰·吉文斯、罗伯特·安吉尔、罗夏、赛斯、谢尔顿·库珀、夏洛克·福尔摩斯、史莱克、桑尼、斯坦利·伊普基斯、斯蒂芬·霍金、斯蒂夫勒、老 dude、西奥多·特温布利、雷神托尔、汤姆·里普利、特拉维斯·比克尔、杜鲁门·卡波特、塔格·斯皮德曼、暮光之城的紫悦、泰勒·霍金斯、提利昂·兰尼斯特、薇奥莱特·韦斯顿、死侍、沃尔特·科瓦尔斯基、威利·索克、孙悟空(西游记,中国)。
所有上述角色均在开头的角色全景图中以肖像形式展示。
框架

RoleLLM由四个主要阶段组成:(1) 角色档案构建;(2) 基于上下文的指令生成(Context-Instruct),主要用于提取角色特定知识和情景记忆;(3) 使用GPT进行角色提示(RoleGPT),主要用于模仿不同说话风格;(4) 基于角色条件的指令微调(RoCIT),利用Context-Instruct和RoleGPT生成的数据来增强现有的开源LLM。
实验结果



非精选演示




星标历史
引用
如果您喜欢RoleBench和RoleLLM,请随时引用我们。
@article{wang2023rolellm,
title = {RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models},
author = {Zekun Moore Wang 和 Zhongyuan Peng 和 Haoran Que 和 Jiaheng Liu 和 Wangchunshu Zhou 和 Yuhan Wu 和 Hongcheng Guo 和 Ruitong Gan 和 Zehao Ni 和 Jian Yang 和 Man Zhang 和 Zhaoxiang Zhang 和 Wanli Ouyang 和 Ke Xu 和 Stephen W. Huang 和 Jie Fu 和 Junran Peng},
year = {2023},
journal = {arXiv预印本 arXiv: 2310.00746}
}
常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
Deep-Live-Cam
Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
