RealChar
RealChar 是一个开源项目,旨在帮助用户轻松创建并实时与个性化的 AI 角色或伴侣进行自然对话。它解决了传统 AI 交互中响应延迟高、角色定制难以及跨平台体验割裂的痛点,让用户能在网页、手机终端甚至命令行界面中,享受如真人般流畅的语音交流体验。
无论是希望快速拥有专属 AI 伙伴的普通用户,还是想要深入探索 AI 工程架构的开发者,RealChar 都提供了极佳的支持。对于非技术背景的用户,它无需编写代码即可定制角色的性格、背景故事乃至声音音色;而对于开发者和研究人员,其模块化的设计允许灵活替换底层组件,是学习构建实时 AI 应用的理想起点。
在技术层面,RealChar 集成了当前最前沿的 AI 生态,包括 OpenAI GPT-4、Anthropic Claude 2 等大语言模型,结合 Whisper 实现高精度语音转文字,利用 ElevenLabs 生成逼真语音,并通过 Chroma 向量数据库赋予角色长期记忆能力。整个系统基于 FastAPI 和 React 等技术栈构建,支持 Docker 部署,展现了强大的灵活性与扩展性。如果你渴望体验或打造具备“真实感”的实时 AI 互动,RealChar 值得尝试。
使用场景
一位独立开发者希望为他的历史科普博客创建一个能与学生进行实时语音互动的“虚拟孔子”助手,以增强学习体验。
没有 RealChar 时
- 开发门槛极高:开发者需要分别集成 Whisper 语音转文字、LLM 大模型接口、ElevenLabs 文字转语音以及向量数据库,代码耦合度高且调试困难。
- 交互延迟严重:由于各模块间缺乏优化的实时流式传输机制,用户说完话后往往需要等待数秒才能听到回复,对话体验割裂且不自然。
- 多端适配成本高:若要同时支持网页版和手机 App,必须重复编写两套前端逻辑和维护不同的后端连接协议,耗费大量时间。
- 角色定制复杂:难以通过简单配置赋予 AI 特定的性格、背景故事或克隆特定音色,每次调整都需要修改底层提示词工程甚至重新训练模型。
使用 RealChar 后
- 一站式快速构建:利用 RealChar 集成的全栈代码库,开发者无需从零拼接组件,仅需配置参数即可在几小时内完成“虚拟孔子”的创建与部署。
- 丝滑实时对话:依托内置的 WebSocket 和优化后的流水线,实现了从语音输入到 AI 回复的毫秒级响应,让学生感觉像是在与真人交谈。
- 跨平台无缝同步:一套后端服务直接打通了 Web、终端和移动端(含开源 iOS/Android 代码),学生无论用电脑还是手机都能随时访问。
- 灵活个性定制:通过简单的配置文件即可定义孔子的儒雅语气、儒家知识库,并一键启用声音克隆功能,让 AI 拥有极具辨识度的嗓音。
RealChar 将复杂的实时 AI 角色开发流程简化为可配置的模块化体验,让开发者能专注于内容创意而非底层技术堆砌。
运行环境要求
- Linux
- macOS
- 可选(用于本地 Whisper/WhisperX 加速),支持 NVIDIA GPU
- 未明确具体型号、显存大小及 CUDA 版本要求
未说明

快速开始
RealChar. - 您的实时AI角色
🎙️🤖创建、自定义并与您的AI角色/伙伴实时对话🎙️🤖
✨ 演示
请访问我们的网站 RealChar.ai 进行体验。
不确定如何发音“RealChar”?请听这个 👉 audip
演示1 - 与圣诞老人!
https://github.com/Shaunwei/RealChar/assets/5101573/6b35a80e-5503-4850-973d-254039bd383c
演示2 - 与AI版埃隆·马斯克讨论笼中格斗!
https://github.com/Shaunwei/RealChar/assets/5101573/5de0b023-6cf3-4947-84cb-596f429d109e
演示3 - 与AI版雷电谈论AI和“真实”记忆
https://github.com/Shaunwei/RealChar/assets/5101573/62a1f3d1-1166-4254-9119-97647be52c42
演示设置:Web、GPT4、ElevenLabs语音克隆、Chroma、Google语音转文本
🎯 核心功能
- 易于使用:无需编码即可创建属于您自己的AI角色。
- 可定制化:您可以自定义AI角色的性格、背景,甚至声音。
- 实时互动:与您的AI角色进行实时对话或消息交流。
- 多平台支持:您可以在网页、终端以及移动端与AI角色互动(是的,我们的移动应用已开源)。
- 最前沿的AI技术:我们采用最先进的AI技术来驱动您的AI角色,包括OpenAI、Anthropic Claude 2、Chroma、Whisper、ElevenLabs等。
- 模块化设计:您可以轻松更换不同的模块以定制流程。更少的预设限制,更多的灵活性。是开启AI工程之旅的理想项目。
🔬 技术栈
- ✅Web: React JS、Vanilla JS、WebSockets
- ✅移动端: Swift、WebSockets
- ✅后端: FastAPI、SQLite、Docker
- ✅数据摄取: LlamaIndex、Chroma
- ✅LLM编排: LangChain、Chroma
- ✅大模型: ReByte、OpenAI GPT3.5/4、Anthropic Claude 2、Anyscale Llama2
- ✅语音转文本: 本地WhisperX、本地Whisper、OpenAI Whisper API、Google语音转文本
- ✅文本转语音: ElevenLabs、Edge TTS、Google文本转语音
- ✅语音克隆: ElevenLabs
📚 与现有产品的对比
📀 快速入门 - 使用Docker安装
创建一个新的
.env文件cp .env.example .env将您的API密钥粘贴到
.env文件中。只需一个ReByte或OpenAI的API密钥即可开始使用。如果您有其他API密钥,也可以一并配置。
使用
docker-compose.yaml启动应用docker compose up如果您在使用Docker时遇到问题(尤其是在非Linux系统上),请参考 https://docs.docker.com/get-docker/(安装指南)和 https://docs.docker.com/desktop/troubleshoot/overview/(故障排除指南)。
💿 开发者 - 通过 Python 安装
步骤 1。克隆仓库
git clone https://github.com/Shaunwei/RealChar.git && cd RealChar步骤 2。安装依赖
# 对于 macOS brew install portaudio brew install ffmpeg# 对于 Ubuntu sudo apt update sudo apt install portaudio19-dev sudo apt install ffmpeg注意:
需要
ffmpeg>=4.4才能与torchaudio>=2.1.0兼容。macOS 用户可能需要将 ffmpeg 库路径添加到
DYLD_LIBRARY_PATH中,以便 torchaudio 正常工作:export DYLD_LIBRARY_PATH=/opt/homebrew/lib:$DYLD_LIBRARY_PATH
接着安装所有 Python 依赖项
pip install -r requirements.txt如果你需要更快的本地语音转文本功能,可以安装 whisperX
pip install git+https://github.com/m-bain/whisperx.git步骤 3。如果你之前没有创建过数据库,请先创建一个空的 sqlite 数据库
sqlite3 test.db "VACUUM;"步骤 4。执行数据库升级
alembic upgrade head这一步确保你的数据库模式是最新的。每次从主分支拉取代码后,请务必运行此命令。
步骤 5。配置
.env文件:cp .env.example .env根据
.env文件中的说明更新 API 密钥和配置。注意:某些功能需要登录系统才能正常运行。如果需要,你可以使用 Firebase 免费获取自己的 OAuth2 登录系统。启用方法是将
USE_AUTH设置为true,并填写FIREBASE_CONFIG_PATH字段。同时在client/next-web/.env中填写 Firebase 配置。步骤 6。使用
cli.py启动后端服务器,或者直接使用 uvicorn:python cli.py run-uvicorn # 或者 uvicorn realtime_ai_character.main:app步骤 7。启动前端客户端:
Web 客户端:
在
client/next-web/目录下创建.env文件cp client/next-web/.env.example client/next-web/.env根据
client/next-web/README.md中的说明调整.env文件。启动前端服务器:
python cli.py next-web-dev # 或者 cd client/next-web && npm run dev # 或者 cd client/next-web && npm run build && npm run start执行这些命令后,本地开发服务器将会启动,你的默认浏览器会打开一个指向该服务器的新标签页(通常是 http://localhost:3000)。
(可选)终端客户端:
在终端中运行以下命令
python client/cli.py(可选)移动端客户端:
使用 Xcode 打开
client/mobile/ios/rac/rac.xcodeproj/project.pbxproj并运行应用。
步骤 8。选择一个角色进行对话,然后开始交流。使用 GPT4 可获得更好的对话体验,并且为了获得最佳音质,请佩戴耳机(避免回声)。
注意:如果你想远程连接到 RealChar 服务器,需要设置 SSL 才能建立音频连接。
👨🚀 API 密钥和配置
1. 大语言模型
1.1 ReByte API 密钥
要获取 ReByte API 密钥,请按照以下步骤操作:
- 访问 ReByte 官网 并注册账户(如果尚未注册)。
- 登录后,进入“设置”>“API 密钥”。
- 点击“生成”按钮,创建一个新的 API 密钥。
1.2 (可选)OpenAI API Token
👇点击我
本应用使用 OpenAI API 来访问其强大的语言模型能力。要使用 OpenAI API,你需要获取一个 API Token。获取 OpenAI API Token 的步骤如下:
(可选)若要使用 Azure OpenAI API,请参考以下部分:
- 在
.env文件中设置 API 类型:OPENAI_API_TYPE=azure
如果你希望使用早期版本 2023-03-15-preview:
OPENAI_API_VERSION=2023-03-15-preview
- 设置 Azure OpenAI 资源的基 URL。 你可以在 Azure 门户的 Azure OpenAI 资源中找到它。
OPENAI_API_BASE=https://your-base-url.openai.azure.com
- 设置 Azure OpenAI 资源的 OpenAI 模型部署名称。
OPENAI_API_MODEL_DEPLOYMENT_NAME=gpt-35-turbo-16k
- 设置 Azure OpenAI 资源的 OpenAIEmbeddings 模型部署名称。
OPENAI_API_EMBEDDING_DEPLOYMENT_NAME=text-embedding-ada-002
1.3 (可选)Anthropic(Claude 2) API Token
👇点击我
要获取 Anthropic API Token,请按照以下步骤操作:
- 访问 Anthropic 官网 并注册账户(如果尚未注册)。
- 登录后,前往 API 密钥页面。
- 点击“创建密钥”按钮,生成一个新的 API 密钥。
1.4 (可选)Anyscale API Token
👇点击我
要获取 Anyscale API Token,请按照以下步骤操作:
- 访问 Anyscale 官网 并注册账户(如果尚未注册)。
- 登录后,前往 凭证页面。
- 点击“生成凭证”按钮,创建一个新的 API 密钥。
2. 语音转文本
我们支持 faster-whisper 和 whisperX 作为本地语音转文本引擎。它们可在 CPU 和 NVIDIA GPU 上运行。
2.1 (可选)Google Speech-to-Text API
👇点击我
要获取 Google Cloud API credentials.json,请按照以下步骤操作:
- 访问 GCP 官网 并注册账户(如果尚未注册)。
- 按照指南创建项目并启用 Speech to Text API。
- 将
google_credentials.json放入本项目的根目录。请参考 创建和删除服务账号密钥。 - 在你的
.env文件中将SPEECH_TO_TEXT_USE更改为GOOGLE。
2.2 (可选)OpenAI Whisper API
👇点击我
与 OpenAI API Token 相同。
3. 文本转语音
Edge TTS 是默认选项,且免费使用。
3.1(可选)ElevenLabs API 密钥
👇点击我
创建 ElevenLabs 账户
访问 ElevenLabs 创建一个账户。您需要此账户来访问文本转语音和语音克隆功能。
在您的个人资料设置中,您可以获取 API 密钥。
3.2(可选)Google 文本转语音 API
👇点击我
要获取您的 Google Cloud API credentials.json,请按照以下步骤操作:
- 前往 GCP 官网,如果您尚未注册,请先创建一个账户。
- 按照指南创建项目并启用文本转语音 API。
- 将
google_credentials.json放入该项目的根目录。请参阅 创建和删除服务账号密钥。
(可选)🔥 创建您自己的角色
(可选)☎️ Twilio 集成
👇点击我
要将 Twilio 与 RealChar 配合使用,您需要先设置一个 Twilio 账户。然后,在您的 .env 文件中填写以下环境变量:
TWILIO_ACCOUNT_SID=YOUR_TWILIO_ACCOUNT_SID
TWILIO_ACCESS_TOKEN=YOUR_TWILIO_ACCESS_TOKEN
DEFAULT_CALLOUT_NUMBER=YOUR_PHONE_NUMBER
此外,您还需要安装 torch 和 torchaudio 才能使用 Twilio。
现在,您可以通过在与角色聊天时,在文本框中输入 /call YOURNUMBER 来接收来自您角色的电话。
注意:目前仅支持美国电话号码和由 ElevenLabs 提供语音的角色。
🆕!Anyscale 和 LangSmith 集成
👇点击我
Anyscale
您现在可以使用 Anyscale Endpoint 轻松地在您的 RealChar 中部署 Llama-2 模型!只需在 Anyscale Endpoint 注册一个账户。获得 API 密钥后,在您的 .env 文件中设置以下环境变量:
ANYSCALE_ENDPOINT_API_KEY=<您的 API 密钥>
默认情况下,我们在 Web UI 中展示了最大的可部署 Llama-2 模型(70B)。您可以将模型名称(meta-llama/Llama-2-70b-chat-hf)更改为其他版本,例如 13B 或 7B。
LangSmith
如果您有权访问 LangSmith,可以编辑以下环境变量以启用:
LANGCHAIN_TRACING_V2=false # 默认关闭
LANGCHAIN_ENDPOINT=https://api.smith.langchain.com
LANGCHAIN_API_KEY=YOUR_LANGCHAIN_API_KEY
LANGCHAIN_PROJECT=YOUR_LANGCHAIN_PROJECT
这样应该就可以直接使用了。
📍 路线图
- 发布 v0.0.4
- 通过 Web UI 创建新角色
- 降低对话延迟
- 支持 Twilio
- 支持 ReByte
- 对话持久化*
- 会话管理*
- 支持 RAG*
- 支持 Agent/GPT*
- 添加更多 TTS 服务*
$*$ 这些功能由 ReByte 平台提供支持。
🫶 参与 RealChar 的开发
请查看我们的贡献指南!
💪 贡献者
🎲 社区
- 加入我们的 Discord
版本历史
v0.0.42023/12/29v0.0.3-rollup-0822-deploy2023/08/22v0.0.3-rollup-0821-deploy2023/08/22v0.0.3-rollup-0818-deploy2023/08/19ios-release-v0.0.4-draft2023/08/18v0.0.3-followup-deploy2023/08/17V0.0.3-rollup-0817-deploy2023/08/17V0.0.3-rollup-0816-deploy2023/08/17V0.0.3-rollup-0814-deploy2023/08/15V0.0.3-rollup-08142023/08/14v0.0.3-rollup2023/08/13v0.0.3-preflight-deploy-gcp-fix2023/08/11v0.0.3-preflight-deploy-uploadfile2023/08/10v0.0.3-preflight-deploy-fix-quivr2023/08/10v0.0.3-preflight-deploy-new-character2023/08/10v0.0.3-preflight-deploy-fix-eslint2023/08/10v0.0.3-preflight-deploy2023/08/10v0.0.2-rollup-0808-deploy2023/08/09v0.0.2-rollup-0807-new-characters-deploy2023/08/07v0.0.2-rollup-0806-fix-eslint-deploy2023/08/07常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
opencode
OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。