OpenBuddy

1.3k 74 简单 1 次阅读 1个月前Apache-2.0语言模型

AI 解读由 AI 自动生成，仅供参考

OpenBuddy 是一款面向全球用户的开源多语言聊天机器人模型，致力于提供自由、开放且支持离线运行的 AI 对话体验。它基于 Falcon 和 LLaMA 等主流基座模型进行深度微调，重点解决了传统模型在多语言支持（尤其是中日韩字符）及多轮对话连贯性上的不足，让用户能够用母语流畅地进行问答、翻译和交流。

无论是希望保护隐私、在本地设备运行 AI 的普通用户，还是需要灵活定制模型的开发者与研究人员，OpenBuddy 都能满足需求。其独特亮点在于扩展了词汇表以更好地支持常见字符，并提供了从 3B 到 70B 多种参数量版本。特别值得一提的是，它支持通过 llama.cpp 进行低比特量化，使得大模型能在消费级硬件甚至 CPU 上高效运行；同时兼容 Ollama 和 vllm 框架，实现了“一键部署”和高并发服务搭建。OpenBuddy 旨在打破语言与技术门槛，让每个人都能轻松受益于人工智能技术。

使用场景

一位跨境电商运营专员需要快速处理来自全球客户的非英语咨询，并生成符合当地文化习惯的多语言回复。

没有 OpenBuddy 时

语言壁垒高：面对日语、韩语或小语种客户留言，必须依赖多个在线翻译工具拼接意思，极易丢失语境和语气。
数据隐私风险：敏感的客户订单信息或投诉内容需上传至公有云翻译平台，存在商业数据泄露隐患。
回复生硬机械：通用翻译软件无法理解多轮对话逻辑，生成的回复缺乏人情味，容易引发客户误解。
部署成本高昂：若想私有化部署大模型，往往受限于显存需求，普通办公电脑无法运行高性能模型。
响应速度慢：在不同工具间切换复制粘贴，处理单个复杂咨询耗时过长，严重影响客服效率。

使用 OpenBuddy 后

原生多语言支持：OpenBuddy 内置增强的多语种词表，能直接理解并流畅输出中、英、日、韩等数十种语言，精准捕捉文化细微差别。
本地离线运行：借助量化技术，OpenBuddy 可直接在普通笔记本电脑的 CPU 上离线运行，确保所有客户数据不出本地设备。
智能多轮对话：基于多轮对话数据集微调，OpenBuddy 能记住上下文语境，生成自然、礼貌且具同理心的定制化回复。
低门槛部署：通过 Ollama 一键命令即可在消费级硬件上启动 4-bit 量化版本，无需昂贵显卡即可享受大模型能力。
工作流一体化：直接在本地终端与 OpenBuddy 交互，瞬间完成从“理解诉求”到“生成回复”的全流程，效率提升数倍。

OpenBuddy 让每一位用户都能在保护隐私的前提下，低成本拥有懂全球语言、知人情世故的专属 AI 助手。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

高并发场景必需 (NVIDIA CUDA GPU)
个人用户可通过 Ollama 使用 CPU、CUDA 或 ROCm 运行，支持量化以降低显存需求

内存

未说明 (取决于模型大小及是否量化，3B-70B 多种尺寸可选)

依赖

notes推荐使用 Ollama 进行本地一键部署（支持 4-bit 量化，适合消费级硬件）；高并发场景推荐在 Linux + CUDA 环境下使用 vllm；OpenBuddy-LLaMA 系列模型需获得 Meta 官方授权方可使用；提供 3/4/5-bit 量化版本以适配低显存设备。

python未说明

ollama

vllm

llama.cpp

transformers

快速开始

OpenBuddy - 面向所有人的开源多语言聊天机器人

中文 | English

微信公众号、微信群：

搜索“开源智友”，关注公众号并发送“加群”即可获得微信群邀请、参与新模型内测等活动

欢迎关注我们的 ModelScope 社区，体验精选模型的高速下载和一键部署：

https://modelscope.cn/organization/OpenBuddy

Website: https://openbuddy.ai

GitHub: https://github.com/OpenBuddy/OpenBuddy

Huggingface: https://huggingface.co/OpenBuddy

Demo

OpenBuddy 是一款功能强大的开源多语言聊天机器人模型，面向全球用户，专注于对话式 AI，并提供英语、中文及其他语言的无缝多语言支持。

OpenBuddy 基于 Tii 的 Falcon 模型和 Facebook 的 LLaMA 模型构建，经过微调以包含扩展词汇表、额外常用字符以及增强的标记嵌入。通过利用这些改进和多轮对话数据集，OpenBuddy 提供了一个强大的模型，能够回答问题并执行多种语言的翻译任务。

我们推出 OpenBuddy 的使命是提供一个免费、开源且可在本地离线运行的 AI 模型，无论用户的语言或文化背景如何，都可以在他们的设备上使用。我们致力于让全球各地的人们都能访问并受益于 AI 技术。

在线演示

目前，OpenBuddy 的演示已在我们的 Discord 服务器上开放。请加入我们的 Discord 服务器来体验吧！

Discord：

核心特性

多语言 对话式 AI，支持中文、英文、日文、韩文、法文、德文等多种语言！
扩展词汇表及对常见中日韩字符的支持
使用多轮对话数据集进行微调，性能更佳
多种模型尺寸满足不同需求：3B、7B、13B、30B、40B、65B、70B 等！
支持 3/4/5 位量化，可通过 llama.cpp 在 CPU 上部署（输出质量略有下降）
积极规划未来功能与改进

未来计划

提升多语言性能
优化量化后的模型质量
开发内容质量、安全性及推理能力评估机制
研究人类反馈强化学习 (RLHF)
探索为带有图像上下文的对话添加多模态能力

模型下载

OpenBuddy 目前在 HuggingFace 和 ModelScope 上提供模型下载。

更多关于模型下载的信息，请参阅模型页面。

提示格式

对于版本 ≥ 21.1 的模型，提示格式已在模型卡片中定义。

对于版本 < 21.1 的模型：请参考：旧版提示格式

使用 Ollama 进行推理（推荐个人用户）

Ollama 是一个用于在消费级硬件上本地部署大型模型的平台。它支持 CPU、CUDA、ROCm 等多种推理方式，并会根据实际情况自动选择最佳硬件加速器。Ollama 支持模型量化部署，这意味着即使是内存较小的设备也能运行大型模型。

Ollama 实现了一站式的模型下载、本地部署和运行。在安装 Ollama 后，您只需一条命令即可部署 8B 模型的 4 位量化版本：

ollama run openbuddy/openbuddy-llama3-8b-v21.1-8k

更多我们的模型可以在：https://ollama.com/openbuddy 查看。

在 Linux + CUDA GPU 环境下使用 `vllm` 进行高并发推理

自 v21 版本起，OpenBuddy 模型的提示格式已在 tokenizer_config.json 文件中定义，因此可以直接使用 vllm 部署，提供与 OpenAI 兼容的 API 服务。

更多信息请参阅 vllm 文档。

vllm 更适合高并发、多用户、长上下文等场景。通过 FP8 KV Cache 等技术，可以进一步提升并发能力和长文本处理性能。vllm 目前仅支持 Linux 操作系统，通常需要配备 CUDA GPU。

免责声明

所有 OpenBuddy 模型都存在固有局限性，可能会产生错误、有害、冒犯或其他不良输出。用户不应将这些模型用于可能导致人身伤害、财产损失或重大损失的关键或高风险场景。此类场景包括但不限于医疗领域、控制可能造成危害的软硬件系统，以及做出重要的金融或法律决策。

许可限制

OpenBuddy-LLaMA 系列模型受 Meta 的许可协议约束。这些模型仅供已获得 Meta 批准并有资格下载 LLaMA 的个人使用。如果您尚未获得 Meta 的批准，请访问 https://ai.meta.com/llama/ 页面，阅读并同意模型的许可协议，提交申请，并等待 Meta 的批准后方可从模型页面下载该模型。

对于 OpenBuddy-Falcon-7B/40B、OpenBuddy-Mistral、OpenBuddy-Zephyr 和 OpenBuddy-OpenLLaMA 系列模型，它们采用 Apache 2.0 许可证发布。请参阅 Apache 2.0 许可证以了解适用范围和限制。

对于其他模型，它们通常采用与基础模型相同的许可证发布。更多信息请参阅模型卡片。

关于 OpenBuddy 开源项目相关的源代码（包括但不限于示例代码），它们采用 Apache 2.0 许可证发布。

致谢

我们向开源社区致以最深切的感谢，感谢他们为 OpenBuddy 项目提供的无私帮助与贡献。

首先，我们要特别感谢 WeiKe Software 在模型训练方面给予的坚实支持与协助。同时，我们也感谢 AIOS.club 提供的宝贵支持。

我们感谢苏建林先生在模型训练过程中提出的宝贵建议。他不仅提供了专业的指导，还提出了多种上下文扩展方法，使开源模型能够支持长上下文推理，这对我们的工作产生了深远的影响。

此外，我们还要感谢 flysnow 和 jstzwj。他们在模型开发的早期阶段提供了宝贵的建议，并在模型推理方面给予了大力的支持与帮助。

与此同时，我们也向关注相机及其他开源语言模型的爱好者们表示感谢。他们的建议对模型的优化起到了关键作用。

再次感谢所有为 OpenBuddy 项目作出贡献的人士。我们的成功离不开你们的支持与鼓励。

OpenBuddy 快速上手指南

OpenBuddy 是一款强大的开源多语言聊天机器人模型，支持中文、英文等多种语言，旨在为用户提供免费、开放且可离线运行的 AI 体验。

环境准备

系统要求

操作系统：Linux（推荐用于高性能部署）、macOS 或 Windows。
硬件配置：
- CPU 推理：适用于低显存设备，建议使用支持 AVX2 指令集的现代 CPU。
- GPU 推理：推荐使用 NVIDIA GPU（支持 CUDA）以获得最佳性能；AMD GPU 需支持 ROCm。
- 内存/显存：根据模型大小不同，建议至少 8GB RAM（3B 模型量化版）至 80GB+ VRAM（70B 全精度版）。

前置依赖

Python 3.8+
Git
Ollama（个人用户推荐）或 vllm（高并发场景）
若使用 Hugging Face 下载模型，建议配置国内镜像加速（如 ModelScope）。

国内加速推荐：优先访问 ModelScope 社区获取高速模型下载与一键部署服务。

安装步骤

方案一：使用 Ollama（推荐个人用户）

Ollama 支持一键下载、量化部署和本地运行，自动适配 CPU/GPU 硬件。

安装 Ollama
访问官网或 GitHub 下载安装包：
```
curl -fsSL https://ollama.com/install.sh | sh
```
运行 OpenBuddy 模型
直接拉取并运行 4-bit 量化的 8B 模型：
```
ollama run openbuddy/openbuddy-llama3-8b-v21.1-8k
```
更多模型请访问：https://ollama.com/openbuddy

方案二：使用 vllm（Linux + CUDA GPU 高并发场景）

适用于需要高吞吐量、长上下文或多用户服务的场景。

安装 vllm
```
pip install vllm
```
启动 OpenAI 兼容 API 服务
OpenBuddy v21+ 模型已在 tokenizer_config.json 中定义提示格式，可直接部署：
```
python -m vllm.entrypoints.openai.api_server --model OpenBuddy/openbuddy-llama3-8b-v21.1-8k
```
详细参数参考：https://docs.vllm.ai/en/latest/serving/openai_compatible_server.html

基本使用

通过 Ollama 交互式对话

安装完成后，在终端执行以下命令即可开始对话：

ollama run openbuddy/openbuddy-llama3-8b-v21.1-8k

进入交互界面后，直接输入中文或英文问题，例如：

你好，请介绍一下你自己。

模型将实时返回多语言回复。

通过 API 调用（vllm 部署后）

使用 curl 发送请求：

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openbuddy-llama3-8b-v21.1-8k",
    "messages": [{"role": "user", "content": "请用中文写一首关于春天的诗"}]
  }'

注意：使用前请仔细阅读免责声明与许可证限制，特别是 LLaMA 系列模型需获得 Meta 官方授权方可使用。

常见问题

如何解决加载模型时出现的 'Input length... but max_length is set to...' 警告？

在 Hugging Face 加载模型时报错 'Can't load the configuration' 或路径错误怎么办？

OpenBuddy 模型微调（SFT）时使用的 Prompt 格式是什么？

Falcon 架构的模型在回答中文传统文化问题时出现幻觉或逻辑不佳的原因是什么？

如何提升模型对德语等非英语语言的支持效果？

如何扩展模型的上下文长度（超过默认限制）？

OpenBuddy 扩展了哪些词表？多语言支持能力来自哪里？

如何获取早期访问（Early Access）的大模型（如 13B 版本）？

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架

OpenHands

OpenHands 是一个专注于 AI 驱动开发的开源平台，旨在让智能体（Agent）像人类开发者一样理解、编写和调试代码。它解决了传统编程中重复性劳动多、环境配置复杂以及人机协作效率低等痛点，通过自动化流程显著提升开发速度。无论是希望提升编码效率的软件工程师、探索智能体技术的研究人员，还是需要快速原型验证的技术团队，都能从中受益。OpenHands 提供了灵活多样的使用方式：既可以通过命令行（CLI）或本地图形界面在个人电脑上轻松上手，体验类似 Devin 的流畅交互；也能利用其强大的 Python SDK 自定义智能体逻辑，甚至在云端大规模部署上千个智能体并行工作。其核心技术亮点在于模块化的软件智能体 SDK，这不仅构成了平台的引擎，还支持高度可组合的开发模式。此外，OpenHands 在 SWE-bench 基准测试中取得了 77.6% 的优异成绩，证明了其解决真实世界软件工程问题的能力。平台还具备完善的企业级功能，支持与 Slack、Jira 等工具集成，并提供细粒度的权限管理，适合从个人开发者到大型企业的各类用户场景。

★ 70.6k|★★★☆☆|今天

语言模型Agent开发框架