ragbits
Ragbits 是一套专为加速生成式 AI(GenAI)应用开发而设计的模块化构建工具。它旨在解决开发者在构建可靠、可扩展的 RAG(检索增强生成)系统和多智能体工作流时,面临的模型切换繁琐、数据处理复杂以及架构耦合度高等痛点。
无论是需要快速原型的初创团队,还是追求生产级稳定性的资深工程师,Ragbits 都能提供灵活的支持。其核心优势在于极高的灵活性与工程化能力:开发者可以通过 LiteLLM 无缝切换超过 100 种大语言模型或运行本地模型,并利用 Python 泛型实现类型安全的调用,大幅减少运行时错误。在数据处理方面,Ragbits 支持解析 PDF、表格等 20 多种格式,结合视觉语言模型(VLMs)提取复杂内容,并能通过 Ray 架构实现大规模数据的分布式并行处理。
此外,Ragbits 内置了基于 A2A 协议的多智能体协作机制和 MCP(模型上下文协议),让智能体能够轻松访问实时网络数据和数据库。项目还集成了 OpenTelemetry 实时监控、Promptfoo 测试框架以及命令行调试工具,帮助团队从开发到部署全程掌控应用性能。如果你希望用更少的代码搭建出结构清晰、易于维护的 AI 应用,Ragbits 是一个值得尝试的专业选择。
使用场景
某金融科技公司研发团队急需构建一个能解析复杂财报(含表格、图表)并支持多轮问答的智能投研助手。
没有 ragbits 时
- 数据解析困难:面对 PDF 中的财务报表和混合图文,需手动编写繁琐的解析脚本,难以提取结构化数据,导致知识库构建周期长达数周。
- 模型切换成本高:业务需要对比不同大模型效果,但每次切换供应商都要重构底层调用代码,缺乏统一的类型安全约束,调试耗时且易出错。
- 协作开发低效:多智能体协作逻辑需从零搭建,缺乏标准的上下文记忆管理和实时数据接入协议,团队在集成数据库查询功能时反复踩坑。
- 运维监控缺失:上线后无法实时追踪 RAG 链路的性能瓶颈,缺乏内置的提示词测试工具,只能依靠用户反馈被动优化。
使用 ragbits 后
- 高效处理复杂文档:利用内置的 Docling 解析器和 VLM 支持,一键提取财报中的表格与图像内容,将数据入库时间从数周缩短至数小时。
- 灵活适配模型架构:通过 LiteLLM 集成轻松在 100+ 模型间无缝切换,利用 Python 泛型确保输出类型安全,快速验证最佳模型组合。
- 快速构建智能工作流:基于 A2A 协议和 MCP 标准,迅速组建具备角色分工的多智能体团队,实现实时数据库查询与历史对话状态的自动管理。
- 全链路可观测性:集成 OpenTelemetry 实时监控链路性能,配合 promptfoo 在部署前完成提示词自动化测试,显著提升系统稳定性。
ragbits 通过模块化组件将复杂的 GenAI 应用开发转化为积木式组装,让团队专注于业务逻辑而非底层基建。
运行环境要求
- 未说明
- 非必需(支持通过 LiteLLM 调用云端 API 或使用本地模型
- 若运行本地模型则取决于具体模型需求)
未说明

快速开始
功能
🔨 构建可靠且可扩展的生成式AI应用
- 随时切换大模型 – 可通过LiteLLM在100多种大模型之间切换(详情),或运行本地模型(详情)。
- 类型安全的大模型调用 – 使用Python泛型,在模型交互中强制实现严格的类型安全性(详情)。
- 自定义向量存储 – 内置支持连接到Qdrant(详情)、PgVector(详情)等,也可轻松集成其他向量数据库。
- 内置开发者工具 – 可通过命令行管理向量存储(详情)、查询管道,并从终端测试提示词(详情)。
- 模块化安装 – 只需安装所需组件,减少依赖项并提升性能。
📚 快速灵活的RAG处理
- 支持20+种格式 – 可处理PDF、HTML、电子表格、演示文稿等多种文件格式。可使用Docling(GitHub链接)、Unstructured(GitHub链接)进行数据处理,或自定义解析器。
- 处理复杂数据 – 内置视觉语言模型支持,可提取表格、图像及结构化内容。
- 连接任意数据源 – 提供S3、GCS、Azure等预构建连接器,也可自行实现自定义连接。
- 规模化数据摄取 – 利用基于Ray的并行处理技术,快速处理大规模数据集(详情)。
🤖 轻松构建多智能体工作流
- 多智能体协作 – 使用A2A协议创建角色分工明确的智能体团队,实现互操作性(教程)。
- 实时数据集成 – 借助模型上下文协议(MCP),实现对网页、数据库查询及API的实时访问(详情)。
- 对话状态管理 – 通过自动历史记录跟踪功能,保持跨轮次交互的上下文一致性(详情)。
🚀 放心部署与监控
- 实时可观测性 – 使用OpenTelemetry(详情)和CLI洞察工具(详情)追踪系统性能。
- 内置测试工具 – 在部署前使用Promptfoo验证提示词的有效性(详情)。
- 自动优化 – 持续评估并优化模型性能。
- 聊天UI – 提供完整的聊天机器人接口(详情),支持API调用、数据持久化及用户反馈收集。
安装
稳定版
若想快速上手,可安装最新稳定版:
pip install ragbits
夜间构建版
如需体验最新的开发功能,可安装从main分支自动发布的夜间构建版:
pip install ragbits --pre
注意: 夜间构建版包含最新功能和错误修复,但稳定性可能不如正式发布版。其版本号格式为X.Y.Z.devYYYYMMDDHHMM。
包含内容
此入门级软件包包含以下核心组件:
ragbits-core- 处理提示词、大模型和向量数据库的基础工具。ragbits-agents- 用于构建智能体系统的抽象层。ragbits-document-search- 用于知识库的检索与数据摄取管道。ragbits-evaluate- Ragbits组件的统一评估框架。ragbits-guardrails- 用于确保响应安全性和相关性的实用工具。ragbits-chat- 构建对话式AI应用的全栈基础设施。ragbits-cli- 用于与Ragbits组件交互的命令行工具。
此外,您也可以单独安装各个组件以满足特定需求。
快速入门
基础示例
定义提示词并调用大模型:
import asyncio
from pydantic import BaseModel
from ragbits.core.llms import LiteLLM
from ragbits.core.prompt import Prompt
class QuestionAnswerPromptInput(BaseModel):
question: str
class QuestionAnswerPrompt(Prompt[QuestionAnswerPromptInput, str]):
system_prompt = """
你是一位问答助手。请尽最大努力回答问题。
"""
user_prompt = """
问题:{{ question }}
"""
llm = LiteLLM(model_name="gpt-4.1-nano")
async def main() -> None:
prompt = QuestionAnswerPrompt(QuestionAnswerPromptInput(question="Linux中的高内存和低内存是什么?"))
response = await llm.generate(prompt)
print(response)
if __name__ == "__main__":
asyncio.run(main())
文档搜索
构建并查询一个简单的向量存储索引:
import asyncio
from ragbits.core.embeddings import LiteLLMEmbedder
from ragbits.core.vector_stores import InMemoryVectorStore
from ragbits.document_search import DocumentSearch
embedder = LiteLLMEmbedder(model_name="text-embedding-3-small")
vector_store = InMemoryVectorStore(embedder=embedder)
document_search = DocumentSearch(vector_store=vector_store)
async def run() -> None:
await document_search.ingest("web://https://arxiv.org/pdf/1706.03762")
result = await document_search.search("这篇论文的主要发现是什么?")
print(result)
if __name__ == "__main__":
asyncio.run(run())
检索增强生成
构建一个简单的 RAG 流程:
import asyncio
from collections.abc import Iterable
from pydantic import BaseModel
from ragbits.core.embeddings import LiteLLMEmbedder
from ragbits.core.llms import LiteLLM
from ragbits.core.prompt import Prompt
from ragbits.core.vector_stores import InMemoryVectorStore
from ragbits.document_search import DocumentSearch
from ragbits.document_search.documents.element import Element
class QuestionAnswerPromptInput(BaseModel):
question: str
context: Iterable[Element]
class QuestionAnswerPrompt(Prompt[QuestionAnswerPromptInput, str]):
system_prompt = """
你是一位问答代理。请根据提供的上下文回答问题。
如果给定的上下文中信息不足,请拒绝回答。
"""
user_prompt = """
问题:{{ question }}
上下文:{% for chunk in context %}{{ chunk.text_representation }}{%- endfor %}
"""
llm = LiteLLM(model_name="gpt-4.1-nano")
embedder = LiteLLMEmbedder(model_name="text-embedding-3-small")
vector_store = InMemoryVectorStore(embedder=embedder)
document_search = DocumentSearch(vector_store=vector_store)
async def run() -> None:
question = "这篇论文的主要发现是什么?"
await document_search.ingest("web://https://arxiv.org/pdf/1706.03762")
chunks = await document_search.search(question)
prompt = QuestionAnswerPrompt(QuestionAnswerPromptInput(question=question, context=chunks))
response = await llm.generate(prompt)
print(response)
if __name__ == "__main__":
asyncio.run(run())
智能体式 RAG
构建一个智能体式的 RAG 流程:
import asyncio
from ragbits.agents import Agent
from ragbits.core.embeddings import LiteLLMEmbedder
from ragbits.core.llms import LiteLLM
from ragbits.core.vector_stores import InMemoryVectorStore
from ragbits.document_search import DocumentSearch
embedder = LiteLLMEmbedder(model_name="text-embedding-3-small")
vector_store = InMemoryVectorStore(embedder=embedder)
document_search = DocumentSearch(vector_store=vector_store)
llm = LiteLLM(model_name="gpt-4.1-nano")
agent = Agent(llm=llm, tools=[document_search.search])
async def main() -> None:
await document_search.ingest("web://https://arxiv.org/pdf/1706.03762")
response = await agent.run("这篇论文的主要发现是什么?")
print(response.content)
if __name__ == "__main__":
asyncio.run(main())
聊天 UI
通过 Ragbits API 公开你的生成式 AI 应用程序:
from collections.abc import AsyncGenerator
from ragbits.agents import Agent, ToolCallResult
from ragbits.chat.api import RagbitsAPI
from ragbits.chat.interface import ChatInterface
from ragbits.chat.interface.types import ChatContext, ChatResponse, LiveUpdateType
from ragbits.core.embeddings import LiteLLMEmbedder
from ragbits.core.llms import LiteLLM, ToolCall
from ragbits.core.prompt import ChatFormat
from ragbits.core.vector_stores import InMemoryVectorStore
from ragbits.document_search import DocumentSearch
embedder = LiteLLMEmbedder(model_name="text-embedding-3-small")
vector_store = InMemoryVectorStore(embedder=embedder)
document_search = DocumentSearch(vector_store=vector_store)
llm = LiteLLM(model_name="gpt-4.1-nano")
agent = Agent(llm=llm, tools=[document_search.search])
class MyChat(ChatInterface):
async def setup(self) -> None:
await document_search.ingest("web://https://arxiv.org/pdf/1706.03762")
async def chat(
self,
message: str,
history: ChatFormat,
context: ChatContext,
) -> AsyncGenerator[ChatResponse]:
async for result in agent.run_streaming(message):
match result:
case str():
yield self.create_live_update(
update_id="1",
type=LiveUpdateType.START,
label="正在回答...",
)
yield self.create_text_response(result)
case ToolCall():
yield self.create_live_update(
update_id="2",
type=LiveUpdateType.START,
label="正在搜索...",
)
case ToolCallResult():
yield self.create_live_update(
update_id="2",
type=LiveUpdateType.FINISH,
label="搜索",
description=f"找到了 {len(result.result)} 个相关片段。",
)
yield self.create_live_update(
update_id="1",
type=LiveUpdateType.FINISH,
label="答案",
)
if __name__ == "__main__":
api = RagbitsAPI(MyChat)
api.run()
快速开发
从模板创建 Ragbits 项目:
uvx create-ragbits-app
可在 这里 探索 create-ragbits-app 仓库。如果你有新的模板创意,欢迎贡献!
文档
- 教程 - 几分钟内开始使用 Ragbits
- 操作指南 - 学习如何在你的项目中使用 Ragbits
- CLI - 学习如何在终端中运行 Ragbits
- API 参考 - 探索底层的 Ragbits API
贡献
我们欢迎贡献!请阅读 CONTRIBUTING.md 以获取更多信息。
许可证
Ragbits 采用 MIT 许可证 许可。
版本历史
v1.6.22026/03/31v1.6.12026/03/24v1.6.02026/03/18v1.5.02026/02/25v1.4.22026/02/18v1.4.12026/02/10v1.4.02026/02/05v1.3.02025/09/11v1.2.22025/08/09v1.2.12025/08/05v1.2.02025/08/02v1.1.02025/07/09v1.0.02025/06/04v0.20.12025/06/04v0.20.02025/06/03v0.19.12025/05/27v0.19.02025/05/27v0.18.02025/05/22v0.17.12025/05/12v0.17.02025/05/06常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
