Upsonic
Upsonic 是一个专为 Python 开发者设计的开源 AI 智能体框架,旨在帮助用户快速构建安全、可靠且可直接投入生产环境的自主 AI 应用。它解决了传统开发中智能体安全性难保障、多模型切换复杂以及记忆管理繁琐等痛点,让开发者无需从零搭建底层架构即可专注于业务逻辑。
无论是需要自动化客户服务、金融数据分析,还是处理文档提取与合规监控的开发团队,Upsonic 都能提供强有力的支持。其核心亮点在于“安全优先”的设计理念,内置的策略引擎能自动过滤输入输出及工具交互中的风险内容。此外,Upsonic 拥有独特的自主执行能力,智能体可在沙箱环境中直接读写和执行代码,无需预先配置复杂工具;同时原生支持多种 OCR 引擎、灵活的会话记忆管理以及多智能体协同工作流。
该框架兼容 OpenAI、Anthropic、Azure 等主流大模型提供商,并集成了 MCP 工具标准,非常适合希望高效落地 AI 应用的软件工程师、数据科学家及技术研究人员使用。通过简洁的 API 接口,Upsonic 让构建具备长期记忆、团队协作能力及严格安全控制的智能体变得像编写普通 Python 脚本一样简单。
使用场景
某金融科技公司数据团队需要每日自动处理数百份非结构化的财报 PDF 和新闻截图,提取关键财务指标并生成合规分析报告。
没有 Upsonic 时
- 开发周期漫长:工程师需分别集成 OCR 库、编写复杂的正则表达式解析文本,并手动调用大模型 API,耗时数周才能搭建原型。
- 多步骤协作困难:从“读取图片”到“分析数据”再到“撰写报告”需编写大量胶水代码串联不同脚本,流程极易断裂且难以调试。
- 安全隐患突出:缺乏内置的内容过滤机制,代理可能输出未经审查的敏感建议或执行危险操作,合规风险极高。
- 记忆上下文丢失:在处理跨文档的关联分析时,难以让 AI 记住之前的会话状态,导致每次任务都需重新输入背景信息。
使用 Upsonic 后
- 极速落地应用:利用 Upsonic 内置的 OCR 支持和统一接口,团队仅用几行 Python 代码即可构建具备阅读 PDF 和图片能力的智能代理。
- 原生多代理协同:通过定义“数据提取代理”和“合规审核代理”,Upsonic 自动编排串行工作流,无需手动管理中间状态传递。
- 安全默认开启:启用 Safety Engine 后,所有输入输出自动经过策略过滤,确保生成的金融建议符合公司合规标准,杜绝越权行为。
- 会话记忆持久化:配置 Memory 模块后,代理能自动关联历史财报数据与当前任务,在长周期分析中保持上下文连贯性。
Upsonic 将原本需要数周开发的复杂多模态分析流程,简化为安全、可维护且生产就绪的 Python 脚本,极大提升了自动化效率。
运行环境要求
- 未说明
未说明
未说明

快速开始
概述
Upsonic是一个开源的AI智能体框架,用于构建生产就绪的智能体。它支持多家AI服务提供商(OpenAI、Anthropic、Azure、Bedrock),并内置了安全策略、OCR、记忆功能、多智能体协作以及MCP工具集成。
你能构建什么?
- 文档分析:从图片和PDF中提取并处理文本
- 客户服务自动化:具备记忆和会话上下文的智能体
- 财务分析:能够分析数据、生成报告并提供洞察的智能体
- 合规性监控:在所有智能体交互中强制执行安全策略
- 研究与数据收集:通过多智能体协作自动化研究流程
- 多智能体工作流:协调专业智能体团队之间的任务
快速开始
安装
uv pip install upsonic
# pip install upsonic
基本智能体
from upsonic import Agent, Task
agent = Agent(model="anthropic/claude-sonnet-4-5", name="股票分析师智能体")
task = Task(description="分析当前市场趋势")
agent.print_do(task)
带工具的智能体
from upsonic import Agent, Task
from upsonic.tools.common_tools import YFinanceTools
agent = Agent(model="anthropic/claude-sonnet-4-5", name="股票分析师智能体")
task = Task(
description="给我一份关于特斯拉股票及特斯拉车型的摘要",
tools=[YFinanceTools()]
)
agent.print_do(task)
带记忆功能的智能体
from upsonic import Agent, Task
from upsonic.storage import Memory, InMemoryStorage
memory = Memory(
storage=InMemoryStorage(),
session_id="session_001",
full_session_memory=True
)
agent = Agent(model="anthropic/claude-sonnet-4-5", memory=memory)
task1 = Task(description="我的名字是John")
agent.print_do(task1)
task2 = Task(description="我叫什么名字?")
agent.print_do(task2) # 智能体会记住:"你的名字是John"
想了解更多吗? 请查看快速入门指南,其中包含更多示例,如知识库和团队工作流。
核心特性
- 自主智能体:能够在沙盒化的工作空间内读取、写入并执行代码的智能体,无需设置工具
- 安全引擎:基于策略的内容过滤,应用于用户输入、智能体输出以及工具交互
- OCR支持:统一的接口支持多种OCR引擎,并可处理PDF和图像
- 内存管理:会话内存和长期存储,支持多种后端选项
- 多智能体团队:顺序和并行的智能体协调
- 工具集成:MCP工具、自定义工具以及人机协作工作流
- 生产就绪:监控、指标和企业级部署支持
核心能力
自主智能体
AutonomousAgent扩展了Agent类,内置了文件系统和Shell工具、自动会话内存以及工作空间沙盒化功能。适用于编码助手、DevOps自动化以及任何需要直接访问文件或终端的任务。
from upsonic import AutonomousAgent, Task
agent = AutonomousAgent(
model="anthropic/claude-sonnet-4-5",
workspace="/path/to/project"
)
task = Task("读取main.py文件,并为每个函数添加错误处理")
agent.print_do(task)
所有文件和Shell操作都被限制在workspace目录内。路径遍历和危险命令将被阻止。
安全引擎
安全引擎在三个环节应用策略:用户输入、智能体输出以及工具交互。这些策略可以对匹配的内容进行拦截、匿名化、替换或抛出异常。
from upsonic import Agent, Task
from upsonic.safety_engine.policies.pii_policies import PIIAnonymizePolicy
agent = Agent(
model="anthropic/claude-sonnet-4-5",
user_policy=PIIAnonymizePolicy, // 在发送给LLM之前匿名化PII
)
task = Task(
description="我的邮箱是john.doe@example.com,电话是555-1234。请问我的邮箱和电话是多少?"
)
# PII在到达LLM之前会被匿名化,然后在响应中解匿名
result = agent.do(task)
print(result) // "您的邮箱是john.doe@example.com,电话是555-1234"
预置策略涵盖PII、成人内容、脏话、金融数据等。同时也支持自定义策略。
了解更多信息:安全引擎文档
OCR与文档处理
Upsonic提供了一个统一的OCR接口,采用分层管道设计:第0层负责文档准备(PDF转图像、预处理),第1层运行OCR引擎。
uv pip install "upsonic[ocr]"
from upsonic.ocr import OCR
from upsonic.ocr.layer_1.engines import EasyOCREngine
engine = EasyOCREngine(languages=["en"])
ocr = OCR(layer_1_ocr_engine=engine)
text = ocr.get_text("invoice.pdf")
print(text)
支持的引擎包括:EasyOCR、RapidOCR、Tesseract、PaddleOCR、DeepSeek OCR以及通过Ollama调用的DeepSeek OCR。
了解更多信息:OCR文档
Upsonic AgentOS
AgentOS是一个可选的部署平台,用于在生产环境中运行智能体。它提供了基于Kubernetes的运行时、指标仪表盘以及自托管部署功能。
- 基于Kubernetes的FastAPI运行时:将智能体部署为隔离且可扩展的微服务
- 指标仪表盘:跟踪LLM成本、token使用情况以及每笔交易的性能
- 自托管:完全掌控您的数据和基础设施
- 一键部署:自动化部署流水线
IDE 集成
在您的编码工具中添加 Upsonic 文档作为源:
Cursor: 设置 → 索引与文档 → 添加 https://docs.upsonic.ai/llms-full.txt
同样适用于 VSCode、Windsurf 及其他类似工具。
文档与资源
社区与支持
💬 加入我们的 Discord 社区! — 提问、分享您的项目、获得团队帮助,并与其他使用 Upsonic 的开发者交流。
许可证
Upsonic 采用 MIT 许可证发布。详情请参阅 LICENCE。
贡献
我们欢迎社区的贡献!请在提交拉取请求前阅读我们的贡献指南和行为准则。
访问 upsonic.ai 了解更多
版本历史
v0.75.02026/04/14v0.74.42026/04/02v0.74.32026/03/30v0.74.22026/03/24v0.74.12026/03/18v0.74.02026/03/18v0.73.22026/03/13v0.73.12026/03/12v0.73.02026/03/09v0.72.62026/02/23v0.72.52026/02/21v0.72.42026/02/19v0.72.32026/02/17v0.72.22026/02/14v0.72.12026/02/12v0.72.02026/02/09v0.71.62026/02/06v0.71.52026/02/05v0.71.42026/01/31v0.71.32026/01/30常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
n8n
n8n 是一款面向技术团队的公平代码(fair-code)工作流自动化平台,旨在让用户在享受低代码快速构建便利的同时,保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点,帮助用户轻松连接 400 多种应用与服务,实现复杂业务流程的自动化。 n8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”:既可以通过直观的可视化界面拖拽节点搭建流程,也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外,n8n 原生集成了基于 LangChain 的 AI 能力,支持用户利用自有数据和模型构建智能体工作流。在部署方面,n8n 提供极高的自由度,支持完全自托管以保障数据隐私和控制权,也提供云端服务选项。凭借活跃的社区生态和数百个现成模板,n8n 让构建强大且可控的自动化系统变得简单高效。
AutoGPT
AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台,核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点,让用户只需设定目标,AI 即可自主规划步骤、调用工具并持续运行直至完成任务。 无论是开发者、研究人员,还是希望提升工作效率的普通用户,都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体;研究人员能基于开源架构探索多智能体协作机制;而非技术背景用户也可直接选用预置的智能体模板,立即投入实际工作场景。 AutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑,每个块负责单一动作,灵活且易于调试。同时,平台支持本地自托管与云端部署两种模式,兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本,即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛,让人人都能成为 AI 的创造者与受益者。
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
opencode
OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信