OpenContracts
OpenContracts 是一个开源的自托管平台,帮助团队将散落在合同、法规、研究报告等文档中的知识结构化,构建可供人类与 AI 协同使用的知识库。它解决了传统文档信息“锁在 PDF 里、难以检索和复用”的问题,通过版本控制、语义搜索和协作标注,让知识真正可被 AI 理解和推理。
该平台特别适合法律、合规、研究或政策领域的专业人士,以及需要构建高质量私有知识库的开发者和 AI 工程师。用户无需依赖外部服务,即可在本地安全地管理敏感文档。
OpenContracts 的技术亮点包括:支持多模态搜索(结合向量嵌入与全文检索)、内置 MCP(Model Context Protocol)服务器,可直接对接 Claude、Cursor 等主流 AI 工具;还提供 LLM 驱动的批量结构化数据提取、格式保留的文档解析,以及细粒度的协作功能(如评论、@提及和投票)。其核心理念始终如一:最好的 AI 系统,离不开精心整理的数据——而 OpenContracts 让人与 AI 在同一空间共同完成这项工作。
使用场景
某跨国科技公司法务团队需定期审查数百份供应商合同,以确保合规性并识别潜在风险条款。
没有 OpenContracts 时
- 合同分散在多个共享文件夹和邮件附件中,查找特定条款(如“数据跨境”或“违约赔偿”)依赖手动全文搜索,效率极低。
- 不同法务人员对同类条款的理解不一致,缺乏统一标注标准,导致风险判断主观性强。
- 合同版本混乱,修订历史难以追溯,无法确定当前生效条款是否已被更新。
- 无法批量提取结构化信息(如签约方、有效期、管辖法律),每次分析都需人工逐份阅读。
- AI助手因缺乏结构化知识库,只能基于原始PDF回答问题,常出现事实错误或遗漏关键上下文。
使用 OpenContracts 后
- 所有合同集中上传至平台,通过语义搜索快速定位相关条款,支持关键词与自然语言混合查询。
- 团队协作标注关键条款(如“责任限制”“知识产权归属”),形成标准化标签体系,并保留讨论记录供复盘。
- 平台自动追踪文档版本变更,每次修订均生成差异对比,确保审计可追溯。
- 利用内置LLM驱动的数据提取功能,一键批量导出所有合同中的结构化字段,用于合规报告生成。
- 通过MCP协议将知识库接入Claude等AI工具,外部智能体可精准引用已验证的合同内容,大幅提升问答准确性。
OpenContracts 将散落的合同文本转化为人机协同的结构化知识资产,在保障法律严谨性的同时释放AI分析潜力。
运行环境要求
- Linux
- macOS
- Windows
未说明
未说明

快速开始

OpenContracts(演示站点)
一个开源平台,用于构建人类与 AI 智能体(AI agents)可协同工作的知识库。
| 后端 CI/CD | |
| 元信息 |

大多数知识都存在于文档中——合同、法规、研究论文、政策——这些内容决定了组织实际如何运作。但这些知识通常被“困住”了:锁在 PDF 中,散落在各个存储空间里,只有少数碰巧在正确时间读过相关内容的人才能完全理解。
OpenContracts 于 2019 年启动,基于一个简单的信念:知识需要精心整理(curated),而机器学习系统的效果取决于其底层数据的质量。该平台最初是为人类协作者(如律师、研究人员、分析师)设计的,让他们能够共同标注文档,并生成高质量的训练数据。
然而,这些协作者大多从未出现。平台推出得太早,问题过于小众,价值也难以被看见。
随后,大语言模型(Large Language Models, LLMs)出现了,世界突然迫切需要 OpenContracts 一直在构建的东西:结构化、已标注、版本可控的知识库,让 AI 能够真正进行推理。平台原本为之设计的协作者终于出现了——只不过他们其实是 AI 智能体。
如今,OpenContracts 是一个可自托管(self-hosted)的平台,团队可以基于自己的文档构建知识库,而 AI 智能体则与人类并肩工作,对知识进行搜索、分析和扩展。核心信念没有改变:最好的 AI 系统仍然依赖于精心整理的数据。不同的是,现在数据整理与 AI 推理发生在同一个地方。
AI 智能体可配置的助手,可在你的知识库中进行搜索、标注和推理 |
MCP 服务器将你的语料库(corpus)暴露给 Claude、Cursor 及任何兼容 MCP 的 AI 工具 |
多模态搜索跨文档和标注的向量嵌入(vector embeddings)与全文搜索 |
协作各级别支持带话题的讨论、@提及、投票和审核 |
数据提取通过 LLM 驱动的查询,在数百份文档中进行结构化提取 |
格式保留通过 PAWLS 实现 PDF 布局高保真还原,并提供精确的文本到坐标映射 |
有何不同
以人类知识为基础
这并非又一个“与你的 PDF 聊天”的工具。OpenContracts 将人类标注视为事实依据(ground truth)。团队可定义自定义标签体系,对文档进行精确选择(包括跨多页的片段),并建立概念之间的关联。AI 在此基础上工作——而非取而代之。

构建知识库,而非文件柜
文档被组织成语料库(corpuses)——具有文件夹层级、细粒度权限控制和完整历史记录的版本化集合。你可以派生(fork)一个公开语料库,在他人标注的基础上继续构建;可恢复任意历史版本;所有变更均被追踪。
这是知识领域的 git:你可以分支、构建、共享,且永不丢失工作成果。

与你所构建内容协同工作的 AI 智能体
可配置的 AI 智能体能够搜索你的文档、查询你的标注,并参与讨论——所有行为都基于你团队创建的结构化知识。它们不会凭空幻觉(hallucinate),而是基于真实、经过整理的数据进行推理。
在讨论线程中 @ 提及一个智能体,让它比较上百份合同中的条款,或让它揭示你团队上个季度标注出的模式。智能体的能力源自其底层知识库的质量。

在知识所在之处协作
在各个层级(全局、语料库级、文档级)提供论坛式的话题讨论。可 @ 提及文档、语料库和 AI 智能体。为最佳分析点赞,置顶关键发现。讨论就发生在原始材料旁边,而非另一个独立工具中。

共享知识产生复利效应
将语料库设为公开。其他人可派生它,优化标注,添加文档,并分享改进成果。排行榜和徽章表彰贡献者。分析面板展示哪些知识库正获得关注,以及社区最活跃的区域。
这是 DRY(Don’t Repeat Yourself)原则在机构知识中的应用:标注一次,永久复用。

实际效果演示
PDF 标注流程

文本格式支持

快速开始
开发环境
git clone https://github.com/JSv4/OpenContracts.git
cd OpenContracts
docker compose -f local.yml up
生产环境
# 首先应用数据库迁移
docker compose -f production.yml --profile migrate up migrate
# 启动服务
docker compose -f production.yml up -d
文档
浏览完整文档请访问 jsv4.github.io/OpenContracts,或在本仓库中查看:
| 指南 | 描述 |
|---|---|
| 快速开始 | 几分钟内通过 Docker 快速运行 |
| 核心概念 | 核心工作流与术语 |
| PDF 数据格式 | 文本如何映射到 PDF 坐标 |
| LLM 框架 | PydanticAI 集成与智能体(agents) |
| 向量存储(Vector Stores) | 语义搜索架构 |
| 流水线概览 | 解析器(Parser)与嵌入器(Embedder)系统 |
| 自定义提取器 | 构建你自己的数据提取任务 |
| v3.0.0.b3 版本说明 | 最新功能与迁移指南 |
架构
数据格式
OpenContracts 使用一种标准化格式来表示 PDF 页面上的文本与布局,从而支持在不同工具间移植注释:
处理流水线
模块化流水线支持自定义解析器(Parsers)、嵌入器(Embedders)和缩略图生成器(Thumbnailers):
每个组件均继承自一个具有明确定义接口的基类:
- 解析器(Parsers) — 从文档中提取文本与结构
- 嵌入器(Embedders) — 为搜索生成向量嵌入(vector embeddings)
- 缩略图生成器(Thumbnailers) — 创建文档预览图
有关创建自定义组件的详细信息,请参阅 流水线文档。
遥测(Telemetry)
OpenContracts 收集匿名使用数据以指导开发优先级:包括安装事件、功能使用统计和聚合计数。我们不会收集文档内容、提取的数据、用户身份或查询内容。
禁用后端遥测:在 Django 设置中设置 TELEMETRY_ENABLED=False。
禁用前端分析:在 frontend/public/env-config.js 中不设置 REACT_APP_POSTHOG_API_KEY。
支持的格式
- PDF(完整支持布局与注释)
- 基于文本的格式(纯文本、Markdown)
即将推出:由 Docxodus 提供支持的 DOCX 查看与注释功能。
致谢
本项目基于以下工作的成果:
- AllenAI PAWLS — PDF 注释数据格式与相关概念
- NLMatics nlm-ingestor — 文档解析流水线
许可证
AGPL-3.0 — 详情请参见 LICENSE。
版本历史
v3.0.0.b42026/02/08v3.0.0.b32025/12/12v3.0.0.b22025/10/26v3.0.0.b12025/08/25v3.0.0.a22025/05/06v3.0.0.a12025/01/06v2.4.02024/11/11v2.3.12024/09/20v.2.3.02024/09/17v2.2.02024/09/12v2.1.02024/08/27v2.0.0.post12024/07/30v2.0.02024/07/27v2.0.0.b32024/07/22v2.0.0.b22024/06/23v2.0.0b12024/06/19v1.3.02024/06/04v1.2.22023/09/13v1.2.12023/05/13v1.2.02023/03/10常见问题
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。