llm-graph-builder
llm-graph-builder 是一款利用大语言模型(LLM)将非结构化数据转化为结构化知识图谱的开源工具。它能轻松处理 PDF、文档、文本、YouTube 视频及网页等多种来源的信息,自动提取其中的实体节点、关系及属性,并存储至 Neo4j 数据库中。
该工具主要解决了从杂乱无章的原始资料中高效构建知识体系的难题,让机器能够“理解”并关联分散的信息,从而支持更智能的数据检索与分析。用户不仅可以直观地可视化生成的图谱,还能通过自然对话的方式直接“与数据聊天”,快速获取答案并追溯信息来源。
它非常适合开发者、数据科学家及研究人员使用,尤其是那些希望构建企业知识库、进行复杂关系挖掘或探索 RAG(检索增强生成)应用的团队。技术亮点方面,llm-graph-builder 基于 LangChain 框架开发,兼容 OpenAI、Gemini、Anthropic 等十余种主流大模型,并提供灵活的嵌入模型选择。此外,它还内置了详细的 Token 用量追踪功能,帮助用户有效管理成本。无论是本地部署还是云端集成,它都能为用户提供流畅的知识图谱构建体验。
使用场景
某金融合规团队需要从数百份非结构化的监管政策 PDF、新闻报告和内部会议纪要中,快速梳理出实体间的复杂关联以应对突发审计。
没有 llm-graph-builder 时
- 分析师需人工阅读海量文档并手动摘录实体关系,耗时数周且极易遗漏关键隐性连接。
- 提取的数据分散在 Excel 或笔记中,缺乏统一的结构化存储,难以进行跨文档的关联查询。
- 面对“某高管与特定风险事件的所有间接关联”这类复杂问题,传统关键词搜索完全无法胜任。
- 每次政策更新都意味着要重新投入大量人力进行重复整理,知识沉淀成本极高。
使用 llm-graph-builder 后
- 利用 LLM 自动解析上传的 PDF 和网页内容,几分钟内即可将非结构化文本转化为标准的 Neo4j 知识图谱。
- 系统自动抽取节点(如公司、人物、事件)及属性关系,构建出可视化的全局关联网络,数据结构清晰统一。
- 通过内置的“对话式查询”功能,直接提问即可获得包含来源依据的复杂路径分析,瞬间定位风险传导链条。
- 新增文档只需重新上传处理,llm-graph-builder 会自动增量更新图谱,确保持续的知识迭代零摩擦。
llm-graph-builder 将原本需要数周的人工情报整理工作压缩至分钟级,让沉睡的非结构化数据瞬间变为可交互、可推理的战略资产。
运行环境要求
- Linux
- macOS
- Windows
未说明
未说明

快速开始
知识图谱构建器
利用大型语言模型(LLMs)和LangChain框架的强大功能,将非结构化数据(PDF、DOC、TXT、YouTube视频、网页等)转换为存储在Neo4j中的结构化知识图谱。
此应用程序允许您从各种来源(本地机器、GCS、S3存储桶或网络资源)上传文件,选择您偏好的LLM模型,并生成知识图谱。
快速入门
先决条件
- Python 3.12 或更高版本(用于本地/独立后端部署)
- Neo4j 数据库 5.23 或更高版本,并已安装 APOC。
- 支持 Neo4j Aura 数据库(包括免费层)。
- 如果使用 Neo4j Desktop,则需要分别部署后端和前端(不支持 docker-compose)。
后端设置
- 在
backend文件夹中复制backend/example.env创建一个.env文件。 - 在
.env文件中预先配置用户凭据以跳过登录对话框:NEO4J_URI=<your-neo4j-uri> NEO4J_USERNAME=<your-username> NEO4J_PASSWORD=<your-password> NEO4J_DATABASE=<your-database-name> - 运行:
cd backend python3.12 -m venv venv source venv/bin/activate # 在 Windows 上:venv\Scripts\activate pip install -r requirements.txt -c constraints.txt uvicorn score:app --reload
主要特性
知识图谱创建
- 利用先进的 LLM 将非结构化数据无缝转换为结构化的知识图谱。
- 提取节点、关系及其属性以创建结构化图谱。
模式支持
- 使用自定义模式或在设置中配置的现有模式来生成图谱。
图谱可视化
- 在 Neo4j Bloom 中同时查看特定或多个数据源的图谱。
与数据聊天
- 通过会话式查询与 Neo4j 数据库中的数据互动。
- 检索关于查询响应来源的元数据。
- 对于专用的聊天界面,请使用带有 /chat-only 路由的独立聊天应用程序。
支持的 LLMs
- OpenAI
- Gemini
- Diffbot
- Azure OpenAI(开发部署版本)
- Anthropic(开发部署版本)
- Fireworks(开发部署版本)
- Groq(开发部署版本)
- Amazon Bedrock(开发部署版本)
- Ollama(开发部署版本)
- Deepseek(开发部署版本)
- 其他兼容 OpenAI 基础 URL 的模型(开发部署版本)
Token 使用跟踪
- 轻松监控和跟踪每个用户及数据库连接的 LLM token 使用情况。
- 通过在后端配置中将
TRACK_USER_USAGE环境变量设置为true来启用此功能。 - 查看每日和每月的 token 消耗量及限额,帮助您管理使用情况并避免超额。
- 您可以随时使用提供的 API 端点检查剩余的 token 限额。
嵌入模型选择
- 从多种嵌入模型中选择,为您的数据生成向量嵌入。这可以在前端的 图谱设置 > 处理配置 > 选择嵌入模型 中进行配置。
- 支持的模型提供商包括 OpenAI、Gemini、Amazon Titan 和 Sentence Transformers。
- 当启用
TRACK_USER_USAGE时,您选择的嵌入模型将保存到您的用户资料中。
本地配置
您可以通过两种方式在本地配置嵌入模型:
启用用户跟踪(
TRACK_USER_USAGE=true):- 在后端
.env文件中将TRACK_USER_USAGE设置为true。 - 提供您的 token 跟踪数据库凭据(
TOKEN_TRACKER_DB_URI、TOKEN_TRACKER_DB_USERNAME等)。 - 从前端选择您想要的嵌入模型。您的选择将被保存并在后续会话中自动使用。
- 在后端
禁用用户跟踪(
TRACK_USER_USAGE=false):- 将
TRACK_USER_USAGE设置为false。 - 直接在后端
.env文件中使用EMBEDDING_MODEL和EMBEDDING_PROVIDER指定嵌入模型和提供商。 - 如果未设置这些变量,则应用程序默认使用 Sentence Transformer 模型。
- 在此模式下,无法从前端更改嵌入模型。
- 将
快速入门
先决条件
- Neo4j 数据库 5.23 或更高版本,并已安装 APOC。
- 支持 Neo4j Aura 数据库(包括免费层)。
- 如果使用 Neo4j Desktop,则需要分别部署后端和前端(不支持 docker-compose)。
部署选项
本地部署
使用 Docker-Compose
使用默认的 docker-compose 配置运行应用程序。
支持的 LLM 模型:
默认情况下,仅启用 OpenAI 和 Diffbot。Gemini 需要额外的 GCP 配置。
使用VITE_LLM_MODELS_PROD变量配置所需的模型。例如:VITE_LLM_MODELS_PROD="gemini_2.5_flash,openai_gpt_5_mini,diffbot,anthropic_claude_4.5_haiku"输入源:
默认启用以下源:local、YouTube、Wikipedia、AWS S3和web。
若要添加 Google Cloud Storage (GCS) 集成,请包含gcs和您的 Google 客户 ID:VITE_REACT_APP_SOURCES="local,youtube,wiki,s3,gcs,web" VITE_GOOGLE_CLIENT_ID="your-google-client-id"
聊天模式
使用 VITE_CHAT_MODES 变量配置聊天模式:
- 默认情况下,所有模式均启用:
vector、graph_vector、graph、fulltext、graph_vector_fulltext、entity_vector和global_vector。 - 若要指定特定模式,请更新该变量。例如:
VITE_CHAT_MODES="vector,graph"
分别运行后端和前端
在开发过程中,您可以独立运行后端和前端。
前端设置
- 在
frontend文件夹中复制frontend/example.env创建一个.env文件。 - 根据需要更新环境变量。
- 运行:
cd frontend yarn yarn run dev
后端设置
- 在
backend文件夹中复制backend/example.env创建一个.env文件。 - 在
.env文件中预先配置用户凭据以跳过登录对话框:NEO4J_URI=<your-neo4j-uri> NEO4J_USERNAME=<your-username> NEO4J_PASSWORD=<your-password> NEO4J_DATABASE=<your-database-name> - 运行:
cd backend python -m venv envName source envName/bin/activate pip install -r requirements.txt uvicorn score:app --reload
云部署
使用以下命令在 Google Cloud Platform 上部署应用程序:
前端部署
gcloud run deploy dev-frontend \
--source . \
--region us-central1 \
--allow-unauthenticated
后端部署
gcloud run deploy dev-backend \
--set-env-vars "OPENAI_API_KEY=<your-openai-api-key>" \
--set-env-vars "DIFFBOT_API_KEY=<your-diffbot-api-key>" \
--set-env-vars "NEO4J_URI=<your-neo4j-uri>" \
--set-env-vars "NEO4J_USERNAME=<your-username>" \
--set-env-vars "NEO4J_PASSWORD=<your-password>" \
--source . \
--region us-central1 \
--allow-unauthenticated
对于本地大模型(Ollama)
- 拉取 Ollama 的 Docker 镜像:
docker pull ollama/ollama - 运行 Ollama 的 Docker 容器:
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama - 执行任意大模型,例如 llama3:
docker exec -it ollama ollama run llama3 - 在
docker-compose中配置环境变量:LLM_MODEL_CONFIG_ollama_<model_name> # 示例 LLM_MODEL_CONFIG_ollama_llama3=${LLM_MODEL_CONFIG_ollama_llama3-llama3,http://host.docker.internal:11434} - 配置后端 API 地址:
VITE_BACKEND_API_URL=${VITE_BACKEND_API_URL-backendurl} - 在浏览器中打开应用,并选择 Ollama 模型进行信息抽取。
- 享受图谱构建的乐趣。
使用说明
- 通过后端环境传递 URI 和密码、填写登录对话框,或直接拖放 Neo4j 凭证文件,连接到 Neo4j Aura 实例,包括 AURA DS 或 AURA DB。
- 为便于区分,我们添加了不同图标:AURA DB 显示数据库图标,而 AURA DS 则在“Neo4j 连接详情”标签下方显示科学分子图标。
- 从非结构化数据源列表中选择您的数据源,以创建图谱。
- 如需更换大模型,可在下拉菜单中选择,该模型将用于生成图谱。
- 您还可以在实体图谱提取设置中自定义模式(节点和关系标签)。
- 您可以选择多个文件来“生成图谱”,或者对所有状态为“新建”的文件进行图谱创建处理。
- 在网格中使用“查看”功能查看单个文件的图谱,或选择一个或多个文件并点击“预览图谱”。
- 向聊天机器人提问与已处理/已完成数据源相关的问题,同时获取由大模型生成的答案的详细信息。
环境变量
| 环境变量名称 | 必填/可选 | 默认值 | 描述 |
|---|---|---|---|
| 后端环境 | |||
| OPENAI_API_KEY | 可选 | 使用 OpenAI LLM 模型时,需要提供 OpenAI API 密钥以进行身份验证和请求跟踪 | |
| DIFFBOT_API_KEY | 必填 | 使用 Diffbot 的 NLP 服务从非结构化数据中提取实体和关系时,需要提供 API 密钥 | |
| BUCKET_UPLOAD_FILE | 可选 | 用于在 GCS 上存储上传文件的存储桶名称 | |
| BUCKET_FAILED_FILE | 可选 | 用于在 GCS 上存储提取失败文件的存储桶名称 | |
| NEO4J_USER_AGENT | 可选 | llm-graph-builder | 用于跟踪 Neo4j 数据库活动的用户代理名称 |
| ENABLE_USER_AGENT | 可选 | true | 用于启用或禁用 Neo4j 用户代理的布尔值 |
| DUPLICATE_TEXT_DISTANCE | 可选 | 5 | 此值用于计算图中所有节点对之间的距离,并基于节点属性进行计算 |
| DUPLICATE_SCORE_VALUE | 可选 | 0.97 | 用于匹配重复节点的节点得分值 |
| EFFECTIVE_SEARCH_RATIO | 可选 | 1 | 用于有效搜索计算的比率 |
| GRAPH_CLEANUP_MODEL | 可选 | openai_gpt_5_mini | 用于后处理阶段清理图的模型名称 |
| MAX_TOKEN_CHUNK_SIZE | 可选 | 10000 | 处理文件内容时的最大令牌大小 |
| YOUTUBE_TRANSCRIPT_PROXY | 必填 | 用于处理 YouTube 视频以获取字幕的代理密钥 | |
| IS_EMBEDDING | 可选 | true | 用于启用文本嵌入的标志 |
| KNN_MIN_SCORE | 可选 | 0.8 | KNN 算法的最小得分阈值 |
| GCP_LOG_METRICS_ENABLED | 可选 | False | 用于启用 Google Cloud 日志记录的标志 |
| NEO4J_URI | 可选 | neo4j://database:7687 | Neo4j 数据库的 URI |
| NEO4J_USERNAME | 可选 | neo4j | Neo4j 数据库的用户名 |
| NEO4J_PASSWORD | 可选 | password | Neo4j 数据库的密码 |
| GCS_FILE_CACHE | 可选 | False | 如果设置为 True,将要处理的文件保存到 GCS;如果为 False,则将文件保存在本地 |
| ENTITY_EMBEDDING | 可选 | False | 如果设置为 True,将在数据库中为每个实体添加嵌入向量 |
| LLM_MODEL_CONFIG_ollama_ |
可选 | 用于本地部署时设置 Ollama 配置:model_name, model_local_url | |
| 前端环境 | |||
| VITE_BLOOM_URL | 必填 | Bloom URL | Bloom 可视化界面的 URL |
| VITE_REACT_APP_SOURCES | 必填 | local,youtube,wiki,s3 | 可用的输入源列表 |
| VITE_CHAT_MODES | 必填 | vector,graph+vector,graph,hybrid | 可供问答使用的聊天模式 |
| VITE_ENV | 必填 | DEV 或 PROD | 应用程序的环境变量 |
| VITE_LLM_MODELS | 可选 | openai_gpt_5_mini,gemini_2.5_flash,anthropic_claude_4.5_haiku | 应用程序支持的模型 |
| VITE_BACKEND_API_URL | 可选 | localhost | 后端 API 的 URL |
| VITE_TIME_PER_PAGE | 可选 | 50 | 每页处理所需的时间 |
| VITE_CHUNK_SIZE | 可选 | 5242880 | 上传文件时每个分块的大小 |
| VITE_GOOGLE_CLIENT_ID | 可选 | 用于 Google 身份验证的客户端 ID | |
| VITE_LLM_MODELS_PROD | 可选 | openai_gpt_5_mini,gemini_2.5_flash,anthropic_claude_4.5_haiku | 根据环境(PROD 或 DEV)区分模型 |
| VITE_AUTH0_CLIENT_ID | 必填,若启用身份验证;否则可选 | Okta OAuth 客户端 ID,用于身份验证 | |
| VITE_AUTH0_DOMAIN | 必填,若启用身份验证;否则可选 | Okta OAuth 客户端域名 | |
| VITE_SKIP_AUTH | 可选 | true | 用于跳过身份验证的标志 |
| VITE_CHUNK_OVERLAP | 可选 | 20 | 用于配置分块重叠的变量 |
| VITE_TOKENS_PER_CHUNK | 可选 | 100 | 用于配置每个分块中的令牌数量。这为用户提供了灵活性,可根据不同的分词任务需求调整分块大小 |
| VITE_CHUNK_TO_COMBINE | 可选 | 1 | 用于配置并行处理时要合并的分块数量 |
示例环境文件
请参阅示例环境文件,以获取更多变量和配置:
云构建部署
您可以使用 Cloud Build 将后端和前端部署到 Google Cloud Run,既可以手动操作,也可以通过自动化触发器来实现。
自动化部署(推荐)
将您的仓库连接到 Google Cloud Build:
- 在 Google Cloud 控制台中,转到 Cloud Build > 触发器。
- 创建一个新的触发器并选择您的仓库。
- 设置触发器在推送到您希望的分支(
main、staging或dev)时运行。 - Cloud Build 将自动使用您仓库根目录下的
cloudbuild.yaml文件。
配置替换参数和密钥:
- 在触发器设置中,添加所需的替换参数(例如
_OPENAI_API_KEY、_DIFFBOT_API_KEY等),作为环境变量,或使用 Secret Manager 来管理敏感数据。
- 在触发器设置中,添加所需的替换参数(例如
推送代码:
- 当您推送到配置的分支时,Cloud Build 将根据
cloudbuild.yaml中定义的步骤,构建并将您的后端(以及可选的前端)部署到 Cloud Run。
- 当您推送到配置的分支时,Cloud Build 将根据
手动部署
设置 Google Cloud SDK 并进行身份验证:
gcloud auth login gcloud config set project <YOUR_PROJECT_ID>手动运行 Cloud Build:
gcloud builds submit --config cloudbuild.yaml \ --substitutions=_REGION=us-central1,_REPO=cloud-run-repo,_OPENAI_API_KEY=<your-openai-key>,_DIFFBOT_API_KEY=<your-diffbot-key>,_BUCKET_UPLOAD_FILE=<your-bucket>,_BUCKET_FAILED_FILE=<your-bucket>,_PROJECT_ID=<your-project-id>,_GCS_FILE_CACHE=False,_TRACK_USER_USAGE=False,_TOKEN_TRACKER_DB_URI=...,_TOKEN_TRACKER_DB_USERNAME=...,_TOKEN_TRACKER_DB_PASSWORD=...,_TOKEN_TRACKER_DB_DATABASE=...,_DEFAULT_DIFFBOT_CHAT_MODEL=...,_YOUTUBE_TRANSCRIPT_PROXY=...,_EMBEDDING_MODEL=..., _EMBEDDING_PROVIDER=...,_BEDROCK_EMBEDDING_MODEL_KEY=...,_LLM_MODEL_CONFIG_OPENAI_GPT_5_2=...,_LLM_MODEL_CONFIG_OPENAI_GPT_5_MINI=...,_LLM_MODEL_CONFIG_GEMINI_2_5_FLASH=...,_LLM_MODEL_CONFIG_GEMINI_2_5_PRO=...,_LLM_MODEL_CONFIG_DIFFBOT=...,_LLM_MODEL_CONFIG_GROQ_LLAMA3_1_8B=...,_LLM_MODEL_CONFIG_ANTHROPIC_CLAUDE_4_5_SONNET=...,_LLM_MODEL_CONFIG_ANTHROPIC_CLAUDE_4_5_HAIKU=...,_LLM_MODEL_CONFIG_LLAMA4_MAVERICK=...,_LLM_MODEL_CONFIG_FIREWORKS_QWEN3_30B=...,_LLM_MODEL_CONFIG_FIREWORKS_GPT_OSS=...,_LLM_MODEL_CONFIG_FIREWORKS_DEEPSEEK_V3=...,_LLM_MODEL_CONFIG_BEDROCK_NOVA_MICRO_V1=...,_LLM_MODEL_CONFIG_BEDROCK_NOVA_LITE_V1=...,_LLM_MODEL_CONFIG_BEDROCK_NOVA_PRO_V1=...,_LLM_MODEL_CONFIG_OLLAMA_LLAMA3=...- 将尖括号中的值替换为您实际的配置和密钥。
- 您可以根据需要省略或添加替换参数。
监控构建过程:
- 构建和部署过程将在 Cloud Build 控制台中显示。
访问已部署的服务:
- 部署完成后,您的后端服务将可通过 Cloud Run 服务 URL 访问,该 URL 将显示在 Cloud 控制台中。
注意:
cloudbuild.yaml文件支持基于分支名称的多个环境(main、staging、dev)。- 前端的构建和部署步骤默认被注释掉。如果您也想部署前端,请在
cloudbuild.yaml中取消注释相关部分。
更多详细信息,请参阅 cloudbuild.yaml 中的注释。
链接
参考
联系方式
如有任何疑问或需要支持,请随时提交 GitHub Issues。
祝您构建愉快!
版本历史
v0.8.52026/02/11v0.8.42026/01/15v0.8.32025/06/24v0.8.22025/05/19v0.8.12025/05/12v0.82025/04/21v0.7.22025/03/11v0.7.12025/02/18v0.72025/01/27v0.62024/12/11v0.5.12024/11/29v0.52024/10/30v0.42024/08/27v0.32024/07/12v.022024/07/02v0.12024/05/16常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备