scrape-it-now

540 22 中等 1 次阅读 4周前Apache-2.0图像插件开发框架Agent

AI 解读由 AI 自动生成，仅供参考

scrape-it-now 是一款专为 AI 应用打造的命令行网页抓取工具，旨在以极简的方式获取高质量数据。它主要解决了传统爬虫在应对动态网页、广告干扰及数据清洗时的痛点，能够直接将复杂的网页内容转换为结构清晰、语义连贯的 Markdown 格式，并自动完成去重与分块处理，为后续的大模型训练或语义搜索提供“开箱即用”的优质语料。

这款工具特别适合开发者、AI 研究人员及数据工程师使用，尤其是那些需要构建本地知识库、进行网络数据采集或搭建 RAG（检索增强生成）系统的技术团队。其独特亮点在于强大的工程化设计：支持基于 Azure 或本地磁盘的并行任务队列，大幅提升抓取效率；内置 Playwright 引擎可完美渲染 JavaScript 动态内容；智能拦截广告以降低带宽成本；还能在保护用户匿名性的同时，自动提取元数据、截图及图片。更值得一提的是，它集成了 OpenAI 嵌入模型与 Azure AI Search，能自动建立可语义检索的智能索引，让数据从采集到应用的全流程更加顺畅高效。

使用场景

某金融科技团队需要每日监控全球数百家新闻网站，将最新的市场动态提取并导入内部 AI 知识库，以辅助量化交易策略的生成。

没有 scrape-it-now 时

数据清洗耗时巨大：爬虫抓取的原始 HTML 包含大量广告、导航栏和脚本代码，开发人员需编写复杂的正则表达式手动清洗，才能提取出纯文本。
动态内容无法获取：许多现代新闻站采用 JavaScript 异步加载，传统静态爬虫只能抓到空白页面，导致关键行情数据缺失。
重复抓取浪费资源：缺乏智能去重机制，程序会反复抓取未更新的页面，不仅浪费带宽和计算资源，还容易触发目标网站的反爬封锁。
非结构化数据难利用：抓取的内容是杂乱的文本片段，无法直接用于大模型检索，团队需额外开发分块（Chunking）和向量化流程。

使用 scrape-it-now 后

一键输出高质量 Markdown：scrape-it-now 内置 Pandoc 引擎，自动过滤广告并直接将网页转换为结构清晰的 Markdown，省去了所有清洗代码。
完美支持动态渲染：基于 Playwright 和 Chromium，它能像真实用户一样执行 JavaScript，确保完整捕获异步加载的实时财经数据。
智能去重与并行加速：工具自动检测页面变更，仅抓取新内容，并支持多任务并行处理，将原本数小时的采集任务缩短至分钟级。
原生适配 AI 检索：内置 Indexer 模块可自动对内容进行语义分块并生成 OpenAI 嵌入向量，直接构建可搜索的 AI 知识库索引。

scrape-it-now 将繁琐的“采集 - 清洗 - 格式化 - 向量化”全流程自动化，让团队能专注于核心策略分析而非数据工程。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

未说明

内存

未说明

依赖

notes该工具支持两种运行模式：1. 本地模式：使用本地磁盘存储数据和队列，无需云配置；2. 云端模式：需配置 Azure Storage (Blob/Queue) 和 Azure AI Search。若启用动态 JS 内容抓取，首次运行会自动安装 Playwright 及其浏览器内核（Chromium）。若启用索引功能，需配置 Azure OpenAI 用于生成嵌入向量。

python3.13+

playwright

chromium

pandoc

azure-storage-blob

azure-storage-queue

azure-search-documents

openai

sqlite

快速开始

🛰️ 立即抓取！

专为 AI 和简洁性设计的网页抓取工具。它以 CLI 形式运行，支持并行化，并输出高质量的 Markdown 内容。

功能

共享：

🏗️ 解耦架构，使用 Azure 队列存储或本地 sqlite
⚙️ 幂等操作，可并行执行
💾 抓取内容存储在 Azure Blob 存储或本地磁盘

抓取器：

🛑 如果页面未更改，则避免重复抓取
🚫 使用 The Block List Project 屏蔽广告以降低网络成本
🔗 通过检测和去重链接深入探索页面
✍️ 使用 Pandoc 从页面中提取 Markdown 内容
🏷️ 提取页面中的元数据元素
🖥️ 使用 Playwright 和 Chromium 加载动态 JavaScript 内容
🕵️‍♂️ 通过随机用户代理、随机视口大小以及不发送客户端提示头信息来保护匿名性
📊 使用状态命令显示进度
🖼️ 存储页面上收集的图片
📸 存储页面截图
📡 跟踪总网络用量的进度

索引器：

🧠 自动创建 AI 搜索索引
✂️ 在保持内容连贯性的前提下对 Markdown 进行分块
📈 使用 OpenAI 嵌入技术对分块内容进行嵌入
🔍 索引后的内容可通过 Azure AI 搜索进行语义搜索

安装

从 PyPI

# 安装包
python3 -m pip install scrape-it-now
# 运行 CLI
scrape-it-now --help

要配置 CLI（包括后端服务的身份验证），可以使用环境变量、.env 文件或命令行选项。

从源代码

应用程序必须使用 Python 3.13 或更高版本运行。如果尚未安装此版本，可以通过 pyenv 轻松安装。

# 下载源代码
git clone https://github.com/clemlesne/scrape-it-now.git
# 进入目录
cd scrape-it-now
# 运行安装脚本
make install dev
# 运行 CLI
scrape-it-now --help

使用方法

抓取一个网站

运行任务

使用 Azure Blob 存储和 Azure 队列存储：

# Azure 存储配置
export AZURE_STORAGE_ACCESS_KEY=xxx
export AZURE_STORAGE_ACCOUNT_NAME=xxx
# 运行任务
scrape-it-now scrape run https://nytimes.com

使用本地磁盘 Blob 和本地磁盘队列：

# 本地磁盘配置
export BLOB_PROVIDER=local_disk
export QUEUE_PROVIDER=local_disk
# 运行任务
scrape-it-now scrape run https://nytimes.com

示例：

❯ scrape-it-now scrape run https://nytimes.com
2024-11-08T13:18:49.169320Z [info     ] 开始抓取任务 lydmtyz
2024-11-08T13:18:49.169392Z [info     ] 如果需要，正在安装依赖项，这可能需要几分钟
2024-11-08T13:18:52.542422Z [info     ] 已将 1/1 个 URL 排入队列
2024-11-08T13:18:58.509221Z [info     ] 开始处理 https://nytimes.com，深度=1，进程=scrape-lydmtyz-4，任务=63dce50
2024-11-08T13:19:04.173198Z [info     ] 已加载 154554 个广告和跟踪器，进程=scrape-lydmtyz-4
2024-11-08T13:19:16.393045Z [info     ] 已将 310/311 个 URL 排入队列，深度=1，进程=scrape-lydmtyz-4，任务=63dce50
2024-11-08T13:19:16.393323Z [info     ] 已抓取，深度=1，进程=scrape-lydmtyz-4，任务=63dce50
...

常用选项如下：

`选项`	描述	`环境变量`
`--azure-storage-access-key` `-asak`	Azure 存储访问密钥	`AZURE_STORAGE_ACCESS_KEY`
`--azure-storage-account-name` `-asan`	Azure 存储账户名称	`AZURE_STORAGE_ACCOUNT_NAME`
`--blob-provider` `-bp`	Blob 提供者	`BLOB_PROVIDER`
`--job-name` `-jn`	任务名称	`JOB_NAME`
`--max-depth` `-md`	最大深度	`MAX_DEPTH`
`--queue-provider` `-qp`	队列提供者	`QUEUE_PROVIDER`
`--save-images` `-si`	保存图片	`SAVE_IMAGES`
`--save-screenshot` `-ss`	保存截图	`SAVE_SCREENSHOT`
`--whitelist` `-w`	白名单	`WHITELIST`

有关所有可用选项的文档，请运行：

scrape-it-now scrape run --help

显示任务状态

使用 Azure Blob 存储：

# Azure 存储配置
export AZURE_STORAGE_CONNECTION_STRING=xxx
# 显示任务状态
scrape-it-now scrape status [job_name]

使用本地磁盘 Blob：

# 本地磁盘配置
export BLOB_PROVIDER=local_disk
# 显示任务状态
scrape-it-now scrape status [job_name]

示例：

❯ scrape-it-now scrape status lydmtyz
{"created_at":"2024-11-08T13:18:52.839060Z","last_updated":"2024-11-08T13:19:16.528370Z","network_used_mb":2.6666793823242188,"processed":1,"queued":311}

常用选项如下：

`选项`	描述	`环境变量`
`--azure-storage-access-key` `-asak`	Azure 存储访问密钥	`AZURE_STORAGE_ACCESS_KEY`
`--azure-storage-account-name` `-asan`	Azure 存储账户名称	`AZURE_STORAGE_ACCOUNT_NAME`
`--blob-provider` `-bp`	Blob 提供者	`BLOB_PROVIDER`

有关所有可用选项的文档，请运行：

scrape-it-now scrape status --help

对抓取的网站进行索引

运行任务

使用 Azure Blob 存储、Azure 队列存储和 Azure AI 搜索：

# Azure OpenAI 配置
export AZURE_OPENAI_API_KEY=xxx
export AZURE_OPENAI_EMBEDDING_DEPLOYMENT_NAME=xxx
export AZURE_OPENAI_EMBEDDING_DIMENSIONS=xxx
export AZURE_OPENAI_EMBEDDING_MODEL_NAME=xxx
export AZURE_OPENAI_ENDPOINT=xxx

# Azure 搜索配置
export AZURE_SEARCH_API_KEY=xxx
export AZURE_SEARCH_ENDPOINT=xxx

# Azure 存储配置
export AZURE_STORAGE_ACCESS_KEY=xxx
export AZURE_STORAGE_ACCOUNT_NAME=xxx

# 运行任务
scrape-it-now index run [job_name]

使用本地磁盘 Blob、本地磁盘队列和 Azure AI 搜索：

# Azure OpenAI 配置
export AZURE_OPENAI_API_KEY=xxx
export AZURE_OPENAI_EMBEDDING_DEPLOYMENT_NAME=xxx
export AZURE_OPENAI_EMBEDDING_DIMENSIONS=xxx
export AZURE_OPENAI_EMBEDDING_MODEL_NAME=xxx
export AZURE_OPENAI_ENDPOINT=xxx
# Azure 搜索配置
export AZURE_SEARCH_API_KEY=xxx
export AZURE_SEARCH_ENDPOINT=xxx

# 本地磁盘配置
export BLOB_PROVIDER=local_disk
export QUEUE_PROVIDER=local_disk
# 运行作业
scrape-it-now index run [job_name]

示例：

❯ scrape-it-now index run lydmtyz
2024-11-08T13:20:37.129411Z [info     ] 开始索引作业 lydmtyz
2024-11-08T13:20:38.945954Z [info     ] 开始处理 https://nytimes.com process=index-lydmtyz-4 task=63dce50
2024-11-08T13:20:39.162692Z [info     ] 已分块为 7 个部分           process=index-lydmtyz-4 task=63dce50
2024-11-08T13:20:42.407391Z [info     ] 已索引 7 个块               process=index-lydmtyz-4 task=63dce50
...

最常见的选项如下：

`选项`	描述	`环境变量`
`--azure-openai-api-key` `-aoak`	Azure OpenAI API 密钥	`AZURE_OPENAI_API_KEY`
`--azure-openai-embedding-deployment-name` `-aoedn`	Azure OpenAI 嵌入模型部署名称	`AZURE_OPENAI_EMBEDDING_DEPLOYMENT_NAME`
`--azure-openai-embedding-dimensions` `-aoed`	Azure OpenAI 嵌入维度	`AZURE_OPENAI_EMBEDDING_DIMENSIONS`
`--azure-openai-embedding-model-name` `-aoemn`	Azure OpenAI 嵌入模型名称	`AZURE_OPENAI_EMBEDDING_MODEL_NAME`
`--azure-openai-endpoint` `-aoe`	Azure OpenAI 终端节点	`AZURE_OPENAI_ENDPOINT`
`--azure-search-api-key` `-asak`	Azure Search API 密钥	`AZURE_SEARCH_API_KEY`
`--azure-search-endpoint` `-ase`	Azure Search 终端节点	`AZURE_SEARCH_ENDPOINT`
`--azure-storage-access-key` `-asak`	Azure 存储访问密钥	`AZURE_STORAGE_ACCESS_KEY`
`--azure-storage-account-name` `-asan`	Azure 存储账户名称	`AZURE_STORAGE_ACCOUNT_NAME`
`--blob-provider` `-bp`	Blob 提供者	`BLOB_PROVIDER`
`--queue-provider` `-qp`	队列提供者	`QUEUE_PROVIDER`

如需查看所有可用选项的文档，请运行以下命令：

scrape-it-now index run --help

架构

抓取

---
title: 使用 Azure 存储的抓取流程
---
graph LR
  cli["CLI"]
  web["网站"]

  subgraph "Azure 队列存储"
    to_chunk["待分块"]
    to_scrape["待抓取"]
  end

  subgraph "Azure Blob 存储"
    subgraph "容器"
      job["作业"]
      scraped["已抓取"]
      state["状态"]
    end
  end

  cli -- (1) 拉取消息 --> to_scrape
  cli -- (2) 获取缓存 --> scraped
  cli -- (3) 浏览 --> web
  cli -- (4) 更新缓存 --> scraped
  cli -- (5) 推送状态 --> state
  cli -- (6) 添加消息 --> to_scrape
  cli -- (7) 添加消息 --> to_chunk
  cli -- (8) 更新状态 --> job

索引

---
title: 使用 Azure 存储和 Azure AI 搜索的索引流程
---
graph LR
  search["Azure AI 搜索"]
  cli["CLI"]
  embeddings["Azure OpenAI 嵌入"]

  subgraph "Azure 队列存储"
    to_chunk["待分块"]
  end

  subgraph "Azure Blob 存储"
    subgraph "容器"
      scraped["已抓取"]
    end
  end

  cli -- (1) 拉取消息 --> to_chunk
  cli -- (2) 获取缓存 --> scraped
  cli -- (3) 分块 --> cli
  cli -- (4) 嵌入 --> embeddings
  cli -- (5) 推送到搜索 --> search

设计

Blob 存储按文件夹组织：

[job_name]-scraping/            # 作业名称（由用户定义或自动生成）
    scraped/                    # 所有页面的数据
        [page_id]/              # 页面资源
            screenshot.jpeg     # 截图（若启用）
            [image_id].[ext]    # 图片二进制文件（若启用）
            [image_id].json     # 图片元数据（若启用）
        [page_id].json          # 页面数据
    state/                      # 作业状态（缓存与并行化）
        [page_id]               # 页面状态
    job.json                    # 作业状态（汇总统计）

页面数据被视为一个 API（在下一个主要版本之前不会破坏），以 JSON 格式存储：

{
  "created_at": "2024-09-11T14:06:43.566187Z",
  "redirect": "https://www.nytimes.com/interactive/2024/podcasts/serial-season-four-guantanamo.html",
  "status": 200,
  "url": "https://www.nytimes.com/interactive/2024/podcasts/serial-season-four-guantanamo.html",
  "content": "## 听听《Serial》第四季的预告片...",
  "etag": null,
  "links": [
    "https://podcasts.apple.com/us/podcast/serial/id917918570",
    "https://music.amazon.com/podcasts/d1022069-8863-42f3-823e-857fd8a7b616/serial?ref=dm_sh_OVBHkKYvW1poSzCOsBqHFXuLc",
    ...
  ],
  "metas": {
    "description": "《Serial》回归，讲述关塔那摩的历史，由那些经历过关塔那摩关键时刻的人们讲述。他们了解我们其他人所不了解的，在临时司法体系中被卷入其中的感受。",
    "articleid": "100000009373583",
    "twitter:site": "@nytimes",
    ...
  },
  "network_used_mb": 1.041460037231445,
  "raw": "<head>...</head><body>...</body>",
  "valid_until": "2024-09-11T14:11:37.790570Z"
}

随后，索引后的数据存储在 Azure AI 搜索中：

字段	类型	描述
`chunck_number`	`Edm.Int32`	分块编号，从 `0` 到 `x`
`content`	`Edm.String`	分块内容
`created_at`	`Edm.DateTimeOffset`	来源抓取日期
`id`	`Edm.String`	分块 ID
`title`	`Edm.String`	来源页面标题
`url`	`Edm.String`	来源页面 URL

高级用法

白名单

白名单选项允许限制到特定域名，并忽略子路径。它是一个正则表达式列表：

domain1,regexp1,regexp2 domain2,regexp3

例如：

要将 learn.microsoft.com 加入白名单：

learn\.microsoft\.com

要将 learn.microsoft.com 和 go.microsoft.com 加入白名单，但仅保留 /en-us 路径，忽略其他子路径：

learn\.microsoft\.com,^/(?!en-us).* go\.microsoft\.com

源环境变量

为了方便配置 CLI，可以从 .env 文件中加载环境变量。例如，对于 --azure-storage-access-key 选项：

AZURE_STORAGE_ACCESS_KEY=xxx

对于接受多个值的参数，使用空格分隔的列表。例如，对于 --whitelist 选项：

WHITELIST=learn\.microsoft\.com go\.microsoft\.com

应用程序缓存目录

缓存目录取决于操作系统：

~/.config/scrape-it-now（Unix）
~/Library/Application Support/scrape-it-now（macOS）
C:\Users\<user>\AppData\Roaming\scrape-it-now（Windows）

浏览器二进制文件安装

浏览器二进制文件会在每次运行时自动下载或更新。浏览器为 Chromium，不可配置（如有需要其他浏览器，请提交 issue），大小约为 450MB。缓存存储在缓存目录中。

本地磁盘存储的工作原理

本地磁盘存储同时用于 Blob 和队列。不建议在生产环境中使用，因为它不易扩展且不具备容错能力。它适用于测试和开发，或者在无法使用 Azure 服务的情况下。

实现方式：

本地磁盘 Blob 存储使用目录结构来保存 Blob 数据。每个 Blob 都以文件的形式存储，文件名即为 Blob 的名称。租约机制通过锁文件实现。默认情况下，文件会存储在与命令执行目录相对的某个目录中。
本地磁盘队列使用 SQLite 数据库来存储消息。数据库文件存储在缓存目录中。SQL 数据库实现了可见性超时和删除标记功能，以确保与无状态队列服务（如 Azure 队列存储）的一致性。

使用代理实现匿名性

应用程序本身并未实现代理功能。仅靠应用层无法实现网络安全性。请使用 VPN（例如您自己的或第三方提供的）或代理服务（例如住宅代理、Tor）来确保匿名性，并配置系统防火墙以限制应用程序对网络的访问权限。

打包为容器镜像

由于该应用已发布到 PyPI，因此可以轻松地打包成容器镜像。每次启动时，应用都会下载并缓存所需的依赖项（如浏览器等）。您也可以预先下载这些依赖项，只需运行 scrape-it-now scrape install 命令即可。

为了提升性能，还可以通过运行多个容器实例来并行化爬取和索引任务。这可以通过 KEDA 实现，具体方法是配置一个 Azure 存储队列缩放器。

Scrape It Now 快速上手指南

Scrape It Now 是一款专为 AI 应用设计的网页爬虫工具。它支持并行抓取，能够自动拦截广告、处理动态 JavaScript 内容，并将网页转换为高质量的 Markdown 格式，同时支持构建语义搜索索引。

环境准备

系统要求

Python 版本：必须使用 Python 3.13 或更高版本。
- 提示：如果系统未安装该版本，推荐使用 pyenv 进行多版本管理。
操作系统：支持 Linux、macOS 和 Windows（需配置相应运行环境）。

前置依赖

浏览器内核：工具内部使用 Playwright 和 Chromium 处理动态内容，首次运行时会自动下载所需依赖（可能需要几分钟）。
存储后端（可选）：
- 本地模式：无需额外配置，直接使用本地磁盘。
- 云端模式：如需高性能并行处理，需准备 Azure Storage (Queue & Blob) 和 Azure AI Search 账号及密钥。

安装步骤

方式一：通过 PyPI 安装（推荐）

使用 pip 直接安装最新稳定版：

python3 -m pip install scrape-it-now

验证安装并查看帮助：

scrape-it-now --help

方式二：从源码安装

适用于需要开发或体验最新特性的用户：

# 克隆仓库
git clone https://github.com/clemlesne/scrape-it-now.git
cd scrape-it-now

# 安装依赖（需确保已安装 make 工具）
make install dev

# 验证安装
scrape-it-now --help

基本使用

本工具支持两种运行模式：本地磁盘模式（无需云账号，适合测试）和 Azure 云端模式（适合生产环境并行抓取）。以下以最简单的本地磁盘模式为例。

1. 抓取网站内容

设置环境变量启用本地存储，然后运行抓取任务。以下示例将抓取 nytimes.com 首页及其链接页面，并转换为 Markdown。

# 配置使用本地磁盘作为存储和队列
export BLOB_PROVIDER=local_disk
export QUEUE_PROVIDER=local_disk

# 执行抓取任务
scrape-it-now scrape run https://nytimes.com

运行说明：

首次运行会自动下载浏览器依赖。
工具会自动去重链接、拦截广告，并将内容保存为 Markdown。
默认会递归抓取一定深度的页面（可通过 --max-depth 调整）。

常用参数：

-si / --save-images：同时保存图片资源。
-ss / --save-screenshot：保存页面截图。
-md / --max-depth：设置最大抓取深度（例如 -md 2）。

2. 查看任务状态

抓取过程中或完成后，可以查看当前任务的进度统计（如已处理 URL 数、网络用量等）。

# 确保环境变量一致
export BLOB_PROVIDER=local_disk

# 查看状态（[job_name] 可省略，默认显示最近的任务，或指定具体任务 ID）
scrape-it-now scrape status

输出示例：

{"created_at":"2024-11-08T13:18:52.839060Z","last_updated":"2024-11-08T13:19:16.528370Z","network_used_mb":2.67,"processed":1,"queued":311}

3. 构建 AI 搜索索引（可选）

如果你需要将抓取到的内容转换为向量索引以供 AI 检索，可以使用 index 命令。此步骤通常需要配置 Azure OpenAI 和 Azure AI Search。

# 配置 Azure OpenAI (用于生成嵌入向量)
export AZURE_OPENAI_API_KEY=xxx
export AZURE_OPENAI_ENDPOINT=xxx
export AZURE_OPENAI_EMBEDDING_DEPLOYMENT_NAME=xxx
# ... 其他 OpenAI 配置

# 配置 Azure Search
export AZURE_SEARCH_API_KEY=xxx
export AZURE_SEARCH_ENDPOINT=xxx

# 使用本地抓取的數據構建索引
export BLOB_PROVIDER=local_disk
export QUEUE_PROVIDER=local_disk

# 运行索引任务（替换 [job_name] 为实际任务 ID）
scrape-it-now index run [job_name]

数据存储结构

在本地模式下，抓取的数据将保存在当前目录下的文件夹中，结构如下：

[job_name]-scraping/
├── scraped/            # 抓取的页面数据
│   ├── [page_id]/      # 单个页面的资源
│   │   ├── screenshot.jpeg
│   │   └── [image_id].jpg
│   └── [page_id].json  # 页面元数据和 Markdown 内容
├── state/              # 任务状态缓存（用于断点续传和并行控制）
└── job.json            # 任务汇总统计

你可以直接读取 .json 文件中的 content 字段获取清洗后的 Markdown 内容。

版本历史

v3.0.42024/12/05

v3.0.32024/12/04

v3.0.22024/11/09

v3.0.12024/11/09

v3.0.02024/11/09

v2.1.32024/11/07

v2.1.22024/11/07

v2.1.12024/11/07

v2.1.02024/11/07

v2.0.32024/10/28

v2.0.22024/10/28

v2.0.12024/10/27

v2.0.02024/10/27

v1.6.02024/08/23

v1.5.12024/08/22

v1.5.02024/08/20

v1.4.42024/08/17

v1.4.32024/08/17

v1.4.22024/08/17

v1.4.12024/08/17

常见问题

AI 搜索索引中增加了哪些新字段？

是否支持通过代理或 Tor 进行浏览抓取？

如何安装 scrape-it-now？

开发环境安装时提示 .python-version 指向的版本不存在怎么办？

为什么无法使用 pip-sync 或提示缺少 pip-tools？

CI/CD 任务因 actions/cache 版本过时失败如何解决？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架