Poker

2.4k 570 较难 1 次阅读昨天GPL-3.0图像Agent

AI 解读由 AI 自动生成，仅供参考

Poker 是一款功能完备的开源扑克机器人，专为 PokerStars、PartyPoker 和 GGPoker 等主流平台设计，能够全自动识别牌局并做出决策。它主要解决了玩家在长时间重复性对局中精力消耗大、难以持续保持最佳策略的问题，通过自动化操作帮助用户执行预设的博弈策略。

这款工具特别适合对量化交易策略感兴趣的研究者、希望测试不同算法效果的开发者，以及需要在虚拟机环境中运行自动化脚本的高级用户。普通玩家也可利用其内置的策略分析器复盘历史数据，优化自己的打牌思路。

Poker 的技术亮点在于其独特的感知与决策系统：它利用 OpenCV 图像识别或神经网络实时“观看”牌桌画面，无需侵入游戏客户端；决策核心则结合了遗传算法与蒙特卡洛模拟，能动态计算胜率（Equity）并据此决定下注、跟注或弃牌。此外，它支持在虚拟机中运行以隔离鼠标控制，避免干扰主机操作，并提供了可视化的策略编辑器与分析图表，让用户可以直观地调整参数并评估不同策略在各阶段（翻前、翻牌、转牌、河牌）的盈利能力。需要注意的是，目前该版本仅支持 Windows 系统，且依赖特定的界面布局以确保图像识别的准确性。

使用场景

一位扑克策略研究者需要在 PokerStars 的 Zoom 快牌桌上进行高强度的蒙特卡洛模拟测试，以验证新的胜率计算模型。

没有 Poker 时

人工操作无法跟上快牌桌的节奏，导致每小时只能处理极少量手牌，数据样本严重不足。
缺乏实时的图像识别能力，研究者必须手动输入牌面信息，极易因疲劳产生录入错误。
难以量化策略表现，无法直观看到不同阶段（翻前、翻后）的具体盈亏分布，调优全靠猜测。
长时间盯着屏幕操作鼠标会导致手臂酸痛，且无法在后台运行其他分析任务。

使用 Poker 后

Poker 利用遗传算法和蒙特卡洛模拟自动决策，能在数小时内连续处理数千手牌，迅速积累海量测试数据。
内置 OpenCV 和神经网络自动抓取牌桌图像，精准识别卡牌样式并实时计算权益，彻底消除人为录入误差。
策略分析器自动生成堆叠柱状图，清晰展示各阶段动作的盈亏细节，让研究者能基于数据精准调整下注曲线。
支持在虚拟机中独立运行并接管鼠标，研究者可解放双手去编写代码或休息，同时保持机器人全天候不间断工作。

Poker 将繁琐的重复操作转化为自动化数据流，让策略验证从“凭感觉试错”升级为“基于大数据的精准迭代”。

运行环境要求

操作系统

Windows

GPU

非必需（仅在神经网络训练时可选使用）

内存

最低 4GB

依赖

notes当前版本仅支持 Windows。强烈建议在虚拟机（如 VirtualBox 7.0.12+）中运行扑克客户端，而将机器人程序安装在宿主机上，通过配置让机器人控制虚拟机内的鼠标，以避免干扰宿主操作。屏幕分辨率建议为 1920x1800 或更高，且必须关闭 DPI 缩放。该工具基于图像识别，运行时不能遮挡牌桌窗口，且同一时间只能显示一个牌桌窗口。需安装 C++ 运行库。

python3.11 (根据 tesserocr 安装包名称推断)

tesserocr

numpy

PyQt/QT Designer

VirtualBox

Anaconda

快速开始

DeeperMind 扑克机器人，适用于 PokerStars、PartyPoker 和 GGPoker

这款扑克机器人可在 PokerStars、PartyPoker 和 GG Poker 上自动游戏。其他牌桌也可以进行映射。它结合了图像识别、蒙特卡洛模拟和基础的遗传算法来运作。鼠标会自动移动，机器人可以根据大量参数持续数小时进行游戏。

您可以从这里下载二进制文件并直接运行可执行程序： http://www.deepermind-pokerbot.com

运行机器人：

PartyPoker：

* 使用快速过牌桌
* 选择官方 PartyPoker 桌面抓取器

.. figure:: doc/partypoker.gif

PokerStars：

使用 Zoom 桌
选择官方 PokerStars 桌面抓取器
对于 PokerStars，您需要对客户端做一些调整。为了配合官方 PokerStars 桌面抓取器运行，界面必须与下方完全一致：
确保匹配牌型（4种花色）、暗牌样式以及桌面风格。

.. figure:: doc/ps-example.png

GGPoker：

使用官方 GGPoker 桌面抓取器时，请确保您的 GGPoker 设置如下：

.. figure:: doc/ggpk2.png


通用设置：

如果您只想运行机器人，请按照以下步骤操作：

从这里安装机器人的二进制文件：http://www.deepermind-pokerbot.com

然后您可以立即运行机器人。它会分析扑克客户端，移动鼠标，并根据预设策略之一进行游戏。大多数策略都基于 Zoom 或快速过牌桌。欢迎您编辑和优化任何策略，以根据自身需求优化机器人的玩法。

在大多数情况下，将扑克客户端放入虚拟机中可能会很有帮助，这样可以避免其干扰机器人。此外，机器人可以在虚拟机内控制鼠标，而不会锁定整个计算机：

下载 VirtualBox：https://www.virtualbox.org/
例如，可以从这里下载 Windows 10 ISO 文件：https://www.softlay.com/apps/operating-system
创建一个新的 VirtualBox 环境，并使用 ISO 文件作为启动盘
确保仅分配给 VirtualBox 1 个 CPU，因为计算能力主要由机器人使用（尤其是 OCR）
在 VirtualBox 环境中安装 PartyPoker 或 PokerStars
将扑克机器人直接安装到您的电脑上（在 VirtualBox 外部）
在设置中选择您的 VirtualBox 实例（而不是直接控制鼠标）
通过点击聊天按钮或加入此链接加入 Discord 聊天：https://discord.gg/xB9sR3Q7r3
当前版本仅支持 Windows 系统
不要遮挡牌桌视野，因为机器人依赖图像识别
只需保持一个牌桌窗口可见
为获得最佳性能，请将虚拟机中的所有窗口最小化，仅保留牌桌窗口
不要在 VirtualBox 中使用 DPI 缩放
在设置中，尽量选择您的虚拟机而非直接控制鼠标，这样鼠标移动就不会妨碍您。

策略分析器

您可以在策略分析器中查看每种策略的盈利能力。
条形图显示了在每个阶段（翻牌前、翻牌圈、转牌圈和河牌圈）哪些行动类型带来了胜利或失败。

更详细地观察堆叠条形图，可以帮助您了解如何调整策略以最大化收益：

.. figure:: doc/analyzer_bar2.png

分析每个阶段中的单个回合：

.. figure:: doc/analyzer_bar3.png

分析单手牌：

.. figure:: doc/strategy_analyzer.gif

策略编辑器

机器人在做出决策时会考虑多种因素，这些因素可以在策略编辑器中进行调整：

权益（获胜概率），由蒙特卡洛模拟计算得出
为了防止机器人弃牌，权益和最低跟注/下注额必须位于相应曲线的左侧
还会考虑其他因素，例如之前几轮的行为表现。更多详情请参阅策略编辑器。
将鼠标悬停在每个项目上即可查看详细说明。

.. figure:: doc/strategy2.png

还可以针对每种策略编辑多种其他选项：

.. figure:: doc/strategy_editor.gif

改进策略的建议：


* 通常至少需要 2000 手牌才能对某种策略得出结论。最好则是 5000 手。少于 1000 手的数据则完全是随机的。
* 最好买入金额超过最低限额，这样机器人会有更大的操作空间。例如，在 0.01/0.02 的牌桌上，买入金额应高于最低的 2 美元，理想情况下从 4 美元甚至更高开始。
* 查看策略分析器，并按逆向顺序逐步改进。先优化河牌圈的玩法，待稳定后再调整转牌圈，接着是翻牌圈等。这是因为游戏具有路径依赖性。
* 如果您调整了范围，可能需要同时调整所有最低权益值，因为这会影响权益的计算。
* 祝您好运！

完整版：
~~~~~~~~~~~~~

完整版允许您：

* 编辑和创建新策略
* 查看所有用户的全部策略

如需购买，请访问此链接。您将在 24 小时内收到密码。
http://www.deepermind-pokerbot.com/purchase

或者，您也可以通过电子邮件或 Discord 联系我，直接申请密码，并使用比特币支付至：
1Py5o4WLYMizXc8pFPqzD4yeCAm53BhJit

如果您对代码库做出了有意义的贡献，也可以获得免费订阅。

最简单的贡献方式包括：

- 添加新牌桌
- 添加新策略
- 直接修复代码并提交拉取请求



映射新牌桌
------------------

机器人可以通过使用模板或训练基于给定模板进行数据增强的神经网络，学会读取新牌桌。

`点击此链接观看关于如何添加新牌桌的视频介绍 <https://rb.gy/jut3ws>`_，或在 www.deepermind-pokerbot.com 上观看视频。

添加新牌桌的设置如下：

.. figure:: doc/scraper.png

- 打开扑克机器人，点击“牌桌设置”以打开帮助你创建新牌桌的窗口。
- 接着打开旁边的扑克客户端，确保它没有进行DPI缩放，这样扑克机器人才能正确截图。
- 首先创建一个新的模板，你可以通过为模板命名来实现，例如“Pokerstars 1-2 zoom扑克”。然后点击“空白新建”。
- 现在你需要做的第一件事是截取包含牌桌的Pokerstars窗口。可以通过点击“截图”按钮来完成。你应该能在下方窗口中看到屏幕上内容的完整截图。
- 第一步是标记牌桌窗口的左上角，这将成为后续所有操作的参考点。要标记左上角，先点击窗口的左上部分，再点击右下部分。完成后，该标记会显示在第二个窗口中。你可以通过点击“保存新选定的左上角”按钮来保存它。
- 接下来，你可以通过点击“从左上角裁剪”按钮来进行裁剪。这将丢弃大部分截图，只保留左上角及其右侧和下方几百像素范围内的内容。
- 接着，你需要标记窗口中的其他元素。首先从按钮搜索区域开始。同样地，先点击按钮区域的左上角，再点击按钮出现位置的右下角。确认选择无误后，点击“按钮搜索区域”。
- 如果将鼠标悬停在按钮上，你会看到更详细的说明，告诉你需要注意的地方。
- 请注意，你需要多次截图并裁剪它们（不要再次选择左上角，因为这只应执行一次），而是先加载截图再进行裁剪。之后，从不同的图像中做出选择，并通过相应的按钮保存。你需要为每张牌、每个按钮等都进行这样的设置。

注意事项：
------------------------------

**在验证机器人功能正常之前，不建议使用真实账户进行测试（同时也能避免账户和资金损失）**

运行该机器人的最低系统要求：
- Windows 10 x64或更高版本（可能在较早版本上也能运行，但尚未经过验证）
- 内存4GB或以上
- 硬盘空间1.6GB（当然越大越好）
- 至少四核四线程的处理器
- 不需要显卡（神经网络训练可以选择在GPU上进行）
- 屏幕分辨率1920*1800（分辨率较低也可运行，但尚未验证其正确性）

- 如果使用VirtualBox，请考虑其资源消耗，并将其纳入上述系统要求中。
- 扑克应用程序通常可在Windows 7及以上版本上运行。
- VirtualBox版本7.0.12或更高，并配备相应的扩展包。

通过Docker运行
------------------------------

- ``$ git clone https://github.com/dickreuter/Poker.git``
- ``$ cd Poker``
- ``$ docker compose up -d``
- ``$ xhost local:root # 这允许本地机器上的root用户连接到X窗口系统``
- ``$ docker-compose exec app python3 main.py # 容器启动后，可通过此命令运行机器人``

通过Python源代码运行
------------------------------
- 从这里下载PyCharm社区版作为IDE：https://www.jetbrains.com/pycharm/download/#section=windows
- 安装Anaconda：https://www.anaconda.com/products/distribution
- 下载tesserocr：https://github.com/simonflueckiger/tesserocr-windows_build/releases/download/tesserocr-v2.6.0-tesseract-5.3.1/tesserocr-2.6.0-cp311-cp311-win_amd64.whl -Out tesserocr-2.6.0-cp311-cp311-win_amd64.whl，并使用pip install安装该whl文件。
- 使用``pip install -r requirements.txt``创建环境，并单独安装tesserocr。
- 你可能还需要获取C++运行时分发包：https://visualstudio.microsoft.com/downloads/
- 从https://www.virtualbox.org/wiki/Downloads安装VirtualBox，并将扑克客户端放入虚拟机中。这样你就可以在主窗口中无需使用鼠标来控制它。
- 在设置好上述虚拟环境作为解释器后，在PyCharm中运行``main.py``（可参考YouTube教程）


软件包和模块：
~~~~~~~~~~~~~~~~~~~~~

main.py：入口文件

poker.scraper
^^^^^^^^^^^^^

包含用户界面和用于映射新牌桌的例程。

- ``recognize_table``：基于已创建的映射，识别牌桌上不同元素的功能。
- ``screen_operations``：各种例程，如截图、裁剪等。
- ``table_setup``：与GUI相关的例程。
- ``ui_table_setup``：QT用户界面。对应的py文件通过父文件夹中的makegui.bat生成。若要编辑GUI，请下载QT Designer并打开.ui文件。


poker.decisionmaker
^^^^^^^^^^^^^^^^^^^

- ``decisionmaker.py``：根据输入数据决定采取何种行动的核心逻辑。
- ``montecarlo_numpy2.py``：基于numpy的快速蒙特卡洛模拟，用于计算底池权益。目前尚未完全正常工作，部分测试失败，欢迎修复。
- ``montecarlo_python.py``：相对缓慢的基于Python的蒙特卡洛模拟，用于计算底池权益。支持其他玩家的翻前范围。

poker.tests
^^^^^^^^^^^

- ``test_montecarlo_numpy.py``：针对numpy蒙特卡洛模拟的测试。
- ``test_pylint.py``：用于确保PEP8标准和静态代码分析的pylint及pydoc测试。


图形用户界面（GUI）
^^^^^^^^^^^^^^^^^^^^^^^^^^

- 下载开源项目QT：https://www.qt.io/download-open-source
- 使用QT Designer编辑GUI/ui中的任何.ui文件。


下一步优先事项
---------------


- [ ] 更新测试。目前部分测试已过时，需要增加更多测试。
- [ ] 添加更多策略。
- [ ] 将pytesseract替换为tesserocr以加快OCR速度，这将显著提升机器人性能。
- [ ] 更好地分析收集的数据，以优化策略。


代码修复
~~~~~~~~~~~~~~~~~~~~~~~~

- 修复代码并将更改提交回origin/master：

单靠一个人很难在扑克领域击败全世界。因此，这个仓库旨在建立一个协作环境，以便大家可以添加和评估模型。
要参与贡献，请按照以下步骤操作：

- 安装 PyCharm 并创建虚拟 Python 环境。可以使用命令：``pip install -r requirements.txt``（见上文）
- 将你的 Fork 复制到本地机器上。可以直接在 PyCharm 中操作：VCS --> 从版本控制中检出 --> git
- 添加原始仓库作为远程仓库，并命名为 upstream（你自己的 Fork 应该称为 origin）。可以通过 VCS --> Git --> Remotes 来完成。
- 创建新分支：点击右下角的 master，然后点击 'new branch'。
- 进行代码修改。
- 确保所有测试都通过。在 File --> Settings --> Python Integrated Tools 中切换到 pytest。然后右键点击 tests 文件夹即可运行所有测试。所有测试必须通过。记得添加你自己的测试，只需将函数命名为 test\_...。
- 确保所有测试都通过。最好按照上述方法运行 pytest（在 PyCharm 中右键点击 tests 文件夹并运行）。如果某个测试失败，可以通过右键点击该测试并设置断点来调试，甚至可以在断点处打开控制台：https://stackoverflow.com/questions/19329601/interactive-shell-debugging-with-pycharm。
- 提交你的更改（CTRL+K）。
- 将更改推送到你的 origin（即你的 Fork）（CTRL+SHIFT+K）。
- 如果 upstream 的 master 分支已经更新，要使你的分支与之保持同步：在 PyCharm 右下角点击你的分支名称，然后选择 upstream/master，再进行 rebase 操作。可能会遇到一些冲突需要解决。完成后务必使用强制推送（ctrl+shift+k），而不是普通的推送。可以通过选择推送旁边的下拉菜单并选择“强制推送”来实现（重要提示：不要直接推送并合并已 rebase 的分支到远程仓库）。
- 在 GitHub 上创建一个 Pull Request，将你的分支合并到 upstream 的 master 分支。
- 当 Pull Request 被批准后，它会被合并到 upstream/master 分支。
- 请确保所有测试都通过，包括 pylint 测试。你可以在本地运行这些测试，或者在推送时查看 GitHub 上的 Travis 日志。[目前很多测试都失败了，欢迎帮忙修复！]



常见问题解答
---

左上角缺失
~~~~~~~~~~~

- 请确保界面与本文档顶部的图片完全一致。
    * 按钮样式必须完全相同，且语言为英文、未被缩放。颜色也需保持默认。
    * 大多数牌桌都是针对真实资金游戏设计的，无法使用练习模式。
    * 扑克牌桌窗口必须完全可见且不可缩放，否则系统无法正确识别。
    * 在 Partypoker 中，打开牌桌后，选择“Table Options”，然后选择“Back to Default Size”，以确保牌桌处于默认大小。

- 牌桌映射适用于快速前进和缩放模式的真实资金游戏。Partypoker 使用 Supersonic3 桌，Pokerstars 使用 McNaught 桌。
- 如果仍然无法正常工作，请参考上述方法重新训练牌桌识别。

卡牌无法识别
~~~~~~~~~~~~~

- 请确保界面与本文档顶部的图片完全一致。
    * 务必使用真实资金游戏。练习模式下的牌桌布局不同。
    * 确保你坐在与示意图所示位置相同的座位上。
    * 目前机器人仅支持 6 人桌。

是否需要使用虚拟机？
~~~~~~~~~~~~~~~~~~~~~

- 对于 Pokerstars，强烈建议使用虚拟机，否则你的账号会在几分钟内被封禁并冻结。对于 Partypoker 我不太确定，但最好查看其服务条款。

分析日志与报告问题
~~~~~~~~~~~~~~~~~~~~

- 在安装扑克机器人程序的文件夹中，有一个名为 /log 的子文件夹，里面存放着日志文件。此外，/log/screenshots 文件夹中还有截图，可能有助于排查问题。
- 你可以在本 GitHub 页面顶部的链接处创建一个问题：https://github.com/dickreuter/Poker/issues，或发送邮件至 dickreuter@gmail.com。


相关项目
--------

通过让机器人自我对弈来训练自己是一个独立的项目，详情请见：
https://github.com/dickreuter/neuron_poker

Poker 机器人快速上手指南

Poker 是一款基于图像识别、蒙特卡洛模拟和遗传算法的开源扑克机器人，支持 PokerStars、Partypoker 和 GGPoker 等平台。它通过自动操作鼠标和识别屏幕内容来实现自动化游戏。

环境准备

系统要求

操作系统: Windows 10 x64 或更高版本（目前仅支持 Windows）。
内存: 至少 4 GB RAM。
硬盘空间: 至少 1.6 GB 可用空间。
处理器: 4 核心 4 线程或更高（主要用于 OCR 图像识别计算）。
显卡: 非必需（神经网络训练可选 GPU 加速）。
分辨率: 推荐 1920x1800 或更高。

前置依赖与工具

为了实现隔离运行并避免干扰主机操作，强烈建议使用虚拟机方案：

VirtualBox: 下载并安装最新版 (建议 7.0.12+)。
- 官网: https://www.virtualbox.org/
Windows ISO 镜像: 用于创建虚拟机（如 Windows 10）。
扑克客户端: 在虚拟机内安装目标扑克平台客户端（Partypoker, PokerStars 等）。
开发环境 (若需从源码运行):
- IDE: PyCharm Community Edition
- Python 发行版: Anaconda
- C++ 运行库: Visual C++ Redistributable
- Tesseract OCR 绑定: tesserocr

安装步骤

方式一：直接运行二进制文件（推荐新手）

访问官网下载预编译的二进制文件：
```
http://www.deepermind-pokerbot.com
```
解压后直接运行可执行文件。
在设置中选择对应的扑克平台刮取器（Table Scraper）。

方式二：Docker 部署

适用于熟悉容器化的开发者：

$ git clone https://github.com/dickreuter/Poker.git
$ cd Poker
$ docker compose up -d
$ xhost local:root # 允许本地 root 用户连接 X windows 显示
$ docker-compose exec app python3 main.py # 容器启动后运行此命令启动机器人

方式三：Python 源码运行

适合需要修改策略或贡献代码的开发者：

安装基础工具:
- 安装 PyCharm 和 Anaconda。
- 安装 Visual C++ Redistributable。
- 安装 VirtualBox 并将扑克客户端运行在虚拟机中。

安装 Python 依赖: 创建虚拟环境并安装依赖包。注意 tesserocr 可能需要单独安装 wheel 文件。

# 下载 tesserocr (示例为 Python 3.11 Windows 版本，请根据实际环境调整)
# 链接: https://github.com/simonflueckiger/tesserocr-windows_build/releases/download/tesserocr-v2.6.0-tesseract-5.3.1/tesserocr-2.6.0-cp311-cp311-win_amd64.whl

pip install tesserocr-2.6.0-cp311-cp311-win_amd64.whl
pip install -r requirements.txt

配置 IDE: 在 PyCharm 中将解释器设置为上述创建的虚拟环境，然后运行 main.py。

基本使用

1. 虚拟机配置（关键步骤）

为了不让机器人占用主机鼠标并提高稳定性，请按以下步骤配置：

在 VirtualBox 中创建新的 Windows 虚拟机，分配 1 个 CPU 核心（将主要算力留给主机运行机器人）。
不要在虚拟机中使用 DPI 缩放。
在虚拟机内安装扑克客户端，并登录账号。
在主机上运行 Poker 机器人。
在机器人的 Setup 界面中，选择你的 VirtualBox 实例 而不是“直接鼠标控制”。

2. 平台特定设置

不同平台需要特定的桌面布局才能被正确识别：

Partypoker:
- 必须使用 "Fast Forward Tables"。
- 在机器人设置中选择 "Official PartyPoker table scraper"。
PokerStars:
- 必须使用 "Zoom Tables"。
- 选择 "Official Poker Stars table scraper"。
- 重要: 必须调整客户端设置以匹配默认样式（4 色牌面、盖牌样式、桌子样式），否则无法识别。
GGPoker:
- 确保客户端界面布局与官方示例一致。

3. 运行与监控

启动机器人后，它将自动分析扑克客户端窗口，移动鼠标并根据预设策略进行游戏。
注意: 确保虚拟机中除了扑克桌窗口外，最小化所有其他窗口，且不要遮挡桌子视图。每次只应有一个桌子窗口可见。
可以通过内置的 Strategy Analyzer 查看各阶段（翻前、翻牌、转牌、河牌）的盈亏情况，并利用 Strategy Editor 调整胜率阈值和行为参数以优化策略。

安全提示: 在验证机器人功能完全正常之前，切勿使用真实资金账户进行测试，以免导致账户被封禁或资金损失。建议先在小额桌或测试环境中运行至少 2000-5000 手牌以评估策略有效性。

版本历史

DeepermindPokerbot-102024/01/28

DeepermindPokerbot-92024/01/18

DeepermindPokerbot-82024/01/16

DeepermindPokerbot-32024/01/14

DeepermindPokerbot-22024/01/14

常见问题

如何在 Linux 或 macOS 上运行扑克机器人？

机器人只点击"I'm back"按钮后不再执行其他操作怎么办？

遇到"IndexError: list index out of range"错误导致 AI 卡住如何解决？

PokerStars 界面更新导致按钮识别失败（如变红）如何处理？

机器人无法识别我的手牌（My cards not recognized）怎么办？

如何正确设置虚拟机（VM）分辨率和背景以配合机器人运行？

运行程序时出现"nsis error"错误如何解决？

如何在运行过程中停止或关闭机器人？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架