ThinkMatch

GitHub
877 122 中等 2 次阅读 3天前NOASSERTION开发框架
AI 解读 由 AI 自动生成,仅供参考

ThinkMatch 是一个专注于深度图匹配研究的开源工具集,旨在为开发者提供模块化框架和实现方案。它通过解决图匹配中的NP难问题——二次分配问题(QAP),帮助用户构建更高效的图结构比对模型。工具集包含多类先进算法实现,如GMN和PCA-GM等,支持在图像关键点匹配、分子结构比对等场景中应用。

针对图匹配领域中传统方法计算复杂度高、泛化能力弱的问题,ThinkMatch 提供了可扩展的模块化设计,方便研究人员快速验证新算法。其配套的文档和Docker容器化部署,降低了使用门槛,适合具备基础深度学习知识的开发者和研究人员使用。

工具亮点包括:支持多模态数据处理、提供完整的实验基准测试环境、包含主流算法实现及优化方案。通过标准化接口,用户可灵活组合不同模块,适配图像识别、生物信息学等跨领域需求。项目持续更新维护,社区活跃度高,适合追求技术深度与实用性的研究者和工程实践者。

使用场景

AR游戏开发团队需要实现跨视角角色动作捕捉。工程师试图通过图像关键点匹配技术,将玩家在不同摄像头角度下的骨骼动作映射到3D角色模型。

没有 ThinkMatch 时

  • 需要从零复现论文中的图匹配算法,花费2周时间调试GMN网络结构中的特征对齐模块
  • 使用传统QAP求解器处理100节点图时,单次匹配耗时3.2秒,导致游戏动作延迟明显
  • 在PyTorch1.8与CUDA11.4环境出现内存泄漏问题,需额外开发内存优化模块
  • 论文中的PCA-GM方法在自定义数据集上复现后,匹配准确率仅达到68.5%,低于原文82%的指标

使用 ThinkMatch 后

  • 直接调用预实现的GMN模块,30分钟完成特征提取、图构建和匹配头的集成
  • 借助内置的高效QAP求解器,相同规模图匹配耗时降至0.4秒,满足游戏实时性需求
  • 使用Docker镜像部署环境,规避底层依赖冲突,训练稳定性提升90%
  • 通过自动化的超参数搜索功能,在自定义数据集上达到81.2%的匹配准确率,接近论文水平
  • 利用内置可视化工具快速定位错误匹配,调试效率提升3倍

ThinkMatch通过工业级算法实现与优化工具链,将图像关键点匹配的落地成本降低70%,使研究级算法在消费级硬件上达到商用标准。

运行环境要求

操作系统
  • Linux
  • macOS
  • Windows
GPU

需要 NVIDIA GPU,显存 8GB+,CUDA 11.7+

内存

未说明

依赖
notes推荐使用 Docker 镜像快速部署,训练时需预留至少 5GB 显存,部分模型需下载额外数据集
python3.8+
torch>=2.0
pytorch-lightning
hydra-core
wandb
opencv-python
tqdm
scikit-learn
matplotlib
seaborn
jupyter
ThinkMatch hero image

快速开始

Think Match

版本发布 文档状态 docker Docker 下载量 discord 频道 QQ 群组 GitHub 星标

ThinkMatchThinkLab(上海交通大学)开发和维护。 本仓库主要实现以下目标:

  • 提供模块 开发深度图匹配算法以促进未来研究
  • 实现 最新的深度图匹配方法
  • 基准测试 不同数据集和实验设置下的现有深度图匹配算法,实现公平比较

官方文档:https://thinkmatch.readthedocs.io

源代码:https://github.com/Thinklab-SJTU/ThinkMatch

图匹配简介

图匹配(Graph Matching, GM)是计算机视觉、模式识别和数据挖掘领域中基础且具有挑战性的问题。图匹配旨在通过求解一个称为二次分配问题(Quadratic Assignment Problem, QAP)的NP难组合优化问题,来寻找多个图之间的节点对应关系。近年来,基于深度学习的图匹配方法研究逐渐兴起。

图匹配技术已应用于以下场景:

本仓库主要聚焦于图像关键点匹配,因为这是现有图匹配方法常用的测试基准。

更多技术细节请参考以下综述文献:

  • 詹俊驰, 尹旭晨, 林伟尧, 邓成, 查红渊, 杨小康. "图匹配研究进展综述." ICMR 2016.

深度图匹配算法

ThinkMatch 目前包含以下深度图匹配方法的 PyTorch 源代码:

  • GMN
    • Andrei Zanfir 和 Cristian Sminchisescu. "图匹配的深度学习." CVPR 2018. [论文]
  • PCA-GM & IPCA-GM
    • Runzhong Wang, Junchi Yan 和 Xiaokang Yang. "基于嵌入的鲁棒深度图匹配组合学习方法." TPAMI 2020. [论文], [项目页面]
    • Runzhong Wang, Junchi Yan 和 Xiaokang Yang. "深度图匹配的组合嵌入网络学习." ICCV 2019. [论文]
  • NGM & NGM-v2
    • Runzhong Wang, Junchi Yan, Xiaokang Yang. "神经图匹配网络:学习Lawler二次分配问题及其扩展到超图和多图匹配." TPAMI 2021. [论文], [项目页面]
  • CIE-H
    • Tianshu Yu, Runzhong Wang, Junchi Yan, Baoxin Li. "基于通道独立嵌入和匈牙利注意力的深度图匹配学习." ICLR 2020. [论文]
  • GANN
    • Runzhong Wang, Junchi Yan 和 Xiaokang Yang. "联合多图匹配与聚类的渐进分配方法及其在无监督图匹配网络学习中的应用." NeurIPS 2020. [论文]
    • Runzhong Wang, Junchi Yan 和 Xiaokang Yang. "通过差异最小化学习混合模式的无监督图匹配." TPAMI 2023. [论文], [项目页面]
  • BBGM
    • Michal Rolínek, Paul Swoboda, Dominik Zietlow, Anselm Paulus, Vít Musil, Georg Martius. "通过组合求解器的黑盒微分实现深度图匹配." ECCV 2020. [论文]
  • GCAN
    • Zheheng Jiang, Hossein Rahmani, Plamen Angelov, Sue Black, Bryan M. Williams. "用于尺寸可变深度图匹配的图上下文注意力网络." CVPR 2022. [论文]
  • AFAT
    • Runzhong Wang, Ziao Guo, Shaofei Jiang, Xiaokang Yang, Junchi Yan. "通过可微Top-K实现的深度部分图匹配学习." CVPR 2023. [论文]
  • LinSAT
    • Runzhong Wang, Yunhao Zhang, Ziao Guo, Tianyi Chen, Xiaokang Yang, Junchi Yan. "LinSATNet:正线性可满足性神经网络." ICML 2023. [论文]
  • COMMON & COMMON+
    • Yijie Lin, Mouxing Yang, Jun Yu, Peng Hu, Changqing Zhang, Xi Peng. "双层噪声对应下的图匹配." ICCV 2023. [论文], [项目页面]
    • Yijie Lin, Mouxing Yang, Peng Hu, Jiancheng Lv, Hao Chen, Xi Peng. "图匹配中部分和噪声对应的联合学习". TPAMI, 2026. [论文]

使用 ThinkMatch 的场景

ThinkMatch 被设计为深度图匹配的研究协议。当您有以下需求时推荐使用:

  • 开发新算法并发表新的图匹配论文;
  • 理解深度图匹配模型的细节;
  • 调试超参数和网络结构;
  • 对深度图匹配网络进行基准测试。

不推荐使用 ThinkMatch 的场景

您可能会发现 ThinkMatch 的环境配置较复杂,且图匹配细节难以理解。 pygmtools 提供了用户友好的 API,推荐在以下场景使用:

  • 如果您希望将图匹配作为流程步骤集成(无论是学习型或非学习型, 支持 numpy/pytorch/jittor/paddle/mindspore/tensorflow)。
  • 如果您需要快速对 pygmtools 中的图匹配求解器进行基准测试和性能分析。
  • 如果您不想深入研究算法细节且无需修改算法。

您可以通过以下命令安装用户友好包:

$ pip install pygmtools

官方文档:https://pygmtools.readthedocs.io

源代码:https://github.com/Thinklab-SJTU/pygmtools

深度图匹配基准测试

PascalVOC - 2GM

模型(model) 年份(year) 飞机(aero) 自行车(bike) 鸟类(bird) 船舶(boat) 饮料瓶(bottle) 公交车(bus) 汽车(car) 猫(cat) 椅子(chair) 奶牛(cow) 餐桌(table) 狗(dog) 马(horse) 摩托车(mbkie) 人物(person) 植物(plant) 羊(sheep) 沙发(sofa) 电视(tv) 平均值(mean)
GMN 2018 0.4163 0.5964 0.6027 0.4795 0.7918 0.7020 0.6735 0.6488 0.3924 0.6128 0.6693 0.5976 0.6106 0.5975 0.3721 0.7818 0.6800 0.4993 0.8421 0.9141
PCA-GM 2019 0.4979 0.6193 0.6531 0.5715 0.7882 0.7556 0.6466 0.6969 0.4164 0.6339 0.5073 0.6705 0.6671 0.6164 0.4447 0.8116 0.6782 0.5922 0.7845 0.9042
NGM 2019 0.5010 0.6350 0.5790 0.5340 0.7980 0.7710 0.7360 0.6820 0.4110 0.6640 0.4080 0.6030 0.6190 0.6350 0.4560 0.7710 0.6930 0.6550 0.7920 0.8820
NHGM 2019 0.5240 0.6220 0.5830 0.5570 0.7870 0.7770 0.7440 0.7070 0.4200 0.6460 0.5380 0.6100 0.6190 0.6080 0.4680 0.7910 0.6680 0.5510 0.8090 0.8870
IPCA-GM 2020 0.5378 0.6622 0.6714 0.6120 0.8039 0.7527 0.7255 0.7252 0.4455 0.6524 0.5430 0.6724 0.6790 0.6421 0.4793 0.8435 0.7079 0.6398 0.8380 0.9083
CIE-H 2020 0.5250 0.6858 0.7015 0.5706 0.8207 0.7700 0.7073 0.7313 0.4383 0.6994 0.6237 0.7018 0.7031 0.6641 0.4763 0.8525 0.7172 0.6400 0.8385 0.9168
BBGM 2020 0.6187 0.7106 0.7969 0.7896 0.8740 0.9401 0.8947 0.8022 0.5676 0.7914 0.6458 0.7892 0.7615 0.7512 0.6519 0.9818 0.7729 0.7701 0.9494 0.9393
NGM-v2 2021 0.6184 0.7118 0.7762 0.7875 0.8733 0.9363 0.8770 0.7977 0.5535 0.7781 0.8952 0.7880 0.8011 0.7923 0.6258 0.9771 0.7769 0.7574 0.9665 0.9323
NHGM-v2 2021 0.5995 0.7154 0.7724 0.7902 0.8773 0.9457 0.8903 0.8181 0.5995 0.8129 0.8695 0.7811 0.7645 0.7750 0.6440 0.9872 0.7778 0.7538 0.9787 0.9280
COMMON 2023 0.6560 0.7520 0.8080 0.7950 0.8930 0.9230 0.9010 0.8180 0.6160 0.8070 0.9500 0.8200 0.8160 0.7950 0.6660 0.9890 0.7890 0.8090 0.9930 0.9380
COMMON+ 2026 0.6880 0.7550 0.8260 0.7740 0.9000 0.9220 0.8950 0.8070 0.6180 0.8240 0.9530 0.8050 0.8210 0.8160 0.6770 0.9880 0.7990 0.8100 0.9850 0.9540

Willow 物体类别 - 2GM & 多图匹配(MGM)

模型(model) 年份(year) 备注(remark) 汽车(Car) 鸭子(Duck) 人脸(Face) 摩托车(Motorbike) 酒瓶(Winebottle) 平均值(mean)
GMN 2018 - 0.6790 0.7670 0.9980 0.6920 0.8310 0.7934
PCA-GM 2019 - 0.8760 0.8360 1.0000 0.7760 0.8840 0.8744
NGM 2019 - 0.8420 0.7760 0.9940 0.7680 0.8830 0.8530
NHGM 2019 - 0.8650 0.7220 0.9990 0.7930 0.8940 0.8550
NMGM 2019 - 0.7850 0.9210 1.0000 0.7870 0.9480 0.8880
IPCA-GM 2020 - 0.9040 0.8860 1.0000 0.8300 0.8830 0.9006
CIE-H 2020 - 0.8581 0.8206 0.9994 0.8836 0.8871 0.8898
BBGM 2020 - 0.9680 0.8990 1.0000 0.9980 0.9940 0.9718
GANN-MGM 2020 自监督(self-supervised) 0.9600 0.9642 1.0000 1.0000 0.9879 0.9906
NGM-v2 2021 - 0.9740 0.9340 1.0000 0.9860 0.9830 0.9754
NHGM-v2 2021 - 0.9740 0.9390 1.0000 0.9860 0.9890 0.9780
NMGM-v2 2021 - 0.9760 0.9447 1.0000 1.0000 0.9902 0.9822
COMMON 2023 - 0.9760 0.9820 1.0000 1.0000 0.9960 0.9910
COMMON+ 2026 - 0.9830 0.9820 1.0000 1.0000 1.0000 0.9930

SPair-71k - 2GM

模型 年份 飞机 自行车 鸟类 船舶 瓶子 巴士 汽车 椅子 奶牛 马匹 山地车 人物 植物 绵羊 火车 电视 平均值
GMN 2018 0.5991 0.5099 0.7428 0.4672 0.6328 0.7552 0.6950 0.6462 0.5751 0.7302 0.5866 0.5914 0.6320 0.5116 0.8687 0.5787 0.6998 0.9238 0.6526
PCA-GM 2019 0.6467 0.4571 0.7811 0.5128 0.6381 0.7272 0.6122 0.6278 0.6255 0.6822 0.5906 0.6115 0.6486 0.5773 0.8742 0.6042 0.7246 0.9283 0.6595
NGM 2019 0.6644 0.5262 0.7696 0.4960 0.6766 0.7878 0.6764 0.6827 0.5917 0.7364 0.6391 0.6066 0.7074 0.6089 0.8754 0.6387 0.7979 0.9150 0.6887
IPCA-GM 2020 0.6901 0.5286 0.8037 0.5425 0.6653 0.8001 0.6847 0.7136 0.6136 0.7479 0.6631 0.6514 0.6956 0.6391 0.9112 0.6540 0.8291 0.9750 0.7116
CIE-H 2020 0.7146 0.5710 0.8168 0.5672 0.6794 0.8246 0.7339 0.7449 0.6259 0.7804 0.6872 0.6626 0.7374 0.6604 0.9246 0.6717 0.8228 0.9751 0.7334
BBGM 2020 0.7250 0.6455 0.8780 0.7581 0.6927 0.9395 0.8859 0.7992 0.7456 0.8315 0.7878 0.7710 0.7650 0.7634 0.9820 0.8554 0.9678 0.9931 0.8215
NGM-v2 2021 0.6877 0.6331 0.8677 0.7013 0.6971 0.9467 0.8740 0.7737 0.7205 0.8067 0.7426 0.7253 0.7946 0.7340 0.9888 0.8123 0.9426 0.9867 0.8020
NHGM-v2 2021 0.6202 0.5781 0.8642 0.6846 0.6872 0.9335 0.8081 0.7656 0.6919 0.7987 0.6623 0.7171 0.7812 0.6953 0.9824 0.8444 0.9316 0.9926 0.7799
COMMON 2023 0.7730 0.6820 0.9200 0.7950 0.7040 0.9750 0.9160 0.8250 0.7220 0.8800 0.8000 0.7410 0.8340 0.8280 0.9990 0.8440 0.9820 0.9980 0.8450
COMMON+ 2026 0.7980 0.7230 0.9170 0.7870 0.7080 0.9800 0.9180 0.8190 0.7280 0.8820 0.8330 0.7640 0.8340 0.8390 0.9990 0.8610 0.9920 0.9990 0.8550

ThinkMatch 包含以下基准数据集:

  • PascalVOC-Keypoint
  • Willow-Object-Class
  • CUB2011
  • SPair-71k
  • IMC-PT-SparseGM

待办事项 我们计划未来包含以下数据集:

  • 合成数据

ThinkMatch 支持以下图匹配设置:

  • 2GM(双图匹配),每次仅匹配两个图
  • MGM(多图匹配),可联合匹配多个图
  • MGM3(混合模式多图匹配),在联合匹配多个图的同时支持不同类别的图混合匹配

快速开始

Docker(推荐)

获取推荐镜像:

docker pull runzhongwang/thinkmatch:torch1.6.0-cuda10.1-cudnn7-pygmtools0.5.1

其他PyTorch/CUDA组合版本也已提供。查看可用镜像:docker hub

详细说明见 ThinkMatch-runtime

手动配置(Ubuntu)

本项目基于Ubuntu 16.04、Python 3.7、Pytorch 1.6、cuda10.1、cudnn7和torch-geometric 1.6.3开发测试

  1. 安装配置支持GPU的Pytorch 1.6

  2. 安装ninja构建工具:apt-get install ninja-build

  3. 安装Python依赖包:

    pip install tensorboardX scipy easydict pyyaml xlrd xlwt pynvml pygmtools
    
  4. 安装LPMP构建工具:

    apt-get install -y findutils libhdf5-serial-dev git wget libssl-dev
    
    wget https://github.com/Kitware/CMake/releases/download/v3.19.1/cmake-3.19.1.tar.gz && tar zxvf cmake-3.19.1.tar.gz
    cd cmake-3.19.1 && ./bootstrap && make && make install
    
  5. 安装构建LPMP:

    python -m pip install git+https://git@github.com/rogerwwww/lpmp.git
    

    需要安装gcc-9支持构建。示例安装配置:

    apt-get update
    apt-get install -y software-properties-common
    add-apt-repository ppa:ubuntu-toolchain-r/test
    
    apt-get install -y gcc-9 g++-9
    update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-9 60 --slave /usr/bin/g++ g++ /usr/bin/g++-9
    
  6. 安装torch-geometric:

    export CUDA=cu101
    export TORCH=1.6.0
    /opt/conda/bin/pip install torch-scatter==2.0.5 -f https://pytorch-geometric.com/whl/torch-${TORCH}+${CUDA}.html
    /opt/conda/bin/pip install torch-sparse==0.6.8 -f https://pytorch-geometric.com/whl/torch-${TORCH}+${CUDA}.html
    /opt/conda/bin/pip install torch-cluster==1.5.8 -f https://pytorch-geometric.com/whl/torch-${TORCH}+${CUDA}.html
    /opt/conda/bin/pip install torch-spline-conv==1.2.0 -f https://pytorch-geometric.com/whl/torch-${TORCH}+${CUDA}.html
    /opt/conda/bin/pip install torch-geometric==1.6.3
    
  7. 完成LPMP构建后,建议切换回gcc-7(项目基于gcc-7):

    update-alternatives --remove gcc /usr/bin/gcc-9
    update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-7 60 --slave /usr/bin/g++ g++ /usr/bin/g++-7
    

可用数据集

注意:以下所有数据集均可通过pygmtools自动下载解压,若下载失败也可手动下载。

  1. PascalVOC-关键点(Keypoint)

    1. 下载 VOC2011数据集 并确保路径为 data/PascalVOC/TrainVal/VOCdevkit/VOC2011

    2. Berkeley服务器google drive 下载关键点标注文件,并确保路径为 data/PascalVOC/annotations

    3. 训练/测试划分文件位于 data/PascalVOC/voc2011_pairs.npz此文件需手动添加

    如使用PascalVOC-关键点数据集,请引用以下论文:

    @article{EveringhamIJCV10,
      title={The pascal visual object classes (voc) challenge},
      author={Everingham, Mark and Van Gool, Luc and Williams, Christopher KI and Winn, John and Zisserman, Andrew},
      journal={International Journal of Computer Vision},
      volume={88},
      pages={303–338},
      year={2010}
    }
    
    @inproceedings{BourdevICCV09,
      title={Poselets: Body part detectors trained using 3d human pose annotations},
      author={Bourdev, L. and Malik, J.},
      booktitle={International Conference on Computer Vision},
      pages={1365--1372},
      year={2009},
      organization={IEEE}
    }
    
  2. Willow-Object-Class

    1. 官网hugging face 下载Willow-ObjectClass数据集

    2. 解压后确保路径为 data/WillowObject/WILLOW-ObjectClass

    如使用Willow-Object-Class数据集,请引用以下论文:

    @inproceedings{ChoICCV13,
      author={Cho, Minsu and Alahari, Karteek and Ponce, Jean},
      title = {Learning Graphs to Match},
      booktitle = {International Conference on Computer Vision},
      pages={25--32},
      year={2013}
    }
    
  3. CUB2011

    1. 下载 CUB-200-2011数据集

    2. 解压后确保路径为 data/CUB_200_2011/CUB_200_2011

    如使用CUB2011数据集,请引用以下报告:

    @techreport{CUB2011,
      Title = {{The Caltech-UCSD Birds-200-2011 Dataset}},
      Author = {Wah, C. and Branson, S. and Welinder, P. and Perona, P. and Belongie, S.},
      Year = {2011},
      Institution = {California Institute of Technology},
      Number = {CNS-TR-2011-001}
    }
    
  4. IMC-PT-SparseGM

    1. google drive百度网盘 (提取码: g2cj)hugging face 下载IMC-PT-SparseGM数据集

    2. 解压后确保50个锚点(anchor points)路径为 data/IMC-PT-SparseGM/annotations,100个锚点路径为 data/IMC-PT-SparseGM/annotations_100

    如使用IMC-PT-SparseGM数据集,请引用以下论文:

    @article{JinIJCV21,
      title={Image Matching across Wide Baselines: From Paper to Practice},
      author={Jin, Yuhe and Mishkin, Dmytro and Mishchuk, Anastasiia and Matas, Jiri and Fua, Pascal and Yi, Kwang Moo and Trulls, Eduard},
      journal={International Journal of Computer Vision},
      pages={517--547},
      year={2021}
    }
    
    
    @InProceedings{WangCVPR23,
        author    = {Wang, Runzhong and Guo, Ziao and Jiang, Shaofei and Yang, Xiaokang and Yan, Junchi},
        title     = {Deep Learning of Partial Graph Matching via Differentiable Top-K},
        booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
        month     = {June},
        year      = {2023}
    }
    
  5. SPair-71k

    1. 下载 SPair-71k数据集

    2. 解压后确保路径为 data/SPair-71k

    如使用SPair-71k数据集,请引用以下论文:

    @article{min2019spair,
       title={SPair-71k: A Large-scale Benchmark for Semantic Correspondence},
       author={Juhong Min and Jongmin Lee and Jean Ponce and Minsu Cho},
       journal={arXiv prepreint arXiv:1908.10543},
       year={2019}
    }
    
    @InProceedings{min2019hyperpixel, 
       title={Hyperpixel Flow: Semantic Correspondence with Multi-layer Neural Features},
       author={Juhong Min and Jongmin Lee and Jean Ponce and Minsu Cho},
       booktitle={ICCV},
       year={2019}
    }
    

更多详情请访问 pygmtools

运行实验

执行训练和评估:

python train_eval.py --cfg path/to/your/yaml

path/to/your/yaml 替换为配置文件路径,例如:

python train_eval.py --cfg experiments/vgg16_pca_voc.yaml

默认配置文件存储在 experiments/ 目录,欢迎尝试自定义配置。如发现更优配置,请提交Issue或PR告知,我们将更新基准!

预训练模型

ThinkMatch 提供预训练模型。权重文件可通过 google drive 获取。

使用预训练模型时,请先下载权重文件,然后在yaml配置文件中添加:

PRETRAINED_PATH: path/to/your/pretrained/weights

社区交流

如有问题或遇到异常,请在GitHub提交Issue。

我们还提供以下交流渠道:

  • Discord (英文用户):

    discord

  • QQ群(中文用户):696401889

    ThinkMatch/pygmtools交流群

引用 ThinkMatch

如果您在研究中使用了任何模型,请引用相应的论文(每个模型的 BibTeX 引用(参考文献引用)可在 models/ 目录中找到)。

如果您喜欢该框架,也可以引用其底层库 pygmtools(在训练和测试期间调用的库):

@article{wang2024pygm,
  author  = {Runzhong Wang and Ziao Guo and Wenzheng Pan and Jiale Ma and Yikai Zhang and Nan Yang and Qi Liu and Longxuan Wei and Hanxue Zhang and Chang Liu and Zetian Jiang and Xiaokang Yang and Junchi Yan},
  title   = {Pygmtools: A Python Graph Matching Toolkit},
  journal = {Journal of Machine Learning Research},
  year    = {2024},
  volume  = {25},
  number  = {33},
  pages   = {1-7},
  url     = {https://jmlr.org/papers/v25/23-0572.html},
}

版本历史

0.3.02022/11/21
0.2.02022/02/16
0.1.02021/11/02

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

139k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|今天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|昨天
Agent图像开发框架