umap

8.1k 861 简单 3 次阅读今天BSD-3-Clause开发框架数据工具

AI 解读由 AI 自动生成，仅供参考

UMAP 是一种用于降维和数据可视化的强大工具，特别适合处理高维数据集。它的全称是“Uniform Manifold Approximation and Projection”，通过假设数据分布在流形上，并利用模糊拓扑结构来找到低维投影，从而保留数据的全局结构和局部关系。与 t-SNE 类似，但 UMAP 在速度、可扩展性和灵活性方面表现更优，同时还能用于更广泛的非线性降维任务。

UMAP 解决了传统降维方法在处理复杂高维数据时可能丢失重要信息的问题，尤其是在需要同时保留数据的局部和全局特征时。它非常适合数据科学家、机器学习开发者以及科研人员使用，无论是探索性数据分析还是作为更大规模机器学习流程的一部分，都能轻松集成。对于希望快速获得高质量可视化结果的研究人员来说，UMAP 是一个理想选择。

技术亮点方面，UMAP 基于流形学习理论，结合了高效的数值优化算法，性能优越且支持大规模数据集。此外，UMAP 还新增了对 densMAP 的支持，可以在降维过程中保留数据的局部密度信息，为生物学等领域的研究提供了更强有力的支持。如果你熟悉 scikit-learn，那么 UMAP 可以无缝融入你的工作流，几乎无需额外学习成本。

使用场景

一位生物信息学研究员正在分析单细胞 RNA 测序数据，试图从数万个细胞中发现不同的细胞类型和状态。

没有 umap 时

数据维度高达数千维，直接可视化几乎无法揭示任何有意义的模式
使用 t-SNE 进行降维耗时过长，且难以处理超过 10 万细胞的大规模数据集
t-SNE 的结果对参数敏感，不同运行可能产生不一致的聚类效果
降维过程中丢失了局部密度信息，难以区分稀疏分布和密集分布的细胞群
难以在降维后解释数据的全局结构，限制了对细胞类型间关系的理解

使用 umap 后

在几分钟内完成高维数据的降维，并生成清晰的二维或三维可视化图
能够轻松处理数十万细胞的大规模数据集，性能显著优于 t-SNE
结果更加稳定，对参数变化的敏感性较低，提升了分析的可靠性
借助 densMAP 扩展功能，保留了局部密度信息，能够更准确地反映细胞群的分布特征
不仅保留了局部结构，还更好地呈现了数据的全局关系，帮助研究员理解细胞类型间的层次关系

umap 的高效性和准确性让研究员能够快速洞察复杂数据中的生物学意义，显著提升了数据分析效率和科学发现的速度。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

未说明

内存

未说明

依赖

notes推荐使用 conda 安装依赖，支持通过 pip 安装扩展功能如绘图和 Parametric UMAP。可选安装 tbb 以获得额外 CPU 优化。

python3.6+

numpy

scipy

scikit-learn

numba

tqdm

pynndescent

快速开始

.. -- mode: rst --

.. image:: doc/logo_large.png :width: 600 :alt: UMAP 标志 :align: center

|pypi_version|_ |pypi_downloads|_

|conda_version|_ |conda_downloads|_

|License|_ |build_status|_ |Coverage|_

|Docs|_ |joss_paper|_

.. |pypi_version| image:: https://img.shields.io/pypi/v/umap-learn.svg .. _pypi_version: https://pypi.python.org/pypi/umap-learn/

.. |pypi_downloads| image:: https://pepy.tech/badge/umap-learn/month .. _pypi_downloads: https://pepy.tech/project/umap-learn

.. |conda_version| image:: https://anaconda.org/conda-forge/umap-learn/badges/version.svg .. _conda_version: https://anaconda.org/conda-forge/umap-learn

.. |conda_downloads| image:: https://anaconda.org/conda-forge/umap-learn/badges/downloads.svg .. _conda_downloads: https://anaconda.org/conda-forge/umap-learn

.. |License| image:: https://img.shields.io/pypi/l/umap-learn.svg .. _License: https://github.com/lmcinnes/umap/blob/master/LICENSE.txt

.. |build_status| image:: https://dev.azure.com/TutteInstitute/build-pipelines/_apis/build/status/lmcinnes.umap?branchName=master .. _build_status: https://dev.azure.com/TutteInstitute/build-pipelines/_build/latest?definitionId=2&branchName=master

.. |Coverage| image:: https://coveralls.io/repos/github/lmcinnes/umap/badge.svg .. _Coverage: https://coveralls.io/github/lmcinnes/umap

.. |Docs| image:: https://readthedocs.org/projects/umap-learn/badge/?version=latest .. _Docs: https://umap-learn.readthedocs.io/en/latest/?badge=latest

.. |joss_paper| image:: http://joss.theoj.org/papers/10.21105/joss.00861/status.svg .. _joss_paper: https://doi.org/10.21105/joss.00861

==== UMAP

Uniform Manifold Approximation and Projection（UMAP，均匀流形近似与投影）是一种降维技术，可以像 t-SNE 一样用于可视化，同时也可以用于一般的非线性降维。该算法基于以下三个关于数据的假设：

数据在黎曼流形上是均匀分布的；
黎曼度量是局部恒定的（或者可以近似为如此）；
流形是局部连通的。

基于这些假设，可以用模糊拓扑结构对流形进行建模。嵌入通过寻找数据的低维投影来实现，该投影具有尽可能接近等价的模糊拓扑结构。

底层数学的详细信息可以在我们的 ArXiv 论文 <https://arxiv.org/abs/1802.03426>_ 中找到：

McInnes, L, Healy, J, UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction, ArXiv e-prints 1802.03426, 2018

一篇面向科学界更广泛的 UMAP 介绍可以在我们发表于 Nature Review Methods Primers 的论文 <https://doi.org/10.1038/s43586-024-00363-x>_ 中找到：

Healy, J., McInnes, L. Uniform manifold approximation and projection. Nat Rev Methods Primers 4, 82 (2024).

这篇论文的只读版本可以通过 链接 <https://rdcu.be/d0YZT>_ 访问。

重要的是，你不需要担心这些——你可以像使用 scikit-learn 的 t-SNE 一样轻松地将 UMAP 用作降维和可视化的替代工具。

文档可通过 Read the Docs 查看 <https://umap-learn.readthedocs.io/>_。

新功能：此包现在还支持 densMAP。 densMAP 算法扩展了 UMAP，除了保留数据的拓扑结构外，还可以保留局部密度信息。此方法的详细信息描述在以下 论文 <https://doi.org/10.1038/s41587-020-00801-7>_ 中：

Narayan, A, Berger, B, Cho, H, Assessing Single-Cell Transcriptomic Variability through Density-Preserving Data Visualization, Nature Biotechnology, 2021

安装

UMAP 依赖于 scikit-learn，因此也依赖于 scikit-learn 的依赖项（如 numpy 和 scipy）。为了性能原因，UMAP 还增加了对 numba 的要求。原始版本使用了 Cython，但 Numba 提供了更好的代码清晰度、简洁性和性能，因此进行了必要的转换。

需求：

Python 3.6 或更高版本
numpy
scipy
scikit-learn
numba
tqdm
pynndescent <https://github.com/lmcinnes/pynndescent>_

推荐的包：

用于绘图
- matplotlib
- datashader
- holoviews
用于参数化 UMAP
- tensorflow > 2.0.0

安装选项

通过 conda-forge 团队的出色工作，使用 Conda 安装：

.. code:: bash

conda install -c conda-forge umap-learn

conda-forge 包适用于 Linux、OS X 和 Windows 64 位。

PyPI 安装，假设你已经安装了 numba 和 sklearn 及其所有依赖项（numpy 和 scipy）：

.. code:: bash

pip install umap-learn

如果你想使用绘图功能，可以使用

.. code:: bash

pip install umap-learn[plot]

来安装所有绘图依赖项。

如果你想使用 Parametric UMAP，则需要安装 Tensorflow，可以通过 https://www.tensorflow.org/install 的说明进行安装（推荐），或者使用

.. code:: bash

pip install umap-learn[parametric_umap]

安装仅支持 CPU 的 Tensorflow 版本。

如果你使用的是 x86 处理器，还可以选择安装 tbb，它将提供额外的 CPU 优化：

.. code:: bash

pip install umap-learn[tbb]

如果 pip 在拉取依赖项时遇到困难，我们建议先使用 anaconda 手动安装依赖项，然后再通过 pip 拉取 umap：

.. code:: bash

conda install numpy scipy
conda install scikit-learn
conda install numba
pip install umap-learn

对于手动安装，请获取此包：

.. code:: bash

wget https://github.com/lmcinnes/umap/archive/master.zip
unzip master.zip
rm master.zip
cd umap-master

可选地，通过 Conda 安装依赖项：

.. code:: bash

conda install scikit-learn numba

然后安装包：

.. code:: bash

python -m pip install -e .

如何使用 UMAP

umap 包继承自 sklearn 类，因此可以无缝地与其他 sklearn 转换器一起使用，并且具有相同的调用 API。

.. code:: python

import umap
from sklearn.datasets import load_digits

digits = load_digits()

embedding = umap.UMAP().fit_transform(digits.data)

UMAP 类有许多可以设置的参数；主要参数如下：

n_neighbors：这决定了用于局部流形结构近似的邻近点的数量。较大的值将导致更多全局结构被保留，但会损失详细的局部结构。通常，该参数的范围应在 5 到 50 之间，默认值选择 10 到 15 是合理的。
min_dist: 这个参数控制嵌入（embedding）过程中允许将点压缩到一起的紧密程度。较大的值确保嵌入点分布更加均匀，而较小的值允许算法更准确地优化局部结构。合理的取值范围为 0.001 到 0.5，0.1 是一个合理的默认值。
metric: 这个参数决定了用于测量输入空间中距离的度量方法。目前已经有多种度量方法被实现，并且只要用户定义的函数经过 numba 的 JIT 编译，也可以传入自定义函数。

以下是如何使用这些选项的一个示例：

.. code:: python

import umap
from sklearn.datasets import load_digits

digits = load_digits()

embedding = umap.UMAP(n_neighbors=5,
                      min_dist=0.3,
                      metric='correlation').fit_transform(digits.data)

UMAP 还支持对稀疏矩阵数据进行拟合。更多详细信息，请参阅 UMAP 文档 <https://umap-learn.readthedocs.io/>_

UMAP 的优势

当前版本的 UMAP 拥有几项显著的优势。

首先，UMAP 速度很快。它可以轻松处理大型数据集和高维数据，其扩展性超越了大多数 t-SNE 包的能力。这包括非常高维的稀疏数据集。UMAP 已成功直接应用于超过一百万维的数据。

其次，UMAP 在嵌入维度上表现良好——它不仅仅适用于可视化！您可以将 UMAP 作为一种通用的降维技术，作为其他机器学习任务的初步步骤。稍加注意，它可以很好地与 hdbscan <https://github.com/scikit-learn-contrib/hdbscan>_ 聚类库配合使用（更多详情请参见 使用 UMAP 进行聚类 <https://umap-learn.readthedocs.io/en/latest/clustering.html>_）。

第三，UMAP 在保留数据某些全局结构方面通常比大多数 t-SNE 实现表现得更好。这意味着它可以提供更好的“全局视角”，同时保留局部邻近关系。

第四，UMAP 支持多种距离函数，包括非度量距离函数，例如 余弦距离 和 相关距离。您终于可以使用余弦距离正确地嵌入词向量了！

第五，UMAP 支持通过标准的 sklearn transform 方法将新点添加到现有嵌入中。这意味着 UMAP 可以用作 sklearn 管道中的预处理转换器。

第六，UMAP 支持监督和半监督降维。这意味着如果您有希望用作额外降维信息的标签信息（即使是部分标签），也可以通过简单地将其作为 y 参数传递给 fit 方法来实现。

第七，UMAP 支持多种附加实验功能，包括：一种“逆变换”功能，可以近似生成映射到嵌入空间中特定位置的高维样本；能够嵌入到非欧几里得空间，包括双曲嵌入和带有不确定性的嵌入；还存在非常初步的支持嵌入数据框的功能。

最后，UMAP 在流形学习方面具有坚实的理论基础（参见 我们的 ArXiv 论文 <https://arxiv.org/abs/1802.03426>_）。这不仅证明了该方法的合理性，还为进一步扩展提供了可能，这些扩展将很快被添加到库中。

性能与示例

UMAP 在嵌入大型高维数据集时非常高效。特别是它在输入维度和嵌入维度上的扩展性都很好。为了获得最佳性能，我们建议安装最近邻计算库 pynndescent <https://github.com/lmcinnes/pynndescent>_。即使不安装，UMAP 也能正常工作，但如果安装了，运行速度会更快，尤其是在多核机器上。

对于像 MNIST 手写数字数据集这样的问题（784 维，70000 个样本），UMAP 可以在一分钟内完成嵌入（相比之下，scikit-learn 的 t-SNE 实现需要大约 45 分钟）。尽管运行效率很高，UMAP 仍然能生成高质量的嵌入。

经典的 MNIST 手写数字数据集，在安装了 pynndescent 并经过 numba jit 预热后，使用 3.1 GHz Intel Core i7 处理器仅需 42 秒即可完成嵌入（n_neighbors=10, min_dist=0.001）：

.. image:: images/umap_example_mnist1.png :alt: UMAP 嵌入 MNIST 手写数字数据集

然而，MNIST 数据集相对简单。更好的测试是较新的“Fashion MNIST”数据集，其中包含 70000 张时尚物品图像（同样为 784 维）。UMAP 在 49 秒内生成了此嵌入（n_neighbors=5, min_dist=0.1）：

.. image:: images/umap_example_fashion_mnist1.png :alt: UMAP 嵌入 Fashion MNIST 数据集

UCI Shuttle 数据集（43500 个样本，8 维）在 相关距离 下嵌入效果良好，耗时 44 秒（请注意，相关距离计算需要更长的时间）：

.. image:: images/umap_example_shuttle.png :alt: UMAP 嵌入 UCI Shuttle 数据集

以下是基于上述相同参数（n_neighbors=10, min_dist=0.001）的 MNIST 数据集的 densMAP 可视化结果。densMAP 揭示了对应数字 1 的簇明显更密集，表明数字 1 的图像相比其他数字自由度更少。

.. image:: images/densmap_example_mnist.png :alt: densMAP 嵌入 MNIST 数据集

绘图

UMAP 包含一个子包 umap.plot，用于绘制 UMAP 嵌入的结果。这个包需要单独导入，因为它有一些额外的依赖（matplotlib、datashader 和 holoviews）。它能够快速简单地绘制图形，并尝试做出明智的决策以避免过度绘制和其他问题。以下是一个使用示例：

.. code:: python

import umap
import umap.plot
from sklearn.datasets import load_digits

digits = load_digits()

mapper = umap.UMAP().fit(digits.data)
umap.plot.points(mapper, labels=digits.target)

绘图包提供了基本图表以及带有悬停工具和各种诊断绘图选项的交互式图表。更多详细信息请参阅文档。

参数化 UMAP

Parametric UMAP 提供了训练神经网络以学习基于 UMAP 的数据转换的支持。这可以用于支持对新未见数据的更快推断、更稳健的逆变换、UMAP 的自编码器版本以及半监督分类（特别是对于通过 UMAP 能够很好分离且标记数据非常有限的情况）。更多内容请参阅 Parametric UMAP 文档 <https://umap-learn.readthedocs.io/en/0.5dev/parametric_umap.html>_ 或 示例笔记本 <https://github.com/lmcinnes/umap/tree/master/notebooks/Parametric_UMAP>_。

densMAP

densMAP 算法增强了 UMAP，除了捕捉 UMAP 所捕获的拓扑结构外，还额外保留了局部密度信息。可以通过设置 densmap 输入标志轻松使用 umap 包运行 densMAP：

.. code:: python

embedding = umap.UMAP(densmap=True).fit_transform(data)

此功能基于 densMAP 开发者提供的 densMAP 实现 <https://github.com/hhcho/densvis>_ 构建，这些开发者也为将 densMAP 集成到 umap 包中做出了贡献。

densMAP 继承了 UMAP 的所有参数。以下是可为 densMAP 设置的附加参数列表：

dens_frac：确定在优化目标中包含密度保留项的 epoch 比例（值介于 0 和 1 之间）。默认值为 0.3。请注意，densMAP 在初始使用 UMAP 优化嵌入后才会开启密度优化。
dens_lambda：确定密度保留目标的权重。较高的值优先考虑密度保留，较低的值（接近零）优先考虑 UMAP 目标。将此参数设置为零会将算法简化为 UMAP。默认值为 2.0。
dens_var_shift：为了数值稳定性，添加到嵌入中局部密度方差的正则化项。我们建议将此参数设置为 0.1，在许多情况下表现一致良好。
output_dens：当此标志为 True 时，调用 fit_transform 不仅返回嵌入，还会返回原始数据集和嵌入的局部半径（在 densMAP 论文 <https://doi.org/10.1101/2020.05.12.077776>_ 中定义的局部密度的反向度量）。输出是一个元组 (embedding, radii_original, radii_embedding)。请注意，半径经过对数变换。如果为 False，则只返回嵌入。此标志也可以与 UMAP 一起使用，以探索 UMAP 嵌入的局部密度。默认情况下，此标志为 False。

对于 densMAP，我们建议使用较大的 n_neighbors 值（例如 30），以便可靠地估计局部密度。

以下是如何使用这些选项的示例（基于 mnist_784 数据集的子样本）：

.. code:: python

import umap
from sklearn.datasets import fetch_openml
from sklearn.utils import resample

digits = fetch_openml(name='mnist_784')
subsample, subsample_labels = resample(digits.data, digits.target, n_samples=7000,
                                       stratify=digits.target, random_state=1)

embedding, r_orig, r_emb = umap.UMAP(densmap=True, dens_lambda=2.0, n_neighbors=30,
                                     output_dens=True).fit_transform(subsample)

更多详细信息，请参阅 文档 <https://umap-learn.readthedocs.io/en/0.5dev/densmap_demo.html>_。

使用 torchdr 实现 GPU 加速的 UMAP

对于 GPU 加速的 UMAP 计算，torchdr <https://github.com/TorchDR/TorchDR>_ 提供了一个基于 PyTorch 的实现，显著加快了算法速度。 torchdr 在 GPU 上加速了降维管道的每个步骤：kNN 计算、亲和力构建和嵌入优化。

使用 torchdr 和 UMAP 很简单：

.. code:: python

from torchdr import UMAP as torchdrUMAP

umap_gpu = torchdrUMAP(
    n_neighbors=15,
    min_dist=0.1,
    n_components=2,
    device='cuda'
)
embedding = umap_gpu.fit_transform(data-maps)

更多信息和高级用法，请参阅 torchdr 文档 <https://torchdr.github.io/index.html>_。

帮助和支持

文档位于 Read the Docs <https://umap-learn.readthedocs.io/>。文档 包含常见问题解答 <https://umap-learn.readthedocs.io/en/latest/faq.html>，可能会回答您的问题。如果您仍有疑问，请 提交问题 <https://github.com/lmcinnes/umap/issues/new>_，我将尽力提供任何可能的帮助和指导。

引用

如果您在工作中使用了本软件，我们将不胜感激您引用以下来自《开源软件期刊》的论文：

.. code:: bibtex

@article{mcinnes2018umap-software,
  title={UMAP: Uniform Manifold Approximation and Projection},
  author={McInnes, Leland and Healy, John and Saul, Nathaniel and Grossberger, Lukas},
  journal={The Journal of Open Source Software},
  volume={3},
  number={29},
  pages={861},
  year={2018}
}

如果您希望在您的工作中引用该算法，当前的参考文献是 ArXiv 论文：

.. code:: bibtex

@article{2018arXivUMAP, author = {{McInnes}, L. and {Healy}, J. and {Melville}, J.}, title = "{UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction}", journal = {ArXiv e-prints}, archivePrefix = "arXiv", eprint = {1802.03426}, primaryClass = "stat.ML", keywords = {Statistics - Machine Learning, Computer Science - Computational Geometry, Computer Science - Learning}, year = 2018, month = feb, }

如果您发现 Nature Primer 的介绍有用，请引用以下参考文献：

.. code:: bibtex

@article{Healy2024,
  author={Healy, John
  and McInnes, Leland},
  title={Uniform manifold approximation and projection},
  journal={Nature Reviews Methods Primers},
  year={2024},
  month={Nov},
  day={21},
  volume={4},
  number={1},
  pages={82},
  abstract={Uniform manifold approximation and projection is a nonlinear dimension reduction method often used for visualizing data and as pre-processing for further machine-learning tasks such as clustering. In this Primer, we provide an introduction to the uniform manifold approximation and projection algorithm, the intuitions behind how it works, how best to apply it on data and how to interpret and understand results.},
  issn={2662-8449},
  doi={10.1038/s43586-024-00363-x},
  url={https://doi.org/10.1038/s43586-024-00363-x}
}

此外，如果您在工作中使用了 densMAP 算法，请引用以下参考文献：

.. code:: bibtex

@article {NBC2020, author = {Narayan, Ashwin 和 Berger, Bonnie 以及 Cho, Hyunghoon}, title = {通过密度保持的数据可视化评估单细胞转录组变异性}, journal = {自然生物技术（Nature Biotechnology）}, year = {2021}, doi = {10.1038/s41587-020-00801-7}, publisher = {Springer Nature}, URL = {https://doi.org/10.1038/s41587-020-00801-7}, eprint = {https://www.biorxiv.org/content/early/2020/05/14/2020.05.12.077776.full.pdf}, }

如果您在工作中使用了 Parametric UMAP 算法，请引用以下参考文献：

.. code:: bibtex

@article {SMG2020,
    author = {Sainburg, Tim and McInnes, Leland and Gentner, Timothy Q.},
    title = {Parametric UMAP: learning embeddings with deep neural networks for representation and semi-supervised learning},
    journal = {ArXiv e-prints},
    archivePrefix = "arXiv",
    eprint = {2009.12981},
    primaryClass = "stat.ML",
    keywords = {Statistics - Machine Learning,
                Computer Science - Computational Geometry,
                Computer Science - Learning},
    year = 2020,
    }

许可证

umap 包采用 3 条款 BSD 许可证。

我们想指出，umap 包大量使用了 NumFOCUS 赞助的项目，没有这些项目的支持，umap 就不可能实现，因此请考虑为 NumFOCUS 做出贡献 <https://www.numfocus.org/membership>_。

贡献指南

非常欢迎您的贡献！有许多潜在的项目机会，所以如果您愿意帮忙，请随时联系我们。无论是代码、笔记本、示例还是文档，所有贡献都是同等重要的，请不要觉得自己无法贡献。要贡献代码，请先 派生项目 <https://github.com/lmcinnes/umap/issues#fork-destination-box>_，进行修改后提交拉取请求。我们将尽力与您一起解决任何问题，并将您的代码合并到主分支中。

UMAP 快速上手指南

UMAP（Uniform Manifold Approximation and Projection）是一种高效的降维工具，适用于数据可视化和非线性降维任务。以下是如何快速开始使用 UMAP 的简明指南。

环境准备

系统要求

Python 3.6 或更高版本
支持的操作系统：Linux、macOS、Windows（64 位）

前置依赖

UMAP 依赖以下 Python 库：

numpy
scipy
scikit-learn
numba
tqdm
pynndescent

推荐安装的可选库：

绘图功能：matplotlib、datashader、holoviews
Parametric UMAP：tensorflow > 2.0.0

安装步骤

使用 Conda 安装（推荐）

Conda 是一个跨平台的包管理工具，适合科学计算环境。推荐使用国内镜像源加速安装：

conda install -c conda-forge umap-learn

使用 Pip 安装

如果更倾向于使用 pip，请确保已安装前置依赖（如 numpy 和 scipy），然后运行以下命令：

pip install umap-learn

可选功能安装

如果需要绘图功能：
```
pip install umap-learn[plot]
```
如果需要 Parametric UMAP（仅 CPU 版本）：
```
pip install umap-learn[parametric_umap]
```
如果需要额外的 CPU 优化（x86 处理器）：
```
pip install umap-learn[tbb]
```

国内加速方案

建议使用国内镜像源加速 pip 安装，例如阿里云或清华大学开源镜像站：

pip install umap-learn -i https://pypi.tuna.tsinghua.edu.cn/simple

基本使用

以下是一个简单的 UMAP 使用示例，展示如何对高维数据进行降维并生成二维嵌入。

示例代码

import umap
from sklearn.datasets import load_digits

# 加载示例数据集（MNIST 手写数字）
digits = load_digits()

# 使用 UMAP 进行降维
embedding = umap.UMAP().fit_transform(digits.data)

# 输出嵌入结果的形状
print(embedding.shape)  # 输出: (n_samples, 2)

参数说明

UMAP 提供了多个可调参数，以下是一些常用选项：

n_neighbors: 控制邻近点的数量，影响局部与全局结构的平衡。默认值为 15。
min_dist: 控制嵌入点之间的最小距离，影响嵌入的紧凑程度。默认值为 0.1。
metric: 距离度量方法，默认为 'euclidean'，支持多种距离函数（如 'correlation' 和 'cosine'）。

自定义参数示例

embedding = umap.UMAP(
    n_neighbors=5,
    min_dist=0.3,
    metric='correlation'
).fit_transform(digits.data)

以上是 UMAP 的快速上手指南，更多高级功能和详细文档请参考官方文档。

版本历史

release-0.5.112026/01/12

release-0.5.10.post22025/12/11

release-0.5.10.post12025/12/10

release-0.5.102025/12/09

release-0.5.9.post22025/07/02

release-0.5.9.post12025/07/02

release-0.5.92025/07/02

release-0.5.82025/02/28

release-0.5.72024/10/28

release-0.5.62024/04/03

release-0.5.52023/11/18

0.5.42023/09/15

0.5.32022/04/13

0.5.22021/10/29

0.5.12021/02/08

0.5.02021/01/11

0.4.52020/06/30

0.4.42020/06/05

0.4.32020/05/15

0.4.22020/04/29

常见问题

在 Jupyter 和 Anaconda 环境中运行 UMAP 时遇到类型错误怎么办？

UMAP 在某些数据集上生成的结果是一个大团块，如何优化？

UMAP 在处理大规模数据时卡在“Construct embedding”步骤怎么办？

运行 UMAP 时出现 RecursionError 错误如何解决？

如何正确设置 Conda 环境以避免安装或运行 UMAP 时出现问题？

UMAP 中的 `unique=True` 参数有什么作用？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 140.4k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|昨天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架