n2

580 70 非常简单 1 次阅读 1个月前Apache-2.0开发框架

AI 解读由 AI 自动生成，仅供参考

N2 是一款由 Kakao 开源的轻量级近似最近邻（Approximate Nearest Neighbor）搜索库，专为高效处理大规模向量数据而设计。在人工智能和推荐系统中，快速从海量数据中找到相似项至关重要，但传统方法往往在速度与内存占用之间难以平衡。N2 的出现正是为了解决这一痛点，它汲取了 Annoy、NMSLIB 等现有库的优点，在索引构建速度、查询效率及内存管理上实现了更优的综合性能。

这款工具特别适合后端开发者、算法工程师及数据科学家使用，尤其是那些需要在生产环境中部署高并发检索服务，或受限于硬件资源却需处理亿级向量数据的团队。N2 的核心亮点在于其卓越的多核并行构建能力，能充分利用 CPU 资源加速索引生成；同时默认支持内存映射（mmap）技术，使其能够轻松加载和处理超出物理内存大小的巨型索引文件，极大降低了运行门槛。此外，N2 基于 C++ 开发并提供了友好的 Python 和 Go 语言接口，支持角距离、欧氏距离及点积等多种度量方式，让开发者能以极低的代码成本集成高性能检索功能，是构建大规模向量检索系统的得力助手。

使用场景

某电商推荐团队需要在毫秒级内从千万级商品向量库中，为用户实时召回最相似的候选商品。

没有 n2 时

响应延迟高：面对海量数据，传统精确搜索或笨重的索引库导致单次查询耗时超过 200 毫秒，无法满足高并发下的实时推荐需求。
内存资源紧张：构建索引时内存占用极高，经常触发服务器 OOM（内存溢出），迫使团队不得不增加昂贵的硬件投入。
部署维护复杂：现有方案依赖繁重的环境配置，且缺乏对多核 CPU 的有效利用，索引构建速度缓慢，难以适应商品库的快速更新。
开发集成困难：缺少友好的 Python 绑定，算法工程师在将 C++ 核心逻辑整合到业务系统时花费了大量时间进行接口适配。

使用 n2 后

查询极速响应：n2 凭借轻量级的近似最近邻算法，将千万级数据的平均查询延迟压缩至 10 毫秒以内，显著提升了用户浏览体验。
内存效率优化：得益于默认的 mmap 文件映射机制，n2 在处理大规模索引时内存占用极低，直接在原有服务器上即可稳定运行。
构建性能飞跃：利用 n2 的多核 CPU 并行构建能力，全量商品索引的更新时间从数小时缩短至几十分钟，轻松应对每日数据增量。
开发无缝衔接：通过简洁的 Python API，团队仅需几行代码即可完成索引的创建与检索，大幅降低了工程落地门槛。

n2 以极致的轻量化设计和卓越的性能表现，成功解决了大规模向量检索在速度与资源之间的平衡难题。

运行环境要求

操作系统

未说明

GPU

不需要 GPU，基于 CPU 运行（支持多核 CPU 加速索引构建）

内存

未说明（但支持 mmap 功能以高效处理大型索引文件，降低内存压力）

依赖

notes该工具是用 C++ 编写的轻量级近似最近邻算法库，默认支持 mmap 功能以高效处理大型索引文件。支持多核 CPU 并行构建索引。提供 Python 和 Go 语言绑定。支持的距離度量包括 angular、L2 和 dot product。

python未说明（可通过 pip 安装，提供 Python 绑定）

numpy

快速开始

N2

.. begin_badges

.. |docs| image:: https://readthedocs.org/projects/n2/badge/?version=latest :target: https://n2.readthedocs.io/en/latest/?badge=latest :alt: 文档状态

.. |pypi| image:: https://img.shields.io/pypi/v/n2.svg?style=flat :target: https://pypi.python.org/pypi/n2 :alt: 最新版本

.. |travis| image:: https://travis-ci.org/kakao/n2.svg?branch=master :target: https://travis-ci.org/kakao/n2 :alt: 构建状态

.. |license| image:: https://img.shields.io/github/license/kakao/n2 :target: https://github.com/kakao/n2/blob/master/LICENSE :alt: Apache许可证2.0

.. end_badges

.. begin_intro

用C++编写的轻量级近似N\ earest N\ eighbor算法库（带有Python/Go绑定）。

N2代表两个“N”，源自“Approximate N\ earest N\ eighbor Algorithm”。

.. end_intro

.. begin_background

为什么开发N2

在N2出现之前，已经存在其他优秀的近似最近邻库，如Annoy和NMSLIB。然而，它们各自在易用性、性能等方面都有不同的优缺点。因此，N2的开发旨在结合现有aKNN库的优点，并弥补其不足之处。

.. end_background

.. begin_features

特性

轻量级库，能够快速处理大规模数据集。
在索引构建时间、搜索速度和内存使用方面表现出色。
支持多核CPU进行索引构建。
默认支持mmap功能，以高效处理大型索引文件。
支持Python/Go绑定。

.. end_features

支持的距离度量

请手动将下表与docs/index.rst中的表格同步。

+-----------+-------------+--------------------------------------------------------------------+ | 度量 | 定义 | d(p, q) | +-----------+-------------+--------------------------------------------------------------------+ | "angular" | 1 - cosθ | 1 - {sum(p :sub:i · q :sub:i) / | | | | sqrt(sum(p :sub:i · p :sub:i) · sum(q :sub:i · q :sub:i))} | +-----------+-------------+--------------------------------------------------------------------+ | "L2" | 平方L2 | sum{(p :sub:i - q :sub:i) :sup:2} | +-----------+-------------+--------------------------------------------------------------------+ | "dot" | 点积 | sum(p :sub:i · q :sub:i) | +-----------+-------------+--------------------------------------------------------------------+

.. begin_metric_detail

N2支持三种距离度量。对于“angular”和“L2”，距离d的定义是：向量越接近，d越小。而对于“dot”，距离d的定义是：向量越接近，d越大。您可能会好奇，为什么我们将“dot”度量实现为普通的点积，而不是*(1 - 点积)*？做出这一决定的原因是为了让用户可以直接将Hnsw搜索函数返回的d值解释为点积值。

.. end_metric_detail

快速入门

使用pip安装N2。

.. code:: bash

$ pip install n2

下面是一个演示如何使用N2的Python代码片段。

.. code:: python

import numpy as np

from n2 import HnswIndex

N, dim = 10240, 20
samples = np.arange(N * dim).reshape(N, dim)

index = HnswIndex(dim)
for sample in samples:
    index.add_data(sample)
index.build(m=5, n_threads=4)
print(index.search_by_id(0, 10))
# [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

完整文档

访问n2.readthedocs.io_获取完整文档。该文档详细介绍了以下内容：

安装指南_
- 如何从源码构建等。
带有基本示例的用户指南
- Python接口_
- C++接口_
- Go接口_
基准测试_
- 详细说明我们是如何进行基准测试的。

性能

以下是我们的基准测试结果。
您还可以在ann-benchmarks.com_上查看各种Python ANN库的基准测试结果。请注意，ann-benchmarks.com_中使用的N2版本为0.1.6（截至2020年10月8日），而我们仍在不断努力提升N2的性能。

索引构建时间


|image0|

搜索速度

|image1|

内存使用


|image2|


.. begin_footnote

参考文献
------------------------------------------------------------------------------

- Y\. A. Malkov 和 D. A. Yashunin, “使用分层可导航小世界图进行高效且鲁棒的近似最近邻搜索,” CoRR, vol. abs/1603.09320, 2016. [在线]. 可用地址: http://arxiv.org/abs/1603.09320
-  NMSLIB: https://github.com/nmslib/nmslib
-  Annoy: https://github.com/spotify/annoy

许可
------------------------------------------------------------------------------

本软件采用`Apache 2许可证`_授权，如下所述。

版权所有 © 2017 Kakao Corp. http://www.kakaocorp.com

根据Apache许可证第2.0版（“许可证”）授权；除非符合许可证规定，否则不得使用本项目。您可以在http://www.apache.org/licenses/LICENSE-2.0获得许可证副本。

除非适用法律要求或书面协议另有约定，否则根据“AS IS”基础分发的软件不提供任何形式的保证或条件，无论是明示还是暗示。有关权限和限制的具体语言，请参阅许可证。

.. _Apache 2 许可证: https://github.com/kakao/n2/blob/master/LICENSE
.. _Annoy: https://github.com/spotify/annoy
.. _NMSLIB: https://github.com/nmslib/nmslib
.. _安装指南: https://n2.readthedocs.io/en/latest/install.html
.. _Python 接口: https://n2.readthedocs.io/en/latest/python_api.html
.. _C++ 接口: https://n2.readthedocs.io/en/latest/cpp_api.html
.. _Go 接口: https://n2.readthedocs.io/en/latest/go_api.html
.. _基准测试: https://n2.readthedocs.io/en/latest/benchmark.html
.. _n2.readthedocs.io: https://n2.readthedocs.io/en/latest/
.. _ann-benchmarks.com: http://ann-benchmarks.com/

.. |image0| image:: docs/imgs/build_time/build_time_threads.png
.. |image1| image:: docs/imgs/search_time/search_time.png
.. |image2| image:: docs/imgs/mem/memory_usage.png

.. end_footnote

N2 快速上手指南

N2 是一个用 C++ 编写的高性能近似最近邻（Approximate Nearest Neighbor, ANN）搜索库，支持 Python 和 Go 绑定。它在索引构建速度、搜索效率和内存占用方面表现优异，特别适合处理大规模数据集。

环境准备

操作系统：Linux / macOS / Windows
Python 版本：Python 3.6+
依赖项：
- numpy（用于数据处理）
- 编译工具链（如 gcc 或 clang，若需从源码安装）

💡 提示：国内用户可使用清华或阿里云镜像加速 pip 安装。

安装步骤

通过 pip 直接安装（推荐）：

pip install n2

如需使用国内镜像源加速安装：

pip install n2 -i https://pypi.tuna.tsinghua.edu.cn/simple

基本使用

以下是一个最简单的 Python 示例，演示如何构建索引并执行近邻搜索：

import numpy as np
from n2 import HnswIndex

# 生成示例数据：10240 条，每条 20 维
N, dim = 10240, 20
samples = np.arange(N * dim).reshape(N, dim)

# 创建索引
index = HnswIndex(dim)

# 添加数据
for sample in samples:
    index.add_data(sample)

# 构建索引（设置连接数 m=5，使用 4 个线程）
index.build(m=5, n_threads=4)

# 查询 ID 为 0 的样本的最近 10 个邻居
results = index.search_by_id(0, 10)
print(results)
# 输出示例：[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

支持的距離度量

N2 支持三种距离度量方式：

度量类型	说明	距离定义
angular	余弦相似度	1 - cosθ（值越小越相似）
L2	欧氏距离平方	Σ(pi - qi)²（值越小越相似）
dot	点积	Σ(pi · qi)（值越大越相似）

默认使用 angular 度量。如需切换，可在创建 HnswIndex 时指定 metric 参数，例如：

index = HnswIndex(dim, metric='L2')

更多详细用法（包括 C++/Go 接口、高级参数调优等），请访问官方文档：https://n2.readthedocs.io

版本历史

0.1.72020/10/16

0.1.62020/02/17

0.1.52020/02/14

0.1.42020/02/14

常见问题

如何在 macOS 上编译 N2？必须使用 GCC 吗？支持 Clang 吗？

加载索引时使用 use_mmap=True 会导致搜索变慢或卡住吗？应该如何选择加载方式？

N2 如何处理重复向量（Duplicate Vectors）？会影响召回率或性能吗？

使用 "angular" 距离度量时，如果数据中包含零向量会发生什么？需要手动预处理吗？

如何复现论文或 README 中的基准测试结果？为什么现在的脚本和图示结果不一致？

我的机器内存有限，无法一次性建立大规模数据（如 1500 万条）的索引，有什么解决方案？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 140.4k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|昨天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架