datascience

4.6k 709 非常简单 1 次阅读今天CC0-1.0其他开发框架数据工具

AI 解读由 AI 自动生成，仅供参考

datascience 是一份精心整理的 Python 数据科学资源清单，旨在为从业者提供从基础库到进阶技巧的一站式导航。它不仅仅罗列了 pandas、scikit-learn 和 matplotlib 等核心工具，更广泛收录了教程、代码片段、博客文章及技术演讲，有效解决了开发者在海量生态中难以快速定位优质学习资源和高效替代方案的痛点。

这份清单特别适合数据科学家、机器学习工程师以及希望提升 Python 数据分析能力的研究人员使用。其独特亮点在于不仅涵盖经典库，还敏锐地引入了 DuckDB（在 DataFrame 上高效运行 SQL）、Polars（多线程加速替代方案）以及 pygwalker 等交互式可视化工具。此外，它还包含了如 uv 依赖管理、marimo 可复现环境等现代工程化实践资源。无论是新手入门寻找学习路径，还是资深专家探索性能优化与新工作流，datascience 都能提供极具价值的参考指引，帮助用户构建更完善的数据科学工具箱。

使用场景

某电商数据分析师需要在周五下班前，从千万级用户行为日志中快速挖掘促销活动的转化规律并产出可视化报告。

没有 datascience 时

面对海量 CSV 文件，手动编写低效的 Pandas 循环代码，处理一次数据需等待数十分钟，且无法利用多核性能。
缺失值分布难以直观判断，只能靠打印统计数字盲猜，导致后续模型训练频繁报错或偏差大。
临时需要 SQL 聚合分析时，必须先将数据导入数据库，流程割裂且环境配置繁琐。
生成的静态图表缺乏交互性，业务方无法自行下钻查看细节，反复沟通修改耗费大量时间。
依赖管理混乱，不同项目的库版本冲突频发，复现同事的分析代码常常失败。

使用 datascience 后

直接采纳清单中的 Polars 或 Modin 替代方案，利用多线程将数据处理速度提升十倍，几分钟内完成清洗。
引入 ydata-profiling 和 missingno，一键生成包含缺失值热力图的详细报告，瞬间定位数据质量瓶颈。
借助 DuckDB 直接在 DataFrame 上运行高效 SQL 查询，无需迁移数据即可实现复杂聚合分析。
集成 Pygwalker 或 Marimo 构建交互式看板，业务人员可自主拖拽筛选数据，自助探索洞察。
参考 uv 和 PDM 的最佳实践统一依赖管理，确保团队环境一致，代码在任何机器上均可无缝复现。

datascience 通过提供经过验证的工具链组合，将数据科学家从繁琐的环境搭建与低效编码中解放出来，使其专注于核心业务价值的挖掘。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

非必需
部分库（如 cuDF, cupy, NVTabular）需要 NVIDIA GPU 及 CUDA 支持
mlx 库专为 Apple Silicon 设计

内存

未说明（取决于具体使用的数据集大小及是否使用 out-of-core 库如 Vaex, Dask）

依赖

notes这是一个数据科学资源清单而非单一软件工具。环境需求高度依赖于所选用的具体库：处理大数据建议使用 Dask/Spark/Ray；GPU 加速需安装 RAPIDS (cuDF/cuPy)；Apple M 系列芯片可使用 MLX；部分功能需要 VSCode 插件或独立的 IDE（如 Positron）。建议使用虚拟环境按需安装相关库。

python未说明（通常为 3.8+，需兼容列出的主要数据科学库）

pandas

numpy

scikit-learn

matplotlib

seaborn

polars

duckdb

dask

ray

statsmodels

快速开始

使用 Python 的超赞数据科学

一个精心整理的列表，汇集了使用 Python 进行数据科学实践的优质资源，不仅包括各类库，还有教程链接、代码片段、博客文章和演讲。

核心

pandas - 基于 numpy 构建的数据结构。
scikit-learn - 核心机器学习库，intelex。
matplotlib - 绘图库。
seaborn - 基于 matplotlib 的数据可视化库。
ydata-profiling - 使用 ProfileReport 进行描述性统计分析。
sklearn_pandas - 提供实用的 DataFrameMapper 类。
missingno - 用于缺失数据可视化的工具。
rainbow-csv - VSCode 插件，可将 .csv 文件以彩色显示。

Python 编程通用工具

高级 Python 特性 - 泛型、协议、结构化模式匹配等。
uv - 依赖管理工具。
pdm - 适用于大型二进制分发的工具，与 uv 配合使用。
just - 命令运行器，替代 make。
python-dotenv - 管理环境变量。
structlog - Python 日志记录工具。
more_itertools - itertools 的扩展库。
tqdm - 用于 for 循环的进度条，也支持 pandas apply()。
hydra - 配置管理工具。

Pandas 技巧、替代方案及扩展

duckdb - 可高效地在 pandas DataFrame 上执行 SQL 查询，duckplyr 适用于 R，精彩介绍。
ducklake - Duckdb 的扩展，用于将数据存储在数据湖中。
fireducks - 具有类似 API 的更快替代方案。
pandasvault - 大量 pandas 技巧集合。
polars - 多线程版本的 pandas 替代品。
xarray - 将 pandas 扩展到 n 维数组。
mlx - 面向 Apple 芯片的数组框架。
pandas_flavor - 用于编写自定义访问器，如 .str 和 .dt。
daft - 分布式 DataFrame。
vaex - 外存 DataFrame。
modin - 用于加速 pandas DataFrame 的并行化库。
swifter - 更快地对 pandas DataFrame 应用任意函数（可与 modin 结合使用）。

表格工具

great-tables - 以美观方式展示表格数据。

交互式 DataFrame 可视化

pygwalker - 交互式 DataFrame。
marimo - 可视化与可复现的工作环境。
lux - 在 Jupyter 中进行 DataFrame 可视化。
dtale - 查看和分析 Pandas 数据结构，并与 Jupyter 集成。
pandasgui - 用于查看、绘图和分析 Pandas DataFrame 的 GUI。
quak - 可扩展的交互式数据表，推特。
data-formulator - 数据可视化工具。

环境与 Jupyter

Jupyter 技巧
 nteract - 双击即可打开 Jupyter 笔记本。
papermill - 参数化并执行 Jupyter 笔记本，教程。
nbdime - 比较两个笔记本文件，替代 GitHub 应用：ReviewNB。
RISE - 将 Jupyter 笔记本转换为演示文稿。
handcalcs - 在 Jupyter 中更便捷地书写数学公式。
notebooker - 将 Jupyter 笔记本生产化并安排调度。
voila - 将 Jupyter 笔记本转化为独立的 Web 应用程序。Voila 网格布局。

Jupyter 替代方案

positron - 数据科学 IDE。
Deepnote - 支持实时协作和环境管理的数据科学平台。

文本提取 + OCR

textract - 从任何文档中提取文本。
docling - 文本提取工具。
DeepSeek-OCR - OCR 工具。
chandra - OCR 工具。

大数据

Spark - 用于大数据的DataFrame，速查表，教程。
Dask，Dask-ML - 适用于大数据和机器学习的Pandas DataFrame库，资源，演讲1，演讲2，笔记本，视频。
H2O - 提供有助于处理超出内存限制的数据框的H2OFrame类。
cuDF - GPU 数据帧库，简介。
Cupy - 基于CUDA加速的类似NumPy的API。
Ray - 灵活、高性能的分布式执行框架。
Bottleneck - 用C语言编写的快速NumPy数组函数。
Petastorm - Uber开发的Parquet文件数据访问库。
Zarr - 分布式NumPy数组。
NVTabular - NVIDIA推出的表格数据特征工程与预处理库。
TensorStore - 用于读写大型多维数组（由Google开发）。

命令行工具，CSV

CSVkit - CSV文件的命令行工具。
csvsort - 用于排序大型CSV文件。

经典统计学

书籍

Lakens - 改善你的统计推断 - 涵盖假设检验、效应量、置信区间、样本量、等价性检验、序贯分析等内容，GitHub
模型揭秘 - 从线性回归到深度学习。GitHub。
人工智能背后的数学 - 一本以工程为导向的书籍，涵盖线性代数、微积分、概率与统计以及优化理论，并配有Python示例。

数据集

Rdatasets - 包含超过2000个数据集的集合，以CSV文件形式存储（R包）。
crimedatasets - 专注于犯罪和刑事活动的数据集（R包）。
educationr - 与教育相关的数据集（如表现、学习方法、考试成绩、缺勤情况）（R包）。
MedDataSets - 与医学、疾病、治疗、药物及公共卫生相关的数据集（R包）。
oncodatasets - 专注于癌症研究、生存率、遗传学研究、生物标志物及流行病学的数据集（R包）。
timeseriesdatasets_R - 时间序列数据集（R包）。
usdatasets - 仅限美国的数据集（犯罪、经济、教育、金融、能源、医疗保健等）（R包）。
economic datasets - 经济相关数据集。

p值

美国统计学会关于p值的声明：背景、过程与目的
 Greenland - 统计检验、p值、置信区间与功效：误读指南
 Rubin - 不一致的多重检验校正：使用家族误差率推断单个假设的谬误
 Gigerenzer - 无脑统计
 Rubin - 这不是双侧检验！而是两个单侧检验！(TOST)
Lakens - 我们本应如何超越p < .05？为何没有做到？
McShane等 - 放弃统计显著性
 Ho等 - 超越p值：基于估计图形的数据分析
 Lakens - p值的概率与检验功效的关系 - p值分布呈右偏态，且随着检验功效的提高，偏态会更加明显。

置信区间

Morey - 对置信区间抱有信任的谬误

软件包

statsmodels - 统计检验。
linearmodels - 工具变量和面板数据模型。
nomograms - 线性模型的可视化工具，解释（rms R 包的一部分）
pingouin - 统计检验。Pandas DataFrame 列之间的成对相关性
 scipy.stats - 统计检验。
scikit-posthocs - 用于成对多重比较的统计事后检验。
Bland-Altman 图 1, 2 - 用于展示两种测量方法之间一致性的图表。
ANOVA
StatCheck - 从文章中提取统计数据并重新计算 p 值（R 包）。
tost - 等效性检验中的双单侧检验（TOST）。
DABEST-python - 均值差异图。
Durga - 均值差异图（R 包）。

效应量

MOTE 效应量计算器 - Shiny 应用程序，R 包
 从前测-后测对照组设计中估计效应量 - Scott B. Morris，Twitter

统计检验

test_proportions_2indep - 比例检验。
G 检验 - 卡方检验的替代方法，power_divergence。

比较两个总体

torch-two-sample - Friedman-Rafsky 检验：基于 Run 检验的多变量推广来比较两个总体。解释，应用

功率与样本量计算

pwrss - 统计功效与样本量计算工具（R 包），t 检验教程

中期分析 / 顺序分析 / 停止规则

Stop Early Stopping - 优秀的可视化工具顺序分析 - 维基百科。
sequential - 泊松分布和二项分布数据的精确顺序分析（R 包）。
confseq - 统一边界、置信序列以及始终有效的 p 值。

流行病学

莱斯科等——描述性流行病学框架
 R流行病学联盟——用于处理流行病学数据的大型工具套件（R包）。GitHub
incidence2——发病率的计算、处理、可视化及简单建模（R包）。
EpiEstim——在流行病期间估计随时间变化的瞬时基本传染数R（R包）论文。
researchpy——提供有用的summary_cont()函数，用于汇总统计（表1）。
zEpid——流行病学分析包，教程。
tipr——针对未测量混杂因素的敏感性分析（R包）。
quartets——安斯康姆四重奏、因果四重奏、Datasaurus Dozen等（R包）。
episensr——流行病学数据的定量偏倚分析（即模拟不同偏倚来源可能产生的影响）（R包）。

机器学习教程

统计推断与回归
 Python中的应用机器学习
 用于视觉识别的卷积神经网络——斯坦福大学计算机科学课程。
机器学习算法直觉入门——系列讲座。

探索与清洗

检查清单。
pyjanitor——清理混乱的列名。
skimpy——创建数据框的汇总统计信息。提供有用的clean_columns()函数。
pandera——数据/模式验证。
dataframely——数据/模式验证。
pointblank——数据/模式验证。
impyute——插补。
fancyimpute——矩阵补全与插补算法。
imbalanced-learn——不平衡数据集的重采样。
tspreprocess——时间序列预处理：去噪、压缩、重采样。
Kaggler——实用函数（如OneHotEncoder(min_obs=100)）。
skrub——弥合表格型数据源与机器学习模型之间的差距。

噪声标签

cleanlab - 用于处理噪声标签的机器学习工具，能够识别错误标注的数据并进行不确定性量化。也可参阅下方的优秀列表。
doubtlab - 用于发现不良或噪声标签。

训练/测试集划分

iterative-stratification - 多标签数据的分层采样方法。

特征工程

Vincent Warmerdam: Untitled12.ipynb - 使用 df.pipe()
Vincent Warmerdam: 用简单甚至线性模型取胜
 sklearn - 管道，示例。
pdpipe - 适用于 DataFrame 的管道工具。
scikit-lego - 用于管道的自定义转换器。
categorical-encoding - 分类变量编码，vtreat (R 包)。
patsy - 类似 R 的统计模型语法。
mlxtend - LDA。
featuretools - 自动化特征工程，示例。
tsfresh - 时间序列特征工程。
temporian - 谷歌推出的时间序列特征工程工具。
pypeln - 并发数据管道。
feature-engine - 编码器、转换器等。

特征选择

综述论文，讲座，仓库
博客系列 - 1，2，3，4
教程 - 1，2
sklearn - 特征选择。
eli5 - 基于排列重要性的特征选择。
scikit-feature - 特征选择算法。
stability-selection - 稳定性选择。
scikit-rebate - 基于 Relief 的特征选择算法。
scikit-genetic - 遗传特征选择。
boruta_py - 特征选择，解释，示例。
Boruta-Shap - Boruta 特征选择算法结合 Shapley 值。
linselect - 特征选择工具包。
mlxtend - 穷举式特征选择。
BoostARoota - XGBoost 特征选择算法。
INVASE - 基于神经网络的实例级变量选择。
SubTab - 用于自监督表示学习的表格数据特征子集选取，由阿斯利康开发。
mrmr - 最大相关最小冗余特征选择，官网。
arfs - 全部相关特征选择。
VSURF - 使用随机森林进行变量选择（R 包），文档。
FeatureSelectionGA - 基于遗传算法的特征选择。

子集选择

apricot - 快速选择数据子集以训练机器学习模型。
ducks - 为任意字段组合创建索引，实现快速查找。

降维 / 表示学习

选择

同时请参考聚类部分和自监督学习部分以获取更多思路！
综述

PCA - 链接
自编码器 - 链接
Isomap - 链接
LLE - 链接
力导向图绘制 - 链接
MDS - 链接
扩散图 - 链接
t-SNE - 链接
NeRV - 链接，论文
MDR - 链接
UMAP - 链接
随机投影 - 链接
Ivis - 链接
SimCLR - 链接
pymde - 基于 PyTorch 的最小失真嵌入，链接

基于神经网络的

esvit - 用于表征学习的视觉Transformer（微软）。
MCML - 多类别、多标签数据（测序数据）的半监督降维论文。

软件包

PCA的危险性（论文）。
PCA中的假振荡现象。
替代PCA的方法。
讲座，t-SNE简介。
sklearn.manifold 和 sklearn.decomposition - PCA、t-SNE、MDS、Isomap等。
PCA的附加图表：因子载荷图、累计方差解释率图、相关性圆图、推文。
sklearn.random_projection - Johnson-Lindenstrauss引理、高斯随机投影、稀疏随机投影。
sklearn.cross_decomposition - 偏最小二乘法，用于降维和回归的有监督估计器。
prince - 降维、因子分析（PCA、MCA、CA、FAMD）。
更快的t-SNE实现：tsne-cuda、MulticoreTSNE、lvdmaaten。
umap - 均匀流形近似与投影，讲座、探索工具、解释、并行版本。
humap - 分层UMAP。
sleepwalk - 探索嵌入空间，交互式可视化（R包）。
somoclu - 自组织映射。
scikit-tda - 拓扑数据分析，论文、讲座、讲座、论文。
giotto-tda - 拓扑数据分析。
ivis - 使用暹罗网络进行降维。
trimap - 使用三元组进行降维。
scanpy - 力导向图绘制、扩散图。
direpack - 投影寻踪、充分降维、稳健M估计量。
DBS - DatabionicSwarm（R包）。
contrastive - 对比PCA。
scPCA - 稀疏对比PCA（R包）。
generalized_contrastive_PCA - 广义对比PCA。
tmap - 面向大型高维数据集的可视化库。
lollipop - 线性最优低秩投影。
linearsdr - 线性充分降维（R包）。
PHATE - 用于可视化高维数据的工具。
datamapplot - 用于可视化高维数据的工具。

可视化

所有图表
 physt - 更好的直方图，演讲，笔记本。
fast-histogram - 高速直方图。
matplotlib_venn - 文氏图。
penrose - 文氏图。
ridgeplot - 山脊图。
镶嵌图 - 分类变量可视化，示例。
yellowbrick - 用于机器学习模型的可视化工具（类似于 scikit-plot）。
bokeh - 交互式可视化库，示例，示例。
lets-plot - 绘图库。
plotnine - Python 版的 ggplot。
altair - 声明式的统计可视化库。
hvplot - 构建在 holoviews 之上的高级绘图库。
dtreeviz - 决策树可视化与模型解释工具。
mpl-scatter-density - 散点密度图。是二维直方图的替代方案。
ComplexHeatmap - 用于多维基因组数据的复杂热图（R 包）。
morpheus - Broad Institute 的矩阵可视化与分析软件。源代码，教程：1，2，代码。
jupyter-scatter - Jupyter 中的交互式二维散点图小部件。
fastplotlib - 使用 pygfx 的快速绘图库。
datamapplot - 交互式二维散点图。
SandDance - 来自微软的交互式可视化工具。

颜色

palettable - 来自 colorbrewer2 的颜色调色板。
colorcet - 一系列感知均匀的颜色映射。
命名颜色轮 - 适用于所有命名 HTML 颜色的颜色轮。

仪表板

py-shiny - Python 版 Shiny，演讲。
superset - Apache 提供的仪表板解决方案。
streamlit - 仪表板解决方案。资源，画廊组件，bokeh-events。
mercury - 将 Python 笔记本转换为 Web 应用程序，示例。
dash - plot.ly 提供的仪表板解决方案。资源。
visdom - Facebook 提供的仪表板库。
panel - 仪表板解决方案。
altair 示例 - 视频。
voila - 将 Jupyter 笔记本转化为独立的 Web 应用程序。
voila-gridstack - Voila 的网格布局。

UI

gradio - 为您的机器学习模型创建用户界面。

调查工具

samplics - 复杂调查设计中的抽样技术。

地理工具

folium - 使用 Leaflet.js 库绘制地理地图，Jupyter 插件。
gmaps - Jupyter 笔记本中的 Google 地图。
stadiamaps - 绘制地理地图。
datashader - 在地图上绘制数百万个点。
sklearn - BallTree。
pynndescent - 近邻下降法，用于近似最近邻搜索。
geocoder - 地址和 IP 地址的地理编码。
不同地理格式的转换：演讲，仓库。
geopandas - 地理数据处理工具。
低级地理空间工具（GEOS、GDAL/OGR、PROJ.4）。
矢量数据（Shapely、Fiona、Pyproj）。
栅格数据（Rasterio）。
绘图（Descartes、Catropy）。
从 OpenStreetMap 预测经济指标。
PySal - Python 空间分析库。
geography - 从 URL 或文本中提取国家、地区和城市信息。
cartogram - 基于人口的扭曲地图。

决策树模型

决策树与随机森林简介，另一幅优秀的可视化图，梯度提升简介 1，2，决策树可视化
 lightgbm - 基于决策树算法的梯度提升（GBDT、GBRT、GBM 或 MART）框架，文档。
xgboost - 梯度提升（GBDT、GBRT 或 GBM）库，文档，置信区间方法：链接1，链接2。
catboost - 梯度提升。
h2o - 梯度提升及通用机器学习框架。
pycaret - xgboost、lightgbm、catboost 等的封装工具。
forestci - 随机森林的置信区间。
grf - 广义随机森林。
dtreeviz - 决策树可视化与模型解释。
Nuance - 决策树可视化。
rfpimp - 使用排列重要性评估随机森林的特征重要性。
为什么随机森林的默认特征重要性是错误的：链接
 bartpy - 贝叶斯加性回归树。
merf - 用于聚类的混合效应随机森林，视频
 groot - 鲁棒决策树。
linear-tree - 叶子节点为线性模型的树。
supertree - 决策树可视化。

自然语言处理（NLP）/文本处理

演讲-notebook，notebook2，演讲。
文本分类简介，预处理博文。
gensim - NLP、doc2vec、word2vec、文本处理、主题建模（LSA、LDA），示例，一致性模型用于评估。
嵌入 - GloVe ([1]，[2])，StarSpace，wikipedia2vec，可视化。
magnitude - 向量嵌入工具包。
pyldavis - 主题建模的可视化工具。
spaCy - NLP。
NTLK - NLP，带有 cosine_distance 的实用 KMeansClusterer。
pytext - 来自 Facebook 的 NLP。
fastText - 高效的文本分类和表示学习。
annoy - 近似最近邻搜索。
faiss - 近似最近邻搜索。
infomap - 将向量聚类以发现主题。
datasketch - 大数据的概率性数据结构（MinHash、HyperLogLog）。
flair - Zalando 的 NLP 框架。
stanza - NLP 库。
Chatistics - 将 Messenger、Hangouts、WhatsApp 和 Telegram 的聊天记录转换为 DataFrame。
textdistance - 用于比较两个或多个序列之间距离的集合。

生物图像分析

Lee 等人 - 荧光成像实验中的严谨性和可重复性入门指南
 Awesome Cytodata

教程

MIT 7.016 生物学导论，2018年秋季 - 第27、28和29集视频讨论了染色和成像。
Bio-image Analysis Notebooks - 大量图像处理工作流集合，包括点扩散函数估计和反卷积，3D细胞分割，以及使用pyclesperanto等工具进行的特征提取。
python_for_microscopists - 提供多种图像处理任务的笔记本及配套的youtube频道。

数据集

jump-cellpainting - 细胞绘画数据集。
MedMNIST - 用于2D和3D生物医学图像分类的数据集。
CytoImageNet - 类似于ImageNet但专为细胞图像设计的庞大且多样化的数据集。
Haghighi - 基因表达与形态学特征图谱。
broadinstitute/lincs-profiling-complementarity - 细胞绘画与L1000检测的对比研究。

生物统计学 / 稳健统计学

MinCovDet - 协方差的稳健估计器，RMPV，论文，应用1，应用2。
调整后的z分数 - 基于Spearman相关性的z分数加权平均值。
winsorize - 对异常值的简单调整。

高内涵筛选实验设计

Zhang XHD (2008) - 全基因组RNAi筛选中用于质量控制的新分析标准及高效板式设计
 Iversen - 筛选实验中检测性能指标的比较：信号窗口、Z′因子与检测变异性比 Z因子 - 统计效应量的度量。
Z'-因子 - 统计效应量的度量。
CV - 变异系数。
SSMD - 严格标准化均值差异。
信号窗口 - 检测质量的衡量指标。

显微镜技术 + 实验

BD Spectrum Viewer - 计算荧光显微镜染料之间的光谱重叠和串扰。
SpectraViewer - 可视化荧光团的光谱兼容性（珀金埃尔默）。
Thermofisher Spectrum Viewer - 赛默飞世尔光谱查看器。
显微镜分辨率计算器 - 计算图像分辨率（尼康）。
PlateEditor - 用于药剂布局的平板设计工具，应用程序，压缩包，论文。

图像格式与转换工具

OME-Zarr - 论文，标准
 bioformats2raw - 将多种格式转换为Zarr。
raw2ometiff - 将Zarr转换为TIFF。
BatchConvert - Bioformats2raw的封装工具，结合Nextflow实现并行转换，视频。
REMBI模型 - 生物图像推荐元数据，BioImage Archive：研究组件指南，文件列表指南，论文，视频，电子表格

矩阵格式

anndata - 内存和磁盘上的注释数据矩阵，文档。
muon - 多模态组学框架。
mudata - 多模态数据（.h5mu）的实现。
bdz - 基于Zarr的格式，用于存储定量生物动力学数据。

图像查看器

napari - 图像查看与图像处理工具。
Fiji - 通用工具，兼具图像查看和图像处理功能。
vizarr - 基于浏览器的Zarr格式图像查看器。
avivator - 基于浏览器的TIFF文件图像查看器。
OMERO - 高内涵筛选专用图像查看器。IDR 即使用OMERO。简介
 fiftyone - 用于构建高质量数据集和计算机视觉模型的查看器及工具。
Image Data Explorer - 显微镜图像查看器，Shiny应用，视频。
ImSwitch - 显微镜图像查看器，文档，视频。
pixmi - 基于Web的图像标注与分类工具，应用。
DeepCell Label - 用于图像分割的数据标注工具，视频。
lightly-studio - 图像标注工具。

Napari插件

napari-sam - Segment Anything插件。
napari-chatgpt - ChatGPT插件。

图像修复与去噪

aydin - 图像去噪。
DivNoising - 无监督去噪方法。
CSBDeep - 内容感知图像修复，项目页面。
gibbs-diffusion - 图像去噪。

照明校正

skimage - 照明校正（CLAHE）。
cidre - 光学显微镜专用照明校正方法。
BaSiCPy - 光学显微镜图像背景与阴影校正，BaSiC。

溢色校正/光谱解混

PICASSO - 无需参考光谱测量的盲解混，论文
 cytoflow - 流式细胞术。包含溢色校正方法。
Fiji中基于线性解混的溢色校正 - Youtube。
Lumos与Fiji结合进行溢色校正 - 链接。
AutoUnmix - 链接。

平台与流程

CellProfiler, CellProfilerAnalyst - 用于创建图像分析流程。
fractal - 来自苏黎世大学的高内涵成像数据分析框架，Github。
atomai - 用于显微镜领域的深度学习与机器学习。
py-clesperanto - 用于三维显微镜分析的工具，包括deskewing等多种教程，并可与Napari交互。
qupath - 图像分析平台。

显微镜分析流程

Labsyspharm堆栈见下文。
BiaPy - 生物图像分析流程，论文。
SCIP - 基于Dask的图像处理流程。
DeepCell Kiosk - 图像分析平台。
IMCWorkflow - 使用steinbock的图像分析流程，Twitter，论文，工作流。

Labsyspharm

mcmicro - 多选题形式的显微镜分析流程，官网，论文。
MCQuant - 细胞特征量化工具。
cylinter - 显微镜图像质量保证工具，官网。
ashlar - 全玻片显微镜图像拼接与配准。
scimap - 空间单细胞分析工具包。

细胞分割

microscopy-tree - 细胞分割算法综述，论文。
类器官分析流程综述 - 论文。
BioImage.IO - 生物图像模型动物园。
MEDIAR - 细胞分割。
cellpose - 细胞分割。论文，数据集。
stardist - 基于星凸形状的细胞分割。
instanseg - 细胞分割。
UnMicst - 细胞识别与组织分割。
ilastik - 细胞分割、分类、追踪与计数。ImageJ插件。
nnUnet - 三维生物医学图像分割。
allencell - 用于三维分割的工具，涵盖经典方法和深度学习方法。
Cell-ACDC - 用于细胞分割与追踪的Python GUI。
ZeroCostDL4Mic - 显微镜下的深度学习。
DL4MicEverywhere - 使用Docker实现ZeroCostDL4Mic体验。
EmbedSeg - 基于嵌入的实例分割。
segment-anything - Facebook的“万物分割”（SAM）。
micro-sam - 用于显微镜成像的万物分割。
Segment-Everything-Everywhere-All-At-Once - 来自微软的“随时随地一次性分割一切”。
deepcell-tf - 细胞分割，DeepCell。
labkit - Fiji插件，用于图像分割。
MedImageInsight - 面向通用领域医学影像的嵌入模型。
CHIEF - 临床组织病理学影像评估基础模型。

细胞分割数据集

cellpose - 细胞图像。
omnipose - 细胞图像。
LIVECell - 细胞图像。
Sartorius - 神经元。
EmbedSeg - 2D + 3D图像。
connectomics - EPFL海马体数据集的标注。
ZeroCostDL4Mic - Stardist示例训练与测试数据集。

评价

seg-eval - 无需真实标签的细胞分割性能评估，论文。

图像特征工程

药物发现中的计算机视觉挑战 - Maciej Hermanowicz
CellProfiler - 生物图像分析。
scikit-image - 图像处理。
scikit-image regionprops - 区域属性：面积、偏心率、扩展度等。
mahotas - Zernike、Haralick、LBP及TAS特征，示例。
pyradiomics - 医学影像中的放射组学特征。
pyefd - 椭圆特征描述子，通过傅里叶级数近似轮廓。
pyvips - 更快速的图像处理操作。

领域适应 / 批次效应校正

Tran - 单细胞RNA测序数据批次效应校正方法基准测试，代码。
R教程：校正批次效应。
harmonypy - 模糊k均值与局部线性调整。
pyliger - 批次效应校正，R包。
nimfa - 非负矩阵分解。
scgen - 批次去除。文档。
CORAL - 利用Wasserstein距离校正批次效应，代码，论文。
adapt - 强大的领域适应Python工具箱。
pytorch-adapt - 多种用于领域适应的神经网络模型。

测序

单细胞教程。
PyDESeq2 - 分析RNA-seq数据。
cellxgene - 单细胞转录组数据的交互式探索工具。
scanpy - 分析单细胞基因表达数据，教程。
besca - 超越单细胞分析。
janggu - 针对基因组学的深度学习。
gdsctools - 在“癌症药物敏感性基因组学”项目背景下研究药物反应，包括方差分析、IC50、MoBEM等，文档。
monkeybread - 单细胞空间转录组数据分析。

药物发现

TDC - 药物发现与开发。
DeepPurpose - 基于深度学习的分子建模与预测工具包。

神经网络

mit6874 - 计算系统生物学：生命科学中的深度学习。
ConvNet形状计算器 - 计算Conv2D层的输出尺寸。
优秀的梯度下降文章。
半监督学习简介。

教程与可视化工具

Google调参手册 - Google出品的系统化提升深度学习模型性能的手册。
fast.ai课程 - 面向编码者的实用深度学习课程。
TensorFlow无博士教程 - Google推出的神经网络课程。
特征可视化：博客，PPT
TensorFlow Playground
优化算法可视化，另一份可视化
 cutouts-explorer - 图像查看器。

图像相关

imgaug - 更复杂的图像预处理工具。
Augmentor - 图像增强库。
keras预处理 - 图像预处理功能。
albumentations - 封装了imgaug及其他库的工具包。
augmix - Google出品的图像增强技术。
kornia - 图像增强、特征提取及损失函数工具。
augly - Facebook出品的图像、音频、文本、视频增强工具。
pyvips - 更快速的图像处理操作。

损失函数相关

SegLoss - 医学图像分割用损失函数列表。

激活函数

rational_activations - 有理激活函数。

文本相关

ktext - Keras中用于深度学习文本预处理的工具集。
textgenrnn - 即用型LSTM文本生成模型。
ctrl - 文本生成工具。

神经网络与深度学习框架

OpenMMLab - 用于分割、分类及其他计算机视觉任务的框架。
caffe - 深度学习框架，预训练模型。
mxnet - 深度学习框架，书籍。

通用库

keras - 基于TensorFlow的神经网络框架，示例。
keras-contrib - Keras社区贡献库。
keras-tuner - Keras超参数调优工具。
hyperas - Keras + Hyperopt：便捷的超参数优化封装。
elephas - 使用Keras与Spark进行分布式深度学习。
tflearn - 基于TensorFlow的神经网络框架。
tensorlayer - 基于TensorFlow的神经网络框架，技巧。
tensorforce - 适用于强化学习的TensorFlow框架。
autokeras - 深度学习自动化机器学习工具。
PlotNeuralNet - 可视化神经网络结构。
lucid - 神经网络可解释性工具，激活图谱。
tcav - 可解释性方法。
AdaBound - 一种既像Adam一样快速又像SGD一样稳定的优化器，替代方案。
foolbox - 用于生成欺骗神经网络的对抗样本。
hiddenlayer - 训练过程中的指标可视化工具。
imgclsmob - 预训练模型。
netron - 深度学习与机器学习模型的可视化工具。
ffcv - 高效的数据加载器。

PyTorch相关库

优秀的PyTorch入门
 skorch - 兼容Scikit-learn的PyTorch封装神经网络库，演讲，幻灯片。
fastai - 基于PyTorch的神经网络框架。
timm - PyTorch图像模型。
ignite - PyTorch的高级库。
torchcv - 计算机视觉领域的深度学习工具。
pytorch-optimizer - PyTorch优化器集合。
pytorch-lightning - PyTorch的封装框架。
litserve - 模型部署服务。
lightly - 提供MoCo、SimCLR、SimSiam、Barlow Twins、BYOL、NNCLR等自监督学习方法。
MONAI - 医疗影像领域的深度学习工具。
kornia - 图像变换、极线几何、深度估计等功能。
torchinfo - 优秀的模型摘要工具。
lovely-tensors - 用于检查张量的均值、标准差、无穷大值等属性。

分布式相关库

flexflow - 分布式TensorFlow、Keras和PyTorch框架。
horovod - 适用于TensorFlow、Keras、PyTorch以及Apache MXNet的分布式训练框架。

架构可视化

精彩列表。
netron - 神经网络查看器。
visualkeras - 可视化 Keras 网络。

计算机视觉通用

roboflow - 可复用的计算机视觉工具。

目标检测 / 实例分割

重新加载指标：图像分析验证建议 - 选择正确图像分析指标的指南，代码，Twitter 帖子
 优秀的 YOLO 解释
 ultralytics - 易于使用的 YOLO 和 SAM 模型。
yolact - 用于实时实例分割的全卷积模型。
EfficientDet Pytorch，EfficientDet Keras - 可扩展且高效的目标检测。
detectron2 - Facebook 的目标检测（Mask R-CNN）。
simpledet - 目标检测和实例识别。
CenterNet - 目标检测。
FCOS - 全卷积单阶段目标检测。
norfair - 实时 2D 对象跟踪。
Detic - 支持图像级标签的目标检测器（Facebook Research）。
EasyCV - 图像分割、分类、度量学习、目标检测、姿态估计。

图像分类

nfnets - 神经网络。
efficientnet - 神经网络。
pycls - PyTorch 图像分类网络：ResNet、ResNeXt、EfficientNet 和 RegNet（由 Facebook 开发）。

应用与片段

SPADE - 语义图像合成。
类别变量的实体嵌入，代码，Kaggle
图像超分辨率 - 使用残差密集网络进行超分辨率。
细胞分割 - 讲座，博客文章：1，2
deeplearning-models - 深度学习模型。

变分自编码器 (VAE)

变分自编码器解释视频
 disentanglement_lib - BetaVAE、FactorVAE、BetaTCVAE、DIP-VAE。
ladder-vae-pytorch - 梯式变分自编码器 (LVAE)。
benchmark_VAE - 统一生成自编码器实现。

生成对抗网络 (GAN)

精彩的 GAN 应用
 The GAN Zoo - 生成对抗网络列表。
CycleGAN 和 Pix2pix - 各种图像到图像的任务。
TensorFlow GAN 实现
 PyTorch GAN 实现
 PyTorch GAN 实现
 StudioGAN - PyTorch GAN 实现。

变压器

注释版变压器 - 变压器入门。
从零开始的变压器 - 入门。
神经网络：从零到英雄 - 关于构建神经网络的视频系列。
SegFormer - 基于变压器的简单高效语义分割设计。
esvit - 高效的自监督视觉变压器。
nystromformer - 因近似自注意力而更高效的变压器。

结构化数据上的深度学习

关于表格数据深度学习的优秀综述
 TabPFN - 表格数据的基础模型。

基于图的神经网络

如何使用图卷积网络在图上进行深度学习
 图卷积网络简介
 尝试揭秘图深度学习
 ogb - 开放图基准，基准数据集。
networkx - 图库。
cugraph - RAPIDS，在 GPU 上的图库。
pytorch-geometric - 多种用于图上深度学习的方法。
dgl - 深度图库。
graph_nets - 在 TensorFlow 中构建图网络，由 DeepMind 开发。

模型转换

hummingbird - 将训练好的机器学习模型编译为张量计算（由 Microsoft 开发）。

GPU

cuML - RAPIDS，在 GPU 上运行传统的表格 ML 任务，介绍。
thundergbm - GBDT 和随机森林。
thundersvm - 支持向量机。
Legate Numpy - 由 Nvidia 开发的基于 GPU 的分布式 NumPy 数组（尚未发布）视频。

回归

有序回归：论文
理解支持向量回归：幻灯片、论坛、论文
 广义加性模型 - R语言教程。

pyearth - 多元自适应回归样条（MARS），教程。
pygam - 广义加性模型（GAMs），解释。
GLRM - 广义低秩模型。
tweedie - 专用于零膨胀目标的分布，演讲。
MAPIE - 预测区间估计。

多项式

orthopy - 各种形状和大小的正交多项式。

分类

演讲、笔记本
 博客文章：概率评分
 所有分类指标
 DESlib - 动态分类器与集成选择。
human-learn - 基于您的规则集创建并调优分类器。

度量学习

对比表示学习

metric-learn - 监督与弱监督度量学习算法。
pytorch-metric-learning - PyTorch度量学习。
deep_metric_learning - 深度度量学习方法。
ivis - 使用暹罗神经网络进行度量学习。
TensorFlow相似度 - 度量学习。

距离函数

Steck等 - 嵌入的余弦相似度真的代表相似性吗？
scipy.spatial - 各种距离度量。
vegdist - 距离度量（R包）。
pyemd - 地球移动距离/ Wasserstein距离，用于比较直方图的相似性。OpenCV实现、POT实现
 dcor - 距离相关及相关的能量统计量。
GeomLoss - 核范数、豪斯多夫散度、去偏Sinkhorn散度（即Wasserstein距离的近似值）。

自监督学习

lightly - MoCo、SimCLR、SimSiam、Barlow Twins、BYOL、NNCLR。
vissl - 使用PyTorch的自监督学习：RotNet、Jigsaw、NPID、ClusterFit、PIRL、SimCLR、MoCo、DeepCluster、SwAV。

聚类

应用于图像数据的聚类算法综述（即深度聚类）。
深度学习聚类：分类与新方法。
层次聚类分析（R教程） - 树状图、缠结图
Schubert - 停止使用肘部法则来确定k-means的簇数，并介绍如何正确选择簇数
 hdbscan - 聚类算法，演讲、博客。
pyclustering - 各种聚类算法。
FCPS - 基础聚类问题套件（R包）。
GaussianMixture - 使用高斯混合分布的广义k-means聚类，视频。
nmslib - 相似性搜索库及用于评估k-NN方法的工具箱。
merf - 混合效应随机森林聚类，视频
 tree-SNE - 基于t-SNE的层次聚类算法。
MiniSom - 纯Python实现的自组织映射。
distribution_clustering、论文、相关论文、替代方案。
phenograph - 基于社区检测的聚类。
FastPG - 单细胞数据（RNA）聚类。对phenograph的改进，论文。
HypHC - 双曲层次聚类。
BanditPAM - 改进的k-Medoids聚类。
dendextend - 树状图比较（R包）。
DeepDPM - 具有未知簇数的深度聚类。
generalized-kmeans-clustering - 广义k-means聚类。

聚类评估

Wagner, Wagner - 比较聚类 - 概述
- 调整兰德指数
- 归一化互信息
- 调整互信息
- 福尔克斯-马洛斯分数
- 轮廓系数
- 信息变化量, Julia
- 成对混淆矩阵
- 共识分数 - 两组双聚类的相似性。
评估聚类质量（视频）
fpc - 各种聚类及聚类验证方法（R包）。
- 任意两个簇之间的最小距离
- 质心之间的距离
- p-分离指数：类似于最小距离。对于任意簇中占10%的“边界”点，计算其到不同簇最近点的平均距离。用于衡量密度，区分山峰与山谷。
- 通过加权计算近邻点数量来估计密度
其他指标：
- 簇内平均距离
- 簇内平均距离与最近簇平均距离之比的均值（轮廓系数）
- 簇内分布与正态或均匀分布的相似度
- 簇内各点到质心的距离平方和（即K-Means损失函数）
- 原始距离与聚类诱导距离之间的相关系数（Huberts Gamma）
- 簇大小的熵
- 簇内最大间隙的平均值
- 自助法数据上聚类结果的变化

多标签分类

scikit-multilearn - 多标签分类，讲座。

关键AI文献

Sublime - 伪科学在人工智能中的回归：机器学习与深度学习是否忘记了统计学和历史的教训？

信号处理与滤波

斯坦福大学傅里叶变换系列讲座，YouTube，讲义。
傅里叶变换可视化讲解。
《科学家与工程师数字信号处理指南》（1999） - 第3章对贝塞尔、巴特沃斯和切比雪夫滤波器有很好的介绍。
Kalman滤波器文章。
Kalman滤波器书籍 - 以Jupyter Notebook为主，注重直观理解。包含贝叶斯滤波器及多种Kalman滤波器。
FIR和IIR滤波器交互工具，示例。
filterpy - Kalman滤波与最优估计库。

Python中的滤波

scipy.signal

巴特沃斯低通滤波器示例
萨维茨基-戈莱滤波器, W
pandas.Series.rolling - 选择合适的win_type。

几何

geomstats - 具有几何结构的流形上的计算与统计。

时间序列

时间序列异常检测综述论文
 statsmodels - 时间序列分析，季节性分解示例，SARIMA，格兰杰因果检验。
darts - 时间序列库（LightGBM、神经网络）。
kats - Facebook出品的时间序列预测库。
prophet - Facebook出品的时间序列预测库。
neural_prophet - 基于PyTorch构建的时间序列预测模型。
pmdarima - (自动) ARIMA的封装库。
modeltime - 时间序列预测框架（R包）。
pyflux - 时间序列预测算法（ARIMA、GARCH、GAS、贝叶斯方法）。
atspy - 自动化时间序列模型。
pm-prophet - 时间序列预测与分解库。
htsprophet - 使用Prophet进行层次化时间序列预测。
nupic - 层次化时间记忆（HTM）用于时间序列预测和异常检测。
tensorflow - LSTM等模型，示例：链接，链接，seq2seq：1，2，3，4
tspreprocess - 预处理：去噪、压缩、重采样。
tsfresh - 时间序列特征工程。
tsfel - 时间序列特征提取。
thunder - 用于加载、处理和分析时间序列数据的数据结构与算法。
gatspy - 天文时间序列通用工具，讲座。
gendis - shapelets，示例。
tslearn - 时间序列聚类与分类，TimeSeriesKMeans，TimeSeriesKMeans。
pastas - 地下水时间序列分析。
fastdtw - 动态时间规整距离。
fable - 时间序列预测（R包）。
pydlm - 贝叶斯时间序列建模（R包，博客文章)
PyAF - 自动化时间序列预测。
luminol - LinkedIn出品的异常检测与关联性分析库。
matrixprofile-ts - 检测模式与异常，官网，PPT，替代方案。
stumpy - 另一个矩阵轮廓库。
obspy - 地震学工具包。其中classic_sta_lta函数非常实用。
RobustSTL - 鲁棒的季节趋势分解。
seglearn - 时间序列库。
pyts - 时间序列变换与分类，将时间序列图像化。
将时间序列转化为图像并使用神经网络：示例，示例。
sktime，sktime-dl - 用于时间序列深度学习的工具箱。
adtk - 时间序列异常检测。
rocket - 使用随机卷积核进行时间序列分类。
luminaire - 时间序列异常检测。
etna - 时间序列库。
Chaos Genius - 基于机器学习的分析引擎，用于离群点/异常检测及根本原因分析。
timesfm - Google预训练的时间序列基础模型。

时间序列 - Nixla

nixtla - 预训练的时间序列基础模型，用于预测和异常检测。
statsforecast - 基于统计和计量经济学模型的预测。
neuralforecast - 基于神经网络的预测。
mlforecast - 基于机器学习模型的预测。
hierarchicalforecast - 基于统计和计量经济学方法的层次化预测。

时间序列评估

TimeSeriesSplit - Sklearn时间序列分割。
tscv - 带有间隔的评估。

金融数据与交易

使用 cvxpy 的教程：1、2
pandas-datareader - 读取股票数据。
yfinance - 从 Yahoo Finance 读取股票数据。
findatapy - 从多种来源读取股票数据。
ta - 技术分析库。
backtrader - 用于交易策略的回测工具。
surpriver - 利用异常检测和机器学习，在股价大幅波动前发现相关股票。
ffn - 金融函数库。
bt - 回测算法。
alpaca-trade-api-python - 通过 API 实现免佣金交易。
eiten - 特征投资组合、最小方差投资组合及其他算法化投资策略。
tf-quant-finance - 谷歌推出的 TensorFlow 量化金融工具。
quantstats - 投资组合管理。
Riskfolio-Lib - 投资组合优化与战略资产配置。
OpenBBTerminal - 终端工具。
mplfinance - 金融市场数据可视化。

Quantopian 技术栈

pyfolio - 投资组合及风险分析工具。
zipline - 算法化交易平台。
alphalens - 预测性股票因子的表现分析。
empyrical - 金融风险指标计算。
trading_calendars - 各大证券交易所的日历工具。

生存分析

R 中的时变 Cox 模型。
lifelines - 生存分析、Cox PH 回归，讲座、讲座2。
scikit-survival - 生存分析工具。
xgboost - "objective": "survival:cox" NHANES 示例
 survivalstan - 生存分析，简介。
convoys - 分析时间延迟的转化事件。
RandomSurvivalForests（R 包：randomForestSRC、ggRandomForests）。
pysurvival - 生存分析工具。
DeepSurvivalMachines - 全参数化生存回归模型。
auton-survival - 基于删失时间事件的回归、反事实估计、评估与表型分析。

离群点检测与异常检测

sklearn - 孤立森林等方法。
pyod - 离群点检测/异常检测工具。
eif - 扩展孤立森林。
AnomalyDetection - 异常检测（R 包）。
luminol - 来自 LinkedIn 的异常检测与相关性分析库。
用于比较直方图并检测离群点的距离指标 - 讲座：Kolmogorov-Smirnov、Wasserstein、能量距离（Cramer）、Kullback-Leibler 散度。
banpei - 基于奇异谱变换的异常检测库。
telemanom - 使用 LSTM 检测多变量时间序列中的异常。
luminaire - 时间序列异常检测工具。
rrcf - 适用于流式数据的鲁棒随机切割森林算法，用于异常检测。

概念漂移与领域偏移

TorchDrift - 用于 PyTorch 模型的漂移检测工具。
alibi-detect - 用于离群点、对抗样本及漂移检测的算法。
evidently - 从验证到生产阶段对机器学习模型进行评估与监控。
Lipton 等人 - 使用黑盒预测器检测并纠正标签偏移。
Bu 等人 - 基于密度差异估计的无 PDF 变化检测方法。

排序

lightning - 大规模线性分类、回归和排序。

因果推断

文献

Chatton 等 - 因果烹饪书：倾向得分、g-计算与双重稳健标准化的配方
 统计再思考 - 视频讲座系列，贝叶斯统计，因果模型，R，python，numpyro1，numpyro2，tensorflow-probability。
Naimi 等 - g 方法导论
 CS 594 因果推断与学习
 边际效应教程 - 边际效应、g-计算等。
Python 因果关系手册
 The Effect：研究设计与因果关系导论 - 书籍
结构方程模型 - R 语言教程。

工具

pecan - 用于构建交互式感知因果网络的在线工具。
dagitty - 构建因果 DAG。
dowhy - 估计因果效应。
CausalImpact - 因果影响分析（R 包）。
causallib - IBM 提供的模块化因果推断分析与模型评估，示例。
causalml - Uber 的因果推断工具。
upliftml - Booking.com 的因果推断工具。
causality - 使用观察性数据集进行因果分析。
DoubleML - 机器学习 + 因果推断，推文，演示文稿，论文。
EconML - Microsoft 提供的异质性治疗效应估计工具。

论文

Bours - 混淆因素
 Bours - 效应修饰与交互作用

概率模型与贝叶斯

Intro，指南
 PyMC3 - 贝叶斯建模。
numpyro - 基于 pyro 构建的 NumPy 概率编程框架。
pomegranate - 概率建模，演讲。
pmlearn - 概率机器学习。
arviz - 贝叶斯模型的探索性分析。
zhusuan - 贝叶斯深度学习，生成模型。
edward - 概率建模、推断与批评，混合密度网络 (MNDs)，MDN 解释。
Pyro - 深度通用概率编程。
TensorFlow 概率 - 深度学习与概率建模，演讲1，笔记本演讲1，演讲2，示例。
bambi - 基于 PyMC3 的高级贝叶斯建模接口。
neural-tangents - 无限神经网络。
bnlearn - 贝叶斯网络，参数学习、推理与采样方法。

高斯过程

可视化，文章
 GPyOpt - 高斯过程优化。
GPflow - 高斯过程（TensorFlow）。
gpytorch - 高斯过程（PyTorch）。

模型堆叠与集成

模型堆叠博客文章
 mlxtend - EnsembleVoteClassifier、StackingRegressor、StackingCVRegressor 用于模型堆叠。
vecstack - ML 模型堆叠。
StackNet - ML 模型堆叠。
mlens - 集成学习。
combo - 结合 ML 模型（堆叠、集成）。

模型评估

evaluate - 评估机器学习模型（Hugging Face）。
pycm - 多分类混淆矩阵。
pandas_ml - 混淆矩阵。
学习曲线绘制：链接。
yellowbrick - 学习曲线。
pyroc - 接收者操作特征（ROC）曲线。

模型不确定性

awesome-conformal-prediction - 不确定性量化。
uncertainty-toolbox - 预测不确定性量化、校准、指标与可视化。

模型解释、可解释性、特征重要性

普林斯顿 - 基于机器学习的科学中的可重复性危机
 书籍, 示例
scikit-learn - 排列重要性（可用于任何训练好的分类器）和部分依赖图
 shap - 解释机器学习模型的预测，演讲, 优秀的 SHAP 入门。
shapiq - Shapley 交互作用量化。
treeinterpreter - 解释 scikit-learn 的决策树和随机森林预测。
lime - 解释任何机器学习分类器的预测，演讲, 警告（神话7）。
lime_xgboost - 为 XGBoost 创建 LIME 解释。
eli5 - 检查机器学习分类器并解释其预测。
lofo-importance - 留一特征法重要性，演讲。
pybreakdown - 生成特征贡献图。
pycebox - 个体条件期望图工具箱。
pdpbox - 部分依赖图工具箱，示例。
partial_dependence - 可视化和聚类部分依赖关系。
contrastive_explanation - 对比解释。
DrWhy - 可解释 AI 工具集合。
lucid - 神经网络可解释性。
xai - 机器学习可解释性工具箱。
innvestigate - 用于研究神经网络预测的工具箱。
dalex - ML 模型解释（R 包）。
interpretml - 拟合可解释模型，解释模型。
shapash - 模型可解释性。
imodels - 可解释 ML 包。
captum - PyTorch 的模型可解释性和理解工具。

自动机器学习

AdaNet - 基于 TensorFlow 的自动机器学习。
tpot - 自动机器学习工具，优化机器学习流水线。
autokeras - 针对深度学习的 AutoML。
nni - 微软提供的神经架构搜索和超参数调优工具包。
mljar - 自动机器学习。
automl_zero - 来自 Google 的自动发现能够解决机器学习任务的计算机程序。
AlphaPy - 使用 scikit-learn、XGBoost、LightGBM 等进行自动机器学习。

图表示学习

Karate Club - 图上的无监督学习。
PyTorch Geometric - 使用 PyTorch 进行图表示学习。
DLG - 使用 TensorFlow 进行图表示学习。

凸优化

cvxpy - 用于凸优化问题的建模语言。教程：1, 2

进化算法与优化

deap - 进化计算框架（遗传算法、进化策略）。
evol - 用于组合式进化算法的 DSL，演讲。
platypus - 多目标优化。
autograd - 高效计算 numpy 代码的导数。
nevergrad - 无需求导的优化方法。
gplearn - 遗传编程的类似 sklearn 的接口。
blackbox - 高成本黑盒函数的优化。
验光师算法 - 论文。
DeepSwarm - 神经架构搜索。
evotorch - 基于 PyTorch 构建的进化计算库。

超参数调优

sklearn - GridSearchCV, RandomizedSearchCV。
sklearn-deap - 使用遗传算法进行超参数搜索。
hyperopt - 超参数优化。
hyperopt-sklearn - Hyperopt + sklearn。
optuna - 超参数优化，讲座。
skopt - 用于超参数搜索的BayesSearchCV。
tune - 面向深度学习和深度强化学习的超参数搜索。
bbopt - 黑盒超参数优化。
dragonfly - 可扩展的贝叶斯优化。
botorch - PyTorch中的贝叶斯优化。
ax - Facebook的自适应实验平台。
lightning-hpo - 基于optuna的超参数优化。

增量学习、在线学习

sklearn - PassiveAggressiveClassifier, PassiveAggressiveRegressor。
river - 在线机器学习。
Kaggler - 在线学习算法。

主动学习

讲座
 modAL - 主动学习框架。

强化学习

YouTube, YouTube
蒙特卡洛树搜索（MCTS）入门 - 1, 2, 3
AlphaZero方法论 - 1, 2, 3, 速查表
 RLLib - 强化学习库。
Horizon - Facebook的强化学习框架。

部署与生命周期管理

工作流调度与编排

nextflow - 使用Google Life Sciences、AWS Batch等，在Docker镜像中运行脚本和工作流图，官网。
airflow - 调度和监控工作流。
prefect - Python专用的工作流调度。
dagster - 数据资产的开发、生产和观测。
ploomber - 工作流编排。
kestra - 工作流编排。
cml - 机器学习项目的CI/CD。
rocketry - 任务调度。
huey - 任务队列。

容器化与Docker

减小Docker镜像大小（视频）
优化Docker镜像大小
 cog - 方便构建Docker镜像。

数据版本控制、数据库、管道与模型服务

dvc - 大文件的版本控制。
kedro - 构建数据管道。
feast - 特征存储。视频。
pgvector - PostgreSQL中的向量相似度搜索。
pinecone - 向量搜索应用的数据库。
truss - 提供ML模型服务。
milvus - 用于相似度搜索的向量数据库。
mlem - 按照GitOps原则对ML模型进行版本管理和部署。

数据科学相关

m2cgen - 将训练好的ML模型转译为其他语言。
sklearn-porter - 将训练好的scikit-learn估计器转译为C、Java、JavaScript等。
mlflow - 管理机器学习生命周期，包括实验、可重复性和部署。
skll - 命令行工具，简化机器学习实验的运行。
BentoML - 打包并部署机器学习模型以供生产环境使用。
dagster - 专注于依赖图的工具。
knockknock - 在训练结束时收到通知。
metaflow - Netflix的生命周期管理工具。
cortex - 部署机器学习模型。
Neptune - 实验跟踪和模型注册。
clearml - 实验管理、MLOps和数据管理。
polyaxon - MLOps。
sematic - 部署机器学习模型。
zenml - MLOPs。

数学与背景知识

各类数学和统计资源
Gilbert Strang - 线性代数
Gilbert Strang - 数据分析、信号处理和机器学习中的矩阵方法

资源

Distill.pub - 博客。
机器学习视频
 数据科学笔记本
 推荐系统（微软）
数据科学速查表

指南

datasharing - 数据共享指南。

书籍

Blum - 数据科学基础
 Chan - 数据科学概率论导论
 Colonescu - 使用R语言的计量经济学原理
 Rafael Irizarry - 数据科学导论（R语言）
Rafael Irizarry - 高级数据科学（R语言）

其他精彩列表

Awesome Adversarial Machine Learning
Awesome AI Booksmarks
Awesome AI on Kubernetes
Awesome Big Data
Awesome Biological Image Analysis
Awesome Business Machine Learning
Awesome Causality
Awesome Community Detection
Awesome CSV
Awesome Cytodata
Awesome Data Science
Awesome Data Science with Ruby
Awesome Dash
Awesome Decision Trees
Awesome Deep Learning
Awesome ETL
Awesome Financial Machine Learning
Awesome Fraud Detection
Awesome GAN Applications
Awesome Graph Classification
Awesome Industry Machine Learning
Awesome Gradient Boosting
Awesome Learning with Label Noise
Awesome Machine Learning
Awesome Machine Learning Books
Awesome Machine Learning Interpretability
Awesome Machine Learning Operations
Awesome Monte Carlo Tree Search
Awesome MLOps
Awesome Neural Network Visualization
Awesome Online Machine Learning
Awesome Pipeline
Awesome Public APIs
Awesome Public Datasets
Awesome Python
Awesome Python Data Science
Awesome Python Data Science
Awesome Pytorch
Awesome Quantitative Finance
Awesome Recommender Systems
Awesome Satellite Benchmark Datasets
Awesome Satellite Image for Deep Learning
Awesome Single Cell
Awesome Semantic Segmentation
Awesome Sentence Embedding
Awesome Visual Attentions
Awesome Visual Transformer

讲座

NYU深度学习SP21 - YouTube播放列表。

我经常谷歌的东西

颜色代码
 时间序列频率代码
 日期解析代码

贡献

你知道有哪些应该加入此列表的软件包吗？或者你是否发现某些软件包已经不再维护，需要从列表中移除？那么请阅读贡献指南，提交你的拉取请求或创建一个新的问题。

许可证

datascience 快速上手指南

datascience 并非单一的软件包，而是一份精选的 Python 数据科学资源清单。本指南将帮助你基于该清单的核心推荐，快速搭建一个现代化的 Python 数据科学开发环境，并掌握核心库的基本用法。

环境准备

在开始之前，请确保你的系统满足以下要求：

操作系统：Windows, macOS 或 Linux。
Python 版本：推荐安装 Python 3.9 - 3.12（避免使用过旧或最新的预览版以保证库兼容性）。
包管理工具：推荐使用 uv 或 pip 进行依赖管理。uv 速度极快，是现代 Python 项目的首选。
开发编辑器：推荐 VS Code（配合 rainbow-csv 插件）或 Jupyter Lab。

国内加速建议：在中国大陆地区，建议使用国内镜像源加速包下载。

uv/pip 通用镜像：清华大学开源软件镜像站 (https://pypi.tuna.tsinghua.edu.cn/simple) 或阿里云镜像 (https://mirrors.aliyun.com/pypi/simple/)。

安装步骤

方案 A：使用 uv（推荐，极速）

uv 是一个用 Rust 编写的超快 Python 包安装器和项目管理器。

安装 uv (macOS/Linux):
```
curl -LsSf https://astral.sh/uv/install.sh | sh
```
(Windows PowerShell: powershell -c "irm https://astral.sh/uv/install.ps1 | iex")

初始化项目并安装核心库：创建一个新项目并安装清单中的核心组件（pandas, scikit-learn, matplotlib, seaborn 等）。

uv init my-ds-project
cd my-ds-project

# 使用清华源安装核心数据科学栈
uv pip install pandas scikit-learn matplotlib seaborn ydata-profiling missingno tqdm \
  --index-url https://pypi.tuna.tsinghua.edu.cn/simple

安装可选增强库（按需）：

# 高性能 DataFrame (Polars) 和 SQL 支持 (DuckDB)
uv pip install polars duckdb --index-url https://pypi.tuna.tsinghua.edu.cn/simple

# 交互式可视化
uv pip install pygwalker --index-url https://pypi.tuna.tsinghua.edu.cn/simple

方案 B：使用 pip（传统方式）

如果你习惯使用原生 pip，可以通过配置临时镜像源来加速。

python -m venv venv
source venv/bin/activate  # Windows: venv\Scripts\activate

# 安装核心库
pip install pandas scikit-learn matplotlib seaborn ydata-profiling missingno tqdm \
  -i https://pypi.tuna.tsinghua.edu.cn/simple

# 安装高性能替代方案
pip install polars duckdb pygwalker -i https://pypi.tuna.tsinghua.edu.cn/simple

基本使用

以下是基于清单中核心库的最简使用示例，涵盖数据加载、探索、处理和可视化。

1. 数据加载与描述性统计

使用 pandas 读取数据，并利用 ydata-profiling 一键生成详细的数据分析报告。

import pandas as pd
from ydata_profiling import ProfileReport

# 加载数据 (示例使用内置数据集)
df = pd.read_csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv")

# 方法 A: 传统 Pandas 概览
print(df.head())
print(df.describe())

# 方法 B: 生成交互式分析报告 (节省大量手动检查时间)
profile = ProfileReport(df, title="Pandas Profiling Report", minimal=True)
# 在 Jupyter 中直接显示: profile.to_notebook_iframe()
# 或保存为 HTML: profile.to_file("report.html")

2. 缺失值可视化

使用 missingno 快速识别数据中的缺失模式。

import missingno as msno
import matplotlib.pyplot as plt

# 绘制缺失值矩阵图
msno.matrix(df)
plt.show()

3. 高性能数据处理 (Polars 示例)

当数据量较大时，可使用清单推荐的 polars 替代 pandas 以获得多线程加速。

import polars as pl

# Polars 语法与 Pandas 类似但更快
df_pl = pl.read_csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv")

# 执行快速聚合
result = df_pl.group_by("day").agg(
    pl.col("total_bill").mean().alias("avg_bill"),
    pl.col("tip").sum().alias("total_tip")
)
print(result)

4. 交互式可视化

使用 pygwalker 在 Jupyter 中获得类似 Tableau 的拖拽式分析体验。

import pygwalker as pyg
import pandas as pd

df = pd.read_csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv")

# 在 Notebook 中启动交互式界面
gwalker = pyg.walk(df)

5. 进度条监控

在处理大型循环或 apply 操作时，使用 tqdm 监控进度。

from tqdm import tqdm
import pandas as pd
import time

tqdm.pandas() # 启用 pandas 集成

# 模拟耗时操作并显示进度条
df['processed'] = df['total_bill'].progress_apply(lambda x: (time.sleep(0.01), x * 1.1)[1])

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|昨天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 142.7k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|昨天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|今天

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|昨天

语言模型图像Agent

使用场景

没有 datascience 时

使用 datascience 后

运行环境要求

快速开始

使用 Python 的超赞数据科学

核心

Python 编程通用工具

Pandas 技巧、替代方案及扩展

表格工具

交互式 DataFrame 可视化

环境与 Jupyter

Jupyter 替代方案

文本提取 + OCR

大数据

命令行工具，CSV

经典统计学

书籍

数据集

p值

相关性

置信区间

软件包

效应量

统计检验

比较两个总体

功率与样本量计算

中期分析 / 顺序分析 / 停止规则

可视化

Tidy Tuesday

讲座

文本

评估

流行病学

机器学习教程

探索与清洗

噪声标签

训练/测试集划分

特征工程

特征选择

子集选择

降维 / 表示学习

选择

基于神经网络的

软件包

可视化

颜色

仪表板

UI

调查工具

地理工具

推荐系统

决策树模型

自然语言处理（NLP）/文本处理

生物图像分析

教程

数据集

生物统计学 / 稳健统计学

高内涵筛选实验设计

显微镜技术 + 实验

图像格式与转换工具

矩阵格式

图像查看器

Napari插件

图像修复与去噪

照明校正

溢色校正/光谱解混

平台与流程

显微镜分析流程

Labsyspharm

细胞分割

细胞分割数据集

评价

图像特征工程

领域适应 / 批次效应校正

测序

药物发现

神经网络

教程与可视化工具

图像相关