astroML

1.2k 317 非常简单 1 次阅读 3天前BSD-2-Clause其他

AI 解读由 AI 自动生成，仅供参考

astroML 是一个专为天文学和天体物理学打造的 Python 开源工具包，旨在将机器学习、统计学与数据挖掘技术高效应用于天文数据分析。面对现代天文观测产生的海量复杂数据，传统分析方法往往难以应对，astroML 通过集成成熟的科学计算库（如 NumPy、SciPy、scikit-learn 和 AstroPy），提供了一套经过验证的算法例程，帮助研究者从噪声中提取关键信息、识别天体模式并进行可视化展示。

这款工具特别适合天文学研究人员、数据科学家以及相关领域的开发者使用。它不仅内置了多种开放天文数据集的加载器，还包含了大量源自经典教材《天文学中的统计、数据挖掘与机器学习》的分析实例，让用户能快速上手并复现前沿研究成果。其独特的技术亮点在于将通用的机器学习算法与天文领域的特定需求（如球面谐波变换、HEALPix 像素化处理）紧密结合，填补了通用 AI 工具在天文垂直场景下的应用空白。无论是进行星系分类、变星探测还是宇宙学参数估计，astroML 都能成为你探索宇宙奥秘的得力助手。

使用场景

某天文台数据团队正致力于从海量巡天观测数据中自动识别罕见的变星候选体，以支持后续的物理机制研究。

没有 astroML 时

研究人员需手动编写大量底层代码来清洗带有复杂噪声和缺失值的天文光谱数据，耗时且易出错。
面对高维度的测光特征，缺乏针对天体物理特性优化的降维算法，导致关键信号被冗余数据淹没。
通用机器学习库缺少天文专用的数据加载器，团队不得不花费数周时间解析特定格式（如 FITS）的公开数据集。
难以复现经典文献中的统计模型，每次分析都要重新推导公式并验证数值稳定性，严重拖慢科研进度。

使用 astroML 后

直接调用内置的稳健统计例程，一键完成异常值剔除和数据插补，将数据预处理时间从数天缩短至几小时。
利用专为天文数据设计的流形学习算法，高效提取变星光变曲线的核心特征，显著提升了分类模型的准确率。
通过集成的开放数据集加载接口，瞬间获取并标准化 SDSS 等主流巡天数据，让团队能立即投入核心分析。
复用书中经过验证的成熟算法实现，无需重复造轮子，确保了分析结果的可复现性与学术严谨性。

astroML 将天文学家从繁琐的数据工程中解放出来，让他们能专注于利用先进的机器学习技术探索宇宙奥秘。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

未说明

内存

未说明

依赖

notes核心包为纯 Python 实现，安装简便。部分示例脚本需要可选依赖（如 healpy），具体需求在各脚本头部列出。支持通过 pip 或 conda（conda-forge 或 astropy 通道）安装。

python3.6+

numpy>=1.13

scipy>=0.19

scikit-learn>=0.18

matplotlib>=3.0

astropy>=3.0

快速开始

.. -- mode: rst --

======================================= AstroML：天文学中的机器学习

.. image:: https://img.shields.io/badge/arXiv-1411.5039-orange.svg?style=flat :target: https://arxiv.org/abs/1411.5039 :alt: 参考论文 .. image:: https://github.com/astroML/astroML/workflows/CI/badge.svg :target: https://github.com/astroML/astroML/actions?query=workflow%3ACI :alt: GitHub Actions CI 状态 .. image:: https://img.shields.io/pypi/v/astroML.svg?style=flat :target: https://pypi.python.org/pypi/astroML :alt: 最新 PyPI 版本 .. image:: https://img.shields.io/pypi/dm/astroML.svg?style=flat :target: https://pypi.python.org/pypi/astroML :alt: PyPI 下载统计 .. image:: https://img.shields.io/badge/license-BSD-blue.svg?style=flat :target: https://github.com/astroml/astroml/blob/main/LICENSE.rst :alt: 许可证徽章

AstroML 是一个基于 numpy、scipy、scikit-learn 和 matplotlib 构建的 Python 机器学习与数据挖掘模块，采用 BSD 许可证进行分发。它包含一个不断增长的用于分析天文数据的统计和机器学习例程库、多个开放天文数据集的加载器，以及大量分析和可视化天文数据集的示例。

该项目于 2012 年由 Jake VanderPlas 发起，旨在配合 Zeljko Ivezic、 Andrew Connolly、Jacob VanderPlas 和 Alex Gray 合著的书籍《天文学中的统计学、数据挖掘与机器学习》。

重要链接

HTML 文档：https://www.astroML.org
核心源代码仓库：https://github.com/astroML/astroML
图表源代码仓库：https://github.com/astroML/astroML-figures
问题跟踪器：https://github.com/astroML/astroML/issues
邮件列表：https://groups.google.com/forum/#!forum/astroml-general

安装

在安装之前，请确保您的系统满足下方“依赖项”中列出的先决条件。

核心

要在您的主目录中安装 astroML 核心包，请使用：

pip install astroML

此外，astroML 的 conda 包也可在 conda-forge 或 astropy 的 conda 通道中获取：

conda install -c astropy astroML

核心包是纯 Python 实现，因此在大多数系统上安装都应十分顺利。若要从源码安装，请执行：

python setup.py install

您可以通过以下命令指定任意安装目录：

python setup.py install --prefix='/some/path'

要在 Linux/Unix 系统上进行全局安装：

python setup.py build sudo python setup.py install

依赖项

AstroML 中存在两类依赖项。核心依赖项是 astroML 核心包所必需的。可选依赖项则用于运行部分（而非全部）示例脚本。每个示例脚本会在文件顶部列出其可选依赖项。

核心依赖项

astroML 核心包需要以下软件（部分功能可能在较旧版本上也能运行）：

Python_ 3.6 及以上版本
Numpy_ 1.13 或更高版本
Scipy_ 0.19 或更高版本
Scikit-learn_ 0.18 或更高版本
Matplotlib_ 3.0 或更高版本
AstroPy_ 3.0 或更高版本

可选依赖项

若干示例脚本需要特定或更新的软件包。这些要求会在相应脚本的顶部列出。

HEALPy_ 提供对 HEALPix 像素化方案的接口，以及快速球谐变换功能。

开发

本软件包旨在成为高质量天文代码的存储库，我们鼓励提交新的算法实现。在安装版本控制系统 Git_ 后，您可以从 GitHub_ 获取最新源码：

git clone git://github.com/astroML/astroML.git

或者，如果您拥有写入权限：

git clone git@github.com:astroML/astroML.git

贡献

我们强烈鼓励贡献有用的天文相关代码：为了使 astroML 成为 Python 与天文学社区的重要工具，它需要随着研究领域的不断发展而壮大。以下是贡献的一些指导原则：

一般规则

所有贡献都应通过 GitHub 的拉取请求系统完成（更多信息请参阅
`帮助页面 <https://help.github.com/articles/using-pull-requests>`_）。
提交到 ``astroML`` 的代码应遵循 BSD 风格的许可证，并符合
`PEP8 编码规范 <http://www.python.org/dev/peps/pep-0008/>`_。

文档与示例

所有提交的代码都应按照 Numpy 文档指南_ 进行文档编写。这是 scipy 生态系统中许多软件包所采用的统一文档风格。

此外，强烈建议创建示例脚本，以展示该方法在天文数据集上的实用性，最好能利用 astroML.datasets 中的加载器。这些示例脚本位于主源代码仓库的 examples 子目录中。

.. _Numpy Documentation Guide: https://numpydoc.readthedocs.io/en/latest/format.html

作者

软件包作者

Jake Vanderplas https://github.com/jakevdp http://jakevdp.github.com

维护者

Brigitta Sipocz https://github.com/bsipocz

贡献者

Alex Conley
Andreas Kopecky
Andrew Connolly
Asif Imran
Benjamin Alan Weaver
Brigitta Sipőcz
Chris Desira
Daniel Andreasen
Dino Bektešević
Edward Betts
Hans Moritz Günther
Hugo van Kemenade
Jake Vanderplas
Jeremy Blow
Jonathan Sick
Joris van Vugt
Juanjo Bazán
Julian Taylor
Lars Buitinck
Michael Radigan
Morgan Fouesneau
Nicholas Hunt-Walker
Ole Streicher
Pey Lian Lim
Rodrigo Nemmen
Ross Fadely
Vlad Skripniuk
Zlatan Vasović
Engineero
stonebig

.. _Python: https://www.python.org .. _Numpy: https://www.numpy.org .. _Scipy: https://www.scipy.org .. _Scikit-learn: https://scikit-learn.org .. _Matplotlib: https://matplotlib.org .. _AstroPy: http://www.astropy.org/ .. _HEALPy: https://github.com/healpy/healpy .. _Git: https://git-scm.com/ .. _GitHub: https://www.github.com

AstroML 快速上手指南

AstroML 是一个专为天文学设计的 Python 机器学习与数据挖掘工具包。它基于 NumPy、SciPy、Scikit-learn 和 Matplotlib 构建，提供了丰富的统计算法、天文数据集加载器以及大量分析与可视化示例。

环境准备

在开始之前，请确保您的系统满足以下核心依赖要求：

Python: 版本 3.6 或更高
NumPy: >= 1.13
SciPy: >= 0.19
Scikit-learn: >= 0.18
Matplotlib: >= 3.0
AstroPy: >= 3.0

提示：部分示例脚本可能需要额外的可选依赖（如 healpy），具体需求会在对应脚本文件的顶部注明。

安装步骤

您可以选择使用 pip 或 conda 进行安装。国内用户建议使用国内镜像源以加速下载。

方法一：使用 pip 安装（推荐）

使用清华或阿里云镜像源安装核心包：

pip install astroML -i https://pypi.tuna.tsinghua.edu.cn/simple

或者使用默认源：

pip install astroML

方法二：使用 conda 安装

如果您使用 Anaconda 或 Miniconda，可以通过 astropy 频道安装：

conda install -c astropy astroML

方法三：从源码安装

如需获取最新开发版本或自定义安装路径：

git clone git://github.com/astroML/astroML.git
cd astroML
python setup.py install

基本使用

AstroML 的核心功能包括数据集加载、机器学习模型应用以及天文数据可视化。以下是一个最简单的使用示例，演示如何加载内置数据集并进行基础处理。

示例：加载数据集并查看信息

from astroml.datasets import fetch_sdss_sspp

# 加载 SDSS SSPP 数据集
data = fetch_sdss_sspp()

# 查看数据基本信息
print(f"数据形状: {data.data.shape}")
print(f"特征名称: {data.feature_names}")

# 提取特定特征（例如：表面重力 logg）
logg = data.data[:, 4] 

# 简单的统计描述
import numpy as np
print(f"logg 均值: {np.mean(logg)}")
print(f"logg 标准差: {np.std(logg)}")

示例：结合 Scikit-learn 进行聚类分析

由于 AstroML 深度集成 Scikit-learn，您可以直接使用其算法处理天文数据：

from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

# 选取前两个特征进行聚类演示
X = data.data[:, :2]

# 初始化并训练 K-Means 模型
kmeans = KMeans(n_clusters=3, random_state=42)
labels = kmeans.fit_predict(X)

# 可视化结果
plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis', s=10, alpha=0.5)
plt.xlabel(data.feature_names[0])
plt.ylabel(data.feature_names[1])
plt.title("SDSS Data Clustering with AstroML & Scikit-learn")
plt.show()

更多详细示例和高级用法，请访问官方文档：https://www.astroML.org

常见问题

scatter_contour 函数在处理小数据数组时抛出 IndexError 错误，如何解决？

astroML 是否支持 Python 3？安装时遇到 print 语法错误怎么办？

运行测试或加载数据时出现 404 错误，提示数据文件无法找到，如何处理？

使用 Cminus 函数计算光度函数时，输出结果中出现 NaN 值，原因是什么？

只想使用 hist 函数获取直方图的 bin 边缘而不立即绘图，但图表总是自动弹出，如何禁止这种行为？

已安装 astroML_addons，但运行时仍提示"using slow version"（使用慢速版本）警告，如何解决？

在 Mac OS 上运行 nosetests 时出现"Segmentation fault: 11"崩溃，是 astroML 的问题吗？

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|昨天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架

awesome-machine-learning

awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。

★ 72.1k|★☆☆☆☆|2天前

开发框架其他

scikit-learn

scikit-learn 是一个基于 Python 构建的开源机器学习库，依托于 SciPy、NumPy 等科学计算生态，旨在让机器学习变得简单高效。它提供了一套统一且简洁的接口，涵盖了从数据预处理、特征工程到模型训练、评估及选择的全流程工具，内置了包括线性回归、支持向量机、随机森林、聚类等在内的丰富经典算法。对于希望快速验证想法或构建原型的数据科学家、研究人员以及 Python 开发者而言，scikit-learn 是不可或缺的基础设施。它有效解决了机器学习入门门槛高、算法实现复杂以及不同模型间调用方式不统一的痛点，让用户无需重复造轮子，只需几行代码即可调用成熟的算法解决分类、回归、聚类等实际问题。其核心技术亮点在于高度一致的 API 设计风格，所有估算器（Estimator）均遵循相同的调用逻辑，极大地降低了学习成本并提升了代码的可读性与可维护性。此外，它还提供了强大的模型选择与评估工具，如交叉验证和网格搜索，帮助用户系统地优化模型性能。作为一个由全球志愿者共同维护的成熟项目，scikit-learn 以其稳定性、详尽的文档和活跃的社区支持，成为连接理论学习与工业级应用的最

★ 65.6k|★☆☆☆☆|昨天

开发框架其他数据工具

keras

Keras 是一个专为人类设计的深度学习框架，旨在让构建和训练神经网络变得简单直观。它解决了开发者在不同深度学习后端之间切换困难、模型开发效率低以及难以兼顾调试便捷性与运行性能的痛点。无论是刚入门的学生、专注算法的研究人员，还是需要快速落地产品的工程师，都能通过 Keras 轻松上手。它支持计算机视觉、自然语言处理、音频分析及时间序列预测等多种任务。 Keras 3 的核心亮点在于其独特的“多后端”架构。用户只需编写一套代码，即可灵活选择 TensorFlow、JAX、PyTorch 或 OpenVINO 作为底层运行引擎。这一特性不仅保留了 Keras 一贯的高层易用性，还允许开发者根据需求自由选择：利用 JAX 或 PyTorch 的即时执行模式进行高效调试，或切换至速度最快的后端以获得最高 350% 的性能提升。此外，Keras 具备强大的扩展能力，能无缝从本地笔记本电脑扩展至大规模 GPU 或 TPU 集群，是连接原型开发与生产部署的理想桥梁。

★ 63.9k|★★☆☆☆|2天前

开发框架数据工具其他