awesome-time-series

GitHub
683 97 非常简单 1 次阅读 1周前数据工具开发框架
AI 解读 由 AI 自动生成,仅供参考

awesome-time-series 是一个专为时序数据和序列数据分析打造的开源资源合集。面对时间序列数据在采集、清洗、建模及预测过程中工具分散、标准不一的痛点,它系统地整理了涵盖 Python、R、Java 等多语言的高质量开发包、数据库、学术论文、实战模型及学习课程。

无论是需要快速构建预测模型的开发者,还是致力于探索新算法的研究人员,都能在这里找到趁手的利器。资源库中不仅包含了用于异常检测、特征工程和数据增强的实用工具(如 adtk、aeon),还汇集了来自 Facebook、LinkedIn、AWS 等巨头开源的核心框架(如 Kats、Greykite、GluonTS),以及动态时间规整(DTW)等专业算法实现。此外,它还提供了从入门书籍到专业社区的全链路学习路径。

awesome-time-series 不直接提供单一软件,而是作为一把“钥匙”,帮助用户高效定位最适合当前场景的技术方案,极大降低了时序分析领域的探索成本与入门门槛,是从事相关领域工作不可或缺的知识导航站。

使用场景

某电商数据团队需要为数千个 SKU 构建自动化销量预测系统,以优化库存管理并识别异常波动。

没有 awesome-time-series 时

  • 工程师需花费数周在 GitHub 和论文中盲目搜索,难以甄别哪些 Python 库(如 Prophet、ARIMA 或深度学习模型)最适合当前业务场景。
  • 缺乏统一的基准测试资源,导致团队重复造轮子,自行编写数据增强和变更点检测代码,开发效率极低且容易出错。
  • 面对海量时序数据,不知道如何选择合适的可视化工具来直观展示季节性趋势和异常值,沟通成本高昂。
  • 遇到模型漂移或对抗样本问题时,因找不到专门的检测算法包(如 alibi-detect),只能忽略潜在风险,导致预测准确率下降。

使用 awesome-time-series 后

  • 团队直接利用清单中的分类指引,快速锁定了 AutoTS 进行大规模自动建模,并用 Kats 处理特征工程,将选型时间从数周缩短至半天。
  • 参考列表中成熟的 Time Series AugmentationChange Point Detection 方案,直接复用经过验证的代码库,避免了底层算法的重复开发。
  • 采用推荐的可视化专用库,迅速生成了交互式趋势图表,让非技术背景的管理层也能清晰理解库存预警逻辑。
  • 引入 alibi-detect 等专项工具监控模型漂移,及时发现了促销活动期间的数据分布变化,显著提升了系统的鲁棒性和预测精度。

awesome-time-series 通过提供一站式的资源导航,将原本分散、高门槛的时序开发流程转化为高效、标准化的落地实践。

运行环境要求

操作系统
  • 未说明
GPU

未说明

内存

未说明

依赖
notes该仓库是一个时间序列相关资源(库、数据库、论文、课程等)的精选列表,而非单一的可执行软件工具。因此,README 中未提供统一的运行环境需求。具体的系统要求(如操作系统、Python 版本、GPU 需求、依赖库等)需参考列表中各个独立项目(如 Prophet, Darts, GluonTS 等)各自的文档。
python未说明
awesome-time-series hero image

快速开始

📈 令人惊叹的时间序列 📉

用于处理序列数据和时间序列数据的资源集合

📦 软件包

Python

  • adtk 一个用于时间序列中基于规则/无监督异常检测的 Python 工具包。
  • aeon 面向时间序列的统一机器学习框架。
  • alibi-detect 用于离群点、对抗样本和数据漂移检测的算法。
  • AutoTS 一个专为快速部署大规模高精度预测而设计的 Python 时间序列工具包。
  • Auto_TS 使用一行代码即可自动构建 ARIMA、SARIMAX、VAR、FB Prophet 和 XGBoost 等时间序列模型。现已集成 Dask,可处理百万行数据。
  • cesium 开源的时间序列推理平台。
  • darts 让 Python 中的时间序列分析变得简单。这是一个用于轻松操作和预测时间序列的 Python 库。
  • deeptime 用于时间序列数据分析的 Python 库,包括降维、聚类和马尔可夫模型估计等功能。
  • dtw-python R 语言中 Comprehensive Dynamic Time Warp 算法包的 Python 移植版。
  • etna ETNA 是一个易于使用的时间序列预测框架。
  • fost 一款开源的时空预测工具,旨在提供简单易用的时空预测解决方案。
  • functime 大规模的时间序列机器学习与嵌入技术。
  • gluon-ts AWS 提供的 Python 概率时间序列建模工具。
  • gordo 利用时间序列数据构建数千个模型来监控系统。
  • greykite 来自 LinkedIn 的灵活、直观且快速的预测库。
  • hmmlearn 基于 scikit-learn 风格 API 的 Python 隐马尔可夫模型库。
  • HyperTS 一个全流程自动化时间序列分析工具包。
  • kats 用于分析时间序列数据的工具包,是一个轻量级、易用、通用且可扩展的框架,可用于执行时间序列分析任务,从理解关键统计特征、检测变点和异常到预测未来趋势。
  • libmaxdiv 实现了最大差异区间算法,用于多变量时空时间序列中的异常检测。
  • lifelines Python 中的生存分析工具。
  • luminaire 一个提供基于机器学习的时间序列监控解决方案的 Python 包。Luminaire 提供多种异常检测和预测功能,能够结合数据随时间变化的相关性和季节性模式,以及不可控的波动。
  • mass-ts Mueen 相似性搜索算法库,用于在 z 归一化欧氏距离下搜索时间序列子序列的相似性。
  • matrixprofile 一个利用矩阵轮廓算法使时间序列挖掘任务对所有人开放的 Python 库。
  • Merlion 一个用于时间序列智能的 Python 库。它提供了一个端到端的机器学习框架,包括数据加载与转换、模型构建与训练、模型输出后处理以及模型性能评估。
  • neuralforecast 可扩展且用户友好的神经网络预测算法。
  • nixtla 自动化的时间序列处理与预测工具。
  • orbit Uber 开发的面向对象设计和概率模型驱动的贝叶斯预测包。
  • pastas 一个用于水文时间序列分析的开源 Python 框架。
  • pmdarima 一个填补 Python 时间序列分析能力空白的统计库,包含与 R 语言 auto.arima 函数等效的功能。
  • prophet 用于对具有多重季节性和线性或非线性增长的时间序列数据进行高质量预测的工具。
  • pyaf PyAF 是一个基于流行的 pydata 模块构建的开源 Python 自动时间序列预测库。
  • PyDLM 贝叶斯时间序列建模包。基于贝叶斯动态线性模型(Harrison 和 West, 1999),并针对快速模型拟合和推断进行了优化。
  • PyFlux 一个开源的 Python 时间序列库。
  • pyFTS 一个用于模糊时间序列的开源 Python 库。
  • Pyod 一个用于可扩展离群点检测(异常检测)的 Python 工具箱。
  • PyPOTS 一个用于部分观测时间序列(即不规则采样时间序列)数据挖掘的 Python 工具箱/库,支持对含有缺失值的不完整多变量时间序列进行预测、插补、分类和聚类等任务。
  • pyspi 用于多变量时间序列中成对交互作用的比较分析。
  • pytimetk Python 的时间序列工具包。
  • rrcf 实现了鲁棒随机切割森林算法,用于流式数据的异常检测。
  • scalecast 一种适用于 Python 的可扩展时间序列预测方法。
  • scikit-hts 使用熟悉 API 进行层次化时间序列预测。
  • seglearn 一个用于时间序列或序列机器学习的 Python 包。
  • shyft 提供 Python 和 C++ 的时间序列工具,包括分布式存储与计算、水文预测工具箱、高性能灵活堆栈,以及校准能源市场模型和微服务等功能。
  • similarity_measures 用于量化两条任意曲线之间的差异。
  • skforecast 使用 scikit-learn 模型进行时间序列预测。
  • sktime 一个与 scikit-learn 兼容的 Python 时间序列学习工具箱。
  • statsforecast 使用统计和计量经济模型实现闪电般快速的预测。
  • statsmodels.tsa 时间序列分析(tsa)。statsmodels.tsa 包含对时间序列分析有用的模型类和函数。
  • stumpy 一个功能强大且可扩展的 Python 库,可用于各种时间序列数据挖掘任务。
  • TICC 一个用于高效分割和聚类多变量时间序列的 Python 求解器。
  • tick 统计学习模块,特别强调依赖于时间的建模。
  • TimeCopilot 一个开源的预测代理,将大型语言模型的强大能力与最先进的时间序列基础模型相结合。
  • timemachines 持续评估、功能完善、递增式的时间序列预测。
  • TimeSeers 一个基于 Prophet、使用 PyMC3 编写的分层贝叶斯时间序列模型。
  • TimesFM TimesFM(时间序列基础模型)是 Google Research 开发的预训练时间序列基础模型,用于时间序列预测。
  • Time Series Generator 解决了 Keras 中直接多步输出受限的问题。
  • tods 一个自动化的时间序列离群点检测系统。
  • torchtime 为 PyTorch 提供时间序列数据集。
  • TSDB 时间序列数据库:一个帮助轻松加载时间序列数据集的 Python 工具箱。
  • tsai 用于时间序列和序列的最先进深度学习库。
  • tscv 时间序列交叉验证——scikit-learn 的扩展。
  • tsflex 灵活的时间序列特征提取与处理。
  • tslearn 用于 Python 时间序列分析的机器学习工具箱。
  • tslumen 一个用于时间序列探索性数据分析(EDA)的库。
  • tsmoothie 一个以向量化方式实现时间序列平滑和异常检测的 Python 库。

日期与时间

用于处理日期和时间的库。

  • astral Python 库,用于计算太阳和月亮的位置。
  • Arrow - 一个 Python 库,提供了一种合理且人性化的日期、时间和时间戳的创建、操作、格式化和转换方式。
  • Chronyk - 一个用于解析人类书写的时间和日期的 Python 3 库。
  • dateutil - 对标准 Python datetime 模块的扩展。
  • delorean - 一个用于解决与 datetime 处理相关不便问题的库。
  • maya - 为人类设计的日期时间库。
  • moment - 一个用于处理日期/时间的 Python 库。灵感来源于 Moment.js
  • Pendulum - 让 Python 的日期时间处理变得简单。
  • PyTime - 一个易于使用的 Python 模块,旨在通过字符串操作日期/时间/日期时间。
  • pytz - 全球时区定义,包括现代和历史时区。将 tz 数据库 引入 Python。
  • when.py - 提供用户友好的函数,帮助执行常见的日期和时间操作。

特征工程

  • AntroPy 用于高效计算时间序列熵和复杂度的算法。
  • catch22 CAnonical Time-series CHaracteristics,包含 22 种高性能时间序列特征,支持 C、Python 和 Julia。
  • featuretools 一个开源的 Python 库,用于自动化特征工程。
  • temporian Temporian 是一个开源的 Python 库,用于预处理 ⚡ 和特征工程 🛠 时间序列数据 📈,以应用于机器学习 🤖。
  • tsfeatures 从时间序列数据中计算各种特征。它是 R 包 tsfeatures 的 Python 实现。
  • tsfel 一个直观的库,用于提取时间序列特征。
  • tsflex 一个灵活高效的包,用于时间序列特征提取和处理。
  • tsfresh 该软件包包含多种特征提取方法以及强大的特征选择算法。

时间序列分割与变点检测

  • bayesian_changepoint_detection 用于获取时间序列中变点概率的方法。提供在线和离线两种方法。
  • changepy 纯 Python 实现的时间序列变点检测。
  • RBEAST 贝叶斯变点检测与时间序列分解。
  • ruptures 一个用于离线变点检测的 Python 库。该库提供了分析和分割非平稳信号的方法。
  • TCPDBench 图灵变点检测基准,用于评估变点检测算法的性能。

时间序列生成与增强

  • DeepEcho 用于混合类型、多变量时间序列的合成数据生成。
  • deltapy 用于表格数据增强和特征工程。
  • time_series_augmentation 使用 Keras 的时间序列增强示例。
  • TimeSynth 一个多功能的 Python 合成时间序列库。
  • tsaug 一个用于时间序列增强的 Python 包。
  • tsgm 用于合成时间序列和时间序列增强。

可视化

  • atlair 一个声明式的 Python 统计可视化库。
  • matplotlib 一个功能全面的 Python 库,用于创建静态、动画和交互式可视化。
  • plotly 一个绘图库,可以生成交互式、出版质量的图表。
  • seaborn 一个基于 matplotlib 的数据可视化库,提供了一个高层次的接口来绘制美观且信息丰富的统计图形。
  • tsdownsample 极速时间序列降采样,用于可视化。

基准测试与竞赛

R

  • bcp 变点问题的贝叶斯分析。
  • CausalImpact 一个基于贝叶斯结构化时间序列模型进行因果推断的R包。
  • changepoint 实现了多种主流及专用的变点检测方法,用于在数据中查找单个或多个变点。
  • cpm 使用参数和非参数方法进行顺序和批量变点检测。
  • EnvCpt 用于检测气候与环境时间序列中的结构变化。
  • fable 一个用于整洁时间序列预测的tidyverts包。
  • fasster 一个用于季节性、趋势和外生回归因子可加切换预测的tidyverts包。
  • feasts 一个用于时间序列特征提取和统计量计算的tidyverts包。
  • fpop 基于最优划分和函数剪枝的分割方法。
  • greybox 在R中构建回归模型并进行预测。
  • modeltime Modeltime在一个框架中解锁时间序列预测模型和机器学习。
  • penaltyLearning 用于监督学习变点检测惩罚函数的算法。
  • Rcatch22 用于计算22种典型时间序列特征的R包。
  • smooth 用于时间序列分析和预测的一组平滑函数。
  • theft 用于处理时间序列特征提取工具的R包。
  • timetk 一个tidyverse工具包,用于可视化、整理和转换时间序列数据。
  • tsibble 一个包含整洁时间序列数据框及工具的tidyverts包。
  • tsrepr TSrepr:用于时间序列表示的R包。

Java

  • SFA 可扩展的时间序列数据分析。
  • tsml 一种与Weka兼容的Java时间序列机器学习工具集。

JavaScript

可视化

  • cubism 一个用于可视化时间序列的D3插件。使用Cubism可以构建更好的实时仪表盘,从GraphiteCube等来源获取数据。
  • echarts 一个免费且功能强大的图表和可视化库,提供了一种简单的方法,将直观、交互式且高度可定制的图表添加到您的商业产品中。
  • fusiontime 帮助您仅用几行代码即可在JavaScript中可视化时间序列和股票数据。
  • highcharts 一个基于SVG的JavaScript图表库,对于旧版浏览器则会回退到VML和Canvas。
  • synchro-charts 一个前端组件库,提供了一系列用于可视化时间序列数据的组件。

Spark

  • flint 一个适用于Apache Spark的时间序列库。

MATLAB

  • hctsa 高度比较性的时间序列分析。

🗄️ 数据库

  • atlas 来自Netflix的内存中多维时间序列数据库。
  • cassandra Apache Cassandra是一个开源的NoSQL分布式数据库,被数千家公司信赖,因为它能够在不牺牲性能的情况下实现可扩展性和高可用性。
  • ClickHouse 一个开源的高性能列式OLAP数据库管理系统,用于使用SQL进行实时分析。
  • cratedb 适用于工业物联网中复杂、大规模时间序列工作负载的SQL数据库。
  • druid 一个高性能的实时分析数据库。
  • fauna Fauna是一个灵活、对开发者友好的事务型数据库,以安全且可扩展的云API形式提供,并原生支持GraphQL。
  • InfluxDB 是必备的时间序列工具包——仪表盘、查询、任务和代理全部集中在一个地方。
  • KairosDB 基于Cassandra的快速时间序列数据库。
  • opendTSDB 可扩展的时间序列数据库。
  • prometheus 一个开源的系统监控和告警工具包,最初是在SoundCloud开发的。
  • QuestDB 一个开源的SQL数据库,专为更快地处理时间序列数据而设计。
  • SiriDB 一个高度可扩展、健壮且超快速的时间序列数据库。
  • TimeScaleDB TimeScaleDB是领先的开源关系型数据库,支持时间序列数据。
  • TDengine 一个开源的时间序列数据库,具有高性能、可扩展性和SQL支持。

托管数据库服务

✏️ 注释与标注

  • AnnotateChange - 一个简单的 Flask 应用程序,用于收集图灵变点数据集的注释,该数据集是变点检测算法的基准数据集。
  • Curve - 一款开源工具,帮助标记时间序列数据中的异常。
  • TagAnomaly - 异常检测分析和标注工具,专门用于多时间序列(每个类别对应一条时间序列)。
  • time-series-annotator - 时间序列标注库,实现时间序列的分类任务。
  • WDK - 可穿戴设备开发工具包(WDK),是一套用于简化可穿戴设备活动识别应用开发的工具。

📝 论文与代码

  • 深入时间序列异常检测:十年回顾, Paul Boniol, Qinghua Liu, Mingyi Huang, Themis Palpanas, John Paparrizos, 2024

  • TS2Vec:迈向时间序列的通用表示, Zhihan Yue, Yujing Wang, Juanyong Duan, Tianmeng Yang, Congrui Huang, Yunhai Tong, Bixiong Xu, 2022

  • 动态时间序列的置信预测区间, Chen Xu, Yao Xie, 国际机器学习大会 2021(长篇报告)

  • 时间序列分类的深度学习:综述, H. I. Fawaz, G. Forestier, J. Weber, L. Idoumghar, P-A. Muller, 数据挖掘与知识发现 2019

  • 多元时间序列的贪婪高斯分割, D. Hallac, P. Nystrup 和 S. Boyd, 数据分析与分类进展,13(3), 727–751, 2019。

  • U-Time:用于睡眠分期的时间序列分割的全卷积网络, Mathias Perslev, Michael Jensen, Sune Darkner, Poul Jørgen Jennum, Christian Igel, NeurIPS, 2019。

  • 分段线性时间序列分割的更好替代方案, Daniel Lemire, SIAM 数据挖掘,2007。

  • 时间序列生成对抗网络, Jinsung Yoon, Daniel Jarrett, Mihaela van der Schaar, NeurIPS,2019。

  • 使用 LSTM 循环神经网络进行诊断的学习, Zachary C. Lipton, David C. Kale, Charles Elkan, Randall Wetzel, arXiv:1511.03677, 2015。

  • 基于一致性的时间序列标签传播加速主动学习, Yooju Shin, Susik Yoon, Sundong Kim, Hwanjun Song, Jae-Gil Lee, Byung Suk Lee, ICLR,2022。

💻 模型仓库

⚙️ 应用程序

  • binjr 一个时间序列数据浏览器。
  • CompEngine 一个自组织的时间序列数据库,允许用户上传时间序列数据,并交互式地可视化其他人测量的相似数据。

📚 图书

🎓 课程

教程

💬 社区

🗃 组织

💼 商业平台

  • HAKOM TSM 平台 提供全面的功能,用于预处理和存储来自不同来源、不同格式的时间序列数据,以满足各类分析和运营需求。

🕶️ 更多精彩

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|2周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

160.4k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

109.2k|★★☆☆☆|昨天
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|1周前
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|1周前
插件开发框架