awesome-data-analysis
awesome-data-analysis 是一个专为数据分析和数据科学领域打造的精选资源库,汇集了超过 500 个高质量的学习资料、工具库、路线图、速查表及面试指南。面对数据科学领域技术栈繁杂、学习资源分散的痛点,它将原本零散的信息进行了系统化梳理与分类,帮助用户快速定位所需内容。
该资源库覆盖面极广,不仅包含 Python、SQL、统计学基础等核心技能,还深入探讨了机器学习、MLOps、自然语言处理、时间序列分析以及云端基础设施等进阶主题。其独特的亮点在于结构清晰,从基础的数据清洗、可视化到复杂的工程化部署应有尽有,同时提供了专门的生产力提升建议(如 VS Code 插件)和职业发展指导。
无论是刚入门希望建立知识体系的新手,还是寻求高效解决方案的资深工程师、研究人员,都能从中获益。对于准备求职面试的从业者,这里整理的实战笔记和面试题更是宝贵的备考资料。awesome-data-analysis 致力于让数据探索之路更加高效顺畅,是每一位数据工作者值得收藏的“导航地图”。
使用场景
某电商公司的初级数据分析师小李,正面临紧急任务:需要在两天内完成对用户流失数据的探索性分析(EDA)并构建预测模型,但他对技术栈选型和高效工具链缺乏系统认知。
没有 awesome-data-analysis 时
- 资源检索低效:在谷歌和 GitHub 上盲目搜索"Python EDA 库”或“时间序列教程”,耗费大量时间筛选过时或质量参差不齐的内容。
- 技术盲区明显:不知道存在
ydata-profiling等自动化 EDA 工具,仍手动编写重复的代码绘制基础分布图,严重拖慢进度。 - 学习路径混乱:面对机器学习、SQL 优化和 MLOps 等众多领域,缺乏清晰的路线图(Roadmap),不知该优先补充哪项技能以解决当前瓶颈。
- 面试与实战脱节:手头只有零散的代码片段,缺乏系统的速查表(Cheatsheets)和面试指南,难以将理论知识快速转化为可落地的解决方案。
使用 awesome-data-analysis 后
- 一站式精准获取:直接通过其 curated 列表找到经过社区验证的 500+ 资源,瞬间锁定最适合电商场景的
Pandas高级技巧和Scikit-learn最佳实践。 - 工具链全面升级:在"Automated EDA"板块发现并应用了自动化可视化工具,将原本需要半天的数据清洗与绘图工作压缩至 1 小时内完成。
- 成长路径清晰:参考"Roadmaps"章节规划了从数据清洗到模型部署的学习顺序,并利用"Interview Prep"资源快速补齐统计学假设检验的知识短板。
- 效率显著提升:借助详细的速查表和精选 Jupyter Notebook 案例,快速复用了成熟的特征工程代码,确保了项目按时高质量交付。
awesome-data-analysis 不仅是一个资源清单,更是数据科学家从迷茫摸索走向高效实战的加速器和导航仪。
运行环境要求
- Linux
- macOS
- Windows
未说明
未说明

快速开始
令人惊叹的数据分析 
500+ 精选数据分析与数据科学资源:工具、库、学习路线图、速查表、面试指南等。
📖 为了更舒适的阅读体验: 网页版
🌟 让我们一起让数据分析更加高效!
用心维护
📑 目录
- 🏆 优秀数据科学仓库
- 🗺️ 学习路线图
- 🐍 Python
- 🗃️ SQL 与数据库
- 📊 数据可视化
- 📈 仪表板与商业智能
- 🕸️ 网页抓取与爬虫
- 🔢 数学
- 🎲 统计学与概率论
- 🧪 A/B 测试
- ⏳ 时间序列分析
- ⚙️ 数据工程
- 📖 自然语言处理 (NLP)
- 🤖 机器学习与人工智能
- 🚀 MLOps
- 🧠 AI 应用与平台
- ☁️ 云平台与基础设施
- ⚡ 生产效率
- 📚 技能提升与职业发展
- 📋 速查表
- 📦 其他 Python 库
- 📝 更多 Awesome 列表
- 🌐 其他资源和工具
- 🤝 贡献
- 📜 许可证
🏆 优秀数据科学仓库
精心挑选的高质量 GitHub 仓库集合,供您获取灵感和学习参考。
- Awesome Data Science - 一个精选的数据科学课程、书籍、工具和资源列表。
- 面向初学者的数据科学 - 微软提供的数据科学课程体系。
- OSSU 数据科学 - 开放源代码社会大学的自学路径。
- 数据科学最佳资源 - 精心整理的数据科学资源链接合集。
- 来自 CodeCut 的数据科学文章 - 一系列关于数据科学的文章、视频和代码。
- 使用 Python 进行数据分析 - 提供使用 Python 进行数据分析的相关资源。
🗺️ 路线图
逐步指南和技能树,助你掌握数据科学和分析。
- 数据分析师路线图 - 面向分析师的结构化学习路径。
- 从A到Z的数据科学路线图 - 数据科学的全面路线图。
- 学习数据科学的路线图 - 一份全面且更新的学习数据科学路线图,涵盖现代工具与技术。
- 66天数据之旅 - 为期66天的数据分析学习挑战。
- 面向专业人士的数据分析师路线图 - 针对各层次分析师的8周课程。
- 数据科学路线图教程 - 数据科学路线图的相关教程。
- 从零开始的数据分析师路线图 - 从零起步成为数据分析师的指南。
🐍 Python
资源
用于学习和精通Python编程的资源合集。
- Awesome Python - 一份精选的Python框架、库、软件及资源列表。
- 30天学Python - 一个为期30天的Python编程学习挑战。
- Real Python教程 - Real Python提供的Python教程。
- Awesome Python数据科学 - 精选的Python数据科学资源列表。
- Python数据科学手册 - 《Python数据科学手册》的完整文本,以Jupyter Notebook形式呈现。
- 交互式编码挑战 - 超过120个交互式的Python面试编码挑战。
- Clean Code Python - 适用于Python的整洁代码理念。
- Python最佳资源 - 一份排名靠前的Python开源库和工具列表。
- GeeksforGeeks Python - GeeksforGeeks提供的Python教程。
- W3Schools Python - 适合初学者的Python编程语言教程与参考。
- Tanu N Prabhu Python - 此仓库帮助你从零开始理解Python。
- Think Python - Allen Downey的《Think Python》配套Jupyter笔记本及其他资源。
使用Pandas和NumPy进行数据处理
关于如何使用Pandas和NumPy的教程及最佳实践。
- Awesome Pandas - 一份精选的Pandas库使用资源列表。
- 100个Pandas数据谜题 - 一系列用于练习Pandas技能的数据谜题。
- Pandas Tutor - 逐步可视化Pandas操作(非常适合初学者)。
- Pandas练习 - 旨在提升Pandas技能的练习。
- Pandas食谱 - 包含多种高效使用Pandas技巧的食谱。
- 动手实践:使用Pandas进行数据分析 - 用于配合《动手实践:使用Pandas进行数据分析》一书学习的材料。
- 高效Pandas - 专注于编写高效且符合Python习惯用法的Pandas代码系列。
- 从Python到NumPy - 一本关于向量化及使用NumPy进行高效数值计算的开放获取书籍。
- NumPy 100个练习 - 一套包含100个练习的资源,帮助掌握用于科学计算的NumPy库。
用于数据分析的实用Python工具
一系列用于高效数据处理、清洗、可视化、验证和分析的Python库。
数据处理与转换
- Pandas - 功能强大的 Python 数据分析与操作库,提供灵活的数据结构。
- NumPy - Python 中用于科学计算的基础包,支持多维数组。
- Pandas DQ - 用于数据类型校正和 DataFrame 自动清洗的工具。
- Vaex - 高性能的 Python 库,支持惰性加载的大规模 DataFrame。
- Polars - 面向 DataFrame 的多线程、向量化查询引擎。
- Fugue - 提供 Pandas、Spark 和 Dask 的统一接口。
- TheFuzz - 模糊字符串匹配(Levenshtein 距离)。
- DateUtil - 扩展标准 Python datetime 功能的工具。
- Arrow - 增强日期和时间处理功能。
- Pendulum - 支持时区的 datetime 替代品。
- Dask - 用于数组和 DataFrame 的并行计算框架。
- Modin - 通过分布式计算加速 Pandas。
- Pandarallel - 为 Pandas DataFrame 提供并行操作。
- DataCleaner - 自动清理和准备数据集的 Python 工具。
- Pandas Flavor - 为 Pandas 添加自定义方法。
- Pandas DataReader - 从各种在线源读取数据到 Pandas DataFrame。
- Sklearn Pandas - 连接 Pandas 和 Scikit-learn 的桥梁。
- CuPy - 一个兼容 NumPy 的数组库,利用 NVIDIA CUDA 加速高性能计算。
- Numba - 一种 JIT 编译器,可将 Python 和 NumPy 的子集代码转换为高效的机器码。
- Pandas Stubs - Pandas 的类型存根文件,改善 IDE 自动补全功能。
- Petl - 用于数据清洗和转换的 ETL 工具。
自动化 EDA 和可视化工具
- AutoViz - 一行代码即可实现自动数据可视化。
- Sweetviz - 自动 EDA 并支持数据集比较。
- Lux - 在 Jupyter 中自动可视化 DataFrame。
- YData Profiling - 数据质量剖析与探索性数据分析。
- Missingno - 可视化缺失数据模式。
- Vizro - 低代码工具箱,用于构建数据可视化应用。
- Yellowbrick - 机器学习的可视化诊断工具。
- Great Tables - 使用 Python 创建精美的展示表格。
- DataMapPlot - 制作精美的数据地图图表。
- Datashader - 快速且准确地渲染超大规模数据。
- PandasAI - 使用 LLM 和 RAG 进行对话式数据分析。
- Mito - Jupyter 扩展,提升代码编写效率。
- D-Tale - 浏览器中的交互式数据可视化界面。
- Pandasgui - 用于查看和筛选 DataFrame 的 GUI。
- PyGWalker - 用于 DataFrame 可视化分析的交互式 UI。
- QGrid - Jupyter 中的交互式 DataFrame 网格。
- Pivottablejs - 在 Jupyter 中使用交互式 PivotTable.js 表格。
数据质量与验证
- PyOD - 异常值与异常检测。
- Alibi Detect - 异常值、对抗样本及数据漂移检测。
- Pandera - 通过声明式模式进行数据验证。
- Cerberus - 基于模式的数据验证。
- Pydantic - 使用 Python 类型注解进行数据验证。
- Dora - 自动化 EDA:预处理、特征工程、可视化。
- Great Expectations - 数据验证与测试。
特征工程与选择
- FeatureTools - 自动化特征工程工具。
- Feature Engine - 兼容 Scikit-Learn 的特征工程库。
- Prince - 多变量探索性数据分析(PCA、CA、MCA)。
- Fitter - 识别数据分布类型。
- Feature Selector - 用于机器学习数据集降维的工具。
- Category Encoders - 丰富的分类变量编码工具集。
- Imbalanced Learn - 处理不平衡数据集的工具。
专用数据工具
- cuDF - 一个用于加载、连接和聚合数据的 GPU DataFrame 库。
- Faker - 生成用于测试的虚假数据。
- Mimesis - 生成逼真的测试数据。
- Geopy - 地理编码地址并计算距离。
- PySAL - 空间分析函数。
- Scattertext - 文档类型之间语言差异的精美可视化。
- IGraph - 用于创建和操作图与网络的库,提供多种语言的绑定。
- Joblib - Python 的轻量级流水线库,特别适用于保存和加载大型 NumPy 数组。
- ImageIO - 提供简单接口来读取和写入各种图像数据的库。
- Texthero - 文本预处理、表示和可视化。
- Geopandas - 使用 pandas 进行地理数据操作。
- NetworkX - 网络分析与图论。
- Chardet - 用于检测文本和文件字符编码的 Python 库。
🗃️ SQL 与数据库
资源
SQL 教程和数据库设计原则。
- SQLZoo - SQL 教程 - 交互式 SQL 教程。
- SQL Bolt - 学习 SQL - 通过互动课程学习 SQL。
- SQL 教程 - 全面的 SQL 教学资源。
- W3Schools 的 SQL 教程 - 全面的 SQL 教程。
- W3Resource 的 PostgreSQL 教程 - PostgreSQL 教程。
- W3Resource 的 MySQL 教程 - MySQL 教程。
- W3Resource 的 MongoDB 教程 - MongoDB 教程。
- EverSQL - 基于 AI 的 SQL 查询优化和数据库可观ility 工具。
- Awesome Database Learning - 关于数据库内部机制、分布式系统和存储的教育资源。
- Awesome Postgres - 精选的 PostgreSQL 软件、库、工具和资源列表。
- Awesome MySql - 精选的 MySQL 软件、库、工具和资源列表。
- Awesome Clickhouse - 精选的 ClickHouse 软件列表。
- Awesome MongoDB - 精选的 MongoDB 资源、库、工具和应用列表。
- Awesome Duckdb - 为 DuckDB 分析型数据库精选的工具、资源和扩展。
- Awesome SQLAlchemy - 为 SQLAlchemy 精选的优秀工具列表。
- Awesome Sql - 用于操作关系型数据库的工具和技术列表。
- AnimateSQL - 交互式工具,可可视化 SQL 查询的逐步执行过程。
- SQL 技巧与窍门 - 用于数据分析的实用 SQL 技术和优化方法。
- 练习窗口函数 - 免费的交互式 SQL 教学网站,专注于通过 80 多个带提示和解答的实际问题来掌握窗口函数。
工具
一系列用于无缝访问和操作数据库的库和驱动程序。
- PyODBC - 用于 ODBC 数据库访问的 Python 库。
- SQLAlchemy - Python 的 SQL 工具包和 ORM。
- Psycopg2 - PostgreSQL 数据库适配器。
- MySQL Connector/Python - Python 的 MySQL 驱动程序。
- PonyORM - 支持动态查询生成的 Python ORM。
- PyMongo - 官方的 MongoDB Python 驱动程序。
- SQLiteviz - 用于探索 SQLite 数据库并可视化查询结果的工具。
- SQLite - 用 C 语言实现的小型、快速、自包含、高可靠性且功能齐全的 SQL 数据库引擎。
- DB Browser for SQLite - 高质量、可视化、开源的工具,可用于创建、设计和编辑与 SQLite 兼容的数据库文件。
- DBeaver - 开发人员、SQL 程序员和管理员使用的免费通用数据库工具和 SQL 客户端。
- Beekeeper Studio - 现代、易用的 SQL 客户端和数据库管理器,具有简洁的跨平台界面。
- SQLFluff - 模块化的 SQL 静态分析工具和自动格式化工具,旨在强制执行一致的代码风格并捕获 SQL 代码中的错误。
- PyMySQL - 纯 Python 实现的 MySQL 客户端库,用于从 Python 应用程序中与 MySQL 数据库交互。
- Vanna.AI - 基于 AI 的工具,可根据自然语言问题生成 SQL 查询。
- SQLChat - 基于聊天的 SQL 客户端,允许用户使用自然语言对话查询数据库。
- Records - 通过 Python 语法向数据库执行 SQL 查询。
- Dataset - 类似 JSON 的接口,用于操作 SQL 数据库。
- SQLGlot - 无依赖的 SQL 解析器、转译器和优化器,专为 Python 设计。
- TDengine - 开源大数据平台,专为时序数据、物联网和工业监控设计。
- TimescaleDB - 开源的时序 SQL 数据库,针对快速数据插入和复杂查询进行了优化。
- DuckDB - 内存中的分析型数据库,用于快速执行 SQL 查询。
📊 数据可视化
资源
色彩理论、图表选择指南和故事讲述技巧。
- From Data to Viz - 一本根据你的数据选择合适可视化方式的指南。
- Awesome DataViz - 一个精选的数据可视化库、工具和资源列表。
- Visualization Curriculum - 用于教授数据可视化概念的交互式笔记本。
- Scientific Visualization Book - 创造有效科学可视化和图表的指南。
- The Python Graph Gallery - 一个用于数据可视化的Python图表示例集合。
- FlowingData - 数据分析和可视化的见解。
- Data Visualization Catalogue - 一份全面的数据可视化类型目录。
- Data Viz Project - 一个帮助选择合适可视化方式的资源。
- Chartopedia - 一份帮助你选择适当图表类型的指南。
- DataForVisualization - 数据可视化技术的教程和见解。
- Truth & Beauty - 探索数据可视化的美学。
- Cedric Scherer's DataViz Resources - 一组顶级的数据可视化资源和灵感。
- Information is Beautiful - 一个致力于将复杂概念清晰且引人入胜地可视化的网站。
- Plottie - 一个庞大的科学图表库,提供可视化灵感和创意。
- Friends Don't Let Friends - 一系列不良数据可视化实践及其更好的替代方案。
- Natural Colours - 一个数字档案,收录了历史上的色彩系统和颜料。
- Colorgorical - 一个基于感知原则生成分类色彩调色板的资源。
工具
用于静态、交互式和3D可视化的库。
- Matplotlib - 一个功能全面的Python库,可用于创建静态、动画和交互式可视化。
- Seaborn - 一个基于Matplotlib的统计数据可视化库。
- Plotly - 一个用于创建交互式图表和仪表板的库。
- Altair - 一个声明式的Python统计可视化库。
- Bokeh - 一个用于在现代浏览器中创建交互式可视化的库。
- HoloViews - 一个可以轻松构建复杂可视化工具。
- Geopandas - Pandas的一个扩展,专门处理地理空间数据。
- Folium - 一个用于在交互式地图上可视化数据的库。
- Pygal - 一个Python SVG图表库。
- Plotnine - 一个适用于Python的图形语法库。
- Bqplot - 一个适用于IPython/Jupyter笔记本的绘图库。
- PyPalettes - 一个包含超过2500种颜色映射的Python库。
- Deck.gl - 一个基于WebGL的框架,用于对大型数据集进行视觉化探索性数据分析。
- Python for Geo - Contextily:为GeoPandas中的图表添加背景底图。
- OSMnx - 一个方便从OpenStreetMap下载、建模、分析和可视化街道网络的软件包。
- Apache ECharts - 一个功能强大、交互式的图表和可视化库,适用于基于浏览器的应用程序。
- VisPy - 一个高性能的交互式2D/3D数据可视化库,利用OpenGL的强大功能。
- Glumpy - 一个基于OpenGL的Python科学可视化库,速度快、可扩展且美观。
- Pandas-bokeh - Bokeh的Pandas绘图后端。
- QGIS - 一个免费、开源、跨平台的地理信息系统(GIS)。
- Flourish - 一个无需编码即可创建交互式数据可视化和故事的平台。
📈 仪表板与商业智能
资源
使用各种工具和框架构建及优化仪表板和可视化效果的教程。
- Awesome Dashboards - 一组出色的仪表板和可视化资源。
- Best of Streamlit - 社区构建的Streamlit应用展示。
- Awesome Dash - 面向Dash用户的综合资源。
- Awesome Panel - 针对Panel用户提供的资源和支持。
- Awesome Streamlit - 一个精心挑选的Streamlit资源和组件列表。
- Dash Enterprise Samples - 可直接投入生产的Dash应用程序。
- geeksforgeeks - Tableau Tutorial - 一篇关于Tableau的全面教程。
- geeksforgeeks - Power BI Tutorial - 一篇关于Power BI的详细教程。
- Tableau Public Gallery - 一个精选的真实世界交互式仪表板集合,可供启发和学习。
工具
用于构建自定义仪表板解决方案的框架。
- Dash - 用于创建交互式Web应用的框架。
- Streamlit - 简化的数据应用开发框架。
- Panel - 用于创建自定义交互式Web应用和仪表板的Python库。
- Gradio - 用于创建和分享机器学习应用的工具。
- OpenSearch Dashboards - 面向OpenSearch数据的强大数据可视化与仪表板工具,由Kibana分叉而来。
- GridStack.js - 用于构建可拖拽、可调整大小且响应式的仪表板布局的库。
- Tremor - 基于React的库,通过预构建的图表、KPI等组件快速搭建仪表板。
- Appsmith - 开源平台,可快速构建和部署内部工具、管理面板及CRUD应用。
- Grafanalib - 用于以代码形式生成Grafana仪表板配置的Python库。
- H2O Wave - Python框架,用于快速构建和部署面向AI与分析的实时Web应用和仪表板。
- Shiny for Python - 流行R Shiny框架的Python版本。
- Voilà - 将Jupyter笔记本转换为独立的Web应用。
- Reflex - 用于构建Web应用的全栈Python框架。
- Taipy - 用于构建Web应用和交互式仪表板的Python库。
- Evidence - 使用SQL和Markdown生成报表的商业智能平台。
软件
用于数据可视化和仪表板创建的领先工具与平台列表。
- Tableau - 领先的数据可视化软件。
- Microsoft Power BI - 用于数据可视化的商业分析工具。
- QlikView - 数据可视化与商业智能工具。
- Metabase - 用户友好的开源BI工具。
- Apache Superset - 开源的数据探索与可视化平台。
- Preset - 提供Apache Superset托管版本的现代商业智能平台。
- Metabase - 为公司内所有人提供分析与商业智能的最简单方式。
- Redash - 用于可视化和共享数据洞察的工具。
- Grafana - 仪表板与监控工具。
- Datawrapper - 用户友好的图表和地图制作工具。
- ChartBlocks - 在线图表制作平台。
- Infogram - 用于创建信息图和可视化内容的工具。
- Google Data Studio - 免费的交互式仪表板和报告制作工具。
- Rath - 新一代自动化数据探索与可视化平台。
- Kibana - Elastic Stack(Elasticsearch、Logstash、Beats)的官方可视化与仪表板工具。
🕸️ 网页抓取与爬虫
资源
使用Python进行网页抓取的宝贵资源、教程和库集合。
- Awesome Web Scraping - 网页抓取和数据处理相关的库、工具和API列表。
- Python Scraping - 来自《用Python进行网页抓取》一书的代码示例。
- Scraping Tutorial - 流媒体网站抓取教程。
- Webscraping from 0 to Hero - 一个开放项目仓库,分享关于使用Python进行网页抓取的知识和经验。
工具
用于网络爬虫的库和工具列表。
- Requests - 一个简单而优雅的 Python HTTP 库。
- BeautifulSoup - 用于解析 HTML 和 XML 文档的库。
- Selenium - 一个用于测试目的的 Web 应用程序自动化工具。
- Scrapy - 一个开源且协作式的 Python 网络爬虫框架。
- Browser Use - 一个用于浏览器自动化和网络爬取的库。
- Gerapy - 基于 Scrapy、Scrapyd、Django 和 Vue.js 的分布式爬虫管理框架。
- AutoScraper - 一个智能、自动、快速且轻量级的 Python 网络爬虫。
- Feedparser - 一个用于在 Python 中解析信息源的库。
- Trafilatura - 一个用于在网络上收集文本和元数据的 Python 及命令行工具。
- You-Get - 一个小型命令行实用程序,用于从网上下载媒体内容(视频、音频、图片)。
- MechanicalSoup - 一个用于自动化与网站交互的 Python 库。
- ScrapeGraph AI - 一个基于 AI 的 Python 爬虫。
- Snscrape - 一个用 Python 编写的社交网络服务爬虫。
- Ferret - 一个网络爬取系统,允许你使用简单的查询语言声明式地描述要提取的数据。
- Grab - 一个用于构建网络爬虫应用的 Python 框架,提供用于异步请求的高级 API。
- Playwright - Playwright 浏览器自动化库的 Python 版本。
- PyQuery - 一个类似于 jQuery 的库,用于在 Python 中解析 HTML 文档。
- Helium - 一个高层次的 Selenium 封装,便于进行 Web 自动化。
- Scrapling - 一个用于构建网络爬虫和抓取器的框架。
- Crawl4AI - 一个专为 AI 和数据提取任务设计的高级网络爬虫框架。
🔢 数学
一系列学习数学的资源,特别是在数据科学和机器学习背景下的资源。
- Awesome Math - 一份精选的数学资源、书籍和在线课程列表。
- MML Bool - 一份关于机器学习中数学的全面资源。
- 3Blue1Brown - 通过动画视频对数学概念进行可视化解释。
- Immersive Linear Algebra - 一个交互式资源,用于理解线性代数。
- Hackermath - 一份用于学习数据科学中统计学和数学的资源。
- Stats Maths with Python - 一组用于统计学和数学的 Python 脚本和笔记本。
- Fast.ai - Computational Linear Algebra - 一份用于以计算方式学习线性代数的资源。
🎲 统计学与概率论
资源
一系列专注于统计学和概率论的资源,包括教程和综合指南。
- Awesome Statistics - 一份精选的统计学资源、软件和学习材料列表。
- The Elements of Statistical Learning - 用于理解统计学习概念的笔记本。
- Seeing Theory - 一个交互式视觉资源,用于学习概率和统计。
- O'Reilly 书籍代码仓库 - 一本实用统计学书籍的配套代码。
- 斯坦福大学统计学习理论 - 关于统计学习理论的讲义。
- StatLect - 一本涵盖概率和统计概念的综合性在线教科书。
- 斯坦福大学的概率与统计复习课程 - 斯坦福大学提供的概率与统计复习课程。
- Bayesian Methods for Hackers - 一份用于学习 Python 中贝叶斯方法的资源。
- Python 中的贝叶斯建模与计算 - 一本书《Python 中的贝叶斯建模与计算》的代码。
- Stat Trek - 一个包含教程和工具的学习统计学和概率论的资源。
- 在线统计学书籍 - 一本带有模拟和演示的交互式在线统计学书籍。
- All of Statistics - 一份基于 Wasserman 书籍的统计学学习资源。
- Think Stats - 一本介绍概率与统计的书籍及其代码。
- Think Bayes 2 - 一本关于贝叶斯统计方法的书籍及其代码。
- Causal Inference: The Mixtape - 一份关于因果推断方法的实用指南。
- The Effect - 一本现代的关于因果关系和研究设计的入门书籍。
- The Statistics Handbook - 一本开源的统计学实践手册。
工具
专注于统计与概率的工具集合。
- SciPy - 科学计算和统计的基础库。
- Statsmodels - 用于统计建模、检验及数据探索。
- PyMC - Python中的概率编程库,支持灵活的贝叶斯建模。
- Pingouin - 相较于SciPy,具有更好易用性的统计包。
- scikit-posthocs - 用于数据分析的事后检验工具。
- Lifelines - Python中的生存分析与事件历史分析工具。
- scikit-survival - 基于scikit-learn的生存分析库,用于时间至事件预测。
- Bootstrap - 用于自助法置信区间估计的方法。
- PyStan - Stan的Python接口,用于贝叶斯统计建模。
- ArviZ - 提供可视化诊断的贝叶斯模型探索性分析工具。
- PyGAM - Python库,用于广义加性模型,内置平滑与正则化功能。
- NumPyro - 基于JAX的概率编程库,适用于高性能贝叶斯建模。
- Causal Impact - R包的Python实现,利用贝叶斯结构化时间序列模型进行因果推断。
- DoWhy - Python库,支持显式建模与检验因果假设。
- Patsy - 用于描述统计模型并构建设计矩阵的Python库。
- Pomegranate - 快速且灵活的Python概率建模库,支持GPU加速。
- Pgmpy - 使用图模型进行概率与因果推理的Python库。
🧪 A/B测试
专注于A/B测试的相关资源集合。
- DynamicYield A/B测试课程 - 涵盖高级测试与优化技术的在线课程。
- Evan's Awesome A/B Tools - A/B测试计算器。
- Experimentguide - 行业领先者提供的A/B测试与实验实践指南。
- Google A/B测试课程 - Udacity免费课程,讲解A/B测试基础。
- So You Think You Can Test? - 通过教育模拟体验A/B测试的挑战。
⏳ 时间序列分析
资源
用于理解时间序列基础及分析技术的资源集合。
- Awesome Time Series - 精选的时间序列分析与预测资源列表。
- Forecasting: Principles and Practice - 包含实用案例的全面预测方法教材。
- NIST/SEMATECH e-手册 - NIST官方发布的时间序列分析指南。
- Awesome Time Series Anomaly Detection - 专门针对时间序列异常检测的工具、数据集和论文精选列表。
- Awesome Time Series in Python - Python中用于时间序列分析的全面工具与库列表。
工具
用于处理时间数据的工具集合。
- Facebook Prophet - 基于加法模型的时间序列预测程序。
- Uber Orbit - 用于贝叶斯时间序列预测与推断的Python包。
- sktime - 与scikit-learn兼容的统一时间序列机器学习框架。
- GluonTS - 基于MXNet的概率时间序列建模工具包。
- Time-Series-Library - 用于基于深度学习的时间序列分析与预测的库。
- TimesFM - Google Research推出的预训练时间序列基础模型,可用于零样本预测。
- PyTorch Forecasting - 基于PyTorch的神经网络时间序列预测库。
- Time-series-prediction - 时间序列预测方法与实现的集合。
- PlotJuggler - 实时可视化与分析时间序列数据日志的工具。
- TSFresh - 自动从时间序列数据中提取特征。
- pmdarima - 用于ARIMA建模及时间序列分析的Python库。
- Kats - Facebook Research推出的时间序列数据分析工具包。
⚙️ 数据工程
资源
一系列资源,帮助您构建和管理健壮的数据管道与基础设施。
- 数据工程师手册 - 一本涵盖基础及高级数据工程概念的全面指南。
- 数据工程Zoomcamp - 免费的数据工程基础课程。
- Awesome Data Engineering - 精选的数据工程工具、软件和资源列表。
- 数据工程 Cookbook - 构建可靠数据平台的技术与策略。
- Awesome Pipeline - 用于数据处理和工作流管理的精选管道工具集。
- Awesome DB Tools - 精选的数据库工具列表。
- Awesome Kafka - 学习和使用Apache Kafka的相关资源:书籍、培训、工具等。
工具
一系列用于构建、部署和管理数据管道与基础设施的工具。
- dbt-core - 一个使用SQL和Jinja在数据仓库中进行数据转换的框架。
- Apache Spark - 一个用于大规模数据处理和分析的统一引擎。
- Apache Kafka - 一个分布式事件流平台,用于构建实时数据管道。
- Dagster - 一个用于机器学习、数据分析和ETL的数据编排工具。
- Apache Airflow - 一个用于以编程方式编写、调度和监控工作流的平台。
- Apache Hive - 一个数据仓库软件,允许使用SQL读取、写入和管理分布在分布式存储中的大型数据集。
- Apache Hadoop - 一个框架,可在计算机集群上对大型数据集进行分布式处理。
- Luigi - 一个用于构建复杂且批处理型数据管道的Python模块。
- Apache Iceberg - 一种用于超大规模分析数据集的高性能表格式。
- Apache Cassandra - 一个高度可扩展的分布式NoSQL数据库,专为在大量商品化服务器上处理海量数据而设计。
- Apache Flink - 一个用于无界和有界数据流上的状态化计算框架(实时流处理)。
- Apache Beam - 一个用于定义批处理和流式数据并行处理管道的统一模型。
- Apache Pulsar - 一个云原生的分布式消息传递和流媒体平台。
- Delta Lake - 一个存储层,为Apache Spark和大数据工作负载带来ACID事务特性。
- Apache Hudi - 一个开放的数据湖仓平台,基于高性能的开放表格式构建。
- Trino - 一个分布式SQL查询引擎,专为快速查询大型数据集而设计。
- DataHub - 一个面向现代数据栈的元数据平台。
- OpenLineage - 一个用于收集和分析数据血缘关系的开放框架。
- Kedro - 一个用于创建可重复、可维护且模块化的数据科学代码的框架。
- Apache Calcite - 一个动态数据管理框架,支持SQL解析、优化和联邦查询。
- Prefect - 一个用于构建弹性数据管道的工作流编排工具。
- Apache Arrow - 一种通用的列式数据格式及多语言工具箱,用于高效的数据交换。
- Kestra - 一个开源的事件驱动型编排工具,简化数据工作流管理。
- Conductor - 一个用于运行复杂多步骤工作流和业务流程的编排引擎。
📖 自然语言处理(NLP)
资源
一些用于学习和应用Python中自然语言处理技术的资源。
- Awesome Nlp - 一份关于自然语言处理(NLP)的优秀Python库排名列表。
- Hugging Face NLP课程 - Hugging Face官方提供的关于Transformer和NLP的课程。
- Practical NLP Code - 实用自然语言处理的代码示例和笔记本。
- 牛津深度NLP讲座 - 来自牛津大学深度自然语言处理课程的讲义资料。
- NLTK书 - 使用Python进行自然语言处理。
- Susan Li的Python NLP教程 - 展示各种NLP技术和应用的Jupyter笔记本。
- Hands on NLTK教程 - Python中NLP的实践教程。
- YSDA NLP课程 - Yandex数据科学学校关于自然语言处理的课程。
- The NLP Pandect - 一本全面的NLP指南,涵盖理论、模型和实际应用。
工具
一系列用于自然语言处理的强大库和框架。
- Natural Language Toolkit (NLTK) - 一个用于构建处理人类语言数据的 Python 程序的领先平台。
- TextBlob - 一个用于处理文本数据的简单库。
- SpaCy - 一个用于 Python 中高级 NLP 的开源软件库。
- BERT - 一个基于 Transformer 的 NLP 任务模型。
- Flair - 一个用于最先进 NLP 的简单框架。
- OpenHands - 一个用于构建大型语言模型应用的库和框架。
- Stanford CoreNLP - 一套 Java 核心 NLP 工具,提供基础的语言分析能力。
- John Snow Labs Spark-NLP - 基于 Apache Spark 构建的最先进的自然语言处理库。
- TextAttack - 一个用于 NLP 中对抗攻击、数据增强和模型训练的 Python 框架。
- Gensim - 一个用于 Python 的主题建模和自然语言处理库。
- Stanza - 来自斯坦福 NLP 小组的多语言 Python NLP 库。
- SentenceTransformers - 一个用于最先进句子和文本嵌入的框架。
- LangExtract - 谷歌使用语言模型从文本中提取结构化信息的库。
- Rasa - 一个用于构建上下文感知 AI 助手和聊天机器人的开源框架。
🤖 机器学习与人工智能
资源
一系列帮助您学习和应用机器学习概念与技术的资源。
- Awesome Machine Learning - 一个精选的机器学习框架、库和软件列表。
- Machine Learning Tutorials - 机器学习和深度学习教程、文章及其他资源。
- Awesome Deep Learning - 一个精选的深度学习教程、项目和社区列表。
- Best of ML Python - 一个排名靠前的机器学习 Python 库和工具列表。
- Microsoft ML for Beginners - 一本面向初学者的机器学习概念与实践入门书。
- mlcourse.ai - 一门开放的机器学习课程,包含实践作业和真实世界的应用。
- Machine Learning Zoomcamp - 一门免费的实践机器学习课程,专注于模型的构建和部署。
- Awesome Artificial Intelligence - 一个精选的人工智能资源列表。
- Google Research - 谷歌研究项目和出版物的官方仓库。
- 100 Days of ML Coding - 一个为期 100 天的综合编码挑战,旨在学习机器学习。
- Made With ML - 一个用于构建和部署机器学习应用的资源。
- Handson-ml3 - 一本使用 Python 进行机器学习和深度学习的实践指南。
- AI For Beginners - 微软关于人工智能的课程。
- LLMs-from-scratch - 一个用于从头开始构建 LLM 的教育性仓库。
- Awesome Generative AI Guide - 一份关于生成式 AI 模型、工具和应用的全面指南。
- Awesome LLM - 一个精选的大语言模型相关论文、项目和资源列表。
- Machine Learning with Python by Susan Li - 包含各种机器学习算法和应用的 Jupyter 笔记本。
- Understanding Deep Learning - 一本全面且易于理解的深度学习基础教材。
- Deep Learning Papers Reading Roadmap - 一份为新手精心挑选的深度学习经典论文路线图。
- Applied ML - 一组为工业界应用机器学习而精选的资源和工具。
- Annotated deep learning paper implementations - 对深度学习论文进行实现,并附有注释代码。
- Ml From Scratch - 用 Python 从零开始实现的核心机器学习算法。
- Awesome Ai Ml Resources - 一个精心挑选的 AI/ML 书籍、课程和实用工具列表。
工具
用于开发和部署机器学习模型的一系列工具。
机器学习
- Scikit-learn - 经典算法和模型构建的机器学习库。
- XGBoost - 针对基于树的模型优化的分布式梯度提升库。
- LightGBM - 快速、分布式、高性能的梯度提升框架。
- CatBoost - 支持分类特征的高性能梯度提升决策树。
- H2O-3 - 开源分布式机器学习平台。
- cuML - RAPIDS 提供的 GPU 加速机器学习算法。
- dlib - 包含机器学习算法和工具的现代 C++ 工具包。
- SHAP - 基于博弈论的方法,用于解释任何机器学习模型的输出。
- InterpretML - 拟合可解释模型并解释黑盒机器学习。
- Optuna - 超参数优化框架。
深度学习
- TensorFlow - 用于机器学习和深度学习的端到端开源平台。
- PyTorch - 强有力支持研究与生产的深度学习框架。
- PyTorch Lightning - 用于高性能 AI 研究的 PyTorch 封装。
- PyTorch Ignite - 帮助训练和评估神经网络的高级库。
- Keras - 运行在 TensorFlow 之上的高级神经网络 API。
- Fast.ai - 简化快速且准确训练神经网络的深度学习库。
- HuggingFace Transformers - 用于最先进机器学习模型的模型定义框架。
- HuggingFace Diffusers - 用于最先进的预训练扩散模型的库。
- PEFT - 用于高效微调大型预训练模型的库。
- YOLOv5 - 实时目标检测系统。
- Ultralytics - YOLOv8 及其他计算机视觉模型。
- ONNX - 用于机器学习互操作性的开放标准。
- PyTorch Geometric - PyTorch 的几何深度学习扩展库。
- Pyro - 结合 Python 和 PyTorch 的深度通用概率编程。
- Skorch - 与 Scikit-learn 兼容的神经网络库。
- Sonnet - DeepMind 用于构建复杂神经网络的库。
- JAX - 对 Python + NumPy 程序进行可组合变换:求导、向量化、编译为 GPU/TPU 等。
- TensorFlow Models - TensorFlow 官方仓库,包含模型和示例。
- Fenn - 一个简单的框架,通过提供预制的训练器、模板、日志记录、配置管理等功能,自动化 ML/DL 工作流。
🚀 MLOps
资源
用于机器学习运维的材料和精选列表。
- MLOps Zoomcamp - 一门专注于 ML 系统部署和维护实践方面的免费课程。
- Awesome MLOps (visenger) - MLOps 相关参考资料的精选列表。
- Awesome MLOps (kelvins) - 精选的 MLOps 工具列表。
- Awesome LLMOps - 专为开发者准备的优秀 LLMOps 工具精选列表。
- LLM Zoomcamp - 一门专门介绍大型语言模型、其架构和应用的课程。
- ML Engineering Guide - 机器学习工程及 MLOps 最佳实践的实用指南。
- Awesome Production Machine Learning - 用于在生产环境中部署、监控和维护 ML 系统的工具精选列表。
- Llama Cookbook - 使用 Llama 模型的官方配方和示例。
- Awesome Kubeflow - Kubeflow 机器学习平台的精选资源、工具和项目。
工具
用于部署、监控和维护机器学习系统的平台和实用工具。
- ColossalAI - 高性能分布式训练框架。
- DVC - 适用于机器学习项目的版本控制系统。
- Evidently - 用于分析和监控数据及模型漂移的工具。
- Deepchecks - 用于机器学习模型和数据验证的工具。
- Sematic - 使用原生 Python 构建、调试和执行机器学习流水线的工具。
- netdata - 实时性能监控工具。
- meilisearch - 快速的开源搜索引擎。
- vLLM - 面向大语言模型的高吞吐量、内存高效的推理库。
- haystack - 用于构建搜索和问答系统的 LLM 框架。
- Kubeflow - 面向 Kubernetes 的机器学习工具包。
- Seldon Core - 用于在生产环境中部署和监控机器学习模型的开源平台。
- Feast - 机器学习特征存储,负责管理和为模型提供特征数据。
- BentoML - 用于构建、交付和扩展机器学习应用的框架。
- MLflow - 用于管理机器学习完整生命周期的开源平台。
- Wandb - 用于实验跟踪、数据集版本控制和模型管理的工具。
- Comet ML - 用于跟踪、比较和优化机器学习实验的平台。
- Netflix Metaflow - 一种人性化的 Python 库,帮助科学家和工程师构建并管理实际的数据科学项目。
- mindsdb - 将 AI 集成到数据库和应用程序中的平台。
- KServe - 标准化的无服务器推理平台,用于在 Kubernetes 上部署和提供机器学习模型服务。
- SQLFlow - 为 SQL 引入机器学习功能,允许使用 SQL 语法进行模型训练和预测。
- Jina AI Serve - 用于构建和部署通过 gRPC、HTTP 和 WebSockets 进行通信的 AI 服务的框架。
- LiteLLM - 统一接口,可调用所有 LLM API(OpenAI、Anthropic、Cohere 等),并保持一致的输出格式。
🧠 人工智能应用与平台
资源
专注于AI应用和平台的资源合集。
- Awesome LLM Apps - 收录了使用OpenAI、Anthropic、Gemini及开源模型构建的LLM应用、AI智能体和RAG技术的优秀项目。
- Awesome Generative AI - 精选的现代生成式人工智能项目与服务列表。
- AI Agents for Beginners - 微软提供的关于设计和构建AI智能体的课程。
- Generative AI for Beginners - 微软为初学者准备的生成式AI课程。
- Ai Dev Tools Zoomcamp - 免费的实践课程,教授如何使用现代工具构建和部署AI应用。
- LLM Course - 从头到尾掌握大型语言模型的实用课程。
- Awesome AI Agents - 精选的AI自主智能体、环境和框架列表。
- AI Collection - 生成式AI全景图——精选的优秀生成式AI应用集合。
- Awesome AI Apps - 展示RAG、智能体、工作流及其他AI应用场景的项目合集。
- 系统提示词与模型 - 来自各类AI应用和编程工具的系统提示词、内部工具及AI模型。
- RAG技术 - 检索增强生成领域的高级技术合集。
- Awesome LangChain - 使用LangChain框架的优秀工具和项目的清单。
- Awesome AI Tools - 精选的人工智能顶级工具列表。
- Awesome LLM Security - 关于LLM安全的优秀工具、文档和项目的精选。
- Claude Cookbooks - Anthropic官方提供的Claude AI使用示例与教程。
- Hands On Large Language Models - 涵盖LLM基础、提示工程和微调等内容。
- AI Engineering Hub - 用于构建、部署和维护AI系统的资源。
- Agents Towards Production - 面向生产级GenAI智能体开发的代码驱动教程。
- LLM Engineer Toolkit - 涵盖多个领域的120余种LLM相关库的精选列表。
- GenAI Agents - AI智能体实现与教程的仓库。
- AI Notes - 关于AI和软件开发的个人笔记与文章。
- Open LLMs - 全面的开源大型语言模型及其能力列表。
- Prompt Engineering Guide - 关于LLM提示工程的指南、论文和资源。
- Prompt Engineering - 提示工程技巧与策略的合集。
- 500 AI Agents Projects - 500多个带有代码的AI智能体项目,供学习和启发。
- Generative AI - 掌握生成式AI技术的路线图与资源。
- Awesome N8N - n8n自动化平台的模板、集成及资源合集。
- Free Llm Api Resources - 最新更新的免费大型语言模型(LLM)API列表。
工具
用于构建和部署AI驱动解决方案的框架、平台和终端用户应用合集。
AI智能体与自动化
- n8n - 用于连接 API 和服务的工作流自动化平台。
- crewAI - 用于编排角色扮演型 AI 代理的框架。
- autogen - 用于构建多智能体对话系统的框架。
- AutoGPT - 能够完成复杂任务的自主 AI 代理。
- LangGraph - 使用 LLM 构建具有状态和多主体应用的框架,支持循环和控制流。
- Agents.md - 用于构建智能体式 AI 系统的开源框架。
- OpenManus - 用于构建和部署 AI 代理的开源平台。
- youtu-agent - 腾讯云推出的多模态智能代理框架。
- trae-agent - 具有执行增强推理能力的工具使用型推理代理。
- deepagents - LangChain 框架,用于构建复杂的多智能体系统。
- mem0 - 用于长期上下文和个性化交互的 AI 记忆系统。
- web-ui - 基于 AI 的浏览器自动化框架,用于网页交互。
- Agent-S - 开源智能体框架,能够像人类一样自主与计算机 GUI 交互。
- Mastra - 开源 AI 代理平台,用于构建和扩展生产级自主代理。
- Langflow - 强大的可视化平台,用于构建和部署 AI 驱动的智能体及工作流。
- agenticSeek - 用于构建和部署具备高级推理与工具使用能力的 AI 代理的框架。
- Flowise - 开源 UI 可视化工具,用于构建自定义 LLM 编排流程和 AI 代理。
- MetaGPT - 多智能体框架,模拟软件公司中的不同角色以完成项目开发。
- Local Deep Research - 本地 AI 研究助手,可搜索网络、论文和文档。
- Gptme - AI 代理命令行界面,能够编写代码、使用终端、浏览网页并在本地运行。
- Rowboat - 开源 AI 同事,通过学习用户的邮件和会议内容来自动化起草、准备和任务处理。
- Everyrow - 基于 AI 的数据操作 SDK。提供语义去重、模糊合并和智能排序功能,适用于数据分析工作流。
- Personal Ai Infrastructure - 用于构建具备记忆、技能和学习能力的个人 AI 助手的框架。
- N8N Workflows - n8n 自动化平台的即用型工作流模板集合。
- Skyvern - 基于 LLM 和计算机视觉的 AI 浏览器自动化工具。兼容 Playwright 的 SDK + 无代码工作流。
- OpenWork - 开源桌面替代方案,类似于 Claude Cowork,可在本地运行智能体、技能和 MCP,并支持团队协作功能。
- DeepAnalyze - 自主数据科学智能体 LLM,无需人工干预即可独立完成各类以数据为中心的任务。
开发框架与工具
- LangChain - 用于开发语言模型驱动应用的框架。
- LlamaIndex - 具备 RAG 功能的 LLM 应用数据框架。
- openai-python - OpenAI API 的官方 Python 库。
- openai-agents-python - OpenAI 官方的 AI 代理构建框架。
- ragflow - 开源 RAG(检索增强生成)工作流平台。
- firecrawl - 用于 AI 应用的网页爬取和数据提取服务。
- Fabric - 利用 AI 增强人类能力的框架。
- Dyad - 开源平台,用于构建使用自定义 API 密钥的 AI 应用。
- Langflow - 强大的可视化平台,用于构建和部署 AI 驱动的智能体及工作流。
- NeMo - NVIDIA 提供的可扩展生成式 AI 框架,适用于 LLM、多模态和语音 AI。
- Deepcode - 基于 AI 的代理框架,可从科研论文和文本中自动生成代码。
代码生成与辅助
- gpt-engineer - 基于 AI 的代码生成工具。
- gpt-pilot - AI 配对程序员,可编写整个应用程序。
- tabby - 自托管的 AI 编码助手。
模型部署与平台
- Ollama - 用于在本地运行大型语言模型的工具。
- OpenLLM - 用于在生产环境中运行大型语言模型的开放平台。
- LocalAI - 自托管、以本地优先的 AI 模型部署平台。
- dify - 可视化的 LLM 应用开发平台。
- LLaMA-Factory - 易用的 LLM 微调框架。
- unsloth - 用于更快速、更节省内存的 LLM 微调库。
- LocalGPT - 完全私密的本地文档智能平台,可通过本地 LLM 与您的文档进行对话。
AI 可靠性与调试
- DeepEval - 类似 Pytest 的 LLM 单元测试框架。提供 RAG、智能体、幻觉、摘要等指标,以及自定义评估标准。
- RAGAS - LLM 应用评估工具包。包含指标、测试生成和优化建议,可用于改进 RAG 流程和智能体。
- Phoenix - AI 可观测性平台。提供追踪、数据集、实验和试用环境等功能,用于排查和评估 LLM 应用。
- WFGY - RAG 和 AI 代理的开源调试基础设施。包括 16 种 RAG 故障问题地图和 TXT 应力测试引擎。
终端用户应用
- open-webui - 用于与各类大模型交互的Web界面。
- ComfyUI - 面向Stable Diffusion的可视化节点式界面。
- lobe-chat - 现代化的AI对话界面。
- LibreChat - 开源的ChatGPT替代品。
- quivr - 个人第二大脑及AI助手。
- upscayl - 基于AI的图像超分辨率工具。
- facefusion - AI人脸换脸与增强工具。
- DocsGPT - 基于文档的问答系统。
- Deep Research - 面向任何主题的迭代式深度研究的AI研究助手。
- Screenpipe - 本地AI,可根据屏幕和音频记录、搜索并自动化任务。
- Jaaz - 开源多模态创意助手,也是面向本地图像/视频生成的、注重隐私的Canva/Manus替代方案。
- DeepTutor - 具备文档问答、习题生成及深度研究能力的AI个性化学习助手。
其他工具
- Bagel - 开源统一多模态模型,用于理解和生成图像。
- Whisper - 强大的语音识别模型,适用于转录和翻译。
- ChatTTS - 针对自然、富有表现力的日常对话优化的生成式TTS模型,支持细粒度韵律控制。
- NeuTTS - 设备端TTS模型,可通过音频样本实现即时语音克隆。
- Everything Claude Code - 一套资源、指南和工具,用于高效使用Claude Code AI助手。
☁️ 云平台与基础设施
资源
一系列用于掌握云原生技术、容器化及基础设施管理的资源集合。
- Awesome Cloud Native - 云原生技术精选资源列表。
- Awesome Kubernetes - Kubernetes相关优秀资源精选列表。
- Awesome Docker - Docker资源与项目精选列表。
- AWS Well-Architected Labs - 实践实验室,帮助学习AWS Well-Architected框架。
- Kubernetes The Hard Way - 在Google Cloud Platform上手动搭建Kubernetes集群的教程。
- Awesome Compose - Docker Compose示例精选列表。
- AWS EKS最佳实践 - Amazon EKS的最佳实践指南。
- Awesome Selfhosted - 可在本地托管的自由软件网络服务和Web应用列表。
- Awesome Selfhosted Docker - 使用Docker的优秀自托管应用与解决方案精选列表。
- Awesome Kubernetes Resources - Kubernetes教程、工具及资源精选列表。
- Awesome Cloud Security - 云安全资源、工具及最佳实践精选列表。
- DevOps练习 - 涉及Linux、Jenkins、AWS、SRE、Prometheus、Docker、Python、Ansible、Git、Kubernetes、Terraform、OpenStack、SQL等。
- Awesome Cloudsec Labs - 云安全平台的学习型动手实验室与练习精选。
工具
用于容器化、编排、基础设施即代码以及云原生开发的工具。
容器化与编排
- Docker - 一个用于在容器中开发、交付和运行应用程序的开放平台。
- Docker Compose - 一个用于定义和运行多容器 Docker 应用程序的工具。
- Kubernetes - 一个生产级的容器编排系统。
- Kompose - 一个将 Docker Compose 转换为 Kubernetes 的工具。
基础设施即代码
- Terraform - 一个基础设施即代码工具。
- OpenTofu - Terraform 的开源分支。
- Pulumi - 一个使用熟悉编程语言的现代 IaC 平台。
- CDK8s - 使用熟悉语言定义 Kubernetes 应用程序。
CI/CD 和 GitOps
- Jenkins - 一个开源自动化服务器。
- Argo CD - 一种声明式的 GitOps 持续交付工具。
- Argo Workflows - 一个基于容器的工作流引擎。
- Tekton - 一个 Kubernetes 原生的 CI/CD 框架。
- Spinnaker - 一个多云持续交付平台。
- Dagger - 一个用于 CI/CD 流程的可移植开发工具包。
服务网格与 API 网关
- Traefik - 一个现代化的 HTTP 反向代理和负载均衡器。
- Kong - 一个云原生 API 网关。
- Apache APISIX - 一个动态 API 网关。
- Envoy Gateway - 一个管理 Envoy Proxy 作为网关的项目。
- Higress - 一个基于 Istio 的云原生 API 网关。
- Meshery - 一个服务网格管理工具。
Kubernetes 生态系统
- Helm - 一个用于 Kubernetes 的软件包管理器。
- Kustomize - 一个用于 Kubernetes 配置定制的工具。
- Kubernetes Dashboard - 一个基于 Web 的 Kubernetes 用户界面。
- Skaffold - 一个用于 Kubernetes 的持续开发工具。
- Tilt - 一个用于 Kubernetes 的本地开发工具。
- Flagger - 一个渐进式交付操作符。
- KubeVela - 一个应用交付平台。
- KubeSphere - 一个 Kubernetes 多云管理平台。
开发者平台与控制平面
- Crossplane - 一个云原生控制平面。
- Artifact Hub - 提供 Kubernetes 包和 Helm 图表。
- Devtron - 一个 Kubernetes 控制面板。
- Harness - 一个端到端的开发者平台。
其他工具
- Vagrant - 一个用于构建和管理可移植虚拟开发环境的工具,支持基础设施即代码。
⚡ 生产力
资源
一系列旨在提升生产力的资源。
- Positron - 一款新一代数据科学 IDE。
- Nanobrowser - 一个开源的 AI 网络自动化工具,采用多智能体系统,直接在浏览器中运行。
- Best of Jupyter - 一份列出值得关注的 Jupyter Notebook、Hub 和 Lab 项目的排名列表。
- Deepnote - 一个兼容 Jupyter 的 AI 原生数据科学笔记本平台,具备实时协作、环境管理和集成功能。
- AFFiNE - 一个集笔记、文档和数据可视化于一体的全能工作空间。
- Marimo - 一个响应式的 Python 笔记本,适用于可重复且交互式的数据科学。
- ChatGPT 数据科学提示 - 一组专为使用 ChatGPT 的数据科学家设计的实用提示。
- Gamma.app - 一个由 AI 驱动的平台,用于创建和分享演示文稿及文档。
- Cookiecutter Data Science - 一个用于数据科学项目的标准化项目结构。
- Learn Regex - 一本包含示例和练习的全面正则表达式学习指南。
- Awesome Regex - 一个精选的正则表达式工具、库和学习资源集合。
- The Markdown Guide - 一本全面的 Markdown 学习指南。
- Readme-AI - 一个可以自动为你的项目生成 README.md 文件的工具。
- Markdown Here - 一个允许用户以 Markdown 格式撰写邮件并在发送前渲染的浏览器扩展。
- MarkText - 一个简单而优雅的 Markdown 编辑器,适用于文档编写。
- QuarkDown - 一个轻量级的 Markdown 处理器,用于快速渲染文档。
- screenshot-to-code - 一个 AI 工具,能够将截图转换为各种前端技术栈的代码。
- Codebeautify - 一个一体化的在线代码格式化和美化工具,支持 Python、SQL、JSON 等多种语言。
- Notion - 一个集笔记记录和任务管理于一体的全能工作空间。
- Trello - 一个可视化的项目管理工具。
- Habitica - 一个习惯养成和提高生产力的应用,将你的生活视为角色扮演游戏。
- Bujo - 一套帮助你改变工作和生活方式的工具。
- Parabola - 一个由 AI 驱动的工作流构建工具,用于整理数据。
- Asana - 一个用于跟踪工作和项目的项目管理平台。
- Puter - 一个开源的基于浏览器的计算环境和云操作系统。
- Milkdown - 一个受 Typora 启发的插件驱动、所见即所得的 Markdown 编辑器框架。
- PDFMathTranslate - 一个 AI 工具,用于双语科学 PDF 翻译,同时保留公式、图表和版面布局。
有用的 Linux 工具
一系列用于提升 Linux 环境下生产力和功能性的工具。
- tldr-pages - 基于社区维护的简化版手册页,附带实用示例。
- Bat - 具有语法高亮功能的
cat替代工具。 - Exa - 现代化的
ls替代工具。 - Ripgrep - 更快的
grep替代工具。 - Zoxide - 智能化的
cd命令。 - Peek - 简单易用的动画 GIF 屏幕录制工具。
- CopyQ - 具有高级功能的剪贴板管理器。
- Translate Shell - 使用 Google Translate、Bing Translator、Yandex.Translate 等的命令行翻译工具。
- Espanso - 用 Rust 编写的跨平台文本扩展工具。
- Flameshot - 功能强大且易于使用的截图软件。
- DrawIO Desktop - 开源流程图、工艺流程图等绘图软件。
- Inkscape - 强大、免费且开源的矢量图形编辑器,用于创建和编辑可视化内容。
- Rclone - 用于管理云存储文件的命令行工具。
- Rsync - 快速且多功能的文件复制工具,可在网络或本地同步两个位置之间的文件和目录。
- Timeshift - Linux 系统还原工具,使用 rsync+硬链接或 BTRFS 快照来创建文件系统快照。
- Backintime - 方便且可高度配置的增量备份图形界面工具。
- Fzf - 命令行模糊查找工具。
- Osquery - 基于 SQL 的操作系统监控、分析与仪表化工具。
- GNU Parallel - 用于并行执行任务的工具。
- HTop - 交互式进程查看器。
- Ncdu - 带有 ncurses 界面的磁盘使用情况分析工具。
- Thefuck - 用于纠正之前输入的错误命令的工具。
- Miller - 用于查询、处理和格式化多种文件格式(如 CSV、JSON 等)数据的工具,类似于
awk/sed/cut对数据的操作。 - jq - 命令行 JSON 处理器,用于解析和操作 JSON 数据。
- yq - 可移植的命令行 YAML 处理器(类似于 jq 用于 YAML 和 XML)。
- q - 直接在命令行上对 CSV 或 TSV 文件运行 SQL 查询。
- VisiData - 终端中用于表格数据探索的交互式多功能工具。
- csvkit - 一套用于处理 CSV 数据的命令行工具。
- httpie - 用于 API 测试和调试的现代化命令行 HTTP 客户端。
- glances - 跨平台的系统监控工具,用于资源使用情况分析。
- hyperfine - 用于性能测试的命令行基准测试工具。
- termgraph - 在终端中绘制基本图表,便于快速数据可视化。
- fd - 简单、快速且用户友好的
find替代工具。 - dust - 用 Rust 编写的更直观的
du替代工具。 - bottom - 跨平台的图形化进程/系统监控工具。
- Keychain - 用于管理和安全存储密码及密钥的工具。
有用的 VS Code 扩展
一系列用于增强 Visual Studio Code 功能和提升工作效率的扩展。
- JDBC Adapter - 使用 JDBC 连接到各种数据库。
- DBCode - Connect - 数据库客户端,用于管理和查询数据库。
- Markdown All in One - Markdown 编辑必备工具。
- Markdown Preview GitHub Styles - 将 VS Code 的 Markdown 预览样式调整为与 GitHub 一致。
- Snippington Python Pandas Basic - 用于在 Python 中操作 Pandas 的基础工具。
- PDF Viewer for Visual Studio Code - 在 VS Code 中直接查看 PDF 文件。
- Quick Python Print - 快速处理 Python 中的打印操作。
- Rainbow CSV - 高亮显示 CSV 和 TSV 文件,并可执行类似 SQL 的查询。
- Remove Blank Lines - 用于移除文档中空行的扩展。
- PDF Preview in VSCode - 在 VS Code 中显示 PDF 预览。
- CSV to Table - 将 CSV/TSV/PSV 文件转换为 ASCII 格式的表格。
- Data Preview - 导入、查看、切片和导出数据。
- Data Wrangler - 用于清理和准备表格型数据集的工具。
- Error Lens - 改善代码中错误和警告的显示效果。
- Indent Rainbow - 使缩进更易于阅读。
- Markdown Table Editor - 增加编辑 Markdown 表格的功能。
- WYSIWYG Editor for Markdown - 查看 Word 和 Excel 文件,并编辑 Markdown。
- Prettier - VS Code 的代码格式化扩展。
- Project Manager - 轻松切换项目。
- Python Indent - 自动缩进 Python 代码。
- SandDance - 可视化探索和展示您的数据。
- SQL Notebooks - 将 SQL 文件以 VSCode Notebook 格式打开。
- SQL Tools - VSCode 的数据库管理工具。
- Kanban Board - 用于在 VS Code 内组织任务的 Kanban 板扩展。
- Path Autocomplete - 为 VS Code 中的文件和目录路径提供自动补全。
- Path Intellisense - 自动补全代码中的文件名。
- Python Imports Utils - 用于管理 Python 导入的实用工具。
- Workspace Dashboard - 以快速拨号方式组织您的工作区。
- Remote Development - 在容器、远程机器或 WSL 中打开任意文件夹。
- Text Power Tools - 包含 240 多条文本操作命令的一体化解决方案。
- Toggle Quotes - 在单引号、双引号和反引号之间切换字符串引号。
- Comment Translate - 帮助翻译代码中的注释、字符串和变量名。
- Text Marker - 选择代码中的文本,并用可配置的高亮颜色标记所有匹配项。
- Bookmarks - 在代码中添加书签并轻松跳转到这些位置。
- Dendron - 一种层次化的笔记工具,会随着您的使用不断成长。
- Gitignore Generator - 简化 .gitignore 文件的生成过程。
- Test Explorer UI - 在 Visual Studio Code 的侧边栏中运行测试。
- Python Test Explorer - 在 Visual Studio Code 的侧边栏中运行 Python 测试。
- VSCode Markdownlint - 用于检查和格式化 Markdown 文件的 VS Code 扩展。
📚 技能提升与职业发展
实践资源
一系列资源,旨在提升数据分析及相关领域的技能并推动您的职业发展。
- LeetCode - 用于准备技术编码面试的平台。
- Kaggle 竞赛 - 参与数据分析和机器学习竞赛的平台。
- Makeovermonday - 专注于提升数据可视化实践的平台。
- Workout Wednesday - 通过每周挑战来提高您的可视化技能。
- 官方 TidyTuesday 资源库 - TidyTuesday 项目的资源库,致力于推广数据分析。
- DrivenData 竞赛 - 注重社会影响力的数据分析竞赛。
- Codecademy 数据科学路径 - 学习数据分析的互动课程。
- SQL 大师班 - 一门通过实际项目掌握 SQL 进行数据分析的课程。
- Hugging Face 任务 - 使用真实模型进行自然语言处理和机器学习特定任务的实践。
- Awesome LeetCode 资源 - LeetCode 练习的精选资源和策略集合。
- Leetcode 公司专项题目 - 面试准备用的公司专项 Leetcode 题目。
精选 Jupyter 笔记本
一系列精选的 Jupyter 笔记本,用于支持数据科学和分析领域的学习与探索。
- Awesome Notebooks - 按工具分类的数据与 AI 笔记本模板目录。
- 数据科学 IPython 笔记本 - 涵盖多个主题的数据科学 Python 笔记本。
- Pydata 书籍 - Wes McKinney 的《利用 Python 进行数据分析》教材及 IPython 笔记本。
- Spark py 笔记本 - 用于大数据分析和机器学习的 Apache Spark & Python 教程。
- DataMiningNotebooks - 伴随南卫理公会大学课程的示例笔记本,用于数据挖掘。
- Pythondataanalysis - 包含 Jupyter 笔记本和脚本的 Python 数据仓库。
- Python 数据分析入门 - 使用 Jupyter 笔记本介绍基于 Python 和 Pandas 的数据科学。
- Jdwittenauer IPython 笔记本 - 涵盖多种主题的 IPython 笔记本集合。
- DataScienceInteractivePython - 用于学习数据科学概念的交互式 Python 笔记本集合。
- Unsloth 笔记本 - 优化后的笔记本,可加快 AI 模型的训练和微调。
- Huggingface 笔记本 - Hugging Face 官方提供的自然语言处理、视觉、音频和扩散模型相关笔记本。
- 深度学习与 Python 笔记本 - François Chollet 的《深度学习与 Python》一书中的官方 Jupyter 笔记本。
- PythonNumericalDemos - 用于地质统计学和数值演示的 Python 笔记本。
数据来源与数据集
一系列用于访问数据集和数据来源的资源,供分析和项目使用。
- Kaggle 数据集 - 丰富的数据集集合,可用于数据分析练习。
- Opendatasets - 一个 Python 库,可从 Kaggle、Google Drive 等在线来源下载数据集。
- Datasette - 一款开源多用途工具,用于探索和发布数据。
- Awesome Public Datasets - 精选的高质量公开数据集列表。
- Open Data Sources - 各种开放数据源的集合。
- 项目免费数据集 - Dataquest 整理的免费数据集。
- Data World - 企业级数据目录,在人工智能时代深受 CIO、治理专家、数据分析师和工程师的信任。
- Awesome Public Real Time Datasets - 公开可用的实时数据集列表。
- Google 数据集搜索 - 用于搜索全网数据集的搜索引擎。
- NASA 开放数据门户 - NASA 开放数据计划的网站,提供对 NASA 数据资源的访问。
- 世界银行数据 - 世界银行提供的全球发展数据,可免费公开访问。
- 语音数据集 - 用于语音 AI 和机器学习的音频及语音数据集集合。
- HuggingFace 数据集 - 一个轻量级库,便于共享和访问音频、计算机视觉和自然语言处理相关的数据集。
- TensorFlow 数据集 - 一系列可直接用于 TensorFlow 及其他 Python 机器学习框架的数据集。
- NLP 数据集 - 为自然语言处理任务精心挑选的数据集列表。
- TorchVision 数据集 - torchvision.datasets 模块提供了许多内置的计算机视觉数据集。
- LLM 数据集 - 用于训练和微调大型语言模型 (LLM) 的数据集和资源集合。
- Unsplash 数据集 - Unsplash 提供的一系列数据集,适用于计算机视觉和研究。
- Awesome JSON 数据集 - 无需认证即可公开访问的优秀 JSON 数据集精选列表。
简历与面试技巧
多种资源助您准备面试并提升简历质量。
- 数据科学面试题及答案 - 精选的数据科学面试题目与解答列表。
- 数据科学面试备考资源 - 帮助您为即将到来的数据科学面试做准备的资源。
- 数据科学面试 - 一份全面的数据科学面试问题与资源合集。
- Interviews AI - 包含问题与解答的AI面试备考指南。
- 数据科学面试宝典 - 一本全面的资源书,用于准备数据科学和机器学习领域的面试。
- 机器学习面试宝典 - 一本全面的指南,帮助您准备机器学习工程师职位的面试。
- MLQuestions - 机器学习面试题与答案的集合。
- Interview - 您准备技术面试所需的一切。
- Interviews - 个人技术面试学习指南,涵盖算法与数据结构。
- Devinterview - 让您自信地通过下一次技术面试。
- Interviewqs - 助您顺利通过下一次数据科学面试。
- 破解数据科学面试 - 一份包含备忘录、书籍、面试题及作品集的资料,专为数据科学/机器学习面试准备。
- Interview Query - 另一个用于准备数据科学面试的平台。
- 超强行为面试资源 - 精选资源,帮助您掌握行为面试与系统设计面试。
- Enhancv 数据科学家简历 - 针对数据科学家量身定制的简历示例与技巧合集。
- 数据科学作品集 - 一个创建并展示您的数据科学作品集的平台。
- InterviewBit - SQL面试题 - SQL面试题集合。
- StrataScratch - 提供来自顶尖公司的真实数据科学面试题的平台。
- LeetCode模式 - 为技术面试精心挑选的编码模式与策略合集。
- Bartosz Jarocki 的简历 - 现代开源技术简历模板及示例。
- Awesome-CV - 使用LaTeX构建的专业简历模板。
- Reactive-Resume - 开源简历生成器,提供多种模板与自定义选项。
- 史上最佳简历 - 现代简历模板与CV示例合集。
📋 备忘录
跨多个领域的备忘录合集,便于快速参考与学习。
GoalKicker 编程笔记
- Python 专业开发者笔记 - 一份庞大的Python概念、惯用语及最佳实践合集,适合各水平开发者。
- SQL 专业开发者笔记 - 一本关于SQL语法、查询及数据库交互概念的权威指南。
- PostgreSQL 专业开发者笔记 - 一本关于PostgreSQL管理和开发的专业知识汇编。
- MySQL 专业开发者笔记 - 一份关于MySQL数据库管理系统的重要参考资料。
- Oracle数据库专业开发者笔记 - 一本介绍Oracle数据库概念、PL/SQL及管理任务的指南。
- MongoDB 专业开发者笔记 - 一本实用指南,介绍如何在现代应用开发中使用NoSQL和MongoDB。
- Bash 专业开发者笔记 - 一本关于Shell脚本编程和命令行操作的全面指南。
- Git 专业开发者笔记 - 关于Git版本控制的全方位知识,从基础到高级工作流程。
- Linux 专业开发者笔记 - 深入探讨Linux系统管理、常用命令及环境配置。
- Microsoft SQL Server 专业开发者笔记 - 一份详细参考材料,用于开发和管理MS SQL Server数据库。
- PowerShell 专业开发者笔记 - 一本关于使用PowerShell进行任务自动化和配置管理的指南。
Python
- Python备忘录 - 全面的Python语法与示例。
- Learn Python - 互动式Python学习。
- Pythoncheatsheet - Python基础知识及进阶主题的快速参考。
- 综合Python备忘录 - 详细的Python函数与库说明。
- Python备忘录 - 一份全面的Python编程语言备忘录。
- Pysheeet - 简洁的Python备忘录,便于快速参考和面试准备。
数据科学与机器学习
- DS 备忘单 - 数据科学备忘单列表。
- DS 笔记与备忘单 - 数据科学、机器学习、计算机科学等领域的备忘单。
- 数据科学备忘单(数学) - 用于数据科学数学快速参考的备忘单。
- Pandas 备忘单 - 使用 Pandas 进行数据操作。
- PySpark 备忘单 - 常用的 PySpark 模式。
- 机器学习备忘单 - 简明的机器学习备忘单,涵盖关键概念和公式。
Linux 与 Git
- Linux 备忘单 - Linux 命令和快捷键。
- Linux Bash 命令 - 面向开发者和系统管理员的全面 Linux/Bash 命令列表。
- Bash 优秀备忘单 - Bash 脚本编写必备知识。
- Unix 命令参考 - Unix 终端基础。
- GitHub 备忘单 - Git/GitHub 工作流及技巧。
- Git 优秀备忘单 - Git 命令及最佳实践。
- Git 和 Git Flow 备忘单 - 分支策略。
概率与统计
- 斯坦福 CME 106 备忘单 - 面向工程师的概率与统计。
- 10 页概率备忘单 - 深入的概率概念。
- 统计学备忘单 - 关键统计方法。
SQL 与数据库
- 快速 SQL 备忘单 - 方便的 SQL 参考指南。
- PostgreSQL 备忘单 - 最常用 PostgreSQL psql 命令和查询的实用参考。
杂项
- 备忘单的备忘单 - 备忘单的大型仓库。
- Dataquest - Power BI 备忘单 - Power BI 用户的实用资源。
- 数据结构备忘单 - 常见数据结构及其特性的简明参考。
- Matplotlib 备忘单 - Python 中 Matplotlib 绘图库的官方备忘单。
- VSCode 优秀备忘单 - VS Code 快捷键。
- Markdown 备忘单 - GitHub README 的格式化。
- Emoji 备忘单 - Markdown 中的表情符号。
- Docker 备忘单 - Docker 命令和工作流。
- Docker 优秀备忘单 - 容器化基础知识。
📦 其他 Python 库
这是一系列补充性的 Python 库,它们能够提升开发流程、自动化任务,并在核心数据分析工具之外保持项目的高质量。
代码质量与开发
- Black - 不妥协的 Python 代码格式化工具。
- Pre-commit - 用于管理提交前钩子的框架。
- Pylint - Python 代码静态分析工具。
- Mypy - Python 的可选静态类型检查。
- Rich - 终端中的富文本和美观格式。
- Icecream - 无需使用 print 的调试工具。
- Pandas-log - 记录 Pandas 操作以追踪数据转换过程。
- PandasVet - Pandas 代码风格验证工具。
- Pydeps - Python 模块依赖关系图。
- PyForest - 自动化数据科学中的 Python 导入。
- Complexipy - 由 Rust 编写的超快速 Python 认知复杂性分析工具。
文档与文件处理
- Sphinx - 文档生成工具。
- Pdoc - Python 项目的 API 文档生成工具。
- Mkdocs - 使用 Markdown 编写项目文档。
- OpenPyXL - 读写 Excel 文件。
- Tablib - 将数据导出为 XLSX、JSON、CSV 格式。
- PyPDF2 - 读取和写入 PDF 文件。
- Python-docx - 读取和写入 Word 文档。
- CleverCSV - 针对混乱数据的智能 CSV 读取工具。
- Python-markdownify - 将 HTML 转换为 Markdown。
- Xlwings - Python 与 Excel 的集成工具。
- Xmltodict - 将 XML 转换为 Python 字典。
- MarkItDown - 用于将文件和 Office 文档转换为 Markdown 的 Python 工具。
- Jupyter-book - 基于 Jupyter 笔记本构建出版级书籍。
- WeasyPrint - 将 HTML 转换为 PDF。
- PyMuPDF - 高级 PDF 操作库。
- Camelot - PDF 表格提取库。
- Marker - 快速且高精度的 PDF 和文档转换工具,同时保留布局。
Web 与 API
- HTTPX - 新一代 Python HTTP 客户端。
- FastAPI - 用于构建 API 的现代 Web 框架。
- Flask - 用于构建应用和 API 的轻量级 Python Web 框架。
- Typer - 用于构建命令行应用程序的库。
- Requests-cache - 为 requests 库提供持久化缓存。
- Aiohttp - 基于 asyncio 和 Python 的异步 HTTP 客户端/服务器框架。
其他
- UV - 极其快速的 Python 包管理器和解析器。
- Funcy - 为 Python 提供的高级函数式工具。
- Pillow - 图像处理库。
- Ftfy - 修复损坏的 Unicode 字符串。
- JmesPath - 查询 JSON 数据(类似于 SQL 的 JSON 查询)。
- Glom - 转换嵌套数据结构。
- Diagrams - 以代码形式绘制云架构图。
- Pytest - 用于编写小型测试的框架。
- Pampy - 用于 Python 字典的模式匹配。
- Pygorithm - 学习所有主要算法的 Python 模块。
- GitPython - 用于与 Git 仓库交互的 Python 库。
- TQDM - 为循环和操作添加进度条。
- Loguru - 简化的 Python 日志记录工具。
- Click - 美观的命令行界面。
- Poetry - Python 依赖管理和打包工具。
- Hydra - 优雅的配置管理工具。
- papermill - 用于参数化并以编程方式执行 Jupyter 笔记本的工具。
- Python Telegram Bot - 支持异步的纯 Python Telegram Bot API 框架。
📝 更多精彩列表
精心整理的其他主题和技术领域的精彩列表。
- Awesome - 一个精选的优秀列表集合。
- Freecodecamp - 一个开源平台,提供数千节互动课程,用于学习Web开发。
- Awesome Big Data - 一个精选的大数据框架、资源和工具列表。
- Awesome Geospatial - 一个精选的地理空间库、工具和资源列表。
- Awesome Chatgpt Prompts - 一个用于整理ChatGPT提示词的仓库。
- Awesome Jupyter - 精选的Jupyter项目、库和资源列表。
- Awesome Business Intelligence - 积极维护的商业智能工具优秀列表。
- Awesome Prompt Engineering - 一个精选的关于使用LLM(如ChatGPT)进行提示工程的资源列表。
- Awesome Product Design - 一个关于产品设计的书签、资源和文章集合。
- Awesome Shell - 一个精选的命令行框架、工具包和指南列表。
- Awesome FastAPI - 一个精选的FastAPI框架、库和资源列表。
- Awesome Linux Software - 一个适用于Linux的优秀应用和工具列表。
- Awesome Product Management - 一个为产品经理及有志于成为产品经理的人士精选的资源列表。
- Awesome Python Applications - 一个用Python编写的免费软件和应用列表。
- Awesome AutoHotkey - 一个精选的AutoHotkey库、脚本和资源列表。
- Awesome Productivity - 一个精选的高效生产力资源列表。
- Awesome Scientific Writing - 一个精选的科学写作、出版和研究资源列表。
- Awesome LaTeX - 一个精选的LaTeX资源、库和工具列表。
- Awesome Actions - 一个精选的GitHub Actions自动化工作流列表。
- Awesome Quarto - 一个精选的Quarto资源列表,包括演讲、工具、示例和文章。欢迎贡献!
- Awesome Vscode - 一个全面的VS Code实用扩展和资源列表。
- Awesome Readme - 一系列精心编写的README文件,供参考和启发。
- Awesome GitHub Profile Readme - 一个收集了优秀的GitHub个人主页README文件及相关资源的列表。
- Awesome Code Review - 一个关于代码审查实践的资源集合。
- Awesome Certificates - 一个精选的IT和开发者认证及学习资源列表。
- Awesome Tunneling - 一个包含ngrok替代方案和其他隧道软件的列表。
- Anomaly Detection Resources - 与异常检测相关的书籍、论文、视频和工具箱。
- Awesome Claude Prompts - 一组用于Anthropic公司Claude AI的强大提示词。
- Awesome Linux - 一个为用户和开发者精选的Linux应用、工具和资源列表。
- Awesome for Beginners - 一个面向初学者的开源软件贡献项目列表。
- Best websites a programmer should visit - 一个为程序员和工程师精选的实用网站列表。
- Awesome Creative Coding - 一个精选的创意编程资源和库列表。
- Awesome AI in Finance - 一个精选的金融领域人工智能应用、工具和研究资源列表。
- Awesome Algorithms - 一个用于学习和练习算法与数据结构的资源集合。
- Awesome Serverless - 一个精选的无服务器架构和云计算资源列表。
- Awesome R - 一个精选的R语言包、框架和学习资源列表。
- Awesome AI System Prompts - 一组针对不同AI模型的有效系统提示词集合。
- Awesome Osint - 一个精选的开源情报(OSINT)工具和资源列表。
- Awesome Telegram - 一个为开发者提供的Telegram机器人、频道和工具集合。
- Free for Dev - 一个包含SaaS、PaaS和IaaS服务中免费开发者层级产品的列表。
- Font-Awesome - 一个用于网页上可缩放矢量图形的图标库和工具集。
- Awesome Docs - 一个精选的创建优质文档所需的关键工具和资源列表。
- Awesome Testing - 一个精选的软件测试资源列表:工具、框架、书籍以及最佳实践。
- Awesome Graphql - 一个全面的GraphQL相关资源、库和工具集合。
- Awesome Remote Job - 一个关于寻找远程工作并成功开展工作的资源、技巧和工具列表。
- Awesome Asyncio - 一个精选的基于asyncio的Python编程框架、库和工具列表。
- Awesome Zsh Plugins - 一个庞大的Zsh插件、主题和资源集合。
- Awesome Scalability - 一份关于构建可扩展且可靠系统的结构化设计模式指南。
- Books - 一个包含免费技术书籍链接的集合,涵盖编程、数据库、DevOps和数据分析等领域。
- Free Programming Books - 最大的多语言免费编程书籍和学习资料集合。
🌐 额外资源与工具
涵盖广泛领域的学习、开发和探索资源与工具。
- OSSU 计算机科学 - 通往免费自学计算机科学教育的道路。
- 加州大学伯克利分校 - Data 8 - 数据科学基础课程的教学材料。
- PaddleOCR - 生产就绪的 OCR 工具包,支持多语言和文档 AI。
- 免费 API 汇总列表 - 适用于各种用途的全面免费 API 列表。
- arXiv.org - 学术论文的免费分发服务及开放获取档案。
- Elicit - 一款 AI 研究助手,可帮助自动化文献综述的部分工作。
- 500+ AI/ML/DL/NLP 项目 - 包含代码的海量 AI 和机器学习项目集合,适合学习和构建作品集。
- 全栈 Fastapi 模板 - 使用 FastAPI、React 和 PostgreSQL 的全栈模板。
- Kittl - 用于创建和编辑图表及数据可视化的平台。
- Zasper - 面向 Jupyter Notebook 的高性能 IDE。
- Sketch - 专为设计师设计的工具包,专注于其工作流程。
- Growth.Design - 产品案例研究与行为心理学洞察的集合,助力数据驱动型决策。
- Markdown 徽章 - 用于 GitHub 个人主页和 Markdown 文件的徽章集合。
- 计算机科学视频课程 - 精选的免费高校计算机科学视频课程列表。
- 从零开始构建自己的 X - 关于如何从头开始构建技术的教程。
- 当你输入 URL 并按下回车键时会发生什么 - 对输入 URL 并按回车键后发生的技术性解释。
- DevOps 练习 - 大量 DevOps 和 Linux 面试准备练习及问题。
- 免费认证课程 - 定期更新的顶级云和技术公司提供的免费认证课程列表。
- 面向学生的 A 到 Z 资源 - 为学习编程和技术的学生提供的全面免费资源列表。
- 暑期实习机会 - 最新科技领域暑期实习列表,并附带截止日期跟踪。
- 足球数据分析 - 使用 Python 和 R 进行足球数据分析的开放学习课程及工具包。
🤝 贡献
我们欢迎您的贡献!
请参阅 CONTRIBUTING.md 了解如何添加资源。
📜 许可证
本作品已根据 CC0 1.0 Universal 许可协议奉献至公有领域。
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。
