awesome-mlops

GitHub
13.8k 2k 非常简单 1 次阅读 今天数据工具开发框架图像Agent其他
AI 解读 由 AI 自动生成,仅供参考

awesome-mlops 是一份精心整理的 MLOps(机器学习运维)资源清单,旨在为从业者提供从理论到实践的全方位参考。随着机器学习模型从实验阶段走向生产环境,如何高效地设计、训练、部署及监控模型成为一大挑战。awesome-mlops 通过系统化的分类,汇集了核心概念、工作流管理、特征存储、数据工程、模型部署、测试监控、基础设施以及伦理治理等关键领域的优质文章、书籍、课程、论文和社区链接,帮助用户快速构建完整的 MLOps 知识体系。

这份资源特别适合机器学习工程师、数据科学家、DevOps 专家以及负责 AI 产品的管理者使用。无论是刚入门希望了解行业标准的新手,还是正在搭建生产级 ML 系统的资深开发者,都能从中找到实用的工具指南和最佳实践。其独特亮点在于不仅涵盖技术实现细节,还延伸至团队协作、产品管理及 AI 经济学等非技术维度,体现了对机器学习全生命周期的深刻理解。通过 awesome-mlops,用户可以少走弯路,高效掌握将机器学习模型成功落地所需的技能与资源。

使用场景

某金融科技公司数据团队正试图将实验阶段的信用评分模型推向生产环境,却因缺乏标准化流程而陷入停滞。

没有 awesome-mlops 时

  • 资源检索低效:团队成员在海量搜索引擎结果中盲目寻找可靠的部署框架和监控工具,耗时数周仍难辨优劣。
  • 知识体系碎片化:缺乏系统性的学习路径,工程师对特征存储(Feature Stores)和数据工程(DataOps)的最佳实践认知零散,导致架构设计存在隐患。
  • 协作标准缺失:由于没有统一的行业规范参考,算法工程师与运维人员在模型版本管理和测试流程上争执不下,项目反复返工。
  • 社区支持断层:遇到生产环境特有的“模型漂移”问题时,找不到专业的社区论坛或案例库求助,只能闭门造车。

使用 awesome-mlops 后

  • 精准工具选型:直接通过分类清单锁定经过社区验证的“模型部署”与“监控维护”工具链,将技术调研时间从数周缩短至两天。
  • 构建完整知识图谱:利用"MLOps Core"和“书籍文章”板块,团队快速建立了从数据流转到模型服务的全链路认知,规避了常见的架构陷阱。
  • 统一落地标准:参照清单中的"IBM operationalization starter kit"及成熟工作流管理规范,迅速制定了团队内部的模型交付标准,消除了协作摩擦。
  • 融入专业生态:通过链接加入 MLOps.community 等活跃社群,及时获取了解决模型漂移的实战方案,并持续跟踪最新技术动态。

awesome-mlops 不仅是一份资源清单,更是团队从“手工小作坊”迈向“工业化模型生产”的加速器和导航图。

运行环境要求

GPU

未说明

内存

未说明

依赖
notesawesome-mlops 不是一个可执行的软件工具或代码库,而是一个 curated list(精选列表),汇集了关于 MLOps(机器学习运维)的书籍、文章、课程、社区、工具和最佳实践指南等资源。因此,它本身没有操作系统、GPU、内存、Python 版本或依赖库等运行环境需求。用户只需通过浏览器访问链接或阅读列出的文档即可。
python未说明
awesome-mlops hero image

快速开始

令人惊叹的 MLOps Awesome 用爱制作

MLOps。你设计它。你训练它。你运行它。

一份关于 MLOps(机器学习运维)的优秀参考列表:point_right: ml-ops.org

ko-fi

LinkedIn 拉里萨·维森格里耶娃博士

目录

MLOps 核心 MLOps 社区
MLOps 图书 MLOps 文章
MLOps 工作流管理 MLOps:特征存储
MLOps:数据工程(DataOps) MLOps:模型部署与服务
MLOps:测试、监控与维护 MLOps:基础设施
MLOps 论文 关于 MLOps 的演讲
现有 ML 系统 机器学习
软件工程 面向 ML/AI 的产品管理
ML/AI 的经济学 模型治理、伦理与负责任的人工智能
MLOps:人员与流程 关于 MLOps、机器学习、数据科学等的通讯

MLOps 核心

点击展开!
  1. 机器学习运维:你设计它,你训练它,你运行它!
  2. MLOps SIG 规范
  3. 生产环境中的机器学习
  4. 优秀的生产级机器学习:MLOps 工具与框架现状
  5. Udemy “ML 模型部署”
  6. 全栈深度学习
  7. 机器学习工程最佳实践
  8. :rocket: 将 ML 投入生产
  9. 斯坦福 MLSys 研讨会系列
  10. IBM ML 运营化入门工具包
  11. 产品化 ML。面向开发人员和产品经理构建机器学习产品的自学指南。
  12. GCP 上的 MLOps(机器学习运维)基础
  13. ML 全栈准备
  14. MLOps 指南:理论与实践
  15. MLOps 实践者指南:用于机器学习持续交付与自动化的框架。
  16. MLOps 成熟度评估

MLOps 社区

点击展开!
  1. MLOps.community
  2. CDF 特别兴趣小组 - MLOps
  3. RsqrdAI - 强健且负责任的 AI
  4. DataTalks.Club
  5. 合成数据社区
  6. MLOps World 社区
  7. Marvelous MLOps

MLOps 课程

  1. MLOps Zoomcamp(免费)
  2. Coursera 生产环境下的机器学习工程(MLOps)专项课程
  3. Udacity 机器学习 DevOps 工程师
  4. Made with ML
  5. Udacity LLMOps:使用大型语言模型构建真实世界的应用程序

MLOps 书籍

点击展开!
  1. 《机器学习工程》作者:安德烈·布尔科夫,2020年
  2. 《ML Ops:数据科学的运营化》作者:大卫·斯温诺、史蒂文·希利翁、丹·罗普、德夫·坎纳比兰、托马斯·希尔、迈克尔·奥康奈尔
  3. 《构建机器学习驱动的应用》作者:埃马纽埃尔·阿梅森
  4. 《构建机器学习流水线》作者:汉内斯·哈普克、凯瑟琳·尼尔森,2020年,O’Reilly 出版
  5. 《管理数据科学》作者:基里尔·杜博维科夫
  6. 《借助 AI、ML 和 RPA 加速 DevOps:非程序员的 AIOps 和 MLOps 指南》作者:斯蒂芬·弗莱明
  7. 《评估机器学习模型》作者:爱丽丝·郑
  8. 《敏捷 AI》。2020年。作者:卡洛·阿普格列塞、帕科·内森、威廉·S·罗伯茨。O'Reilly Media, Inc.
  9. 《机器学习物流》。2017年。作者:T. 达宁等。O'Reilly Media Inc.
  10. 《机器学习设计模式》作者:瓦利阿帕·拉克什曼南、萨拉·罗宾逊、迈克尔·芒恩。O'Reilly 2020年出版
  11. 《服务机器学习模型:架构、流处理引擎和框架指南》作者:鲍里斯·卢布林斯基,O'Reilly Media, Inc. 2017年出版
  12. 《面向机器学习的 Kubeflow》作者:霍尔登·卡拉乌、特雷弗·格兰特、伊兰·菲洛年科、理查德·刘、鲍里斯·卢布林斯基
  13. 《整洁的机器学习代码》作者:穆萨·泰菲。Leanpub 出版。2020年
  14. 电子书《实用 MLOps:如何为生产级模型做好准备》
  15. 《介绍 MLOps》作者:马克·特雷维尔等。O'Reilly Media, Inc. 2020年出版
  16. 《使用 MOA 的实际案例进行数据流的机器学习》,作者:比费特、阿尔伯特、加瓦尔达、吉夫·霍姆斯、伯恩哈德·普法林格,麻省理工学院出版社,2018年
  17. 《机器学习产品手册》作者:拉斯洛·斯拉格纳、克里斯·凯利
  18. 《数据科学启动笔记》作者:埃里克·J·马
  19. 《数据团队》作者:杰西·安德森,2020年
  20. 《AWS 上的数据科学》作者:克里斯·弗雷格利、安杰·巴斯,2021年
  21. 《MLOps 工程》作者:埃马纽埃尔·拉杰,2021年
  22. 《机器学习工程实战》
  23. 《实用 MLOps》
  24. 《高效的数据科学基础设施》作者:维勒·图洛斯,2021年
  25. 《面向设备端开发的 AI 和机器学习》2021年,作者:劳伦斯·莫罗尼。O'Reilly 出版
  26. 《设计机器学习系统》,2022年,作者:奇普·休恩,O'Reilly 出版
  27. 《可靠的机器学习》2022年,作者:凯茜·陈、尼尔·理查德·墨菲、克兰蒂·帕里萨、D·斯库利、托德·安德伍德。O'Reilly 出版
  28. 《MLOps 生命周期工具包》2023年,作者:戴恩·索尔维斯托。Apress 出版
  29. 《在企业中实施 MLOps》2023年,作者:亚龙·哈维夫、诺亚·吉夫。O'Reilly 出版

MLOps 文章

点击展开!
  1. 机器学习的持续交付(Thoughtworks)
  2. 什么是MLOps?NVIDIA博客
  3. MLSpec:一个用于标准化多阶段机器学习流水线组件间模式的项目。
  4. 2021年企业级机器学习现状报告 | 2020年企业级机器学习现状报告:PDF交互式报告
  5. 组织机器学习项目:项目管理指南。
  6. 机器学习项目规则(最佳实践)
  7. 机器学习流水线模板
  8. 数据科学项目结构
  9. 可复现的机器学习
  10. 同时支持研究与生产阶段的机器学习项目模板。
  11. 机器学习需要一种根本不同的部署方式。随着各组织对机器学习的采用,对新型部署工具和策略的需求日益增长。
  12. 介绍Flyte:一款云原生机器学习与数据处理平台
  13. 为什么机器学习的DevOps如此不同?
  14. 将机器学习模型转化为实际产品和服务的经验教训——O’Reilly
  15. MLOps:使用Azure机器学习进行模型管理、部署与监控
  16. 机器学习文件格式指南:列式存储、训练、推理及特征仓库
  17. 构建机器学习流水线:如何建立可扩展的机器学习系统
  18. 为什么机器学习模型在生产环境中会退化
  19. 机器学习中的概念漂移与模型衰减
  20. 生产环境中的机器学习:为何要关注数据与概念漂移
  21. 将机器学习投入生产
  22. 端到端机器学习平台巡礼
  23. MLOps:机器学习中的持续交付与自动化流水线
  24. AI与运营的结合
  25. 如果将DevOps融入机器学习会是什么样子?无需再猜测,我们揭开MLOps的面纱
  26. 福布斯:ML Ops的兴起
  27. Cognilytica报告《2020年机器学习模型管理与运营(MLOps)》
  28. 推出Cloud AI Platform Pipelines
  29. 生产级深度学习指南
  30. 构建生产就绪机器学习系统的五个要素
  31. 生产环境中的深度学习(关于部署基于深度学习的模型的参考资料)
  32. 机器学习实验跟踪
  33. 团队数据科学流程(TDSP)
  34. MLOps解决方案(基于Azure)
  35. 机器学习流水线监控
  36. 使用Seldon Core和Alibi大规模部署并解释机器学习COVID-19解决方案
  37. 揭秘AI基础设施
  38. 组织机器学习项目:项目管理指南。
  39. 机器学习项目检查清单(摘自Aurélien Géron的《动手学机器学习》)
  40. Jeremy Howard的数据项目检查清单
  41. MLOps:并不像听起来那么枯燥
  42. 让机器学习实现运营化的10个步骤。Cloudera白皮书
  43. 仅靠MLOps还不够。需要端到端的数据科学生命周期流程。
  44. 数据科学生命周期仓库模板
  45. 模板:用于机器学习项目的代码和流水线定义,展示如何自动化端到端的ML/AI工作流。
  46. 细数机器学习的技术债务
  47. 机器学习团队实际使用的最佳工具、库、框架和方法论——来自41家机器学习初创企业的经验总结
  48. 面向AI/ML的软件工程——注释书目
  49. 智能系统。机器学习实战
  50. CMU 17-445/645:面向AI赋能系统的软件工程(SE4AI)
  51. 机器学习即需求工程
  52. 机器学习可复现性检查清单
  53. 机器学习运维。一个收集如何利用GitHub促进机器学习运维资源的集合。
  54. 几乎所有机器学习项目的任务备忘录:构建端到端机器学习项目的任务清单
  55. 实时机器学习端点:Web服务 vs. 流式传输
  56. PyTorch Lightning如何成为首个在TPU上运行持续集成的机器学习框架
  57. 使用DVC构建可维护机器学习流水线的终极指南
  58. 连续机器学习(CML)是机器学习项目的CI/CD(DVC)
  59. 从审视200种机器学习工具中学到的东西 | 更新:MLOps工具全景图v2(新增84款工具)— 2020年12月
  60. 大数据与AI全景图
  61. 将机器学习模型作为数据而非代码部署——是否更合适?
  62. “你应当始终进行扩展”——MLOps十诫
  63. 构建机器学习系统的三大风险
  64. maiot.io的生产环境机器学习博客
  65. 回归机器学习基础:如何编写模型部署代码。第1部分, 第2部分, 第3部分
  66. MLOps:机器学习作为一门工程学科
  67. Google Cloud Platform上的机器学习工程(动手实验室和代码示例)
  68. 生产环境中的深度强化学习。Zynga利用强化学习个性化用户体验
  69. 什么是数据可观测性?
  70. 生产环境中维护机器学习的实用指南
  71. 连续机器学习。第1部分, 第2部分。第3部分即将发布。
  72. 一位机器学习专家解读数据科学中的敏捷方法
  73. 构建ML驱动服务时,你需要在模型服务器中寻找什么
  74. 企业级AI开发者工具的问题(以及宜家与此有何关系)
  75. 分层存储下的流式机器学习
  76. 机器学习性能与成本优化的最佳实践(Google Cloud)
  77. 精益数据与机器学习运营
  78. 生产环境中运行ML系统的简明指南——面向站点可靠性工程师的最佳实践
  79. 现实世界中的AI工程实践——SIG | 让软件更健康,共建数字世界
  80. SE-ML | 2020年机器学习工程实践现状报告
  81. 机器学习领域优秀的软件工程资源(GitHub仓库)
  82. 抽样并不足够,不如对你的ML数据进行剖析
  83. ML中的可复现性:为何重要以及如何实现
  84. 生产环境中ML的12个因素
  85. MLOps:不止于自动化
  86. 精益数据科学
  87. 数据科学家的工程技能
  88. DAGsHub博客。阅读有关数据科学与机器学习工作流、MLOps以及开源数据科学的内容
  89. 初创公司数据科学项目流程
  90. Shopify的数据科学工程
  91. 为加密经济构建高效执行的最先进机器学习技术
  92. 完成机器学习闭环
  93. 部署机器学习模型:检查清单
  94. 全球MLOps与ML工具全景图(由MLReef提供)
  95. 为何所有数据科学团队都需要认真对待MLOps
  96. MLOps价值观(由Bart Grasza提出)
  97. Chip Huyen的机器学习系统设计
  98. 设计ML系统(斯坦福大学| CS 329 | Chip Huyen)
  99. COVID-19如何影响AI模型(关于数据漂移或模型漂移的概念)
  100. 机器学习库的微内核架构。以Python元类为例的微内核架构
  101. 生产环境中的机器学习:Booking.com的做法
  102. 参加TWIMLcon 2021后的收获(James Le著)
  103. 为初创公司设计ML编排系统。以构建轻量级生产级ML编排系统为例
  104. 迈向MLOps:机器学习平台的技术能力 | Prosus AI科技博客
  105. 入门MLOps:使用开源工具的全面MLOps教程
  106. 从DevOps到MLOps:使用Jenkins和Docker集成机器学习模型
  107. 基于Pulumi、FastAPI、DVC、MLFlow等的基础ML平台示例代码
  108. 机器学习的软件工程:识别与检测机器学习系统中的不匹配现象
  109. TWIML解决方案指南
  110. 你在规模化应用机器学习方面做得如何?六个值得思考的问题
  111. 开始使用MLOps:为你的用例选择合适的功能
  112. SEI最新成果:人工智能、DevSecOps与安全事件响应
  113. MLOps:终极指南。一本关于MLOps及其思考方式的手册
  114. 云端MLOps的企业就绪度报告
  115. 我应该为每个客户训练一个模型,还是为所有客户使用同一个模型?
  116. MLOps基础(GitHub仓库)raviraja 提供
  117. 再多的工具也无法解决你的MLOps问题
  118. 最佳MLOps工具:如何挑选与评估(由NimbleBox.ai提供)
  119. MLOps与DevOps的详细对比(由NimbleBox.ai提供)
  120. 如何组建你的MLOps团队:一份指南(由NimbleBox.ai提供)

MLOps:工作流管理

  1. 开源工作流管理工具:Ploomber 的调查
  2. 如何比较机器学习实验跟踪工具以适配你的数据科学工作流(由 dagshub 提供)
  3. 用于跟踪机器学习实验的 15 款最佳工具

MLOps:特征存储库

点击展开!
  1. 面向机器学习的特征存储库 Medium 博客
  2. 使用特征存储库的 MLOps
  3. ML 用特征存储库
  4. Hopsworks:带有特征存储库的数据密集型 AI
  5. Feast:面向机器学习的开源特征存储库
  6. 什么是特征存储库?
  7. ML 特征存储库:一次轻松的游览
  8. 面向数据科学家和大数据专业人士的特征存储库架构综合列表
  9. ML 工程师指南:特征存储库与数据仓库(供应商博客)
  10. 使用 Redis、二进制序列化、字符串哈希和压缩构建千兆级 ML 特征存储库(DoorDash 博客)
  11. 特征存储库:为企业级 AI 带来的多种优势。
  12. 特征存储库作为机器学习的基础
  13. Lyft 的 ML 特征服务基础设施
  14. 用于自助式机器学习的特征存储库
  15. LinkedIn 用于改进机器学习模型中特征管理的架构。
  16. 彩虹彼岸是否存在特征存储库?如何为你的用例选择合适的特征存储库

MLOps:数据工程(DataOps)

点击展开!
  1. 2020年数据质量现状——O’Reilly
  2. 为什么我们需要面向机器学习数据的DevOps
  3. 机器学习的数据准备(7天迷你课程)
  4. 数据清洗最佳实践:一份关于数据收集前后所需一切操作的完整指南。
  5. 应对数据、大数据乃至超大数据的17种策略
  6. DataOps数据架构
  7. 数据编排——入门介绍
  8. 2020年值得关注的4大数据趋势
  9. CSE 291D / 234:面向机器学习的数据系统
  10. 现代数据工程领域的全貌
  11. 使用GitHub Actions和Great Expectations为您的数据实现持续集成。向数据管道的CI/CD更近一步
  12. 现代数据基础设施的新兴架构
  13. Awesome Data Engineering。成为数据工程师的学习路径与资源
  14. Airbnb的数据质量 第一部分 | 第二部分
  15. DataHub:解析流行的元数据架构
  16. 金融时报数据平台:从零到英雄。深入剖析我们数据平台的演进历程
  17. Alki,或我们如何学会不再担心并爱上冷元数据(Dropbox)
  18. 干净数据入门指南。识别并避免数据质量问题的实用建议(作者:本杰明·格雷夫)
  19. ML Lake:构建Salesforce的机器学习数据平台
  20. 数据目录3.0:面向现代数据栈的现代元数据
  21. 元数据管理系统
  22. 数据工程师必备资源(精选推荐阅读与观看清单,用于可扩展的数据处理)
  23. 全面且易懂的数据目录:元数据管理的何、谁、何地、何时、为何及如何(论文)
  24. 参加2021年DataOps Unleashed后我的收获(作者:James Le)
  25. Uber从基本原理出发迈向更优数据文化的旅程
  26. Cerberus——Python轻量级且可扩展的数据验证库
  27. 使用AWS Lake Formation和AWS Glue设计数据网格架构。AWS大数据博客
  28. 生产环境机器学习中的数据管理挑战(幻灯片)
  29. 数据发现与可观测性平台缺失的一环:元数据开放标准
  30. 大规模自动化数据保护
  31. 精选的优秀流水线工具集列表
  32. 数据网格架构
  33. 机器学习中数据探索的必备指南(由NimbleBox.ai提供)
  34. 利用Cleanlab发现数百万个标签错误

MLOps:模型部署与服务

点击展开!
  1. 面向所有人的AI基础设施:DeterminedAI
  2. 使用MLflow和Docker部署R模型
  3. 部署机器学习模型意味着什么?
  4. 用于机器学习部署的软件接口
  5. 机器学习部署中的批量推理
  6. AWS ML基础设施的成本优化——EC2支出
  7. 机器学习与AI的CI/CD
  8. 伊塔乌联合银行:我们如何在Kubeflow中构建支持在线训练的机器学习CI/CD流水线
  9. ML模型服务入门
  10. 将机器学习模型部署到生产环境——推理服务架构模式
  11. 无服务器ML:大规模部署轻量级模型
  12. ML模型上线生产。第1部分 | 第2部分
  13. 使用Flask、Docker和Kubernetes部署Python ML模型
  14. 使用Bodywork部署Python ML模型
  15. 成功持续训练策略框架。何时应该重新训练模型?应该使用哪些数据?应该重新训练什么?一种数据驱动的方法
  16. 高效的机器学习推理。在延迟敏感场景下多模型服务的优势
  17. 使用基础设施即代码在云端部署Hugging Face ML模型

MLOps:测试、监控与维护

点击展开!
  1. 构建用于运营可视化的仪表板(AWS)
  2. 生产环境中机器学习模型的监控
  3. 机器学习系统的有效测试
  4. 数据单元测试:它是什么,如何进行?
  5. 如何测试机器学习代码和系统配套代码
  6. Wu, T., Dong, Y., Dong, Z., Singa, A., Chen, X. 和 Zhang, Y., 2020. 面向安全与鲁棒性的人工智能系统测试:现状. IAENG 国际计算机科学期刊, 47(3).
  7. 多臂老虎机与 Stitch Fix 实验平台
  8. 机器学习模型的 A/B 测试
  9. 机器学习中的数据验证. Polyzotis, N., Zinkevich, M., Roy, S., Breck, E. 和 Whang, S., 2019. 机器学习与系统会议论文集
  10. 基于机器学习系统的测试:系统性映射
  11. 可解释的监控:不再盲目飞行,监控你的 AI
  12. WhyLogs:在你的 ML 系统中拥抱数据日志记录
  13. Evidently AI. 关于在生产环境中进行机器学习的见解。(供应商博客)
  14. 全面监控 AI 的权威指南
  15. 机器学习单元测试简介
  16. 生产环境下的机器学习监控:异常值、漂移、解释器与统计性能
  17. MLOps 中的测试驱动开发 第 1 部分
  18. 特定领域的机器学习监控
  19. 推出 ML 模型性能管理(Fiddler 博客)
  20. 什么是 ML 可观测性?(Arize AI)
  21. 超越监控:可观测性的崛起(Arize AI 和 Monte Carlo Data)
  22. ML 模型故障模式(Arize AI)
  23. ML 数据质量监控快速入门(Arize AI)
  24. 生产环境中模型性能监控操作手册(Arize AI)
  25. 基于属性的领域覆盖测试实现稳健的 ML(Efemarai 博客)
  26. 生产环境中模型的监控与可解释性
  27. 超越监控:可观测性的崛起
  28. ML 模型监控——来自一线的 9 条建议。(由 NU bank 提供)
  29. LinkedIn 的模型健康保障。由 LinkedIn 工程团队提供
  30. 如何信任你的深度学习代码配套代码
  31. 无需真实标签即可估计回归模型性能(使用 NannyML
  32. 机器学习中超参数调优的工作原理(由 NimbleBox.ai 提供)

MLOps:基础设施与工具

点击展开!
  1. MLOps 基础设施栈画布
  2. 机器学习中规范栈的兴起。主导性的新软件栈将如何解锁下一代尖端 AI 应用
  3. AI 基础设施联盟。构建 AI/ML 的规范栈
  4. Linux 基金会 AI 基金会
  5. 用于生产的机器学习基础设施工具 | 第 1 部分 — 生产级机器学习 — 模型工作流的最后阶段 | 第 2 部分 — 模型部署与服务
  6. MLOps 栈模板(由 valohai 提供)
  7. 探索 MLOps 工具生态
  8. MLOps.toys 精选的 MLOps 项目列表(由 Aporia 提供)
  9. 对比云上 MLOps 平台,来自前 AWS SageMaker 产品经理的观点
  10. 机器学习生态系统入门(Arize AI 白皮书)
  11. 选择最适合您的 MLOps 栈:优势与挑战。由 Intellerts 提供
  12. 实时机器学习推理的基础设施设计。Databricks 博客
  13. 2021 年 AI 基础设施状况调查报告
  14. AI 基础设施成熟度矩阵
  15. 最佳开源 MLOps 工具精选集。由 Censius 提供
  16. 管理机器学习生命周期的最佳 MLOps 工具(由 NimbleBox.ai 提供)
  17. MLOps 必备的最小工具集

MLOps 论文

自 2015 年以来关于机器学习运维的科学和工业论文及资源列表。查看更多。

关于 MLOps 的演讲

点击展开!
  1. "MLOps:自动化机器学习" 由 Emmanuel Raj 主讲
  2. DeliveryConf 2020。"机器学习的持续交付:模式与痛点" 由 Emily Gorcenski 主讲
  3. MLOps 大会:2019 年的演讲
  4. Kubecon 2019:Flyte——云原生机器学习与数据处理平台
  5. Kubecon 2019:Lyft 如何在 Kubernetes 上运行大规模有状态工作负载
  6. 用于大规模生产级机器学习的 CI/CD 框架(使用 Jenkins X 和 Seldon Core)
  7. MLOps 虚拟活动(Databricks)
  8. MLOps NY 大会 2019
  9. MLOps.community YouTube 频道
  10. MLinProduction YouTube 频道
  11. 在 Databricks 上介绍 MLflow 用于端到端机器学习。Spark+AI 峰会 2020。Sean Owen
  12. MLOps 教程 #1:ML 持续集成简介
  13. 高速机器学习:为实时数据流实现 ML 运维化(2019)
  14. Damian Brady - MLops 新兴领域
  15. MLOps - 设计、开发、运营(INNOQ 德语播客)
  16. 机器学习模型的仪器化、可观测性与监控
  17. 高效的 ML 工程:工具与最佳实践
  18. 超越 Jupyter Notebook:如何构建数据科学产品
  19. Google Cloud 上的 MLOps 入门(前 19 分钟不依赖特定厂商、语言或框架。@visenger)
  20. ML 出现故障的原因:某大型 ML 流水线十年来的宕机事件
  21. 整洁的机器学习代码:实用软件工程
  22. 机器学习工程:10 项基本实践
  23. 机器学习系统架构(三集系列)
  24. 机器学习设计模式
  25. 涵盖模型部署至生产环境的技术与方法的播放列表
  26. ML 可观测性:确保负责任 AI 的关键环节(Arize AI 在 Re-Work 上的演讲)
  27. ML 工程 vs. 数据科学(Arize AI Un/Summit)
  28. 面向 ML 的 SRE:前 10 年与接下来的 10 年
  29. 揭秘生产环境中的机器学习:对大规模 ML 平台的思考
  30. Apply Conf 2022
  31. Databricks 2022 年数据 + AI 峰会
  32. RE•WORK MLOps 峰会 2022
  33. 年度 MLOps 世界大会

现有的机器学习系统

点击展开!
  1. 介绍 FBLearner Flow:Facebook 的 AI 核心框架
  2. TFX:基于 TensorFlow 的生产级机器学习平台
  3. 加速您的机器学习和数据工作流至生产环境:Flyte
  4. Kubeflow Pipelines 入门
  5. 认识 Michelangelo:Uber 的机器学习平台
  6. Meson:用于 Netflix 推荐系统的流程编排
  7. 什么是 Azure 机器学习管道?
  8. Uber ATG 用于自动驾驶车辆的机器学习基础设施
  9. 机器学习开发平台概述
  10. Snorkel AI:在机器学习开发中将数据放在首位
  11. 端到端机器学习平台巡礼
  12. 推出 WhyLabs:AI 可靠性的飞跃
  13. 项目:Ease.ml(苏黎世联邦理工学院)
  14. Bodywork:模型训练与部署自动化
  15. 关于机器学习平台的经验教训——来自 Netflix、DoorDash、Spotify 等公司
  16. 由 Eugen Yan 整理的企业分享其在生产环境中开展数据科学与机器学习工作的论文和技术博客
  17. 不同科技公司在构建内部机器学习平台方面有哪些做法?(推文)
  18. 声明式机器学习系统
  19. StreamING 机器学习模型:ING 如何借助 Apache Flink 在运行时动态添加欺诈检测模型

机器学习

点击展开!
  1. 书籍,奥雷利安·热隆,《使用Scikit-Learn和TensorFlow动手实践机器学习》
  2. 机器学习基础
  3. 学习机器学习的最佳资源
  4. 超赞的TensorFlow资源
  5. "Papers with Code" - 浏览机器学习领域的最新进展
  6. 周志华. 2012. 集成学习:基础与算法. Chapman & Hall/CRC.
  7. 机器学习特征工程. 数据科学家的原则与技术. 作者:爱丽丝·郑,阿曼达·卡萨里
  8. 谷歌研究院:回顾2019年,展望2020年及以后
  9. O’Reilly:通往软件2.0之路
  10. 工业中的机器学习与数据科学应用
  11. 用于异常检测的深度学习
  12. 用于移动键盘预测的联邦学习
  13. 联邦学习. 利用设备端数据打造更优质的产品,并默认保护隐私
  14. 联邦学习:无需集中式训练数据的协作式机器学习
  15. Yang, Q., Liu, Y., Cheng, Y., Kang, Y., Chen, T. 和 Yu, H., 2019. 联邦学习. 人工智能与机器学习综述讲座,第13卷第3期. 第1章和第2章.
  16. FastForward的联邦学习
  17. 联邦与分布式机器学习会议
  18. 联邦学习:挑战、方法与未来方向
  19. 书籍:莫尔纳尔,克里斯托夫. “可解释的机器学习. 让黑盒模型变得可解释的指南”,2019年
  20. 书籍:胡特,弗兰克,拉尔斯·科特霍夫,以及华金·范斯霍伦. “自动化机器学习”. Springer,2019年.
  21. 按主题分类的机器学习资源,由社区精选.
  22. 机器学习可解释性入门,作者:帕特里克·霍尔,纳夫迪普·吉尔,第二版. O'Reilly 2019年
  23. 训练可解释机器学习(ML)模型、解释ML模型以及调试ML模型以确保其准确性、公平性和安全性的技术示例.
  24. 论文:“Python中的机器学习:数据科学、机器学习和人工智能的主要发展与技术趋势”,作者:塞巴斯蒂安·拉斯奇卡、乔舒亚·帕特森和科里·诺莱特. 2020年
  25. Distill:机器学习研究
  26. AtHomeWithAI:DeepMind精选资源列表
  27. 超赞的数据科学资源
  28. 概率编程入门. 使用Tensorflow-Probability(TFP)的用例
  29. 深入了解Snorkel:德语文本的弱监督. inovex博客
  30. 深入学习深度学习. 一本包含代码、数学和讨论的交互式深度学习书籍. 提供NumPy/MXNet、PyTorch和TensorFlow实现
  31. 数据科学收集资源(GitHub仓库)
  32. 一套图解机器学习备忘录
  33. "机器学习读书营" 作者:阿列克谢·格里戈列夫
  34. 130个已解决并解释的机器学习项目
  35. 机器学习备忘录
  36. Stateoftheart AI. 一个由科研社区构建的开放数据免费平台,旨在促进AI的协作开发
  37. 在线机器学习课程:2020年版
  38. 端到端机器学习库
  39. 机器学习工具箱(作者:阿米特·乔杜里)
  40. 因果关系在机器学习中的应用
  41. 勇敢者与真诚者的因果推断
  42. 因果推断
  43. 统计学、数据科学和物理学中关于因果关系的资源列表
  44. 从数据中学习. 加州理工学院
  45. 机器学习术语表
  46. 书籍:“分布式机器学习模式”. 2022年. 作者:袁唐. Manning
  47. 面向初学者的机器学习课程
  48. 与机器学习交朋友. 作者:卡西·科泽尔科夫
  49. 机器学习工作流 - 完整指南(由NimbleBox.ai提供)
  50. 机器学习项目中需要监控的性能指标(由NimbleBox.ai提供)

软件工程

点击展开!
  1. 十二要素
  2. 书籍《Accelerate:精益软件与DevOps科学——构建和扩展高性能技术组织》,2018年,妮可·福斯根等著
  3. 书籍《DevOps手册》, 吉恩·金等人著,2016年
  4. 2019年DevOps现状报告
  5. 为机器学习和数据科学量身定制的整洁代码理念
  6. SRE学院
  7. 人们常常忽视的软件工程十大定律
  8. 可扩展、可靠且高性能大规模系统的模式
  9. 秘密知识之书
  10. 康威定律的多重解读
  11. 数据科学家的工程实践

机器学习/人工智能的产品管理

点击展开!
  1. 关于AI产品管理你需要知道的事。AI产品经理需要完成传统产品经理的所有工作,而且还要做更多。
  2. 将AI产品推向市场。之前的文章已经介绍了AI产品管理的基础知识。现在我们来探讨核心问题:如何把产品推向市场?
  3. 人与AI指南
  4. 用户需求 + 定义成功
  5. 构建机器学习产品:问题定义清晰,就等于解决了大半问题。
  6. 演讲:设计卓越的机器学习体验(苹果公司)
  7. 面向产品经理的机器学习
  8. 通过沃德利映射理解数据格局与战略布局
  9. 跨产品和功能原型化机器学习系统的技术
  10. 机器学习与用户体验:一些资源
  11. AI创意构思框架
  12. AI领域的创意构思
  13. 为企业构建机器学习模型的五个步骤。由Shopify工程团队提供
  14. 数据科学家与业务领导者的指标设计

机器学习/人工智能的经济学

点击展开!
  1. 书籍:《预测机器:人工智能的简单经济学》
  2. 书籍:《AI组织》作者大卫·卡蒙纳
  3. 书籍:《成功运用人工智能》. 2020年. 作者韦尔科·克鲁尼奇. 曼宁出版社
  4. 关于人工智能与经济的文章列表
  5. Gartner 2019年人工智能趋势
  6. 全球人工智能调查:人工智能证明了其价值,但很少有企业能扩大其影响范围
  7. 开始使用人工智能?从这里入手!你需要了解的一切,以便深入你的项目
  8. 在启动成功的机器学习项目之前需要问的11个问题
  9. 人工智能目前仍然无法做到的事情
  10. 揭秘人工智能第4部分:什么是AI画布?如何使用它?
  11. 用于启动项目的数据科学工作流程画布
  12. 你的AI项目是不是注定失败?这里有一份现实检查清单,帮你避免吃苦头
  13. 大多数机器学习项目失败的主要原因是什么?
  14. 设计出色的数据产品。传动系统方法:构建数据产品的四步流程。
  15. 人工智能的新商业模式(以及它与传统软件的不同之处)
  16. 人工智能初创企业的创意迷宫
  17. 企业级人工智能挑战:常见误解
  18. 误解1(共5条):企业级人工智能主要关注技术
  19. 误解2(共5条):自动化机器学习将解锁企业级人工智能
  20. 设计ML驱动产品的三项原则
  21. 机器学习问题定义的分步指南
  22. 2020年企业中的人工智能采用情况
  23. 采用MLOps如何帮助公司建立机器学习文化?
  24. 将人工智能融入你的组织
  25. 当人工智能失效时该怎么办
  26. 机器学习问题定义入门
  27. 识别人工智能用例的结构化方法
  28. 书籍:《商业中的机器学习》作者道格·哈吉森、理查德·尼科尔,O'Reilly出版社
  29. 为什么商业人工智能产品无法规模化(FemTech)
  30. 谷歌云的人工智能采用框架(白皮书)
  31. 数据科学项目管理
  32. 书籍:《人工智能时代的竞争》作者马可·伊安西蒂、卡里姆·R·拉哈尼。哈佛商业评论出版社。2020年
  33. 初创企业需要提出的关于人工智能的三个问题。第一个是:你确定真的需要人工智能吗?
  34. 驯服长尾:改善人工智能经济性的探索
  35. 管理采用人工智能工程的风险
  36. 摆脱“人工智能救世主”思维
  37. 列出数据科学项目失败原因的文章合集
  38. 吴恩达教你如何选择你的第一个AI项目
  39. 如何设定人工智能目标
  40. 通过组织学习扩大人工智能的影响
  41. 波将金数据科学
  42. 什么时候不应该投资人工智能?
  43. 为什么90%的机器学习模型从未进入市场。大多数公司缺乏领导层的支持、团队之间的有效沟通以及可访问的数据

模型治理、伦理与负责任的人工智能

本主题已提取至我们新的Awesome ML Model Governace仓库

MLOps:人员与流程

点击展开!
  1. 如何扩展机器学习团队(0–10人)
  2. Knowledge Repo 项目旨在促进数据科学家与其他技术岗位之间的知识共享。
  3. 在 Airbnb 扩展知识管理
  4. 企业中整合数据科学团队的模式:比较分析
  5. 如何使用“为什么、是什么、怎么做”框架写出更好的文档?如何为数据科学/机器学习项目撰写设计文档?(作者:Eugene Yan)
  6. 技术写作课程
  7. 在一家中后期初创公司组建数据团队:一个短篇故事。作者:Erik Bernhardsson
  8. 人工智能在企业中的文化效益。作者:Sam Ransbotham、François Candelon、David Kiron、Burt LaFountain 和 Shervin Khodabandeh

关于 MLOps、机器学习、数据科学等领域的时事通讯

点击展开!
  1. ML in Production 新闻简报
  2. MLOps.community
  3. Andriy Burkov 的新闻简报
  4. Cassie Kozyrkov 的 Decision Intelligence
  5. Laszlo 的数据科学新闻简报
  6. Data Elixir 新闻简报,每周为你精选网络上最优质的数据科学内容。涵盖机器学习、数据可视化、数据分析和战略等领域。
  7. Tristan Handy 的 Data Science Roundup
  8. Vicki Boykis 的数据科学新闻简报
  9. KDnuggets 新闻
  10. Analytics Vidhya,关于商业分析、数据科学、大数据、数据可视化工具及技术的任何问题
  11. Data Science Weekly Newsletter:一份免费的每周新闻简报,精选与数据科学相关的新闻、文章和职位信息。
  12. The Machine Learning Engineer Newsletter
  13. Gradient Flow 帮助你紧跟最新的技术趋势和工具,提供深入报道、分析和见解。关注数据、技术和商业领域,尤其侧重于机器学习和人工智能。
  14. Nathan Benaich 的 AI 指南。每月对人工智能技术、地缘政治、研究和初创企业进行分析。
  15. O'Reilly 数据与人工智能新闻简报
  16. deeplearning.ai 的由 Andrew Ng 主编的新闻简报
  17. Deep Learning Weekly
  18. Import AI 是一份每周发布的人工智能新闻简报,读者超过一万名专家。作者:Jack Clark。
  19. AI Ethics Weekly
  20. 宣布推出 Projects To Know,一份每周发布的机器智能和数据科学新闻简报
  21. TWIML:本周机器学习与人工智能新闻简报
  22. featurestore.org:每月发布的关于 ML 特征存储的新闻简报
  23. DataTalks.Club 社区:Slack 群组、新闻简报、播客、每周活动
  24. Machine Learning Ops Roundup
  25. Eric Ma 的 Data Science Programming Newsletter
  26. Marginally Interesting,作者:Mikio L. Braun
  27. Synced
  28. The Ground Truth:面向计算机视觉从业者的新闻简报
  29. SwirlAI:由 Aurimas Griciūnas 主编的专注于数据工程、MLOps 和整体数据领域的新闻简报
  30. Marvelous MLOps
  31. Made with ML
  32. MLOps Insights Newsletter:共 8 期,涵盖模型反馈真空、部署可重复性以及无服务器架构等 MLOps 相关主题

ko-fi

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|4天前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|5天前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

149.5k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|今天
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|昨天
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|4天前
插件开发框架