applied-ml

28.8k 3.8k 非常简单 1 次阅读昨天MIT开发框架图像语言模型数据工具其他

AI 解读由 AI 自动生成，仅供参考

applied-ml 是一个专注于“生产环境中的数据科学与机器学习”的精选资源库。它汇集了来自 Airbnb、Google、Uber、Netflix 等科技巨头的技术论文、工程博客和实战案例，旨在填补学术理论与工业落地之间的鸿沟。

在实际开发中，许多团队往往知道算法原理，却不清楚如何在真实业务中构建可靠的系统。applied-ml 正是为了解决这一痛点而生。它不仅展示了各大公司如何定义问题（例如将个性化推荐转化为搜索或序列建模问题），还深入剖析了哪些技术方案行之有效、哪些曾遭遇失败，并提供了关于数据质量、特征存储、模型管理及 MLOps 基础设施等全流程的宝贵经验。通过这些内容，用户能够更准确地评估项目的投资回报率（ROI），避免重复造轮子。

这份资源特别适合机器学习工程师、数据科学家、技术负责人以及正在探索 AI 落地的研究人员使用。无论你是需要寻找特定场景（如异常检测、自然语言处理或隐私保护计算）的参考架构，还是希望了解大厂团队的协作模式与避坑指南，applied-ml 都能提供极具价值的实战视角。其独特的价值在于不仅关注“怎么做”，更强调“为什么这样做”以及“实际效果如何”，是连接前沿研究与工程实践的桥梁。

使用场景

某电商初创公司的算法团队正着手构建实时个性化推荐系统，但在技术选型和落地路径上陷入迷茫。

没有 applied-ml 时

盲目试错成本高：团队花费数周调研是将问题定义为序列建模还是搜索排序，缺乏行业标杆参考，导致架构反复推翻重来。
忽视数据质量陷阱：直接套用学术模型，未借鉴 Uber 或 Airbnb 在生产环境中关于数据监控与清洗的实战经验，上线后因脏数据导致推荐准确率大幅波动。
难以评估投入产出比：无法找到类似规模公司的真实 ROI 数据（如 Netflix 或 Amazon 的案例），难以向管理层证明项目价值以争取资源。
重复造轮子：在特征存储和异常检测等通用模块上从零开发，忽略了 Google 和 Facebook 已开源的成熟解决方案与失败教训总结。

使用 applied-ml 后

快速锁定最佳实践：通过查阅"Recommendation"和"Sequence Modelling"章节，直接参考大厂如何将业务问题转化为具体的机器学习任务，一周内确定技术路线。
规避生产环境大坑：研读"Data Quality"板块中关于大规模数据验证的论文与博客，提前部署了类似 Gojek 的数据质检机制，确保模型输入稳定可靠。
用数据驱动决策：引用文中收录的真实世界成果报告，清晰量化预期收益，成功获得高层对项目的持续支持。
站在巨人肩膀上：利用"Feature Stores"和"Fails"分类下的案例，直接复用成熟的工程模式并避开前人踩过的坑，将研发周期缩短了一半。

applied-ml 通过将全球顶尖公司的生产级机器学习经验结构化，帮助团队从“闭门造车”转向“站在巨人的肩膀上”高效落地。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该工具（applied-ml）并非可执行的软件代码库，而是一个 curated list（精选列表），主要收集了关于数据科学和机器学习在生产环境中应用的论文、文章和博客链接。因此，它没有操作系统、GPU、内存、Python 版本或依赖库等运行环境需求。用户只需通过浏览器阅读链接内容即可。

python未说明

快速开始

applied-ml

精选关于生产环境中的数据科学与机器学习的论文、文章和博客。⚙️

访问量

正在思考如何落地你的机器学习项目吗？来看看其他组织是如何做的吧：

问题是如何定义的 🔎（例如，个性化作为推荐系统、搜索或序列建模）
哪些机器学习技术奏效了 ✅（以及有时哪些没有奏效 ❌）
为什么它有效——背后的科学原理、研究文献及参考 📂
实际取得了哪些成果（以便你更好地评估投资回报率 ⏰💰📈）

PS：想了解机器学习领域的最新进展摘要吗？👉ml-surveys

PPS：想找一些关于机器学习应用的指南和访谈吗？👉applyingML

数据质量
数据工程
数据发现
特征存储
分类
回归
预测
推荐
搜索与排序
嵌入
自然语言处理
序列建模
计算机视觉
强化学习
异常检测
图
优化
信息抽取
弱监督
生成
音频
隐私保护的机器学习
验证与A/B测试
模型管理
效率
伦理
基础设施
MLOps平台
实践
团队结构
失败案例

数据质量

Airbnb的可靠且可扩展的数据摄取 Airbnb 2016
利用统计建模大规模监控数据质量 Uber 2017
生产环境中机器学习的数据管理挑战（论文）Google 2017
自动化大规模数据质量验证（论文）Amazon 2018
认识Hodor——Gojek的上游数据质量工具 Gojek 2019
面向机器学习的数据验证（论文）Google 2019
Netflix个性化系统中的数据质量方法 Netflix 2020
通过估计人类决策、标签和标注者的置信度来提升准确性（论文）Facebook 2020

数据工程

Zipline：Airbnb的机器学习数据管理平台 Airbnb 2018
Sputnik：Airbnb的Apache Spark数据工程框架 Airbnb 2020
使用Metaflow和AWS Step Functions解耦数据科学工作流 Netflix 2020
DoorDash如何扩展其数据平台以满足客户需求并应对不断增长的需求 DoorDash 2020
通过强数据一致性彻底革新大规模资金流动 Uber 2020
Zipline——一个声明式的特征工程框架 Airbnb 2020
大规模数据保护自动化，第一部分（第二部分）Airbnb 2021
Uber的实时数据基础设施 Uber 2021
推出Fabricator：一个声明式的特征工程框架 DoorDash 2022
函数与DAG：引入Hamilton——一个用于生成DataFrame的微框架 Stitch Fix 2021
Pinterest数据摄取栈的优化：发现与经验 Pinterest 2022
大规模运行Apache Airflow的经验教训 Shopify 2022
理解大规模深度推荐模型训练中的数据存储与摄取 Meta 2022
Data Mesh——Netflix的数据流动与处理平台 Netflix 2022
使用Kafka和Flink构建可扩展的实时事件处理系统 DoorDash 2022

数据发现

Apache Atlas：面向Hadoop的数据治理与元数据框架 (代码) Apache
收集、聚合并可视化数据生态系统的元数据 (代码) WeWork
Twitter上分析数据的发现与消费 Twitter 2016
Airbnb的数据民主化 Airbnb 2017
Databook：在Uber利用元数据将大数据转化为知识 Uber 2018
Metacat：让Netflix的大数据可发现且有意义 (代码) Netflix 2018
Amundsen — Lyft的数据发现与元数据引擎 Lyft 2019
开源Amundsen：一个数据发现与元数据平台 (代码) Lyft 2019
DataHub：一种通用的元数据搜索与发现工具 (代码) LinkedIn 2019
Amundsen：一年之后 Lyft 2020
使用Amundsen通过元数据收集支持Square的用户隐私 Square 2020
借助Databook将元数据转化为洞察 Uber 2020
DataHub：常见元数据架构解析 LinkedIn 2020
我们如何为Spotify的数据科学家改进数据发现 Spotify 2020
我们在Shopify如何解决数据发现挑战 Shopify 2020
Nemo：Facebook的数据发现 Facebook 2020
探索Netflix的数据 (代码) Netflix 2021

特征存储

用于特征生成的分布式时间旅行 Netflix 2016
构建活动图，第2部分（特征存储章节） LinkedIn 2017
面向Netflix推荐的大规模事实存储 Netflix 2018
Zipline：Airbnb的机器学习数据管理平台 Airbnb 2018
特征存储：机器学习流水线中缺失的数据层吗？ Hopsworks 2018
推出Feast：一个用于机器学习的开源特征存储 (代码) Gojek 2019
米开朗基罗调色板：Uber的特征工程平台 Uber 2019
驱动Twitter特征存储的架构 Twitter 2019
通过特征存储服务加速机器学习 康泰纳仕 2019
Feast：连接ML模型与数据 Gojek 2020
利用Redis、二进制序列化和压缩构建可扩展的ML特征存储 DoorDash 2020
通过标准化实现快速实验：LinkedIn信息流中的类型化AI特征 LinkedIn 2020
构建特征存储 Monzo Bank 2020
Butterfree：基于Spark的特征存储构建框架 (代码) QuintoAndar 2020
构建Riviera：声明式实时特征工程框架 DoorDash 2021
最优特征发现：通过信息论实现更优、更精简的机器学习模型 Uber 2021
Lyft的ML特征服务基础设施 Lyft 2021
近实时特征用于近实时个性化 LinkedIn 2022
构建DoorDash广泛商家选择背后的模型 DoorDash 2022
开源Feathr——LinkedIn用于高效机器学习的特征存储 LinkedIn 2022
ML事实存储的发展 Netflix 2022
开发可扩展的特征工程DAG 由Metaflow + Hamilton通过Outerbounds实现 2022
Constructor公司的特征存储设计 Constructor.io 2023

回归

利用机器学习预测 Airbnb 上房源的价值 Airbnb 2017
利用机器学习预测广告请求的价值 Twitter 2020
开源 Riskquant 风险量化库 (代码) Netflix 2020
通过简单的数据调整解决回归模型中的未观测数据问题 DoorDash 2020

预测

使用 RNN 在 Uber 进行极端事件预测 Uber 2017
Uber 的预测：入门介绍 Uber 2018
在 Uber 利用数据科学和机器学习变革财务预测 Uber 2018
Gojek 自动化预测工具揭秘 Gojek 2019
BusTr：基于实时交通预测公交车运行时间（论文，视频）Google 2020
新冠疫情后重新训练机器学习模型 DoorDash 2020
使用 Prophet、Databricks、Delta Lake 和 MLflow 进行自动预测（论文，代码）Atlassian 2020
推出 Orbit：用于时间序列推断与预测的开源工具包（论文，视频，代码）Uber 2021
通过机器学习管理供需平衡 DoorDash 2021
Greykite：灵活、直观且快速的预测库 LinkedIn 2021
亚马逊预测算法的发展历程 Amazon 2021
DeepETA：Uber 如何利用深度学习预测到达时间 Uber 2022
Grubhub 大规模订单量预测 Grubhub 2022
Lyft 的因果预测（第 1 部分） Lyft 2022

搜索与排序

亚马逊搜索：产品排序的乐趣（论文、视频、代码) 亚马逊 2016
Lazada 如何通过产品排序提升用户体验和转化率 Lazada 2016
雅虎搜索中的相关性排序（论文）雅虎 2016
在职业社交网络中学习对个性化搜索结果进行排序（论文）领英 2016
在推特时间线中大规模应用深度学习 推特 2017
基于集成方法的 Etsy 推广商品点击率预测（论文）Etsy 2017
DoorDash 的搜索与推荐系统支撑技术 DoorDash 2017
将深度学习应用于 Airbnb 搜索（论文）Airbnb 2018
人才搜索中的会话内个性化（论文）领英 2018
领英的人才搜索与推荐系统（论文）领英 2018
优步外卖的食物发现：构建查询理解引擎 优步 2018
电子商务搜索中全局优化的互影响感知排序（论文）阿里巴巴 2018
强化学习在电子商务搜索引擎排序中的应用（论文）阿里巴巴 2018
语义化商品搜索（论文）亚马逊 2019
机器学习驱动的 Airbnb Experiences 搜索排名 Airbnb 2019
基于树交互特征的实体个性化人才搜索模型（论文）领英 2019
领英招聘者搜索与推荐系统背后的 AI 技术 领英 2019
学习招聘偏好：领英职位搜索背后的 AI 技术 领英 2019
搜索个性化背后的秘密武器 Gojek 2019
神经代码搜索：基于 ML 的自然语言查询代码搜索 Facebook 2019
通过强化学习聚合来自异构来源的搜索结果（论文）阿里巴巴 2019
面向电子商务搜索的跨域注意力网络与 Wasserstein 正则化 阿里巴巴 2019
比以往任何时候都更好地理解搜索（论文）谷歌 2019
我们如何利用语义搜索让搜索效率提升 10 倍 Tokopedia 2019
Query2vec：使用查询嵌入扩展搜索查询 GrubHub 2019
MOBIUS：迈向百度推广搜索下一代查询广告匹配技术 百度 2019
为什么人们会在语音商品搜索中购买看似不相关的商品？（论文）亚马逊 2020
管理 Airbnb 搜索中的多样性（论文）Airbnb 2020
改进 Airbnb 搜索的深度学习技术（论文）Airbnb 2020
通过个性化 AI 实现招聘方和求职者的优质匹配 领英 2020
理解停留时间以提升领英信息流排名 领英 2020
通过约束优化进行信息流广告分配（论文，视频) 领英 2020
理解停留时间以提升领英信息流排名 领英 2020
必应中的规模化 AI 技术 微软 2020
Traveloka 通用搜索中的查询理解引擎 Traveloka 2020
Wayfair 中的贝叶斯商品排序 Wayfair 2020
COLD：迈向下一代预排序系统（论文）阿里巴巴 2020
Shop The Look：在 Pinterest 上构建大规模视觉购物系统（论文，视频) Pinterest 2020
通过 Pinterest 搜索推动购物加售 Pinterest 2020
GDMix：一个深度排序个性化框架（代码）领英 2020
为 Etsy 带来个性化搜索 Etsy 2020
为 Semantic Scholar 构建更优秀的搜索引擎 艾伦人工智能研究所 2020
面向自然语言企业级搜索的查询理解（论文）Salesforce 2020
事物而非字符串：通过更好的召回率理解搜索意图 DoorDash 2020
用于挖掘未被充分发掘音乐内容的查询理解（论文）Spotify 2020
基于嵌入的 Facebook 搜索检索（论文）Facebook 2020
通过嵌入学习实现电子商务搜索的个性化与语义化检索（论文）京东 2020
QUEEN：电商领域的神经查询重写（论文）亚马逊 2021
利用学习排序精准定位包裹配送地点（论文) 亚马逊 2021
电商搜索中的季节性相关性（论文）亚马逊 2021
赞助搜索中用于预测点击率的图意图网络（论文）阿里巴巴 2021
我们如何为 Etsy 广告构建特定场景的竞价系统 Etsy 2021
基于预训练语言模型的百度搜索排名（论文）百度 2021
拼接空间以支持基于查询的推荐 Stitch Fix 2021
为领英搜索系统提供深度自然语言处理（论文）领英 2021
基于 Siamese BERT 的网页搜索相关性排名模型（论文，代码) Seznam 2021
SearchSage：在 Pinterest 上学习搜索查询表示 Pinterest 2021
Query2Prod2Vec：面向电商的 grounded 词嵌入 Coveo 2021
三项措施扩大 DoorDash 商品搜索范围，超越配送业务 DoorDash 2022
学习多样化排序 Airbnb 2022
如何利用级联多臂老虎机优化排名 Expedia 2022
谷歌搜索排名系统指南 谷歌 2022
Etsy 搜索排名中的深度学习技术 Etsy 2022
Calm 应用中的搜索功能 Calm 2022

嵌入

用于构建推荐系统的物品、用户和购物车的向量表示 (论文) Sears 2017
阿里巴巴电商推荐中的亿级商品嵌入 (论文) 阿里巴巴 2018
Twitter 的嵌入技术 Twitter 2018
搜索排序中的房源嵌入 (论文) Airbnb 2018
理解潜在风格 Stitch Fix 2018
LinkedIn 人才搜索中的深度表示学习 (论文) LinkedIn 2018
基于向量嵌入的个性化店铺信息流 DoorDash 2018
我们应该使用嵌入吗？实时推荐中嵌入性能的研究 (论文) Moshbit 2019
机器学习助力更优质的开发者体验 Netflix 2020
发布 ScaNN：高效的向量相似性搜索 (论文，代码) Google 2020
BERT 上市场：比较产品表示的分布模型 Coveo 2021
从冷门领域走出的嵌入：利用内容推理改进新品和稀有产品的向量表示 Coveo 2022
Scribd 中的基于嵌入的检索 Scribd 2021
行为型歌曲嵌入的多目标超参数优化 (论文) Apple 2022
Spotify 规模下的嵌入——能有多难？ Spotify 2023

自然语言处理

在线用户内容中的辱骂性语言检测 (论文) 雅虎 2016
Smart Reply：电子邮件自动回复建议 (论文) 谷歌 2016
为会员消息构建智能回复 领英 2017
自然语言处理如何帮助领英会员更轻松地获得支持 领英 2019
Gmail Smart Compose：实时辅助写作 (论文) 谷歌 2019
在真实场景中结合用户画像特征的目标导向端到端对话模型 (论文) 亚马逊 2019
给我牛仔裤，不要鞋子：BERT如何帮助我们满足客户的需求 Stitch Fix 2019
DeText：用于智能文本理解的深度NLP框架 (代码) 领英 2020
YouTube创作者的SmartReply 谷歌 2020
利用神经网络从表格中寻找答案 (论文) 谷歌 2020
一种可扩展的方法来减少谷歌翻译中的性别偏见 谷歌 2020
辅助AI让回复更轻松 微软 2020
AI技术进步助力更好地检测仇恨言论 Facebook 2020
最先进的开源聊天机器人 (论文) Facebook 2020
部署在CPU上的高效实时文本转语音系统 Facebook 2020
深度学习实现编程语言之间的翻译 (论文，代码) Facebook 2020
部署终身开放域对话学习 (论文) Facebook 2020
推出Dynabench：重新思考AI基准测试的方式 Facebook 2020
Gojek如何利用NLP大规模命名取货地点 Gojek 2020
中文和英文的最先进开放域聊天机器人 (论文) 百度 2020
PEGASUS：最先进的摘要式文本摘要模型 (论文，代码) 谷歌 2020
Photon：鲁棒的跨领域文本转SQL系统 (论文) (演示) Salesforce 2020
GeDi：控制语言模型的强大新方法 (论文，代码) Salesforce 2020
应用主题建模提升呼叫中心运营 RICOH 2020
WIDeText：多模态深度学习框架 Airbnb 2020
Dynaboard：超越准确率，实现NLP中模型的全面评估 (代码) Facebook 2021
我们如何将文本相似度运行时间缩短了99.96% 微软 2021
无文本NLP：从原始音频生成富有表现力的语音 (第一部分) (第二部分) (第三部分) (代码和预训练模型) Facebook 2021
Pixel 6上的边写边语法纠错 谷歌 2021
Google文档中的自动生成摘要 谷歌 2022
ML增强的代码补全提升开发者生产力 谷歌 2022
层层递进——会话情感分析 PayPal 2022

序列建模

Doctor AI：通过循环神经网络预测临床事件 (论文) Sutter Health 2015
深度学习在理解消费者历史中的应用 (论文) Zalando 2016
利用循环神经网络模型早期检测心力衰竭的发作 (论文) Sutter Health 2016
结合传统与深度网络持续预测通知参与度 (论文) Telefonica 2017
深度学习在电子健康记录中的应用 (论文) Google 2018
基于长序列用户行为建模的点击率预测实践 (论文) Alibaba 2019
基于序列行为数据的搜索型用户兴趣建模用于CTR预测 (论文) Alibaba 2020
多邻国如何在其应用的各个部分使用AI Duolingo 2020
利用在线社交互动提升Facebook平台的诚信度 (论文, 视频) Facebook 2020
利用深度学习检测成员活动中的滥用序列 (视频) LinkedIn 2021

计算机视觉

使用计算机视觉和深度学习构建现代 OCR 流程 Dropbox 2017
在 Airbnb 中对房源照片进行分类 Airbnb 2018
设施检测及更进一步——Airbnb 的计算机视觉新前沿 Airbnb 2019
仅通过清理标注错误，我们将计算机视觉指标提升了 5% 以上 Deepomatic
利用音频和视频让机器识别并转录会议中的对话 Microsoft 2019
由 AI 驱动：推进产品理解并打造全新购物体验 Facebook 2020
用于八小时降水预报的神经天气模型 (论文) Google 2020
基于机器学习的灾害救援损伤评估 (论文) Google 2020
RepNet：视频中重复动作计数 (论文) Google 2020
将文本转换为图像以用于商品发现 (论文) Amazon 2020
迪士尼如何使用 PyTorch 进行动画角色识别 Disney 2020
图像字幕作为辅助技术 (视频) IBM 2020
AI for AG：农业领域的生产型机器学习 Blue River 2020
特斯拉的完全自动驾驶 AI Tesla 2020
设备端超市商品识别 Google 2020
利用机器学习检测结肠镜筛查中的覆盖不足 (论文) Google 2020
“按图索骥”：在 Pinterest 上构建大规模视觉购物系统 (论文, 视频) Pinterest 2020
开发用于视频会议的实时自动手语检测系统 (论文) Google 2020
基于视觉的在线二手商品价格建议 (论文) 阿里巴巴 2020
新的 AI 研究助力从 X 光片预测 COVID-19 资源需求 (论文, 模型) Facebook 2021
面向超大规模人脸识别的高效训练方法 (论文) 阿里巴巴 2021
在 Scribd 中识别文档类型 Scribd 2021
面向时尚搭配性的半监督视觉表征学习 (论文) 沃尔玛 2021
通过私密的设备端机器学习识别人物照片 苹果 2021
DeepFusion：用于多模态 3D 物体检测的激光雷达-相机深度融合 谷歌 2022
通用时尚概念的对比语言与视觉学习 (论文) Coveo 2022
利用计算机视觉优化搜索排名 BazaarVoice 2023

强化学习

基于深度强化学习的赞助搜索实时竞价 (论文) 阿里巴巴 2018
展示广告中无模型强化学习的预算约束出价 (论文) 阿里巴巴 2018
按需物流中的强化学习 DoorDash 2018
电子商务搜索引擎中的排序强化学习 (论文) 阿里巴巴 2018
基于深度强化学习的电商平台动态定价 (论文) 阿里巴巴 2019
使用Spark和MLflow将深度强化学习投入生产 Zynga 2020
深度强化学习在生产中的应用第1部分第2部分 Zynga 2020
构建AI交易系统 Denny Britz 2020
通过强化学习引导用户消费向多样化内容转变 (论文) Spotify 2022
在线校准中的多臂老虎机：以社交媒体平台的内容审核为例 Meta 2022
如何使用级联多臂老虎机优化排名 Expedia 2022
利用探索与机器学习为每位商家选择最佳图片 DoorDash 2023

异常检测

检测外部固件部署中的性能异常 Netflix 2019
使用孤立森林检测并预防LinkedIn上的滥用行为 (代码) LinkedIn 2019
结合Spark和TensorFlow的深度异常检测 (Hopsworks视频) Swedbank、Hopsworks 2019
利用无监督学习预防滥用 LinkedIn 2020
LinkedIn上打击骚扰背后的技术 LinkedIn 2020
利用网络学习揭露保险欺诈阴谋 (论文) 蚂蚁金服 2020
Stack Exchange上的垃圾信息防护机制是如何工作的？ Stack Exchange 2020
C2C电商中的自动内容审核 Mercari 2020
利用机器学习阻止Slack邀请垃圾邮件 Slack 2020
Cloudflare机器人管理：机器学习及其他技术 Cloudflare 2020
隧道掘进机中油温变化的异常情况 SENER 2020
利用异常检测监控低风险银行客户 Rabobank 2020
使用三元组损失打击欺诈 OLX Group 2020
Facebook现在正使用AI对内容进行分类，以加快审核速度 (替代方案) Facebook 2020
AI在仇恨言论检测方面的进步第1部分、第2部分、第3部分、第4部分 Facebook 2020
利用深度学习检测会员活动中的辱骂性序列 (视频) LinkedIn 2021
项目RADAR：带有人工参与的智能早期欺诈检测系统 Uber 2022
用于欺诈检测的图结构 Grab 2022
在线校准中的多臂老虎机：以社交媒体平台的内容审核为例 Meta 2022
不断进化我们的机器学习模型以拦截移动机器人 Cloudflare 2022
通过数据增强和采样提高我们机器学习WAF的准确性 Cloudflare 2022
流媒体服务中的机器学习欺诈检测 Netflix 2022
Lyft的定价策略 Lyft 2022

图

构建 LinkedIn 知识图谱 LinkedIn 2016
在 Airbnb 扩展知识访问与检索能力 Airbnb 2018
用于 Web 规模推荐系统的图卷积神经网络 (论文) Pinterest 2018
Uber Eats 的美食发现：利用图学习驱动推荐 Uber 2019
AliGraph：一个全面的图神经网络平台 (论文) Alibaba 2019
通过构建知识图谱实现 Airbnb 的情境化 Airbnb 2019
零售图——沃尔玛的产品知识图谱 Walmart 2020
利用先进的图神经网络进行交通预测 DeepMind 2020
SimClusters：基于社区的推荐表示 (论文, 视频) Twitter 2020
元路径引导的邻居聚合网络用于异构图推理 (论文) Alibaba 2021
用于赞助搜索点击率预测的图意图网络 (论文) Alibaba 2021
JEL：在摩根大通应用端到端神经实体链接技术 (论文) 摩根大通 2021
AWS 如何利用图神经网络满足客户需求 Amazon 2022
用于欺诈检测的图 Grab 2022

优化

Lyft Line 中的匹配机制（第 1 部分） (第 2 部分) (第 3 部分) Lyft 2016
GrabShare 拼车背后的数据与科学 (第 1 部分) (需要论文)Grab 2017
Uber Eats 中如何利用行程推断和机器学习优化配送时间 Uber 2018
DoorDash 的下一代骑手调度优化 DoorDash 2020
利用机器学习优化电梯乘客等待时间 Thyssen Krupp AG 2020
跳出固有思维：为电商包裹推荐包装类型 (论文) Amazon 2020
利用机器学习优化 DoorDash 的营销支出 DoorDash 2020
使用排序学习精准定位包裹投递地点 (论文) Amazon 2021

信息抽取

从产品描述中无监督地提取属性及其值 (论文) Rakuten 2013
利用机器学习索引数十亿张图片中的文本 Dropbox 2018
从模板化文档中提取结构化数据 (论文) Google 2020
AutoKnow：面向数千种产品的自动驾驶知识采集系统 (论文, 视频) Amazon 2020
基于注意力机制和信念传播的一次性文本标注用于信息抽取 (论文) Alibaba 2020
利用图卷积网络从收据中提取信息 Nanonets 2021

弱监督

Snorkel DryBell：工业级弱监督部署案例研究 (论文) Google 2019
Osprey：无需代码的不平衡抽取问题弱监督 (论文) Intel 2019
Overton：用于监控和改进机器学习产品的数据系统 (论文) Apple 2019
利用弱监督自举对话式智能体 (论文) IBM 2019

生成模型

更好的语言模型及其影响 (论文) OpenAI 2019
Image GPT (论文, 代码) OpenAI 2019
语言模型是少样本学习者 (论文) (GPT-3 博客文章) OpenAI 2020
用于特效电影制作的深度学习超分辨率 (论文) Pixar 2020
基于 Transformer 的单元测试用例生成 Microsoft 2021

音频

使用 VoiceFilter-Lite 改进设备端语音识别 (论文) Google 2020
“哼唱搜索”背后的机器学习技术 Google 2020

隐私保护型机器学习

联邦学习：无需集中式训练数据的协作式机器学习 (论文) Google 2017
具有形式化差分隐私保证的联邦学习 (论文) Google 2022
基于 MPC 的机器学习：实现端到端的隐私保护型机器学习 (论文) Facebook 2022

验证与 A/B 测试

重叠实验基础设施：更多、更好、更快的实验 (论文) Google 2010
可重复使用的保留集：在自适应数据分析中保持有效性 (论文) Google 2015
Twitter 实验平台技术概述 Twitter 2015
一切皆是 A/B 测试：Netflix 实验平台 Netflix 2016
构建 Pinterest 的 A/B 测试平台 Pinterest 2016
通过实验解决信息过载问题 Twitter 2017
利用 Uber 工程团队构建智能实验平台 Uber 2017
扩展 Airbnb 的实验平台 Airbnb 2017
认识 Wasabi：一款开源 A/B 测试平台 (代码) Intuit 2017
分析实验结果：超越平均处理效应 Uber 2018
Uber 实验平台揭秘 Uber 2018
带噪声实验的约束贝叶斯优化 (论文) Facebook 2018
Grab 的可靠且可扩展的功能开关与 A/B 测试 SDK Grab 2018
使用 Kaplan-Meier 和伽玛分布建模转化率并节省数百万美元 (代码) Better 2019
检测干扰：一次针对 A/B 测试本身的 A/B 测试 LinkedIn 2019
宣布使用 Pyro 设计最优实验的新框架 (论文) (论文) Uber 2020
借助 Traveloka 实验平台实现实验数量提升 10 倍 Traveloka 2020
Stitch Fix 的大规模实验 (论文) Stitch Fix 2020
多臂老虎机与 Stitch Fix 实验平台 Stitch Fix 2020
资源受限条件下的实验 Stitch Fix 2020
Netflix 的计算因果推断 (论文) Netflix 2020
Netflix 中准实验的关键挑战 Netflix 2020
使 LinkedIn 实验引擎速度提升 20 倍 LinkedIn 2020
我们通往 T-REX 的演进历程：LinkedIn 实验基础设施的前史 LinkedIn 2020
如何利用准实验和反事实构建优质产品 Shopify 2020
通过将预测作为协变量来提高实验效力 DoorDash 2020
借助实验分析平台支持快速产品迭代 DoorDash 2020
通过并行化和提高灵敏度，将在线实验容量提升 4 倍 DoorDash 2020
利用因果建模从平淡的实验结果中获得更多价值 DoorDash 2020
通过实验迭代实时分配算法 DoorDash 2020
Spotify 新实验平台（第 1 部分） (第 2 部分) Spotify 2020
解读 A/B 测试结果：假阳性与统计显著性 Netflix 2021
解读 A/B 测试结果：假阴性与检验效能 Netflix 2021
使用 Google AdWords 进行实验以优化广告活动 DoorDash 2021
DoorDash 用于将其物流实验能力提升 1000% 的四大原则 DoorDash 2021
Zalando 的实验平台：第一部分——演进历程 Zalando 2021
设计实验护栏 Airbnb 2021
Airbnb 如何衡量未来价值以标准化权衡取舍 Airbnb 2021
大规模网络实验 (论文) Facebook 2021
迪士尼流媒体中的通用对照组 Disney 2021
实验是 Netflix 整体数据科学的核心重点 Netflix 2022
迈向更佳实验实践的探索之旅 Spotify 2022
人工反事实估计：基于机器学习的 Airbnb 因果推断 Airbnb 2022
超越 A/B 测试：通过交错排序加速 Airbnb 搜索排名实验 Airbnb 2022
实验面临的挑战 Lyft 2022
过度跟踪与触发分析：在提高灵敏度的同时减少样本量 Booking 2022
认识 Dash-AB——DoorDash 实验的统计引擎 DoorDash 2022
在在线 A/B 测试中大规模比较分位数 Spotify 2022
利用机器学习加速我们的 A/B 实验 Dropbox 2023
为 Uber 的 A/B 测试注入强劲动力 Uber

模型管理

机器学习的工程化——从原始数据到预测的溯源管理 Comcast 2018
Overton：用于监控和改进机器学习产品的数据系统（论文）Apple 2019
Runway - Netflix 的模型生命周期管理 Netflix 2020
大规模下的机器学习模型管理——Intuit 的机器学习平台 Intuit 2020
机器学习模型监控——来自一线的 9 条建议 Nubank 2021
实时机器学习模型中的训练-服务偏移问题处理：简明指南 Nubank 2023

效率

GrokNet：面向电商的统一计算机视觉模型主干与嵌入（论文) Facebook 2020
我们如何将 BERT 扩展到在 CPU 上服务每日超过 10 亿次请求 Roblox 2020
置换、量化与微调：神经网络的高效压缩（论文）Uber 2021
Pinterest 的 GPU 加速机器学习推理 Pinterest 2022

伦理

通过 A/B 测试构建包容性产品（论文）LinkedIn 2020
LiFT：衡量机器学习应用公平性的可扩展框架（论文）LinkedIn 2020
推出 Twitter 首个算法偏见赏金挑战 Twitter 2021
考察 Twitter 上政治内容的算法放大效应 Twitter 2021
深入探讨 LinkedIn 如何将其公平性理念融入 AI 产品中 LinkedIn 2022

基础设施

为互操作性重构 Facebook AI 的深度学习平台 Facebook 2020
使用 Ray 在 XGBoost 上进行弹性分布式训练 Uber 2021

MLOps 平台

认识米开朗基罗：Uber 的机器学习平台 Uber 2017
机器学习的落地实践——从原始数据到预测的全过程管理 Comcast 2018
Pinterest 的大数据机器学习平台 Pinterest 2019
Instagram 的核心模型构建 Instagram 2019
开源 Metaflow——以人为本的数据科学框架 Netflix 2019
大规模 ML 模型管理——Intuit 的 ML 平台 Intuit 2020
Zomato 的实时机器学习推理平台 Zomato 2020
推出 Flyte：云原生机器学习与数据处理平台 Lyft 2020
利用计算图构建灵活的集成 ML 模型 DoorDash 2021
LyftLearn：基于 Kubernetes 构建的 ML 模型训练基础设施 Lyft 2021
"你不需要更大的船"：用开源工具构建的完整数据流水线（论文）Coveo 2021
GreenSteam 的 MLOps：机器学习的交付与部署 GreenSteam 2021
Reddit ML 模型部署与服务架构的演进 Reddit 2021
重新设计 Etsy 的机器学习平台 Etsy 2021
理解大规模深度推荐模型训练中的数据存储与摄取（论文）Meta 2021
在 Etsy 上构建推荐服务的平台 Etsy 2022
智能自动化平台：赋能 Airbnb 的对话式 AI 及其应用 Airbnb 2022
DARWIN：LinkedIn 的数据科学与人工智能工作台 LinkedIn 2022
梅林的魔力：Shopify 的全新机器学习平台 Shopify 2022
Zalando 的机器学习平台 Zalando 2022
揭秘 Meta 全公司工程师使用的 AI 优化平台（论文）Meta 2022
Monzo 的机器学习技术栈 Monzo 2022
ML Fact Store 的演进 Netflix 2022
利用 MLOps 构建实时端到端机器学习流水线 Binance 2022
在 Zillow 高效地大规模部署机器学习模型 Zillow 2022
Didact AI：一款基于 ML 的选股引擎剖析 Didact AI 2022
免费部署——Stitch Fix 数据科学家的机器学习平台 Stitch Fix 2022
机器学习运维（MLOps）：概述、定义与架构（论文）IBM 2022

实践

基于梯度的深度架构训练实用建议 (论文) Yoshua Bengio 2012
机器学习：技术债务的高息信用卡 (论文) (论文) Google 2014
机器学习规则：ML工程的最佳实践 Google 2018
机器学习模型管理中的挑战 Amazon 2018
生产环境中的机器学习：Booking.com的方法 Booking 2019
150个成功的机器学习模型：Booking.com的6点经验教训 (论文) Booking 2019
全球性银行大规模采用机器学习的成功与挑战 Rabobank 2019
部署机器学习的挑战：案例研究综述 (论文) Cambridge 2020
重构Facebook AI的深度学习平台以实现互操作性 Facebook 2020
企业级AI开发者工具的问题 Databricks 2020
面向在线推理与模型的机器学习持续集成与部署 Uber 2021
模型性能调优 Uber 2021
通过监控维持机器学习模型精度 DoorDash 2021
在Wayfair构建可扩展且高性能的营销ML系统 Wayfair 2021
我们构建透明且可解释AI系统的做法 LinkedIn 2021
为企业构建机器学习模型的5个步骤 Shopify 2021
数据是一门艺术，而不仅是科学——讲故事是关键 Shopify 2022
实时机器学习最佳实践：警报机制 Nubank 2022
机器学习模型的自动再训练：技巧与经验教训 Nubank 2022
RecSysOps：大规模推荐系统运维的最佳实践 Netflix 2022
Uber的ML教育：受工程原则启发的框架 Uber 2022
为DS/ML团队构建和维护内部工具：经验教训 Nubank 2024

团队结构

构建数据科学团队最有效的方式是什么？ Udemy 2017
工程师不应编写ETL：构建高效数据科学部门指南 Stitch Fix 2016
在Wish构建分析团队 Wish 2018
警惕数据科学“图钉工厂”：全栈数据科学家通用型人才的力量 Stitch Fix 2019
培育算法：我们在Stitch Fix如何发展数据科学 Stitch Fix
Netflix的分析部门：我们是谁，我们做什么 Netflix 2020
在一家中后期初创公司组建数据团队：一个短篇故事 Erikbern 2021
Postman数据团队工作方式的幕后一览 Postman 2021
数据科学家与机器学习工程师的角色：有何不同？有何相似之处？ Nubank 2022

失败案例

说到大猩猩，Google Photos仍然视而不见 Google 2018
超过16万名高中生只有在某个模型允许的情况下才能毕业 国际文凭组织 2020
一种基于人脸“预测”犯罪倾向的算法引发轩然大波 哈里斯堡大学 2020
GPT-3很难生成关于穆斯林的神经网络文本 OpenAI 2020
英国用于预测暴力犯罪的人工智能工具缺陷太多，无法使用 英国 2020
更多内容请参见awful-ai
AI事件数据库 AI伙伴关系 2022

附注：想了解机器学习领域的最新进展吗？ 通过综述论文快速掌握最新动态 👉ml-surveys

applied-ml 快速上手指南

注意：applied-ml 并非一个需要安装运行的软件库或框架，而是一个精选资源列表（Curated List）。它汇集了关于数据科学与机器学习在生产环境中应用的论文、文章和博客。因此，本指南侧重于如何获取和利用这些资源，而非软件安装。

环境准备

由于本项目本质上是文档和资源索引，对环境没有特殊的技术依赖要求：

系统要求：任何支持现代浏览器的操作系统（Windows, macOS, Linux）。
前置依赖：
- 稳定的互联网连接（部分链接可能需要科学上网访问原始来源，如 Google, Uber Engineering Blog 等）。
- GitHub 账号（可选，用于 Star 项目或提交贡献）。
语言要求：大部分原始资源为英文，建议具备基本的英语阅读能力或使用翻译工具辅助。

获取与浏览步骤

你无需通过命令行安装该工具，直接通过以下方式访问即可：

1. 在线浏览（推荐）

直接访问 GitHub 仓库页面查看整理好的目录和链接：

仓库地址: https://github.com/eugeneyan/applied-ml

2. 本地克隆（可选）

如果你希望离线阅读或检索内容，可以将仓库克隆到本地：

git clone https://github.com/eugeneyan/applied-ml.git
cd applied-ml

国内加速方案：如果克隆速度较慢，可使用 Gitee 镜像（如有）或配置 Git 代理：

# 示例：配置临时 HTTP 代理（请替换为你的代理地址）
export http_proxy=http://127.0.0.1:7890
export https_proxy=http://127.0.0.1:7890
git clone https://github.com/eugeneyan/applied-ml.git

基本使用

applied-ml 的核心价值在于解决“如何在生产环境中落地 ML 项目”的问题。以下是高效使用该资源库的方法：

1. 按领域查找最佳实践

根据你当前面临的技术挑战，在 README.md 的目录（Table of Contents）中找到对应章节。资源库涵盖了以下核心领域：

数据基础：Data Quality (数据质量), Data Engineering (数据工程), Feature Stores (特征存储)
核心算法场景：Recommendation (推荐系统), Search & Ranking (搜索排序), Forecasting (预测), NLP, Computer Vision
工程化与运维：MLOps Platforms, Model Management, Validation and A/B Testing
组织与实践：Team Structure (团队结构), Ethics (伦理), Fails (失败案例复盘)

2. 学习大厂落地经验

点击具体链接，阅读来自 Airbnb, Uber, Netflix, Google, Meta 等公司的实战文章。重点关注以下四个维度（正如项目简介所述）：

How (如何定义问题)：例如，是将个性化问题建模为推荐系统、搜索还是序列问题？
What (使用了什么技术)：哪些机器学习技巧奏效了？哪些失败了？
Why (背后的原理)：相关的科学研究、文献引用及理论依据。
Results (实际成果)：实现了怎样的业务指标提升（ROI），以便你评估自身项目的预期收益。

3. 示例：解决特征存储难题

假设你需要构建一个特征存储（Feature Store）：

在目录中找到 Feature Stores 章节。
阅读 Gojek 开源 Feast 的文章，了解开源方案架构。
参考 Netflix 关于 "Distributed Time Travel for Feature Generation" 的实践，学习如何处理时间旅行特征。
查阅 DoorDash 或 Uber 的工程博客，了解大规模实时特征服务的构建细节。

4. 拓展资源

如需机器学习进展综述，可访问关联项目：ml-surveys
如需应用指南和访谈，可访问：applyingML

常见问题

是否有推荐的市场篮子分析（Market Basket Analysis）资源或应对大规模频繁项集生成的建议？

是否可以在论文和博客列表中添加发表年份以便了解文章的时效性和行业趋势？

发现 README 文件中“数据发现”部分存在重复的资源链接，如何处理？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 158.1k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|6天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架

使用场景

没有 applied-ml 时

使用 applied-ml 后

运行环境要求

快速开始

applied-ml

数据质量

数据工程

数据发现

特征存储

分类

回归

预测

推荐列表

搜索与排序

嵌入

自然语言处理

序列建模

计算机视觉

强化学习

异常检测

图

优化

信息抽取

弱监督

生成模型

音频

隐私保护型机器学习

验证与 A/B 测试

模型管理

效率

伦理

基础设施

MLOps 平台

实践

团队结构

失败案例

applied-ml 快速上手指南

环境准备

获取与浏览步骤

1. 在线浏览（推荐）

2. 本地克隆（可选）

基本使用

1. 按领域查找最佳实践

2. 学习大厂落地经验

3. 示例：解决特征存储难题

4. 拓展资源

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

gemini-cli

markitdown