applied-ml

GitHub
28.8k 3.8k 非常简单 1 次阅读 昨天MIT开发框架图像语言模型数据工具其他
AI 解读 由 AI 自动生成,仅供参考

applied-ml 是一个专注于“生产环境中的数据科学与机器学习”的精选资源库。它汇集了来自 Airbnb、Google、Uber、Netflix 等科技巨头的技术论文、工程博客和实战案例,旨在填补学术理论与工业落地之间的鸿沟。

在实际开发中,许多团队往往知道算法原理,却不清楚如何在真实业务中构建可靠的系统。applied-ml 正是为了解决这一痛点而生。它不仅展示了各大公司如何定义问题(例如将个性化推荐转化为搜索或序列建模问题),还深入剖析了哪些技术方案行之有效、哪些曾遭遇失败,并提供了关于数据质量、特征存储、模型管理及 MLOps 基础设施等全流程的宝贵经验。通过这些内容,用户能够更准确地评估项目的投资回报率(ROI),避免重复造轮子。

这份资源特别适合机器学习工程师、数据科学家、技术负责人以及正在探索 AI 落地的研究人员使用。无论你是需要寻找特定场景(如异常检测、自然语言处理或隐私保护计算)的参考架构,还是希望了解大厂团队的协作模式与避坑指南,applied-ml 都能提供极具价值的实战视角。其独特的价值在于不仅关注“怎么做”,更强调“为什么这样做”以及“实际效果如何”,是连接前沿研究与工程实践的桥梁。

使用场景

某电商初创公司的算法团队正着手构建实时个性化推荐系统,但在技术选型和落地路径上陷入迷茫。

没有 applied-ml 时

  • 盲目试错成本高:团队花费数周调研是将问题定义为序列建模还是搜索排序,缺乏行业标杆参考,导致架构反复推翻重来。
  • 忽视数据质量陷阱:直接套用学术模型,未借鉴 Uber 或 Airbnb 在生产环境中关于数据监控与清洗的实战经验,上线后因脏数据导致推荐准确率大幅波动。
  • 难以评估投入产出比:无法找到类似规模公司的真实 ROI 数据(如 Netflix 或 Amazon 的案例),难以向管理层证明项目价值以争取资源。
  • 重复造轮子:在特征存储和异常检测等通用模块上从零开发,忽略了 Google 和 Facebook 已开源的成熟解决方案与失败教训总结。

使用 applied-ml 后

  • 快速锁定最佳实践:通过查阅"Recommendation"和"Sequence Modelling"章节,直接参考大厂如何将业务问题转化为具体的机器学习任务,一周内确定技术路线。
  • 规避生产环境大坑:研读"Data Quality"板块中关于大规模数据验证的论文与博客,提前部署了类似 Gojek 的数据质检机制,确保模型输入稳定可靠。
  • 用数据驱动决策:引用文中收录的真实世界成果报告,清晰量化预期收益,成功获得高层对项目的持续支持。
  • 站在巨人肩膀上:利用"Feature Stores"和"Fails"分类下的案例,直接复用成熟的工程模式并避开前人踩过的坑,将研发周期缩短了一半。

applied-ml 通过将全球顶尖公司的生产级机器学习经验结构化,帮助团队从“闭门造车”转向“站在巨人的肩膀上”高效落地。

运行环境要求

GPU

未说明

内存

未说明

依赖
notes该工具(applied-ml)并非可执行的软件代码库,而是一个 curated list(精选列表),主要收集了关于数据科学和机器学习在生产环境中应用的论文、文章和博客链接。因此,它没有操作系统、GPU、内存、Python 版本或依赖库等运行环境需求。用户只需通过浏览器阅读链接内容即可。
python未说明
applied-ml hero image

快速开始

applied-ml

精选关于生产环境中的数据科学与机器学习的论文、文章和博客。⚙️

欢迎贡献 摘要 访问量

正在思考如何落地你的机器学习项目吗?来看看其他组织是如何做的吧:

  • 问题是如何定义的 🔎(例如,个性化作为推荐系统、搜索或序列建模)
  • 哪些机器学习技术奏效了 ✅(以及有时哪些没有奏效 ❌)
  • 为什么它有效——背后的科学原理、研究文献及参考 📂
  • 实际取得了哪些成果(以便你更好地评估投资回报率 ⏰💰📈)

PS:想了解机器学习领域的最新进展摘要吗?👉ml-surveys

PPS:想找一些关于机器学习应用的指南和访谈吗?👉applyingML

目录

  1. 数据质量
  2. 数据工程
  3. 数据发现
  4. 特征存储
  5. 分类
  6. 回归
  7. 预测
  8. 推荐
  9. 搜索与排序
  10. 嵌入
  11. 自然语言处理
  12. 序列建模
  13. 计算机视觉
  14. 强化学习
  15. 异常检测
  16. 优化
  17. 信息抽取
  18. 弱监督
  19. 生成
  20. 音频
  21. 隐私保护的机器学习
  22. 验证与A/B测试
  23. 模型管理
  24. 效率
  25. 伦理
  26. 基础设施
  27. MLOps平台
  28. 实践
  29. 团队结构
  30. 失败案例

数据质量

  1. Airbnb的可靠且可扩展的数据摄取 Airbnb 2016
  2. 利用统计建模大规模监控数据质量 Uber 2017
  3. 生产环境中机器学习的数据管理挑战论文Google 2017
  4. 自动化大规模数据质量验证论文Amazon 2018
  5. 认识Hodor——Gojek的上游数据质量工具 Gojek 2019
  6. 面向机器学习的数据验证论文Google 2019
  7. Netflix个性化系统中的数据质量方法 Netflix 2020
  8. 通过估计人类决策、标签和标注者的置信度来提升准确性论文Facebook 2020

数据工程

  1. Zipline:Airbnb的机器学习数据管理平台 Airbnb 2018
  2. Sputnik:Airbnb的Apache Spark数据工程框架 Airbnb 2020
  3. 使用Metaflow和AWS Step Functions解耦数据科学工作流 Netflix 2020
  4. DoorDash如何扩展其数据平台以满足客户需求并应对不断增长的需求 DoorDash 2020
  5. 通过强数据一致性彻底革新大规模资金流动 Uber 2020
  6. Zipline——一个声明式的特征工程框架 Airbnb 2020
  7. 大规模数据保护自动化,第一部分第二部分Airbnb 2021
  8. Uber的实时数据基础设施 Uber 2021
  9. 推出Fabricator:一个声明式的特征工程框架 DoorDash 2022
  10. 函数与DAG:引入Hamilton——一个用于生成DataFrame的微框架 Stitch Fix 2021
  11. Pinterest数据摄取栈的优化:发现与经验 Pinterest 2022
  12. 大规模运行Apache Airflow的经验教训 Shopify 2022
  13. 理解大规模深度推荐模型训练中的数据存储与摄取 Meta 2022
  14. Data Mesh——Netflix的数据流动与处理平台 Netflix 2022
  15. 使用Kafka和Flink构建可扩展的实时事件处理系统 DoorDash 2022

数据发现

  1. Apache Atlas:面向Hadoop的数据治理与元数据框架 (代码) Apache
  2. 收集、聚合并可视化数据生态系统的元数据 (代码) WeWork
  3. Twitter上分析数据的发现与消费 Twitter 2016
  4. Airbnb的数据民主化 Airbnb 2017
  5. Databook:在Uber利用元数据将大数据转化为知识 Uber 2018
  6. Metacat:让Netflix的大数据可发现且有意义 (代码) Netflix 2018
  7. Amundsen — Lyft的数据发现与元数据引擎 Lyft 2019
  8. 开源Amundsen:一个数据发现与元数据平台 (代码) Lyft 2019
  9. DataHub:一种通用的元数据搜索与发现工具 (代码) LinkedIn 2019
  10. Amundsen:一年之后 Lyft 2020
  11. 使用Amundsen通过元数据收集支持Square的用户隐私 Square 2020
  12. 借助Databook将元数据转化为洞察 Uber 2020
  13. DataHub:常见元数据架构解析 LinkedIn 2020
  14. 我们如何为Spotify的数据科学家改进数据发现 Spotify 2020
  15. 我们在Shopify如何解决数据发现挑战 Shopify 2020
  16. Nemo:Facebook的数据发现 Facebook 2020
  17. 探索Netflix的数据 (代码) Netflix 2021

特征存储

  1. 用于特征生成的分布式时间旅行 Netflix 2016
  2. 构建活动图,第2部分(特征存储章节) LinkedIn 2017
  3. 面向Netflix推荐的大规模事实存储 Netflix 2018
  4. Zipline:Airbnb的机器学习数据管理平台 Airbnb 2018
  5. 特征存储:机器学习流水线中缺失的数据层吗? Hopsworks 2018
  6. 推出Feast:一个用于机器学习的开源特征存储 (代码) Gojek 2019
  7. 米开朗基罗调色板:Uber的特征工程平台 Uber 2019
  8. 驱动Twitter特征存储的架构 Twitter 2019
  9. 通过特征存储服务加速机器学习 康泰纳仕 2019
  10. Feast:连接ML模型与数据 Gojek 2020
  11. 利用Redis、二进制序列化和压缩构建可扩展的ML特征存储 DoorDash 2020
  12. 通过标准化实现快速实验:LinkedIn信息流中的类型化AI特征 LinkedIn 2020
  13. 构建特征存储 Monzo Bank 2020
  14. Butterfree:基于Spark的特征存储构建框架 (代码) QuintoAndar 2020
  15. 构建Riviera:声明式实时特征工程框架 DoorDash 2021
  16. 最优特征发现:通过信息论实现更优、更精简的机器学习模型 Uber 2021
  17. Lyft的ML特征服务基础设施 Lyft 2021
  18. 近实时特征用于近实时个性化 LinkedIn 2022
  19. 构建DoorDash广泛商家选择背后的模型 DoorDash 2022
  20. 开源Feathr——LinkedIn用于高效机器学习的特征存储 LinkedIn 2022
  21. ML事实存储的发展 Netflix 2022
  22. 开发可扩展的特征工程DAGMetaflow + Hamilton通过Outerbounds实现 2022
  23. Constructor公司的特征存储设计 Constructor.io 2023

分类

  1. Google AdWords 广告主流失预测 (论文) Google 2010
  2. 现代规模下的高精度基于短语的文档分类 (论文) LinkedIn 2011
  3. Chimera:利用机器学习、规则和众包进行大规模分类 (论文) Walmart 2014
  4. 使用多层循环神经网络进行电子商务中的大规模商品分类 (论文) NAVER 2016
  5. 使用 LSTM 循环神经网络学习诊断 (论文) Google 2017
  6. 在 Airbnb 发现并分类应用内消息意图 Airbnb 2019
  7. 教机器对 Firefox 错误进行分类 Mozilla 2019
  8. 大规模商品分类 Shopify 2020
  9. 我们如何构建“首个好问题”功能 GitHub 2020
  10. 利用机器学习更高效地测试 Firefox Mozilla 2020
  11. 使用机器学习对接受数字心理健康干预的患者进行亚型划分 (论文) Microsoft 2020
  12. 面向安全与隐私的可扩展数据分类 (论文) Facebook 2020
  13. 利用机器学习挖掘在线外卖菜单最佳实践 DoorDash 2020
  14. 通过人机协作克服菜单项标注的冷启动问题 DoorDash 2020
  15. 深度学习:商品分类与货架摆放 Walmart 2021
  16. 面向电子商务的大规模商品分类 (论文) DianPing, eBay 2012
  17. 语义标签表示及其在多模态商品分类中的应用 Walmart 2022
  18. 利用机器学习与人机协作构建 Airbnb 类别 Airbnb 2022

回归

  1. 利用机器学习预测 Airbnb 上房源的价值 Airbnb 2017
  2. 利用机器学习预测广告请求的价值 Twitter 2020
  3. 开源 Riskquant 风险量化库 (代码) Netflix 2020
  4. 通过简单的数据调整解决回归模型中的未观测数据问题 DoorDash 2020

预测

  1. 使用 RNN 在 Uber 进行极端事件预测 Uber 2017
  2. Uber 的预测:入门介绍 Uber 2018
  3. 在 Uber 利用数据科学和机器学习变革财务预测 Uber 2018
  4. Gojek 自动化预测工具揭秘 Gojek 2019
  5. BusTr:基于实时交通预测公交车运行时间论文视频Google 2020
  6. 新冠疫情后重新训练机器学习模型 DoorDash 2020
  7. 使用 Prophet、Databricks、Delta Lake 和 MLflow 进行自动预测论文代码Atlassian 2020
  8. 推出 Orbit:用于时间序列推断与预测的开源工具包论文视频代码Uber 2021
  9. 通过机器学习管理供需平衡 DoorDash 2021
  10. Greykite:灵活、直观且快速的预测库 LinkedIn 2021
  11. 亚马逊预测算法的发展历程 Amazon 2021
  12. DeepETA:Uber 如何利用深度学习预测到达时间 Uber 2022
  13. Grubhub 大规模订单量预测 Grubhub 2022
  14. Lyft 的因果预测(第 1 部分) Lyft 2022

推荐列表

  1. 亚马逊推荐:基于物品的协同过滤 (论文) 亚马逊 2003
  2. Netflix推荐:超越五星评价(第1部分) (第2部分) Netflix 2012
  3. 音乐推荐如何运作——以及为何有时失效 Spotify 2012
  4. 使用k阶统计量损失函数进行排序学习的推荐系统 (论文) Google 2013
  5. 利用深度学习在Spotify上进行音乐推荐 Spotify 2014
  6. 学习个性化首页 Netflix 2015
  7. Netflix推荐系统:算法、商业价值与创新 (论文) Netflix 2015
  8. 基于会话的推荐:利用循环神经网络 (论文) Telefonica 2016
  9. YouTube推荐中的深度神经网络 YouTube 2016
  10. 电商推送至您的收件箱:大规模产品推荐 (论文) Yahoo 2016
  11. 待续:帮助您在Netflix上找到可继续观看的节目 Netflix 2016
  12. LinkedIn Learning中的个性化推荐 LinkedIn 2016
  13. Slack中个性化的频道推荐 Slack 2016
  14. 电商推送通知中的互补产品推荐 (论文) 阿里巴巴 2017
  15. Netflix上的作品封面个性化 Netflix 2017
  16. 元学习视角下的冷启动物品推荐 (论文) Twitter 2017
  17. Pixie:一个为超过2亿用户实时推荐30多亿种商品的系统 (论文) Pinterest 2017
  18. DoorDash中搜索与推荐的支撑技术 DoorDash 2017
  19. 20世纪福克斯如何利用机器学习预测电影观众 (论文) 20世纪福克斯 2018
  20. 校准后的推荐 (论文) Netflix 2018
  21. Uber Eats中的美食发现:面向市场的推荐 Uber 2018
  22. 探索、利用与解释:用Bandit算法实现可解释的个性化推荐 (论文) Spotify 2018
  23. LinkedIn中的人才搜索与推荐系统:实践挑战与经验教训 (论文) LinkedIn 2018
  24. 阿里巴巴电商推荐中的行为序列Transformer (论文) 阿里巴巴 2019
  25. SDM:用于在线大规模推荐系统的序列深度匹配模型 (论文) 阿里巴巴 2019
  26. 天猫推荐中的多兴趣网络与动态路由 (论文) 阿里巴巴 2019
  27. 利用深度学习为旅行体验提供个性化推荐 TripAdvisor 2019
  28. 由AI驱动:Instagram的Explore推荐系统 Facebook 2019
  29. 针对Slate Bandit的边际后验采样 (论文) Netflix 2019
  30. Uber Eats中的美食发现:利用图学习提升推荐效果 Uber 2019
  31. Spotify的音乐推荐 Spotify 2019
  32. 利用机器学习预测您接下来需要的文件(第1部分) Dropbox 2019
  33. 利用机器学习预测您接下来需要的文件(第2部分) Dropbox 2019
  34. 不断优化相关性:课程推荐系统的演进 (需补充论文) LinkedIn 2019
  35. 实时的时序上下文推荐 (论文) 亚马逊 2020
  36. P-Companion:多样化互补产品推荐框架 (论文) 亚马逊 2020
  37. 深度兴趣与层次化注意力网络用于点击率预测 (论文) 阿里巴巴 2020
  38. TPG-DNN:多任务学习用于用户意图预测的方法 (论文) 阿里巴巴 2020
  39. PURS:提升用户满意度的个性化意外推荐系统 (论文) 阿里巴巴 2020
  40. 可控的多兴趣推荐框架 (论文) 阿里巴巴 2020
  41. MiNet:跨领域点击率预测的混合兴趣网络 (论文) 阿里巴巴 2020
  42. ATBRG:自适应目标-行为关系图网络用于高效推荐 (论文) 阿里巴巴 2020
  43. 专属于您的耳朵:利用机器学习个性化Spotify首页 Spotify 2020
  44. 直冲云霄:Spotify如何仅用六个月打造快捷方式 Spotify 2020
  45. 用于大规模音乐推荐的上下文与序列用户嵌入 (论文) Spotify 2020
  46. Kit的演变:利用机器学习自动化营销 Shopify 2020
  47. 深入解析LinkedIn Learning课程推荐背后的AI(第1部分) LinkedIn 2020
  48. 深入解析LinkedIn Learning课程推荐背后的AI(第2部分) LinkedIn 2020
  49. 构建异构社交网络推荐系统 LinkedIn 2020
  50. TikTok如何为您推荐#ForYou视频 字节跳动 2020
  51. 从RecSys到冷启动搜索召回的零样本异构迁移学习 (论文) Google 2020
  52. 改进的Deep & Cross网络用于Web规模LTR系统中的特征交叉学习 (论文) Google 2020
  53. 用于推荐中双塔神经网络学习的混合负采样 (论文) Google 2020
  54. 未来数据助力训练:为会话型推荐建模未来情境 (论文) 腾讯 2020
  55. 家居装修领域的会话型推荐案例研究 (论文) Home Depot 2020
  56. 平衡相关性和发现性以激发顾客兴趣:宜家App中的推荐 (论文) 宜家 2020
  57. 我们如何在Pinterest广告中使用AutoML、多任务学习和多塔模型 Pinterest 2020
  58. Pinterest中相关产品推荐的多任务学习 Pinterest 2020
  59. 通过轻量级排序提升推荐Pin的质量 Pinterest 2020
  60. 多任务学习与校准用于基于效用的主页信息流排序 Pinterest 2020
  61. 基于客户偏好和当地受欢迎程度的个性化菜系筛选器 DoorDash 2020
  62. 我们如何构建交叉销售产品的匹配算法 Gojek 2020
  63. 从基于模型的候选生成中应对数据集偏差的经验教训 (论文) Twitter 2021
  64. 用于大规模物品推荐的自监督学习 (论文) Google 2021
  65. 深度检索:端到端可学习的大规模推荐结构模型 (论文) 字节跳动 2021
  66. 利用AI帮助卫生专家应对新冠疫情 Facebook 2021
  67. Pinterest中的广告主推荐系统 Pinterest 2021
  68. 关于YouTube推荐系统的思考 YouTube 2021
  69. "您确定吗?":将产品比较扩展到多家商店的初步见解 Coveo 2021
  70. Mozrt:赋能沃尔玛门店员工的深度学习推荐系统 沃尔玛 2021
  71. 理解大规模深度推荐模型训练中的数据存储与摄入 (论文) Meta 2021
  72. 亚马逊音乐的对话式推荐系统正奏响美妙乐章 亚马逊 2022
  73. 个性化互补产品推荐 (论文) 亚马逊 2022
  74. 构建基于深度学习的检索系统以支持个性化推荐 eBay 2022
  75. 我们如何构建:早期阶段的机器学习推荐模型 Peloton 2022
  76. 构建上下文感知推荐系统的经验教训 Peloton 2022
  77. 超越矩阵分解:利用混合特征进行用户-商家推荐 Yelp 2022
  78. 利用机器学习活动特征改善职位匹配 LinkedIn 2022
  79. 理解大规模深度推荐模型训练中的数据存储与摄入 Meta 2022
  80. 推荐系统架构蓝图:十周年纪念版 Xavier Amatriain 2022
  81. Pinterest如何利用实时用户行为提升主页信息流互动量 Pinterest 2022
  82. RecSysOps:大型推荐系统运营的最佳实践 Netflix 2022
  83. Recommend API:统一的端到端机器学习基础设施,用于生成推荐 Slack 2022
  84. DoorDash替换推荐算法的演进 DoorDash 2022
  85. 首页推荐中的开发与探索 DoorDash 2022
  86. Pinterest中GPU加速的ML推理 Pinterest 2022
  87. 解决因果推荐中的混杂因素问题 (论文) 腾讯 2022

搜索与排序

  1. 亚马逊搜索:产品排序的乐趣论文视频代码) 亚马逊 2016
  2. Lazada 如何通过产品排序提升用户体验和转化率 Lazada 2016
  3. 雅虎搜索中的相关性排序论文雅虎 2016
  4. 在职业社交网络中学习对个性化搜索结果进行排序论文领英 2016
  5. 在推特时间线中大规模应用深度学习 推特 2017
  6. 基于集成方法的 Etsy 推广商品点击率预测论文Etsy 2017
  7. DoorDash 的搜索与推荐系统支撑技术 DoorDash 2017
  8. 将深度学习应用于 Airbnb 搜索论文Airbnb 2018
  9. 人才搜索中的会话内个性化论文领英 2018
  10. 领英的人才搜索与推荐系统论文领英 2018
  11. 优步外卖的食物发现:构建查询理解引擎 优步 2018
  12. 电子商务搜索中全局优化的互影响感知排序论文阿里巴巴 2018
  13. 强化学习在电子商务搜索引擎排序中的应用论文阿里巴巴 2018
  14. 语义化商品搜索论文亚马逊 2019
  15. 机器学习驱动的 Airbnb Experiences 搜索排名 Airbnb 2019
  16. 基于树交互特征的实体个性化人才搜索模型论文领英 2019
  17. 领英招聘者搜索与推荐系统背后的 AI 技术 领英 2019
  18. 学习招聘偏好:领英职位搜索背后的 AI 技术 领英 2019
  19. 搜索个性化背后的秘密武器 Gojek 2019
  20. 神经代码搜索:基于 ML 的自然语言查询代码搜索 Facebook 2019
  21. 通过强化学习聚合来自异构来源的搜索结果论文阿里巴巴 2019
  22. 面向电子商务搜索的跨域注意力网络与 Wasserstein 正则化 阿里巴巴 2019
  23. 比以往任何时候都更好地理解搜索论文谷歌 2019
  24. 我们如何利用语义搜索让搜索效率提升 10 倍 Tokopedia 2019
  25. Query2vec:使用查询嵌入扩展搜索查询 GrubHub 2019
  26. MOBIUS:迈向百度推广搜索下一代查询广告匹配技术 百度 2019
  27. 为什么人们会在语音商品搜索中购买看似不相关的商品?论文亚马逊 2020
  28. 管理 Airbnb 搜索中的多样性论文Airbnb 2020
  29. 改进 Airbnb 搜索的深度学习技术论文Airbnb 2020
  30. 通过个性化 AI 实现招聘方和求职者的优质匹配 领英 2020
  31. 理解停留时间以提升领英信息流排名 领英 2020
  32. 通过约束优化进行信息流广告分配论文视频) 领英 2020
  33. 理解停留时间以提升领英信息流排名 领英 2020
  34. 必应中的规模化 AI 技术 微软 2020
  35. Traveloka 通用搜索中的查询理解引擎 Traveloka 2020
  36. Wayfair 中的贝叶斯商品排序 Wayfair 2020
  37. COLD:迈向下一代预排序系统论文阿里巴巴 2020
  38. Shop The Look:在 Pinterest 上构建大规模视觉购物系统论文视频) Pinterest 2020
  39. 通过 Pinterest 搜索推动购物加售 Pinterest 2020
  40. GDMix:一个深度排序个性化框架代码领英 2020
  41. 为 Etsy 带来个性化搜索 Etsy 2020
  42. 为 Semantic Scholar 构建更优秀的搜索引擎 艾伦人工智能研究所 2020
  43. 面向自然语言企业级搜索的查询理解论文Salesforce 2020
  44. 事物而非字符串:通过更好的召回率理解搜索意图 DoorDash 2020
  45. 用于挖掘未被充分发掘音乐内容的查询理解论文Spotify 2020
  46. 基于嵌入的 Facebook 搜索检索论文Facebook 2020
  47. 通过嵌入学习实现电子商务搜索的个性化与语义化检索论文京东 2020
  48. QUEEN:电商领域的神经查询重写论文亚马逊 2021
  49. 利用学习排序精准定位包裹配送地点论文) 亚马逊 2021
  50. 电商搜索中的季节性相关性论文亚马逊 2021
  51. 赞助搜索中用于预测点击率的图意图网络论文阿里巴巴 2021
  52. 我们如何为 Etsy 广告构建特定场景的竞价系统 Etsy 2021
  53. 基于预训练语言模型的百度搜索排名论文百度 2021
  54. 拼接空间以支持基于查询的推荐 Stitch Fix 2021
  55. 为领英搜索系统提供深度自然语言处理论文领英 2021
  56. 基于 Siamese BERT 的网页搜索相关性排名模型论文代码) Seznam 2021
  57. SearchSage:在 Pinterest 上学习搜索查询表示 Pinterest 2021
  58. Query2Prod2Vec:面向电商的 grounded 词嵌入 Coveo 2021
  59. 三项措施扩大 DoorDash 商品搜索范围,超越配送业务 DoorDash 2022
  60. 学习多样化排序 Airbnb 2022
  61. 如何利用级联多臂老虎机优化排名 Expedia 2022
  62. 谷歌搜索排名系统指南 谷歌 2022
  63. Etsy 搜索排名中的深度学习技术 Etsy 2022
  64. Calm 应用中的搜索功能 Calm 2022

嵌入

  1. 用于构建推荐系统的物品、用户和购物车的向量表示 (论文) Sears 2017
  2. 阿里巴巴电商推荐中的亿级商品嵌入 (论文) 阿里巴巴 2018
  3. Twitter 的嵌入技术 Twitter 2018
  4. 搜索排序中的房源嵌入 (论文) Airbnb 2018
  5. 理解潜在风格 Stitch Fix 2018
  6. LinkedIn 人才搜索中的深度表示学习 (论文) LinkedIn 2018
  7. 基于向量嵌入的个性化店铺信息流 DoorDash 2018
  8. 我们应该使用嵌入吗?实时推荐中嵌入性能的研究 (论文) Moshbit 2019
  9. 机器学习助力更优质的开发者体验 Netflix 2020
  10. 发布 ScaNN:高效的向量相似性搜索 (论文代码) Google 2020
  11. BERT 上市场:比较产品表示的分布模型 Coveo 2021
  12. 从冷门领域走出的嵌入:利用内容推理改进新品和稀有产品的向量表示 Coveo 2022
  13. Scribd 中的基于嵌入的检索 Scribd 2021
  14. 行为型歌曲嵌入的多目标超参数优化 (论文) Apple 2022
  15. Spotify 规模下的嵌入——能有多难? Spotify 2023

自然语言处理

  1. 在线用户内容中的辱骂性语言检测 (论文) 雅虎 2016
  2. Smart Reply:电子邮件自动回复建议 (论文) 谷歌 2016
  3. 为会员消息构建智能回复 领英 2017
  4. 自然语言处理如何帮助领英会员更轻松地获得支持 领英 2019
  5. Gmail Smart Compose:实时辅助写作 (论文) 谷歌 2019
  6. 在真实场景中结合用户画像特征的目标导向端到端对话模型 (论文) 亚马逊 2019
  7. 给我牛仔裤,不要鞋子:BERT如何帮助我们满足客户的需求 Stitch Fix 2019
  8. DeText:用于智能文本理解的深度NLP框架 (代码) 领英 2020
  9. YouTube创作者的SmartReply 谷歌 2020
  10. 利用神经网络从表格中寻找答案 (论文) 谷歌 2020
  11. 一种可扩展的方法来减少谷歌翻译中的性别偏见 谷歌 2020
  12. 辅助AI让回复更轻松 微软 2020
  13. AI技术进步助力更好地检测仇恨言论 Facebook 2020
  14. 最先进的开源聊天机器人 (论文) Facebook 2020
  15. 部署在CPU上的高效实时文本转语音系统 Facebook 2020
  16. 深度学习实现编程语言之间的翻译 (论文代码) Facebook 2020
  17. 部署终身开放域对话学习 (论文) Facebook 2020
  18. 推出Dynabench:重新思考AI基准测试的方式 Facebook 2020
  19. Gojek如何利用NLP大规模命名取货地点 Gojek 2020
  20. 中文和英文的最先进开放域聊天机器人 (论文) 百度 2020
  21. PEGASUS:最先进的摘要式文本摘要模型 (论文代码) 谷歌 2020
  22. Photon:鲁棒的跨领域文本转SQL系统 (论文) (演示) Salesforce 2020
  23. GeDi:控制语言模型的强大新方法 (论文代码) Salesforce 2020
  24. 应用主题建模提升呼叫中心运营 RICOH 2020
  25. WIDeText:多模态深度学习框架 Airbnb 2020
  26. Dynaboard:超越准确率,实现NLP中模型的全面评估 (代码) Facebook 2021
  27. 我们如何将文本相似度运行时间缩短了99.96% 微软 2021
  28. 无文本NLP:从原始音频生成富有表现力的语音 (第一部分) (第二部分) (第三部分) (代码和预训练模型) Facebook 2021
  29. Pixel 6上的边写边语法纠错 谷歌 2021
  30. Google文档中的自动生成摘要 谷歌 2022
  31. ML增强的代码补全提升开发者生产力 谷歌 2022
  32. 层层递进——会话情感分析 PayPal 2022

序列建模

  1. Doctor AI:通过循环神经网络预测临床事件 (论文) Sutter Health 2015
  2. 深度学习在理解消费者历史中的应用 (论文) Zalando 2016
  3. 利用循环神经网络模型早期检测心力衰竭的发作 (论文) Sutter Health 2016
  4. 结合传统与深度网络持续预测通知参与度 (论文) Telefonica 2017
  5. 深度学习在电子健康记录中的应用 (论文) Google 2018
  6. 基于长序列用户行为建模的点击率预测实践 (论文) Alibaba 2019
  7. 基于序列行为数据的搜索型用户兴趣建模用于CTR预测 (论文) Alibaba 2020
  8. 多邻国如何在其应用的各个部分使用AI Duolingo 2020
  9. 利用在线社交互动提升Facebook平台的诚信度 (论文, 视频) Facebook 2020
  10. 利用深度学习检测成员活动中的滥用序列 (视频) LinkedIn 2021

计算机视觉

  1. 使用计算机视觉和深度学习构建现代 OCR 流程 Dropbox 2017
  2. 在 Airbnb 中对房源照片进行分类 Airbnb 2018
  3. 设施检测及更进一步——Airbnb 的计算机视觉新前沿 Airbnb 2019
  4. 仅通过清理标注错误,我们将计算机视觉指标提升了 5% 以上 Deepomatic
  5. 利用音频和视频让机器识别并转录会议中的对话 Microsoft 2019
  6. 由 AI 驱动:推进产品理解并打造全新购物体验 Facebook 2020
  7. 用于八小时降水预报的神经天气模型 (论文) Google 2020
  8. 基于机器学习的灾害救援损伤评估 (论文) Google 2020
  9. RepNet:视频中重复动作计数 (论文) Google 2020
  10. 将文本转换为图像以用于商品发现 (论文) Amazon 2020
  11. 迪士尼如何使用 PyTorch 进行动画角色识别 Disney 2020
  12. 图像字幕作为辅助技术 (视频) IBM 2020
  13. AI for AG:农业领域的生产型机器学习 Blue River 2020
  14. 特斯拉的完全自动驾驶 AI Tesla 2020
  15. 设备端超市商品识别 Google 2020
  16. 利用机器学习检测结肠镜筛查中的覆盖不足 (论文) Google 2020
  17. “按图索骥”:在 Pinterest 上构建大规模视觉购物系统 (论文, 视频) Pinterest 2020
  18. 开发用于视频会议的实时自动手语检测系统 (论文) Google 2020
  19. 基于视觉的在线二手商品价格建议 (论文) 阿里巴巴 2020
  20. 新的 AI 研究助力从 X 光片预测 COVID-19 资源需求 (论文, 模型) Facebook 2021
  21. 面向超大规模人脸识别的高效训练方法 (论文) 阿里巴巴 2021
  22. 在 Scribd 中识别文档类型 Scribd 2021
  23. 面向时尚搭配性的半监督视觉表征学习 (论文) 沃尔玛 2021
  24. 通过私密的设备端机器学习识别人物照片 苹果 2021
  25. DeepFusion:用于多模态 3D 物体检测的激光雷达-相机深度融合 谷歌 2022
  26. 通用时尚概念的对比语言与视觉学习 (论文) Coveo 2022
  27. 利用计算机视觉优化搜索排名 BazaarVoice 2023

强化学习

  1. 基于深度强化学习的赞助搜索实时竞价 (论文) 阿里巴巴 2018
  2. 展示广告中无模型强化学习的预算约束出价 (论文) 阿里巴巴 2018
  3. 按需物流中的强化学习 DoorDash 2018
  4. 电子商务搜索引擎中的排序强化学习 (论文) 阿里巴巴 2018
  5. 基于深度强化学习的电商平台动态定价 (论文) 阿里巴巴 2019
  6. 使用Spark和MLflow将深度强化学习投入生产 Zynga 2020
  7. 深度强化学习在生产中的应用 第1部分 第2部分 Zynga 2020
  8. 构建AI交易系统 Denny Britz 2020
  9. 通过强化学习引导用户消费向多样化内容转变 (论文) Spotify 2022
  10. 在线校准中的多臂老虎机:以社交媒体平台的内容审核为例 Meta 2022
  11. 如何使用级联多臂老虎机优化排名 Expedia 2022
  12. 利用探索与机器学习为每位商家选择最佳图片 DoorDash 2023

异常检测

  1. 检测外部固件部署中的性能异常 Netflix 2019
  2. 使用孤立森林检测并预防LinkedIn上的滥用行为 (代码) LinkedIn 2019
  3. 结合Spark和TensorFlow的深度异常检测 (Hopsworks视频) SwedbankHopsworks 2019
  4. 利用无监督学习预防滥用 LinkedIn 2020
  5. LinkedIn上打击骚扰背后的技术 LinkedIn 2020
  6. 利用网络学习揭露保险欺诈阴谋 (论文) 蚂蚁金服 2020
  7. Stack Exchange上的垃圾信息防护机制是如何工作的? Stack Exchange 2020
  8. C2C电商中的自动内容审核 Mercari 2020
  9. 利用机器学习阻止Slack邀请垃圾邮件 Slack 2020
  10. Cloudflare机器人管理:机器学习及其他技术 Cloudflare 2020
  11. 隧道掘进机中油温变化的异常情况 SENER 2020
  12. 利用异常检测监控低风险银行客户 Rabobank 2020
  13. 使用三元组损失打击欺诈 OLX Group 2020
  14. Facebook现在正使用AI对内容进行分类,以加快审核速度 (替代方案) Facebook 2020
  15. AI在仇恨言论检测方面的进步 第1部分第2部分第3部分第4部分 Facebook 2020
  16. 利用深度学习检测会员活动中的辱骂性序列 (视频) LinkedIn 2021
  17. 项目RADAR:带有人工参与的智能早期欺诈检测系统 Uber 2022
  18. 用于欺诈检测的图结构 Grab 2022
  19. 在线校准中的多臂老虎机:以社交媒体平台的内容审核为例 Meta 2022
  20. 不断进化我们的机器学习模型以拦截移动机器人 Cloudflare 2022
  21. 通过数据增强和采样提高我们机器学习WAF的准确性 Cloudflare 2022
  22. 流媒体服务中的机器学习欺诈检测 Netflix 2022
  23. Lyft的定价策略 Lyft 2022

  1. 构建 LinkedIn 知识图谱 LinkedIn 2016
  2. 在 Airbnb 扩展知识访问与检索能力 Airbnb 2018
  3. 用于 Web 规模推荐系统的图卷积神经网络 (论文) Pinterest 2018
  4. Uber Eats 的美食发现:利用图学习驱动推荐 Uber 2019
  5. AliGraph:一个全面的图神经网络平台 (论文) Alibaba 2019
  6. 通过构建知识图谱实现 Airbnb 的情境化 Airbnb 2019
  7. 零售图——沃尔玛的产品知识图谱 Walmart 2020
  8. 利用先进的图神经网络进行交通预测 DeepMind 2020
  9. SimClusters:基于社区的推荐表示 (论文, 视频) Twitter 2020
  10. 元路径引导的邻居聚合网络用于异构图推理 (论文) Alibaba 2021
  11. 用于赞助搜索点击率预测的图意图网络 (论文) Alibaba 2021
  12. JEL:在摩根大通应用端到端神经实体链接技术 (论文) 摩根大通 2021
  13. AWS 如何利用图神经网络满足客户需求 Amazon 2022
  14. 用于欺诈检测的图 Grab 2022

优化

  1. Lyft Line 中的匹配机制(第 1 部分) (第 2 部分) (第 3 部分) Lyft 2016
  2. GrabShare 拼车背后的数据与科学 (第 1 部分) (需要论文)Grab 2017
  3. Uber Eats 中如何利用行程推断和机器学习优化配送时间 Uber 2018
  4. DoorDash 的下一代骑手调度优化 DoorDash 2020
  5. 利用机器学习优化电梯乘客等待时间 Thyssen Krupp AG 2020
  6. 跳出固有思维:为电商包裹推荐包装类型 (论文) Amazon 2020
  7. 利用机器学习优化 DoorDash 的营销支出 DoorDash 2020
  8. 使用排序学习精准定位包裹投递地点 (论文) Amazon 2021

信息抽取

  1. 从产品描述中无监督地提取属性及其值 (论文) Rakuten 2013
  2. 利用机器学习索引数十亿张图片中的文本 Dropbox 2018
  3. 从模板化文档中提取结构化数据 (论文) Google 2020
  4. AutoKnow:面向数千种产品的自动驾驶知识采集系统 (论文, 视频) Amazon 2020
  5. 基于注意力机制和信念传播的一次性文本标注用于信息抽取 (论文) Alibaba 2020
  6. 利用图卷积网络从收据中提取信息 Nanonets 2021

弱监督

  1. Snorkel DryBell:工业级弱监督部署案例研究 (论文) Google 2019
  2. Osprey:无需代码的不平衡抽取问题弱监督 (论文) Intel 2019
  3. Overton:用于监控和改进机器学习产品的数据系统 (论文) Apple 2019
  4. 利用弱监督自举对话式智能体 (论文) IBM 2019

生成模型

  1. 更好的语言模型及其影响 (论文) OpenAI 2019
  2. Image GPT (论文, 代码) OpenAI 2019
  3. 语言模型是少样本学习者 (论文) (GPT-3 博客文章) OpenAI 2020
  4. 用于特效电影制作的深度学习超分辨率 (论文) Pixar 2020
  5. 基于 Transformer 的单元测试用例生成 Microsoft 2021

音频

  1. 使用 VoiceFilter-Lite 改进设备端语音识别 (论文) Google 2020
  2. “哼唱搜索”背后的机器学习技术 Google 2020

隐私保护型机器学习

  1. 联邦学习:无需集中式训练数据的协作式机器学习 (论文) Google 2017
  2. 具有形式化差分隐私保证的联邦学习 (论文) Google 2022
  3. 基于 MPC 的机器学习:实现端到端的隐私保护型机器学习 (论文) Facebook 2022

验证与 A/B 测试

  1. 重叠实验基础设施:更多、更好、更快的实验 (论文) Google 2010
  2. 可重复使用的保留集:在自适应数据分析中保持有效性 (论文) Google 2015
  3. Twitter 实验平台技术概述 Twitter 2015
  4. 一切皆是 A/B 测试:Netflix 实验平台 Netflix 2016
  5. 构建 Pinterest 的 A/B 测试平台 Pinterest 2016
  6. 通过实验解决信息过载问题 Twitter 2017
  7. 利用 Uber 工程团队构建智能实验平台 Uber 2017
  8. 扩展 Airbnb 的实验平台 Airbnb 2017
  9. 认识 Wasabi:一款开源 A/B 测试平台 (代码) Intuit 2017
  10. 分析实验结果:超越平均处理效应 Uber 2018
  11. Uber 实验平台揭秘 Uber 2018
  12. 带噪声实验的约束贝叶斯优化 (论文) Facebook 2018
  13. Grab 的可靠且可扩展的功能开关与 A/B 测试 SDK Grab 2018
  14. 使用 Kaplan-Meier 和伽玛分布建模转化率并节省数百万美元 (代码) Better 2019
  15. 检测干扰:一次针对 A/B 测试本身的 A/B 测试 LinkedIn 2019
  16. 宣布使用 Pyro 设计最优实验的新框架 (论文) (论文) Uber 2020
  17. 借助 Traveloka 实验平台实现实验数量提升 10 倍 Traveloka 2020
  18. Stitch Fix 的大规模实验 (论文) Stitch Fix 2020
  19. 多臂老虎机与 Stitch Fix 实验平台 Stitch Fix 2020
  20. 资源受限条件下的实验 Stitch Fix 2020
  21. Netflix 的计算因果推断 (论文) Netflix 2020
  22. Netflix 中准实验的关键挑战 Netflix 2020
  23. 使 LinkedIn 实验引擎速度提升 20 倍 LinkedIn 2020
  24. 我们通往 T-REX 的演进历程:LinkedIn 实验基础设施的前史 LinkedIn 2020
  25. 如何利用准实验和反事实构建优质产品 Shopify 2020
  26. 通过将预测作为协变量来提高实验效力 DoorDash 2020
  27. 借助实验分析平台支持快速产品迭代 DoorDash 2020
  28. 通过并行化和提高灵敏度,将在线实验容量提升 4 倍 DoorDash 2020
  29. 利用因果建模从平淡的实验结果中获得更多价值 DoorDash 2020
  30. 通过实验迭代实时分配算法 DoorDash 2020
  31. Spotify 新实验平台(第 1 部分) (第 2 部分) Spotify 2020
  32. 解读 A/B 测试结果:假阳性与统计显著性 Netflix 2021
  33. 解读 A/B 测试结果:假阴性与检验效能 Netflix 2021
  34. 使用 Google AdWords 进行实验以优化广告活动 DoorDash 2021
  35. DoorDash 用于将其物流实验能力提升 1000% 的四大原则 DoorDash 2021
  36. Zalando 的实验平台:第一部分——演进历程 Zalando 2021
  37. 设计实验护栏 Airbnb 2021
  38. Airbnb 如何衡量未来价值以标准化权衡取舍 Airbnb 2021
  39. 大规模网络实验 (论文) Facebook 2021
  40. 迪士尼流媒体中的通用对照组 Disney 2021
  41. 实验是 Netflix 整体数据科学的核心重点 Netflix 2022
  42. 迈向更佳实验实践的探索之旅 Spotify 2022
  43. 人工反事实估计:基于机器学习的 Airbnb 因果推断 Airbnb 2022
  44. 超越 A/B 测试:通过交错排序加速 Airbnb 搜索排名实验 Airbnb 2022
  45. 实验面临的挑战 Lyft 2022
  46. 过度跟踪与触发分析:在提高灵敏度的同时减少样本量 Booking 2022
  47. 认识 Dash-AB——DoorDash 实验的统计引擎 DoorDash 2022
  48. 在在线 A/B 测试中大规模比较分位数 Spotify 2022
  49. 利用机器学习加速我们的 A/B 实验 Dropbox 2023
  50. 为 Uber 的 A/B 测试注入强劲动力 Uber

模型管理

  1. 机器学习的工程化——从原始数据到预测的溯源管理 Comcast 2018
  2. Overton:用于监控和改进机器学习产品的数据系统论文Apple 2019
  3. Runway - Netflix 的模型生命周期管理 Netflix 2020
  4. 大规模下的机器学习模型管理——Intuit 的机器学习平台 Intuit 2020
  5. 机器学习模型监控——来自一线的 9 条建议 Nubank 2021
  6. 实时机器学习模型中的训练-服务偏移问题处理:简明指南 Nubank 2023

效率

  1. GrokNet:面向电商的统一计算机视觉模型主干与嵌入论文) Facebook 2020
  2. 我们如何将 BERT 扩展到在 CPU 上服务每日超过 10 亿次请求 Roblox 2020
  3. 置换、量化与微调:神经网络的高效压缩论文Uber 2021
  4. Pinterest 的 GPU 加速机器学习推理 Pinterest 2022

伦理

  1. 通过 A/B 测试构建包容性产品论文LinkedIn 2020
  2. LiFT:衡量机器学习应用公平性的可扩展框架论文LinkedIn 2020
  3. 推出 Twitter 首个算法偏见赏金挑战 Twitter 2021
  4. 考察 Twitter 上政治内容的算法放大效应 Twitter 2021
  5. 深入探讨 LinkedIn 如何将其公平性理念融入 AI 产品中 LinkedIn 2022

基础设施

  1. 为互操作性重构 Facebook AI 的深度学习平台 Facebook 2020
  2. 使用 Ray 在 XGBoost 上进行弹性分布式训练 Uber 2021

MLOps 平台

  1. 认识米开朗基罗:Uber 的机器学习平台 Uber 2017
  2. 机器学习的落地实践——从原始数据到预测的全过程管理 Comcast 2018
  3. Pinterest 的大数据机器学习平台 Pinterest 2019
  4. Instagram 的核心模型构建 Instagram 2019
  5. 开源 Metaflow——以人为本的数据科学框架 Netflix 2019
  6. 大规模 ML 模型管理——Intuit 的 ML 平台 Intuit 2020
  7. Zomato 的实时机器学习推理平台 Zomato 2020
  8. 推出 Flyte:云原生机器学习与数据处理平台 Lyft 2020
  9. 利用计算图构建灵活的集成 ML 模型 DoorDash 2021
  10. LyftLearn:基于 Kubernetes 构建的 ML 模型训练基础设施 Lyft 2021
  11. "你不需要更大的船":用开源工具构建的完整数据流水线论文Coveo 2021
  12. GreenSteam 的 MLOps:机器学习的交付与部署 GreenSteam 2021
  13. Reddit ML 模型部署与服务架构的演进 Reddit 2021
  14. 重新设计 Etsy 的机器学习平台 Etsy 2021
  15. 理解大规模深度推荐模型训练中的数据存储与摄取论文Meta 2021
  16. 在 Etsy 上构建推荐服务的平台 Etsy 2022
  17. 智能自动化平台:赋能 Airbnb 的对话式 AI 及其应用 Airbnb 2022
  18. DARWIN:LinkedIn 的数据科学与人工智能工作台 LinkedIn 2022
  19. 梅林的魔力:Shopify 的全新机器学习平台 Shopify 2022
  20. Zalando 的机器学习平台 Zalando 2022
  21. 揭秘 Meta 全公司工程师使用的 AI 优化平台论文Meta 2022
  22. Monzo 的机器学习技术栈 Monzo 2022
  23. ML Fact Store 的演进 Netflix 2022
  24. 利用 MLOps 构建实时端到端机器学习流水线 Binance 2022
  25. 在 Zillow 高效地大规模部署机器学习模型 Zillow 2022
  26. Didact AI:一款基于 ML 的选股引擎剖析 Didact AI 2022
  27. 免费部署——Stitch Fix 数据科学家的机器学习平台 Stitch Fix 2022
  28. 机器学习运维(MLOps):概述、定义与架构论文IBM 2022

实践

  1. 基于梯度的深度架构训练实用建议 (论文) Yoshua Bengio 2012
  2. 机器学习:技术债务的高息信用卡 (论文) (论文) Google 2014
  3. 机器学习规则:ML工程的最佳实践 Google 2018
  4. 机器学习模型管理中的挑战 Amazon 2018
  5. 生产环境中的机器学习:Booking.com的方法 Booking 2019
  6. 150个成功的机器学习模型:Booking.com的6点经验教训 (论文) Booking 2019
  7. 全球性银行大规模采用机器学习的成功与挑战 Rabobank 2019
  8. 部署机器学习的挑战:案例研究综述 (论文) Cambridge 2020
  9. 重构Facebook AI的深度学习平台以实现互操作性 Facebook 2020
  10. 企业级AI开发者工具的问题 Databricks 2020
  11. 面向在线推理与模型的机器学习持续集成与部署 Uber 2021
  12. 模型性能调优 Uber 2021
  13. 通过监控维持机器学习模型精度 DoorDash 2021
  14. 在Wayfair构建可扩展且高性能的营销ML系统 Wayfair 2021
  15. 我们构建透明且可解释AI系统的做法 LinkedIn 2021
  16. 为企业构建机器学习模型的5个步骤 Shopify 2021
  17. 数据是一门艺术,而不仅是科学——讲故事是关键 Shopify 2022
  18. 实时机器学习最佳实践:警报机制 Nubank 2022
  19. 机器学习模型的自动再训练:技巧与经验教训 Nubank 2022
  20. RecSysOps:大规模推荐系统运维的最佳实践 Netflix 2022
  21. Uber的ML教育:受工程原则启发的框架 Uber 2022
  22. 为DS/ML团队构建和维护内部工具:经验教训 Nubank 2024

团队结构

  1. 构建数据科学团队最有效的方式是什么? Udemy 2017
  2. 工程师不应编写ETL:构建高效数据科学部门指南 Stitch Fix 2016
  3. 在Wish构建分析团队 Wish 2018
  4. 警惕数据科学“图钉工厂”:全栈数据科学家通用型人才的力量 Stitch Fix 2019
  5. 培育算法:我们在Stitch Fix如何发展数据科学 Stitch Fix
  6. Netflix的分析部门:我们是谁,我们做什么 Netflix 2020
  7. 在一家中后期初创公司组建数据团队:一个短篇故事 Erikbern 2021
  8. Postman数据团队工作方式的幕后一览 Postman 2021
  9. 数据科学家与机器学习工程师的角色:有何不同?有何相似之处? Nubank 2022

失败案例

  1. 说到大猩猩,Google Photos仍然视而不见 Google 2018
  2. 超过16万名高中生只有在某个模型允许的情况下才能毕业 国际文凭组织 2020
  3. 一种基于人脸“预测”犯罪倾向的算法引发轩然大波 哈里斯堡大学 2020
  4. GPT-3很难生成关于穆斯林的神经网络文本 OpenAI 2020
  5. 英国用于预测暴力犯罪的人工智能工具缺陷太多,无法使用 英国 2020
  6. 更多内容请参见awful-ai
  7. AI事件数据库 AI伙伴关系 2022

附注:想了解机器学习领域的最新进展吗? 通过综述论文快速掌握最新动态 👉ml-surveys

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|1周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

158.1k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|6天前
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|1周前
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|1周前
插件开发框架