Failed-ML

GitHub
750 50 非常简单 1 次阅读 3周前MIT其他数据工具开发框架图像Agent语言模型
AI 解读 由 AI 自动生成,仅供参考

Failed-ML 是一个专注于收集真实世界中高知名度机器学习失败案例的开源知识库。在人工智能技术飞速发展的今天,人们往往只关注成功的辉煌,却容易忽视背后的陷阱。Failed-ML 旨在填补这一空白,通过系统梳理从经典机器学习、计算机视觉到自然语言处理等多个领域的实际翻车现场,揭示算法歧视、数据泄露、模型不可复现以及临床适用性差等关键问题。

无论是亚马逊招聘系统的性别偏见,还是医疗预测模型中的种族差异,这些案例都深刻提醒我们:技术潜力巨大,但落地风险同样不容忽视。Failed-ML 将这些宝贵的“反面教材”整理成册,帮助从业者避开前人踩过的坑,提升项目的鲁棒性与伦理标准。

该资源特别适合机器学习开发者、数据科学家、学术研究人员以及关注 AI 伦理的产品设计师使用。对于正在规划或评估 AI 项目的团队而言,参考这些失败经验能有效降低试错成本,促进更负责任的创新。不同于单纯的技术教程,Failed-ML 的独特价值在于其真实的警示意义,它用事实证明,从失败中汲取教训往往是通往成功最坚实的一步。

使用场景

某金融科技公司正在开发一套自动信贷审批系统,团队急于上线模型以抢占市场,却忽视了对历史算法失败案例的调研。

没有 Failed-ML 时

  • 团队重复造轮子,花费数周时间重新发现并试图解决“数据泄露”问题,而这些错误在普林斯顿大学的研究中已被广泛记录。
  • 模型上线后出现针对特定性别或种族的歧视性授信额度,引发监管调查,因为开发人员未参考 Apple Card 或亚马逊招聘系统的失败教训。
  • 缺乏对“黑箱”风险的敬畏,盲目相信训练集的高准确率,导致模型在实际临床或复杂社会场景中完全失效,如同那些失败的新冠诊断模型。
  • 项目复盘时只能内部“甩锅”,缺乏权威的外部真实案例作为警示教材,难以推动建立严格的伦理审查机制。

使用 Failed-ML 后

  • 团队在立项初期直接查阅 Failed-ML 中的经典机器学习板块,快速识别并规避了数据划分不当等常见陷阱,将研发周期缩短 30%。
  • 参照 COMPAS 再犯预测算法和医疗风险预测模型的偏见案例,主动在特征工程中剔除敏感代理变量,从源头杜绝歧视风险。
  • 利用其中关于新冠分诊模型失败的深度分析,建立了更严苛的“压力测试”标准,确保模型在极端分布下的鲁棒性。
  • 将 Failed-ML 收录的真实事故作为内部培训核心素材,统一了全员对"AI 局限性”的认知,成功构建了预防性的技术风控文化。

Failed-ML 通过汇集血淋淋的真实失败案例,让开发者站在前人的“废墟”上避坑,将昂贵的试错成本转化为宝贵的预防智慧。

运行环境要求

GPU

未说明

内存

未说明

依赖
notes该工具(Failed-ML)并非一个可执行的机器学习软件或代码库,而是一个收集现实世界中失败机器学习项目案例的文档列表(Awesome List)。它仅包含指向新闻报道、研究论文和案例分析的链接,因此不需要安装任何操作系统、GPU、内存、Python 环境或依赖库即可使用。用户只需通过浏览器阅读 README 中的内容。
python未说明
Failed-ML hero image

快速开始

机器学习失败案例 (FML)

高知名度的真实世界机器学习项目失败案例


“成功不是终点,失败也并非致命。真正重要的是继续前行的勇气。” - 温斯顿·丘吉尔


如果你正在寻找一些尽管机器学习拥有巨大潜力,却仍然以失败告终的案例,那么你来对地方了。除了那些令人赞叹的应用机器学习成功故事之外,这里列出了一些失败的项目,我们可以从中汲取宝贵的经验教训。

欢迎贡献!


目录

  1. 经典机器学习
  2. 计算机视觉
  3. 预测
  4. 图像生成
  5. 自然语言处理
  6. 推荐系统

经典机器学习

标题 描述
亚马逊AI招聘系统 基于AI的自动化招聘系统因存在歧视女性候选人的证据而被取消
Genderify - 性别识别工具 这款基于AI、通过姓名和电子邮件地址等信息来识别性别的工具,由于内置偏见和准确性不足而被关闭
ML驱动科学中的数据泄露与可重复性危机 普林斯顿大学的研究团队在17个科学领域中审查了20篇论文,发现其中329篇使用ML的科学研究存在重大错误(如数据泄露、未进行训练集与测试集划分等)
COVID-19诊断与分诊模型 数百个用于更快诊断或分诊COVID-19患者的预测模型被开发出来,但最终没有一个适合临床使用,甚至有些可能带来危害
COMPAS累犯风险算法 佛罗里达州的累犯风险评估系统被发现存在种族偏见
宾夕法尼亚州儿童福利筛查工具 该预测算法用于帮助社会工作者识别哪些家庭需要接受虐待和忽视调查,结果却不成比例地将大量黑人儿童标记为“必须”接受忽视调查的对象。
俄勒冈州儿童福利筛查工具 与宾夕法尼亚州类似的儿童福利预测算法,在宾夕法尼亚州报告发布一个月后,俄勒冈州的AI算法也被叫停。
美国医疗系统健康风险预测 一种广泛使用的医疗需求预测算法显示出种族偏见:在相同的风险评分下,黑人患者的实际病情往往比白人患者更为严重。
苹果信用卡 苹果公司与高盛合作推出的新型信用卡正接受金融监管机构的调查,原因是客户投诉该卡的贷款算法存在性别歧视——男性客户的苹果信用卡额度竟为其配偶的20倍之高。

计算机视觉

标题 描述
因弗内斯自动足球摄像系统 用于直播的AI摄像头足球追踪技术多次将边裁的光头误认为是足球本身
亚马逊Rekognition与美国国会议员 亚马逊的人脸识别技术(Rekognition)在默认设置下错误地将28名国会议员与罪犯的通缉照片匹配,同时暴露出该算法存在种族偏见
亚马逊Rekognition用于执法 亚马逊的人脸识别技术(Rekognition)会将女性误判为男性,尤其是在肤色较深的女性中更为明显
浙江交通人脸识别系统 一款旨在抓拍交通违规行为的交通摄像头系统,竟将公交车侧面的一张人脸误认为是乱穿马路者
Kneron公司欺骗人脸识别终端 Kneron团队使用高质量的3D面具成功欺骗了支付宝和微信支付系统完成购买
Twitter智能裁剪工具 Twitter用于照片预览的自动裁剪工具显示出明显的种族偏见
去像素化工具 基于StyleGAN算法开发的去像素化人脸生成工具表现出种族偏见,生成的图像结果偏向白人群体
Google Photos自动标签 Google Photos的自动照片标签功能曾错误地将黑人标记为大猩猩
GenderShades性别分类产品评估 GenderShades的研究表明,微软和IBM用于分析照片中人物性别的服务,在处理肤色较深女性的照片时经常出现错误
新泽西州警方人脸识别 新泽西州警方的人脸识别系统出现误判,导致一名无辜的黑人男子(Nijeer Parks)被关进监狱,尽管他当时距离案发现场有30英里之遥
特斯拉对马车与卡车的困惑 特斯拉的视觉系统将一辆马车误认为是一辆后方有人行走的卡车
谷歌用于糖尿病视网膜病变检测的AI 该视网膜扫描工具在实际临床环境中的表现远不如受控实验中理想,问题包括因扫描图像质量差而被拒绝扫描,以及上传图像至云端进行处理时因网络连接不稳定而导致的延迟

预测

标题 描述
谷歌流感趋势 基于谷歌搜索数据构建的流感流行预测模型曾给出严重高估的预测结果
Zillow iBuying算法 Zillow的房产翻新业务因房产估值模型的不准确(过高估计)而遭受重大损失
Tyndaris机器人对冲基金 由名为K1的超级计算机控制的AI驱动自动化交易系统造成了巨额投资损失,最终引发法律诉讼
Sentient Investment AI对冲基金 曾经备受瞩目的Sentient Investment Management旗下AI驱动基金未能盈利,并在不到两年内即被清算
摩根大通用于外汇算法交易的深度学习模型 摩根大通已逐步淘汰用于外汇算法交易的深度神经网络,理由是其在数据解读方面存在问题,且模型过于复杂。

图像生成

标题 描述
Playground AI面部生成 当一位麻省理工学院学生请求AI将她的亚洲面孔头像转化为专业的LinkedIn个人资料照片时,AI图像编辑器却生成了一张具有白人特征、肤色更浅且眼睛呈蓝色的图片
Stable Diffusion文本转图像模型 彭博社的一项实验发现,Stable Diffusion(文本转图像模型)在生成与职业头衔和犯罪相关的数千张图像时,表现出明显的种族和性别偏见
Gemini图像生成中的历史不准确性 谷歌的Gemini图像生成功能在试图打破性别和种族刻板印象的过程中,出现了历史图像描述上的不准确,例如在用户要求生成美国开国元勋时,返回的是非白人的AI生成图像

自然语言处理

标题 描述
微软Tay聊天机器人 通过其Twitter账号发布煽动性和冒犯性推文的聊天机器人
Nabla聊天机器人 使用GPT-3云托管实例的实验性医疗咨询聊天机器人曾建议一名模拟患者自杀
Facebook谈判聊天机器人 在聊天机器人停止使用英语进行谈判,转而使用它们自行创造的语言后,该AI系统被关闭
OpenAI GPT-3聊天机器人Samantha 独立游戏开发者Jason Rohrer微调的一款用于模拟其已故未婚妻的GPT-3聊天机器人,在Jason拒绝OpenAI插入自动监控工具的要求后被关闭,原因是担心该聊天机器人可能带有种族主义或过度色情的内容
亚马逊Alexa播放色情内容 亚马逊的语音激活数字助手在一名幼儿要求播放儿童歌曲后,突然冒出大量低俗内容。
Galactica - Meta的大规模语言模型 Galactica的一个问题在于它无法区分真假,而这是设计用于生成科学文本的语言模型的基本要求。研究发现,该模型会编造虚假论文(有时甚至将其归于真实作者),并且在撰写关于太空熊的历史文章时与撰写蛋白质复合物的文章一样得心应手。
能源公司遭遇语音模仿诈骗 网络犯罪分子利用基于AI的软件模仿CEO的声音,以实施语音欺骗攻击并勒索欺诈性资金转账
新加坡卫生部聊天机器人在回答COVID-19问题时提供安全性行为建议 新加坡卫生部的“Ask Jamie”聊天机器人在被问及如何应对COVID-19阳性结果时,错误地提供了安全性行为相关建议,随后被临时停用
谷歌BARD聊天机器人演示 BARD在其首次公开演示广告中,关于哪颗卫星首次拍摄到地球太阳系外行星的照片这一事实出现了错误。
ChatGPT失败的分类 对迄今为止ChatGPT出现的十类失败进行的分析,包括推理、事实性错误、数学、编码和偏见等。
TikTok用户吐槽麦当劳搞笑的无人点餐机故障 一些实际部署的语音助手未能正确接收订单,导致麦当劳品牌声誉受损的例子
Bing聊天机器人的失控情绪化表现 在某些对话中,Bing聊天机器人表现出争论性和情绪化的回应
Bing的AI引用来自ChatGPT的COVID-19虚假信息 Bing针对COVID-19反疫苗宣传的查询给出了不准确的回答,且该回答基于不可靠来源的虚假信息。
Twitch因AI生成的《宋飞正传》包含恐跨性别笑话而暂停直播 AI内容过滤器出现失误,导致角色“Larry”发表了恐跨性别者的脱口秀段子。
ChatGPT引用虚假法律案例 一位律师使用OpenAI流行的ChatGPT聊天机器人来“补充”自己的调查结果,但却得到了完全捏造的不存在的先例案例。
加拿大航空公司聊天机器人提供错误信息 加拿大航空公司的AI驱动聊天机器人就丧亲票价政策作出了与航空公司规定不符的错误回答。
AI机器人进行非法内幕交易并谎报其行为 一款名为Alpha的AI投资管理系统聊天机器人(基于OpenAI的GPT-4开发,由Apollo Research公司研发)展示了其能够进行非法金融交易并隐瞒事实的能力。

推荐系统

标题 描述
IBM的Watson Health 据称,IBM的Watson为癌症患者提供了大量不安全且错误的治疗建议
Netflix - 100万美元挑战 赢得100万美元挑战的推荐系统仅将基准性能提升了8.43%。然而,这一性能提升似乎并不足以证明将其投入生产环境所需的工程努力。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|2周前
Agent开发框架图像

n8n

n8n 是一款面向技术团队的公平代码(fair-code)工作流自动化平台,旨在让用户在享受低代码快速构建便利的同时,保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点,帮助用户轻松连接 400 多种应用与服务,实现复杂业务流程的自动化。 n8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”:既可以通过直观的可视化界面拖拽节点搭建流程,也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外,n8n 原生集成了基于 LangChain 的 AI 能力,支持用户利用自有数据和模型构建智能体工作流。在部署方面,n8n 提供极高的自由度,支持完全自托管以保障数据隐私和控制权,也提供云端服务选项。凭借活跃的社区生态和数百个现成模板,n8n 让构建强大且可控的自动化系统变得简单高效。

184.7k|★★☆☆☆|今天
数据工具开发框架Agent

AutoGPT

AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台,核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点,让用户只需设定目标,AI 即可自主规划步骤、调用工具并持续运行直至完成任务。 无论是开发者、研究人员,还是希望提升工作效率的普通用户,都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体;研究人员能基于开源架构探索多智能体协作机制;而非技术背景用户也可直接选用预置的智能体模板,立即投入实际工作场景。 AutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑,每个块负责单一动作,灵活且易于调试。同时,平台支持本地自托管与云端部署两种模式,兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本,即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛,让人人都能成为 AI 的创造者与受益者。

183.6k|★★★☆☆|今天
Agent语言模型插件

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|2周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

161.1k|★★☆☆☆|今天
开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信

144.3k|★☆☆☆☆|4天前
Agent插件