Real-time-ML-Project

755 275 非常简单 1 次阅读昨天开发框架数据工具插件

AI 解读由 AI 自动生成，仅供参考

Real-time-ML-Project 是一个精心整理的开源资源库，汇集了面向不同行业的应用机器学习与数据科学实战笔记（Notebooks）及代码库。它主要解决了从业者在将理论算法转化为具体行业解决方案时，缺乏高质量参考案例和现成代码的痛点。通过提供覆盖住宿餐饮、农业、金融保险、医疗健康、制造业等二十多个垂直领域的 Python 代码示例，该项目帮助用户快速理解如何在真实业务场景中落地人工智能技术。

这份资源特别适合数据科学家、机器学习工程师、量化分析师以及相关领域的研究人员使用。无论是希望跨行业寻找灵感的开发者，还是急需特定领域（如欺诈检测、生物测序分析或风险评估）实现方案的专业人士，都能从中获得直接可用的 Jupyter Notebook 代码和学习路径。其核心亮点在于极强的行业针对性与社区共建模式：内容不仅按细分领域结构化分类，还鼓励领域专家持续贡献最新成果，确保代码的实用性与时效性。作为一个受"awesome-machine-learning"启发的项目，Real-time-ML-Project 致力于成为连接学术算法与产业应用的桥梁，让技术真正服务于千行百业。

使用场景

某金融科技公司数据团队正急需为消费信贷业务构建反欺诈模型，但团队成员缺乏跨行业落地经验，难以快速找到经过验证的代码参考。

没有 Real-time-ML-Project 时

搜索效率极低：工程师需在 GitHub 海量仓库中盲目关键词搜索，耗费数天筛选，却常找到过时或缺乏文档的“僵尸项目”。
行业适配困难：找到的通用机器学习教程缺乏金融场景特异性，无法直接解决信贷欺诈中的不平衡样本或特征工程难题。
重复造轮子：因缺少可复用的 Jupyter Notebook 范例，团队不得不从零编写基础数据清洗和建模代码，严重拖慢原型验证进度。
技术选型迷茫：面对众多算法库不知如何选择最适合银行业务的工具栈，缺乏权威的行业应用清单作为决策依据。

使用 Real-time-ML-Project 后

精准定位资源：团队直接查阅"Banking & Insurance"章节，瞬间锁定多个专注于"Consumer Financial"和"Fraud"的高质量开源笔记本。
场景无缝对接：下载现成的欺诈检测代码模板，其中已包含针对金融数据的特定预处理逻辑和模型调优参数，大幅降低迁移成本。
加速开发迭代：基于成熟的行业案例进行修改而非从头开发，将模型原型构建时间从两周缩短至两天，快速上线测试。
明确技术路径：参考列表中 curated 的库和最佳实践，迅速确定了适合当前业务的技术栈，避免了试错成本。

Real-time-ML-Project 通过提供分行业的实战代码清单，将数据科学家从繁琐的资源搜寻中解放出来，使其能专注于核心业务逻辑的创新与落地。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该项目是一个跨行业的机器学习和数据科学应用笔记本（Notebooks）及库的精选列表，而非单一的独立软件工具。代码主要以 Python 编写并在 Jupyter Notebook 环境中运行。由于包含多个不同行业和应用场景的独立项目，具体的依赖库、硬件需求（如 GPU、内存）需参考各个子项目的具体说明，整个集合没有统一的运行环境要求。

pythonPython (主要使用 Jupyter Notebooks)

快速开始

机器学习与数据科学在工业中的应用

请将您的工具和笔记本添加到这个 Google 表格中。

这是一份精选的跨不同行业的应用机器学习和数据科学笔记本及库列表。本仓库中的代码主要使用 Python（以 Jupyter 笔记本为主），除非另有说明。该目录受到 awesome-machine-learning 的启发。

注意： 这是一个持续更新中的项目，请大家积极贡献，尤其是如果您是下列行业中某一领域的专家。如果您是 [分析、计算、统计、量化] 领域的研究人员或分析师，或者您是 X 领域的 [机器学习工程师、数据科学家、建模师、程序员]，那么您的贡献将不胜感激。

如果您想为这份列表做出贡献（请务必这样做），可以向我发送拉取请求，或者通过 @dereknow 或 LinkedIn 联系我。此外，如果出现以下情况，已列出的仓库应被标记为已弃用：

仓库的所有者明确表示“此库不再维护”。
长时间未进行提交（2~3 年）。

需要帮助： 如果有贡献者愿意先填充再维护以下任一子行业或行业的 Python 分析部分，请与我联系。同时，也欢迎联系我以添加 其他行业。


住宿与餐饮	农业	银行与保险
生物技术与生命科学	建筑与工程	教育与研究
应急与救援	金融	制造业
政府与公共工程	医疗保健	媒体与出版
司法、法律与法规	其他	会计
房地产、租赁与出租	公用事业	批发与零售

住宿与餐饮
- 食品
- 餐厅
- 住宿
会计
- 机器学习
- 分析
- 文本分析
- 数据
- 研究与文章
- 网站
- 课程
农业
- 经济学
- 发展
银行与保险
- 消费者金融
- 管理和运营
- 估值
- 欺诈
- 保险与风险
- 实体业务
- 数据
生物技术与生命科学
- 通用
- 测序
- 化学信息学与药物发现
- 基因组学
- 生命科学
建筑与工程
- 建筑
- 工程
- 材料科学
经济学
- 通用
- 机器学习
- 计算
教育与研究
- 学生
- 学校
应急与救援
- 预防与应对
- 犯罪
- 救护车
- 灾害管理
金融
- 交易与投资
- 数据
医疗保健
- 通用
司法、法律与法规
- 工具
- 政策与监管
- 司法
制造业
- 通用
- 维护
- 故障
- 质量
媒体与出版
- 营销
其他
- 艺术
- 旅游
物理学
- 通用
- 机器学习
政府与公共工程
- 社会政策
- 选举分析
- 灾害管理
- 政治
- 慈善机构
房地产、租赁与出租
- 房地产
- 租赁与出租
公用事业
- 电力
- 煤炭、石油和天然气
- 水与污染
- 交通运输
批发与零售
- 批发
- 零售

住宿与餐饮

餐饮

RobotChef - 基于用户评价优化菜谱。
食品便利设施 - 使用神经网络预测食品便利设施的需求。
菜谱、菜系及评分 - 根据食材列表预测菜品的评分和菜系类型。
食物分类 - 使用Keras进行分类。
图像转菜谱 - 利用深度学习将图片转换为菜谱。
卡路里估算 - 通过食物照片估算卡路里。
优质食品评论 - 对亚马逊优质食品评论进行情感分析。

餐厅

餐厅违规情况 - 食品检查违规情况预测。
餐厅经营成功与否 - 预测餐厅是否会倒闭。
米其林餐厅预测 - 预测餐厅成为米其林餐厅的可能性。
餐厅检查 - 分析餐厅检查数据，探讨清洁度是否与评分相关。
销售额预测 - 使用LSTM预测餐厅销售额。
顾客流量预测 - 预测餐厅的预订量和实际到店人数。
餐厅利润分析 - 进行餐厅回归分析。
竞争分析 - 分析餐厅的竞争力。
商业分析 - 餐厅商业分析项目。
选址推荐 - 餐厅选址推荐工具及分析。
关闭、评分与推荐 - 使用Yelp数据完成三项预测任务。
反推荐系统 - 发现你不应该去的餐厅。
菜单分析 - 通过餐厅菜单进行更深入的分析。
菜单推荐 - 利用NLP技术推荐菜单相似的餐厅。
食品价格预测 - 预测食品成本。
自动化餐厅报告 - 自动化机器学习公司报告。

点对点住房 - 点对点租赁对住房市场的影响。
室友推荐 - 为寻找室友的学生设计的系统。
房间分配 - 房间分配流程。
动态定价 - 酒店动态定价计算。
酒店相似性 - 比较直接竞争的品牌。
酒店评论 - 对酒店评论进行聚类分析。
房价预测 - 预测酒店客房价格。
酒店与Airbnb对比 - 比较两种模式。
酒店改进建议 - 通过分析评论提出酒店改进建议。
订单预测 - 预测酒店订单取消情况。
虚假评论检测 - 识别评论是否为虚假或垃圾信息。
反向图像搜索住宿 - 通过上传图片找到心仪的住宿。

会计

机器学习

会计科目表预测 - 使用标注数据为每笔交易建议合适的科目名称。
会计异常检测 - 利用深度学习框架识别会计异常。
财务报表异常检测 - 使用R语言在提交前检测异常。
资产使用寿命预测（FirmAI） - 基于传感器观测和特征工程预测资产的使用寿命。
人工智能应用于XBRL - 将XBRL标准化表示转化为适用于人工智能和机器学习的形式。

分析

法务会计 - 收集利用数据分析进行法务会计的案例研究。正在寻找更多数据以实践法务会计，请联系。
总账（FirmAI） - 对通过会计系统导出的总账数据进行处理。
子弹图（FirmAI） - 子弹图可视化有助于跟踪销售、佣金及其他绩效指标。
逾期应收账款分析（FirmAI） - 示例分析，用于调查逾期应收账款。
自动化财务报表XBRL - 使用XML语言，但也可将分析移植到Python中。

文本分析

财务情绪分析 - 对情绪、距离及比例进行分析，以生成交易信号。
全面自然语言处理 - 用于会计研究的综合NLP技术。

数据、解析与API

EDGAR - 介绍如何获取EDGAR数据的教程。
IRS - 访问并解析IRS申报文件。
企业财务数据 - 罗格斯大学提供的企业财务数据集。
非财务企业数据 - 罗格斯大学提供的非财务企业数据集。
PDF解析 - 从PDF文档中提取有用数据。
PDF表格转Excel - 如何将PDF文件输出为Excel文件。

研究与文章

理解会计分析 - 一篇文章探讨了会计分析的重要性。
VLFeat - VLFeat是一个开源且跨平台的计算机视觉算法库，附带Matlab工具箱。

网站

罗格斯Raw - 来自罗格斯大学的良好数字会计研究资源。

课程

计算机辅助会计 - 罗格斯大学的一系列视频，探讨如何利用计算技术改进会计工作。
数字化时代的会计 - 罗格斯大学的另一系列视频，研究数字时代对会计的影响。

农业

经济学

价格预测与可视化 - 农产品价格预测。
价格预测2 - 农产品价格预测。
产量分析 - 乌克兰农作物产量分析。
生态恢复 - 农业与生态系统恢复的战略性土地利用。
MPR - 美国农业部农产品营销服务部门的强制性价格报告数据。

开发

地块分割 - 利用卫星图像对农田地块进行分割。
地下水位预测 - 预测农业区地下水位深度。
农业助手 - 农业助手的相关笔记本。
生态进化动态 - 生态进化动力学。
病虫害识别 - 利用深度学习框架从图像中识别作物病虫害。
灌溉与病虫害预测 - 分析灌溉情况并预测病虫害发生的可能性。

银行与保险

消费金融

贷款审批 - 用于贷款审批的分类和时间序列分析。
预测贷款偿还 - 使用自动化特征工程预测贷款是否会偿还。
贷款资格排名 - 帮助银行判断客户是否符合特定贷款条件的系统。
住房信贷违约（FirmAI） - 预测住房信贷违约。
抵押贷款分析 - 详尽的抵押贷款数据分析。
信用卡审批 - 用于信用卡审批的系统。
贷款风险 - 帮助减少贷款核销和损失的预测模型。
摊还计划表（FirmAI） - 个人使用的简单Python摊还计划表。

管理与运营

信用卡 - 估算信用卡客户的CLV。
生存分析 - 对客户进行生存分析。
下一次交易 - 使用深度学习模型预测交易金额及下次交易间隔天数。
信用卡客户流失 - 预测信用卡客户流失。
英国央行会议纪要 - 对央行会议纪要进行文本分析。
CEO薪酬 - CEO薪酬分析。

估值

Zillow房价预测 - 在Kaggle上实现的Zillow房价估值预测。
房地产 - 根据城市环境预测房地产价格。
二手车价格预测 - 二手车价格预测。

欺诈检测

XGBoost欺诈检测 - 通过模拟退火调优XGBoost超参数进行欺诈检测。
R语言中的银行贷款欺诈检测 - 银行贷款中的欺诈检测。
AML金融尽职调查 - 搜索新闻文章以进行金融AML尽职调查。
信用卡欺诈检测 - 检测信用卡欺诈。

保险与风险

汽车损伤检测 - 使用卷积神经网络评估个人汽车理赔中的损伤。
医疗保险索赔预测 - 预测医疗保险索赔。
异常
索赔拒赔预测 - 预测保险索赔被拒赔的情况。
索赔欺诈检测 - 使用预测模型判断哪些汽车索赔是欺诈性的。
索赔异常检测 - 医疗保险索赔数据的异常检测系统。
精算科学（R语言） - R语言中的一系列精算工具。
银行倒闭预测 - 预测银行倒闭。
风险管理 - 金融风险参与课程资源。
VaR GAN - 使用Keras和TensorFlow估计市场风险管理中的VaR。
合规管理 - 银行投诉合规管理。
压力测试 - 欧洲央行的压力测试。
压力测试技巧 - 包含多种压力测试练习的笔记本。
逆向压力测试 - 给定投资组合和预设亏损规模，确定哪些压力因素（情景）会导致该亏损。
英格兰银行压力测试 - 压力测试结果及绘图。
追回资金 - 追回欠款。
质量控制 - 使用LDA对银行业务进行质量控制。

实体业务

钞票防伪检测 - 使用DNN TensorFlow分类器和随机森林进行钞票身份验证。
ATM监控 - 银行ATM监控用例。

生物技术与生命科学

概述

编程 - 面向生物学家的Python编程
深度学习入门 - 基因组学中的深度学习入门
姿态估计 - 使用深度学习估计动物姿态。
隐私保护 - 用于临床数据共享的隐私保护神经网络。
群体遗传学 - 用于群体遗传推断的深度学习。
生物信息学课程 - 计算生物学和生物信息学课程资料
应用统计 - 高通量生物学的应用统计
脚本 - 面向生物学家的Python脚本。
分子神经网络 - 用于构建和训练分子生物学领域神经网络的迷你框架。
系统生物学模拟 - 使用F#和Z3编写模拟器的系统生物学实践
细胞运动预测 - 使用LSTM预测生物细胞运动。
Deepchem - 使深度学习在药物发现、量子化学、材料科学和生物学领域的应用更加普及

测序

DNA、RNA和蛋白质测序 - 利用深度学习为生物序列创建新表示方法。
CNN测序 - 使用卷积神经网络从DNA/RNA序列数据中学习基序的工具箱。
NLP测序 - 用于基因组学的语言迁移学习模型。

化学信息学与药物发现

新型分子 - 可以学习特征的卷积网络。
自动化化学设计 - 生成新分子以高效探索。
GAN药物发现 - 将生成模型与强化学习相结合的方法。
强化学习 - 生成预计对生物靶点具有活性的化合物。
一次学习 - 旨在使机器学习在药物发现中的应用更加简单便捷的Python库。

基因组学

Jupyter基因组学 - 计算生物学和生物信息学笔记本集合。
变异检测 - 从个体DNA中正确识别与参考基因组的差异。
基因表达图 - 在图像上使用卷积操作。
自动编码表达 - 从大量基因表达数据中提取相关模式。
基因表达推断 - 根据约1,000个预先选定的“标志性基因”来预测指定目标基因的表达。
植物基因组学 - 植物与病原体基因组学的演示文稿及示例材料。

生命科学

植物病害 - 使用深度学习模型检测植物疾病的应用程序。
叶片识别 - 根据形状、颜色和纹理识别植物叶片。
作物分析 - 用于检测并追踪玉米植株上穗未来位置的成像库。
幼苗分类 - 来自Kaggle竞赛的植物幼苗分类任务。
植物胁迫 - 包含生物性和非生物性植物胁迫的本体论。
动物等级制度 - 用于计算动物支配等级制度的软件包。
动物识别 - 用于动物识别的深度学习。
物种 - 不同动物物种的大数据分析。
动物发声 - 用于生成动物发声的生成网络。
进化算法 - 进化策略工具。
冰川 - 关于冰川的教育材料。

建筑与工程

建筑

DL Architecture - 用于建筑架构的深度学习分类器和图像生成器。
Construction Materials - 关于建筑材料的课程。
Bad Actor Risk Model - 用于提升建筑施工安全的风险模型。
Inspectors - 确定分配给检查员的任务。
Corrupt Social Interactions - 揭示行业成员与纽约市建筑局工作人员之间潜在的腐败社交关系。
Risk Construction - 识别高风险建筑工地。
Facade Risk - 预测不安全立面的风险模型。
Staff Levels - 预测一线工作人员的数量。
Injuries - 建筑相关伤害的主题建模分析。
Building Violations - 建筑违规行为的预测分析。
Productivity - 使用Tableau进行检查生产率分析与可视化。

工程：

Structural Analysis - Python中的二维结构分析。
Structural Engineering - 结构工程模块。
Nusa - 使用有限元方法进行结构分析。
StructPy - 基于直接刚度法的Python结构分析库。
Aileron - 波音737副翼的结构分析。
Vibration - 教育用振动程序。
Civil - FreeCAD中土木工程工具的集合。
GEstimator - 简单的土木工程估算软件。
Fatpack - 用于数据序列疲劳分析的函数和类。
Pysteel - 不同钢结构的自动化设计。
Structural Uncertainty - 利用深度学习量化结构不确定性。
Pymech - 机械工程师使用的Python模块。
Aerospace Engineering - 天体力学与统计学。
Interactive Quantum Chemistry - 将Psi4与NumPy结合，用于教育和开发。
Chemical and Process Engineering - 各种资源。
PyTherm - 应用热力学。
Aerogami - 使用飞机进行空气动力学研究。
Electro geophysics - 地球物理电磁学的交互式应用。
Graph Signal - 图信号处理教程。
Mechanical Vibrations - 路易斯安那大学的机械振动课程。
Process Dynamics - 过程动态与控制。
Battery Life Cycle - 基于数据驱动的电池循环寿命预测。
Wind Energy - 风能领域的Python应用。
Energy Use - 计算标准化计量能耗的标准方法。
Nuclear Radiation - 核电站辐射对人群的影响分析。

材料科学

Python Materials Genomics - 在一个成熟项目中使用的强大材料分析代码。
Materials Mining - 用于材料模拟和分析的脚本。
Emmet - 构建材料属性数据库。
Megnet - 以图网络为基础的分子和晶体机器学习框架。
Atomate - 面向计算材料科学的预构建工作流。
Bylaws Compliance - 预测物业维护罚款。
Asphalt Binder - 沥青结合料的建筑材料、自由能及化学成分。
Steel - 钢材质量优化。
Awesome Materials Informatics - 材料信息学领域已知工作的精选列表。

经济学

概述

Trading Economics API - 提供196个国家的信息。
发展经济学 - 发展微观经济学内容主要以交互式Jupyter笔记本形式呈现。
应用经济与金融 - 应用计算经济学与金融。
宏观经济学 - 宏观经济学主题，附带笔记本示例。

机器学习

EconML - 用于因果推断和经济学的自动化学习与智能工具。
拍卖 - 使用深度学习实现最优拍卖。

计算

量化经济学 - 纽约大学的量化经济学课程。
计算方法 - 经济学中的计算方法。
计算经济学小型课程 - 计算经济学小型课程。
计量经济学理论 - 计量经济学理论入门的笔记本。

教育与研究

学生

学生表现 - 利用机器学习挖掘学生表现数据。
学生表现2 - 学生考试成绩分析。
学生表现3 - 中等教育阶段的学生学业成就预测。
学生表现4 - 基于特征工程的学生表现评估。
学生干预 - 构建学生干预系统。
学生注册 - 学生注册与表现分析。
学业成绩 - 探索影响学生学业成绩的人口统计学及家庭特征。
成绩分析 - 学生学业成就分析。

学校

择校选择 - 教育领域择校选择的数据分析。
学校预算与优先事项 - 帮助校董事会和市长就未来学校预算与优先事项做出战略决策。
学校绩效 - 使用data.utah.gov上的学校绩效数据进行数据分析实践。
学校绩效2 - 使用Pandas分析学区内学校及学生的绩效。
学校绩效3 - 费城学校绩效。
学校绩效4 - 新泽西州公立学校绩效。
学校关闭风险 - 根据学校表现及其他特征识别有关闭风险的学校。
学校预算 - 学校预算编制的工具与技术。
学校预算 - 同上，由DataCamp提供。
PyCity - 学校分析。
PyCity 2 - 学校预算与学校成果对比分析。
预算NLP - 针对预算资源的NLP分类。
预算NLP 2 - 进一步的分类练习。
预算NLP 3 - 预算分类。
调查分析 - 教育领域调查数据分析。

紧急情况与警察

预防与应对

紧急情况地图 - 加州房屋损毁检测
急诊室 - 支持急诊室决策
急诊再入院 - 调整后的急诊再入院风险。
森林火灾 - 使用CNN通过无人机影像检测森林火灾
应急响应 - 应急响应分析。
紧急运输 - 针对紧急服务的运输提示
紧急调度 - 通过预测建模、优化和自动化来缩短响应时间
紧急呼叫 - 紧急呼叫分析项目。
呼叫数据分析 - 911数据分析。
紧急响应 - 化工厂RL。

犯罪

犯罪分类 - LAPD误分类的重大袭击案件时间分析。
文章标签 - 芝加哥新闻文章的自然语言处理
犯罪分析 - 基于空间数据的关联规则挖掘用于犯罪分析
芝加哥犯罪 - 在Python中探索芝加哥公开的犯罪数据集
图分析 - 海牙犯罪。
犯罪预测 - 印多尔市的犯罪分类、分析及预测。
犯罪预测 - 开发了犯罪率的预测模型。
犯罪回顾 - 犯罪回顾数据分析。
犯罪趋势 - 犯罪趋势分析工具可分析犯罪趋势并揭示有问题的犯罪状况
犯罪分析 - 对西雅图和旧金山的犯罪数据进行分析。

救护车：

救护车分析 - 维多利亚州地方政府区域救护车时间变化的研究
站点选址 - 救护车站点位置。
调度 - 应用博弈论和离散事件仿真寻找救护车调度的最优解
救护车分配 - 圣地亚哥市救护车派遣的时间序列分析。
响应时间 - 关于救护车响应时间改进的分析。
最优路线 - 伊萨卡市救护车最优路线规划项目。
车祸分析 - 预测特定路段在特定时间发生事故的概率。

灾害管理

冲突预测 - 关于冲突预测的笔记本。
入室盗窃预测 - 用于入室盗窃预测的时空建模。
疾病暴发预测 - 基于多种分类器算法实现的机器学习应用。
道路交通事故预测 - 预测巴西联邦公路交通事故中受害者的类型。
文本挖掘 - 利用文本挖掘进行灾害管理。
推特与灾害 - 尝试正确预测关于灾害的推文。
洪水风险 - 灾难性洪水事件的影响。
火灾预测 - 我们使用了4种不同的算法来预测未来发生火灾的可能性。

金融

交易与投资

更多内容请参阅 financial-machine-learning
Deep Portfolio - 金融领域的深度学习，用于预测债券成交量。
AI Trading - 现代人工智能交易技术。
Corporate Bonds - 预测公司债券的买卖量。
Simulation - 作为计算金融的一部分，研究模拟方法。
Industry Clustering - 根据财务属性对行业进行聚类的项目。
Financial Modeling - 高频交易和隐含波动率建模。
Trend Following - 期货趋势跟踪投资组合策略。
Financial Statement Sentiment - 使用神经网络从财务报表中提取情感。
Applied Corporate Finance - 研究股票市场的实证行为。
Market Crash Prediction - 使用LPPL模型预测市场崩盘。
NLP Finance Papers - 利用机器学习整理量化金融论文。
ARIMA-LTSM Hybrid - 用于预测两种资产未来价格相关系数的混合模型。
Basic Investments - Python中的基础投资工具。
Basic Derivatives - 基础远期合约与套期保值。
Basic Finance - 基础金融应用的源代码笔记本。
Advanced Pricing ML - 《金融机器学习进阶》一书的补充实现。
Options and Regression - 期权定价技术的金融工程项目。
Quant Notebooks - 关于量化金融、算法交易和投资策略的教育性笔记本。
Forecasting Challenge - G-Research（对冲基金）举办的金融预测挑战赛。
XGboost - 使用XGBoost的交易算法。
Research Paper Trading - 基于论文并使用Alpaca Markets实现的策略。
Various - 期权、资产配置、模拟等。
ML & RL NYU - 金融领域的机器学习与强化学习。

数据

Datastream - 通过Python访问汤森路透的数据流。
AlphaVantage - API封装库，简化获取免费金融数据的过程。
FSA - 将美国证券交易委员会Edgar文件中的财务数据转换为自定义财务报表分析模型的项目。
TradeConnector - 用于连接市场数据提供商的中间层。
Employee Count SEC Filings
SEC Parsing
Open Edgar
Rating Industries

医疗保健

通用

zEpid - 流行病学分析软件包。
Python For Epidemiologists - 介绍如何在Python中进行流行病学分析的教程。
Prescription Compliance - 处方药依从性分析。
Respiratory Disease - 跟踪奥运运动员的呼吸系统疾病。
Bubonic Plague - 鼠疫与SIR模型。

司法、法律与法规

工具

LexPredict - 软件包和库。
AI 诉讼助理 - Lobe 是全球首个 AI 诉讼助理。
法律实体识别 - 面向法律文件的命名实体识别。
法律案件摘要 - 将不同摘要算法应用于法律案件判决书的实现。
法律文档 Google 学术搜索 - 使用 Google 学术搜索以程序化方式提取案例。
聊天机器人 - 聊天机器人和电子邮件通知。
国会 API - ProPublica 国会 API 访问。
GDPR 数据生成器 - 用于 GDPR 合规性的虚拟数据生成器

政策与监管

GDPR 分数 - 预测法律文件的 GDPR 分数。
FINRA 驱动因素 - 识别影响 FINRA 仲裁决定的驱动因素。
证券偏误校正 - 证券诉讼中价格影响的偏误校正估计。
上市公司对法律判决的反应嵌入 - 基于上市公司对法律判决反应的嵌入表示。
夜生活监管 - 澳大利亚夜生活及其监管与治安管理。
公众评论 - 关于政府法规的公众评论。
聚类分析 - 加拿大法规的聚类分析。
环境法规 - 能源与环境的监管。
风险评估 - 各种金融监管体系下的系统性风险。
FINRA 合规主题建模 - 合规相关主题建模。

司法应用

美国最高法院判决预测 - 预测最高法院判决的意识形态倾向：集成模型与统一的基于案例的模型。
最高法院主题建模 - 在最高法院判决上实施主题建模所需的多个步骤。
法官意见分析 - 利用文本挖掘和机器学习分析法官针对特定问题的意见。
ML 法律匹配 - 一款基于机器学习的法律匹配工具。
BERT 多标签分类 - 来自 AI 的细粒度情感分析。
部分计算 AI 课程 - MIT 法律相关的视频系列。

制造业

通用

绿色制造 - Kaggle 上梅赛德斯-奔驰的“更绿色制造”竞赛。
半导体制造 - 半导体制造生产线数据分析。
智能制造 - 共享的建模方法论。
博世制造项目 - Kaggle 上的博世制造项目。

维护

预测性维护 1 - 预测飞机发动机剩余使用寿命。
预测性维护 2 - 故障前时间 (TTF) 或剩余使用寿命 (RUL)。
制造业维护仿真 - 制造系统中维护过程的仿真。

故障

预测分析 - 利用传感器数据预测设备故障的方法。
缺陷检测 - 半导体缺陷的异常检测。
智能缺陷检测 - 用于药丸生产的智能缺陷检测。
减少制造故障 - 减少制造中的故障。
制造异常检测 - 智能制造生产线上的智能异常检测。

质量

质量控制 - 博世的质量控制失败案例。
智能制造质量预测 - 智能制造质量预测。
汽车制造 - 基于拍卖销售数据的回归案例研究。

媒体与出版

营销

视频受欢迎程度 - 用于预测视频受欢迎程度的 HIP 模型。
YouTube 字幕提取工具 - 自动为 YouTube 视频生成字幕。
营销分析 - 营销分析案例研究。
算法营销 - 来自《算法营销入门》一书的模型。
营销脚本 - 营销数据科学的应用。
社交网络挖掘 - 社交网络挖掘。

杂项

艺术

绘画鉴证 - 分析绘画作品以确定其创作年代。

旅游

Flickr - 用于旅游研究的元数据挖掘工具。
时尚 - 面向时尚图像的服装检索与视觉推荐模型

物理学

综合

伽马射线-强子重建 - 用于地面伽马射线天文学的工具。
课程 - 牛顿力学相关笔记本。
交互网络 - 用于学习物体、关系及物理学的交互网络。
粒子物理 - 用于学习粒子物理学的训练、生成和分析代码。
计算物理 - 一个计算物理资源库。
医学物理 - 医学物理领域实用的Python工具。
医学物理2 - 医学物理学常用的Python核心软件包。
流动物理 - 基于Python的流动物理学与气动声学工具箱

机器学习

物理ML与统计 - 面向物理学家的机器学习与统计方法。
高能物理 - 高能物理学领域的机器学习应用。
高能GAN - 高能物理学中的生成对抗网络。
神经网络 - 物理学与神经网络的结合

政府与公共工程

社会政策

Triage - 用于政策和社会公益问题的通用风险建模与预测工具包。
世界银行贫困I - 对应用于贫困预测的机器学习分类算法进行比较评估。
世界银行贫困II - 世界银行Pover-t测试竞赛解决方案的存储库，涉及海外公司土地所有权。
海外公司土地所有权 - 识别英国境内的外国所有权。
CFPB - 消费者金融保护局投诉分析。
大麻合法化效果 - 大麻合法化对犯罪的影响。
公共信用卡 - 识别市政信用卡中的潜在欺诈行为。数据
累犯预测 - 累犯风险评估的透明度和可审计性
家庭贫困 - 预测哥斯达黎加家庭的贫困状况。
NLP公共政策 - NLP在公共政策中的一个应用案例。
世界粮食生产 - 比较全球主要食品和饲料生产国。
税收不平等 - 关于巴塞尔城市州税收与不平等的数据项目。
治安官合规性 - 对ICE请求的合规情况。
应用检测 - 儿童可疑应用检测。
社会援助 - 社会援助趋势信息。
计算社会科学 - 社会数据科学暑期学校课程。
酒类与犯罪 - 酒类许可证发放对犯罪率的影响。
动物收容所安置 - 优化收容所内动物的安置。
边境墙人员配置 - 独立探索美国墨西哥边境墙的项目。
工人伤亡 - 基于OSHA数据的工人伤亡与灾难地图。

慈善机构

人口普查数据API - 从五年期美国社区调查中提取变量。
慈善捐赠 - 多位DataKind志愿者利用990表格数据开展的工作。
慈善推荐 - 基于隐式数据集的纽约市慈善协作推荐系统。
捐赠者识别 - 一项机器学习项目，旨在为慈善机构寻找捐赠者。
美国慈善机构 - 慈善机构探索与机器学习。
慈善机构有效性
- 抓取关于慈善机构的在线数据，以了解其有效性。

选举分析

选举分析 - 选举分析与预测模型。
美国选举因果关系 - 使用ANES数据结合因果推断模型。
竞选资金与选举结果 - 探究竞选资金与后续选举结果之间的关系。
投票制度 - 比例代表制投票方法。
总统选举票数 - 按收入水平分析投票情况。

政治

国会政治 - 参众两院的党派性研究。
Politico - 巴西政治人物画像平台。
机器人 - 用于分析巴拉圭选举期间推文的工具和算法。
选区划分测试 - 多种用于量化选区划分不公的指标。
情感分析 - 利用政党代表的情感实体，分析报纸的政治倾向。
深度学习政治 - 使用深度神经网络预测西班牙政治倾向：社会主义党 vs 人民党。
PAC资金 - PAC资金对美国政治的影响。
权力网络 - 构建印度企业和政治网络的监督机制。
精英阶层 - 美国的政治精英。
辩论分析 - 用于分析政治辩论的程序。
政治倾向预测 - 利用Twitter元数据预测政治倾向。
政治广告 - 对Facebook政治广告及定向投放的研究。
政治身份 - 多轴政治模型。
YouTube政治 - 在YouTube上绘制政治地图。
政治意识形态 - 通过词向量投影进行无监督学习的政治意识形态。

房地产、租赁与出租

房地产

Finding Donuts - 通过预测社区转型来寻找房地产投资机会。
Neighbourhood - 根据城市环境预测房地产价格。
房地产分类 - 给定房地产、卫星和街景图像，对房产类型进行分类。
推荐系统 - 该工具旨在根据用户的搜索条件，为其推荐前5名最匹配的房地产项目。
房价预测 - 使用线性回归和梯度提升回归树预测房屋价格。
波特兰房价预测 - 预测波特兰地区的住房价格。
Zillow预测模型 - 在Kaggle上实现的Zillow估值预测。
房地产价格预测 - 根据城市环境预测房地产价格。

租赁与出租

租赁数据分析 - 对租赁房源数据进行分析和可视化。
兴趣预测 - 预测人们对特定纽约公寓的租赁兴趣。
大学宿舍与非大学宿舍对比 - 全球金融危机后对大学住宿的影响。
预测家庭贫困状况 - 利用自动化特征工程预测哥斯达黎加家庭的贫困状况。
Airbnb公开分析竞赛: - 现已转向战略管理领域。

公用事业

电力

电价 - 新加坡电价比较。
电力与煤炭相关性 - 确定过去十年各州电价与煤炭发电之间的相关性。
电力容量 - 《洛杉矶时报》对加州昂贵电力过剩的分析。
电力系统 - 欧洲各国最优的风电+氢能+其他能源+电池+太阳能（WHOBS）电力系统。
负荷分解 - 使用隐马尔可夫模型进行智能电表负荷分解。
价格预测 - 利用深度神经网络预测德国竞价区的次日电力价格。
碳排放指数 - 计算2001年至今国家、州及NERC区域的电力CO₂强度。
需求预测 - 奥斯汀市电力需求预测。
电力消费 - 从家庭调查中估算电力消耗。
家庭用电量 - 基于LSTM的家庭用电量预测。
法国电力分配 - 对法国配电网络（RTE）提供的电力数据的分析。
可再生能源电站 - 累计装机容量的时间序列。
风电场流场 - 与FUSED-Wind相连的风电场流场模型库。
发电厂 - 数据集包含从联合循环发电厂在6年间（2006-2011年）收集的9568个数据点。

煤炭、石油和天然气

煤炭退出计划 - 德国煤炭退出计划中的发电充足性问题。
煤炭产量预测 - 预测煤炭产量。
石油和天然气 - 使用ARIMA和神经网络预测石油和天然气价格。
天然气公式 - 计算价格指数化公式的潜在经济影响。
需求预测 - 天然气需求预测。
消费预测 - 天然气消费预测。
天然气贸易 - 全球天然气贸易模型。

水与污染

安全用水 - 预测美国基于健康标准的饮用水违规事件。
水文数据 - 一套用于在Python中探索水文数据的便捷函数。
水观测站 - 利用卫星影像监测湖泊和水库的水位。
供水管道 - 使用机器学习在航拍图像中识别供水管道。
水资源建模 - 澳大利亚水资源评估（AWRA）社区建模系统。
干旱限制 - 《洛杉矶时报》对加州解除干旱限制后用水情况的分析。
洪水预测 - 将LSTM应用于河流水位数据。
污水溢流 - 关于卫生污水溢流（SSO）的见解。
水资源核算 - 整合现有数据源，编制美国水资源预算数据。
空气质量预测 - 预测北京和伦敦未来48小时的空气质量（AQ）。

交通运输

Transdim - 为时空交通数据插补和预测任务创建准确高效的解决方案。
交通推荐 - 上下文感知的多模式交通推荐系统。
交通数据 - 多伦多交通相关的数据和笔记本。
交通需求 - 预测内罗毕公共交通需求。
需求估计 - 实现动态的起讫点需求估计。
拥堵分析 - 交通系统分析。
时间序列分析 - 交通数据的时间序列分析。
地铁网络图 - 交通网络脆弱性分析。
交通网络低效 - 定量评估交通网络的低效程度。
列车优化 - 列车时刻表优化。
交通预测 - 使用多注意力循环神经网络进行城市交通时间序列预测。
事故预测 - 结合多种数据源的事故预测建模应用。
AI供应链 - 供应链优化系统。
迁移学习航班延误 - 在Keras中使用变分编码器预测航班延误。
补货 - 用于供应链管理的零售补货代码。

批发与零售

批发

客户分析 - 批发客户的分析。
分销 - JB批发分销分析。
聚类分析 - 对收集到的客户产品消费数据应用无监督学习技术。
市场篮子分析 - 使用Instacart公开数据集，报告哪些产品经常被一起购买。

零售

零售分析 - 研究在线零售数据集并从中获取洞察。
在线洞察 - 分析英国的在线交易数据。
零售用例 - CyberShop零售用例的笔记本及数据。
停留时间 - 客户停留时间及其他分析。
零售队列分析 - 队列分析。

Real-time-ML-Project 快速上手指南

项目简介

Real-time-ML-Project (行业机器学习) 是一个精选的开源资源库，汇集了针对不同行业（如金融、医疗、零售、农业等）应用的机器学习和数据科学笔记本（Notebooks）及库。该项目主要使用 Python 和 Jupyter Notebook，旨在为数据科学家、分析师和工程师提供可直接复用的业务场景代码示例。

注意：本项目是一个持续更新的资源列表（Awesome List），而非单一的可安装软件包。本指南将指导你如何搭建环境并运行其中的案例代码。

1. 环境准备

在开始之前，请确保你的开发环境满足以下要求：

操作系统: Windows, macOS 或 Linux
Python 版本: 推荐 Python 3.8 或更高版本
包管理器: pip 或 conda
Git: 用于克隆代码仓库

前置依赖

由于不同行业的案例可能依赖不同的库（如 tensorflow, pytorch, scikit-learn, pandas 等），建议创建一个独立的虚拟环境。

2. 安装步骤

第一步：克隆项目仓库

使用 Git 将项目代码下载到本地：

git clone https://github.com/firmai/industry-machine-learning.git
cd industry-machine-learning

第二步：创建虚拟环境

推荐使用 conda 或 venv 创建隔离环境。

使用 Conda:

conda create -n ml-industry python=3.9
conda activate ml-industry

使用 Venv:

python -m venv ml-industry
# Windows
ml-industry\Scripts\activate
# macOS/Linux
source ml-industry/bin/activate

第三步：安装基础依赖

虽然每个子文件夹可能有特定的 requirements.txt，但你可以先安装通用的数据科学核心库以运行大多数基础示例。

国内加速方案（推荐）： 使用清华源或阿里源加速安装过程。

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jupyterlab pandas numpy scikit-learn matplotlib seaborn

提示：进入具体的行业文件夹（例如 Accommodation & Food 或 Finance）后，请检查该目录下是否有独立的 requirements.txt 文件。如果有，请运行 pip install -r requirements.txt 安装特定依赖。

3. 基本使用

本项目主要由一系列 Jupyter Notebooks (.ipynb) 组成，每个 Notebook 代表一个具体的行业应用案例。

启动 Jupyter Lab

jupyter lab

运行示例

浏览器会自动打开 Jupyter Lab 界面。
根据目录结构浏览感兴趣的行业，例如：
- Accommodation & Food/Restaurant/Restaurant_success_model.ipynb (餐厅成功概率预测)
- Banking & Insurance/Fraud/ (银行欺诈检测相关笔记)
- Healthcare/General/ (医疗健康通用分析)
点击任意 .ipynb 文件打开。
按顺序执行单元格（Cell）即可运行代码并查看结果。

代码示例结构

大多数 Notebook 遵循标准的机器学习流程：

# 1. 导入库
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

# 2. 加载数据 (路径需根据实际文件调整)
df = pd.read_csv('data/restaurant_data.csv')

# 3. 数据预处理与特征工程
X = df.drop('target', axis=1)
y = df['target']

# 4. 模型训练
model = RandomForestClassifier()
model.fit(X_train, y_train)

# 5. 评估与可视化
print(model.score(X_test, y_test))

贡献与扩展

如果你希望添加新的行业案例或工具，可以直接向原仓库提交 Pull Request，或者按照 README 中的指示联系维护者。对于中国开发者，也可以考虑将优秀的中文实践案例整理后反馈给社区。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|4天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|4天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 148.6k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.1k|★★☆☆☆|昨天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|3天前

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|3天前

语言模型图像Agent