Data-Science-and-Machine-Learning-Projects-Dojo

570 107 简单 1 次阅读昨天MIT语言模型开发框架数据工具其他

AI 解读由 AI 自动生成，仅供参考

Data-Science-and-Machine-Learning-Projects-Dojo 是一个汇聚了数据科学、机器学习及数据可视化实战项目的开源资源库。它旨在解决初学者和从业者在理论学习与实际操作之间存在的鸿沟，通过提供从基础统计分析到复杂深度学习的全流程代码示例，帮助用户将抽象的算法理论转化为具体的解决问题的能力。

该项目非常适合数据科学开发者、人工智能研究人员以及希望提升实战技能的学生使用。无论是想入门 Pandas 进行数据清洗，还是希望深入掌握 TensorFlow、Keras 构建神经网络，亦或是学习如何利用 Scikit-learn 实现随机森林等经典算法，都能在这里找到对应的练习场景。其独特的技术亮点在于覆盖范围极广且紧跟行业主流：不仅囊括了 NumPy、Matplotlib、Seaborn 等基础库的应用，还整合了 GeoPandas 地理数据分析、NLTK 自然语言处理以及 Face Recognition 人脸识别等前沿领域案例。此外，项目还展示了如何将模型通过 Streamlit 或 Flask 快速部署为 Web 应用，并利用 Apache Spark 处理大规模数据，为用户提供了从数据探索、模型训练到最终落地的完整闭环参考，是打磨数据技能的理想“道场”。

使用场景

某医疗科技公司的数据分析师正急需构建一个乳腺癌肿瘤良恶性预测模型，以辅助医生进行早期诊断。

没有 Data-Science-and-Machine-Learning-Projects-Dojo 时

从零摸索架构：面对复杂的医疗数据，需手动搭建从数据清洗（Pandas）到模型训练（Scikit-learn/TensorFlow）的完整流程，极易在代码结构上犯错。
可视化效率低下：缺乏成熟的绘图模板，使用 Matplotlib 或 Seaborn 制作专业的统计图表耗时费力，难以快速向医疗团队展示数据分布特征。
算法选型困难：在不清楚随机森林、SVM 或提升算法（Boosting）哪种更适合当前小样本医疗数据时，缺乏参考案例，只能盲目试错。
部署门槛高：模型训练完成后，不知道如何利用 Flask 或 Streamlit 快速将其转化为医生可交互的 Web 应用，导致成果停留在笔记本阶段。

使用 Data-Science-and-Machine-Learning-Projects-Dojo 后

复用成熟范式：直接参考项目中“乳腺癌分类”的完整代码逻辑，快速复用其基于 SVM 的特征工程与模型构建流程，将开发周期缩短数天。
一键生成洞察：利用集成的 Pandas Profiling 和 Plotly 组件，迅速生成包含交互式图表的数据报告，直观呈现肿瘤半径、纹理等关键特征的差异。
精准算法对标：通过对比项目中随机森林与神经网络在不同数据集的表现，迅速确定最适合当前任务的算法组合，显著提升预测准确率。
快速应用落地：套用项目提供的 Streamlit 或 Flask 模板，仅需少量修改即可将本地模型封装为在线诊断工具，实现从代码到临床辅助的无缝衔接。

Data-Science-and-Machine-Learning-Projects-Dojo 通过提供全栈式的实战项目库，将原本数周的研发探索过程压缩为高效的模块化组装，极大降低了医疗 AI 落地的技术门槛。

运行环境要求

操作系统

未说明

GPU

非必需（基础项目可在 CPU 运行）
深度学习项目（如 TensorFlow/Keras 狗品种预测）及 Google Colab 环境建议使用支持 CUDA 的 NVIDIA GPU
具体型号、显存大小及 CUDA 版本未说明

内存

未说明（建议至少 8GB，处理大数据集或 Spark 项目推荐 16GB+）

依赖

notes该项目为数据科学与机器学习练习集合，涵盖从基础统计分析到深度学习的多个项目。部分项目依赖特定数据集（需从 UCI 或 Kaggle 下载）。若运行涉及地理数据的项目需安装 GeoPandas 及其系统级依赖（如 GDAL）；涉及人脸识别的项目需安装 dlib（C++ 编译环境可能必需）；大规模数据处理项目需配置 Apache Spark 或 Databricks 环境。推荐使用 Jupyter Notebook 或 Google Colab 运行。

python未说明（兼容主流 Python 3.x 版本）

NumPy

Pandas

Scikit-learn

TensorFlow

Keras

Matplotlib

Seaborn

Plotly

Streamlit

PySpark

Data-Science-and-Machine-Learning-Projects-Dojo hero image

快速开始

数据科学、机器学习与可视化道场

数据科学与机器学习项目的集合，也是我练习数据科学、机器学习、深度学习和数据可视化相关技能、理论、概率、统计等内容的道场。

使用的技术栈

机器学习、深度学习、数据科学库

NumPy - 用于Python科学计算的包
Pandas - 快速、强大、灵活且易于使用的开源数据分析和操作工具
Pandas Profiling - 从DataFrame生成报告
Geo Pandas - 为Pandas对象提供地理数据支持。
Scikit-learn - 简单高效的预测性数据分析工具
TensorFlow - 一个端到端的开源机器学习平台
Keras - 深度学习框架
NLTK - 自然语言处理工具包
dlib - 用于在C++中构建实际机器学习和数据分析应用的工具包
Face Recognition - 全球最简单的Python和命令行人脸识别API

数据可视化库

Matplotlib - 一个功能全面的库，用于在Python中创建静态、动画和交互式可视化
Seaborn - 统计数据可视化
Bokeh - 面向现代Web浏览器的交互式可视化库
Plotly - ML和数据科学模型的前端
Cufflinks - Plotly + Pandas的生产力工具

转化为Web应用

Streamlit - 构建和分享数据应用的最快方式
Flask - 用Python编写的微型Web框架

Spark

Apache Spark - 用于大规模数据处理的统一分析引擎。
Spark with pyspark - PySpark是Apache Spark与Python的结合
Databricks - 统一的数据分析平台 - 一个云平台，适用于大规模数据工程和协作式数据科学。

工具与数据源

Jupyter Notebook - 用于数据分析的Notebook系统
Google Colab - Google提供的优秀Notebook系统，可免费使用GPU
Kaggle - 数据集资源库
Plotly Chart Studio - 在线发布和嵌入交互式图表的最快方式

项目

乳腺癌肿瘤诊断 - 分类项目

该项目旨在基于多项观察和特征，构建一个机器学习模型来预测肿瘤是良性还是恶性。
使用来自威斯康星州乳腺癌（诊断）数据集 - UCI的数据。

Fandango电影评分 - 终身项目

来自机器学习和数据科学大师班课程的数据分析与可视化终身项目。

这是故事对在线电影评分要保持警惕，尤其是Fandango的评分背后的数据。
使用来自538的数据。
如果你打算去看电影，你能多大程度信任在线评论和评分呢？特别是当提供评分的公司同时也通过销售电影票获利时。
他们是否倾向于将电影评分定得比实际更高？
等等。

监督学习终身项目 - 队列分析与客户流失预测

该项目旨在构建一个机器学习模型，以预测客户是否会流失。
包括基于电信用户合同类型等因素的队列分析。

心脏病预测 - 分类项目

来自“零基础到精通”完整机器学习和数据科学课程的里程碑项目。

该项目旨在构建一个能够根据个人医疗属性预测其是否患有心脏病的机器学习模型。
使用来自UCI心脏病数据集 - Kaggle版本的数据。

推土机售价预测 - 回归项目

来自“零基础到精通”完整机器学习和数据科学课程的里程碑项目。

该项目旨在构建一个机器学习模型，以根据历史价格预测推土机的售价。
使用来自推土机蓝皮书 - Kaggle版本的数据。

深度学习ANN项目 - 狗品种预测

来自“零基础到精通”完整机器学习和数据科学课程的项目。

该项目旨在使用TensorFlow构建深度学习模型，以预测狗的品种。
使用来自狗品种识别 - Kaggle版本的数据。

911报警电话数据Capstone项目

数据科学与机器学习训练营课程中的数据分析与可视化Capstone项目。

分析来自kaggle的911报警电话数据
911报警电话数量最多的前5个邮政编码
911报警电话数量最多的前5个乡镇
911报警最常见的原因
基于分析结果的不同类型可视化图表
等等。

ML应用 - 随机森林算法 - ML项目

使用Streamlit构建的机器学习应用，用于利用随机森林算法建立回归模型。

机器学习与数据科学项目

大师班项目

其他项目

深度学习项目

基于Flask的鸢尾花预测应用
[ANN - 贷款违约预测项目](数据科学与机器学习训练营 - JP/21.神经网络与深度学习/04_Tensorflow_Keras_Project_Loan_Predictions.ipynb)
[ANN - 美国金县房屋销售房价预测项目](数据科学与机器学习训练营 - JP/21.神经网络与深度学习/02_Tensorflow_Regression_Housing_Price_Prediction.ipynb)
[ANN - 威斯康星州乳腺癌（诊断）项目](数据科学与机器学习训练营 - JP/21.神经网络与深度学习/03_Tensorflow_Classification_Breast_Cancer_Wisconsin_(Diagnostic).ipynb)
[CNN - 用于图像分类的卷积神经网络 - MNIST数据项目](完整TensorFlow 2与Keras深度学习训练营 - JP/04-CNNs/01-Keras-CNN-MNIST（灰度图像）.ipynb)
[CNN - 用于图像分类的卷积神经网络 - CIFAR 10数据项目](完整TensorFlow 2与Keras深度学习训练营 - JP/04-CNNs/02-Keras-CNN-CIFAR-10（彩色图像）.ipynb)
[CNN - 用于图像分类的卷积神经网络 - 实际图像 - 疟疾检测项目](完整TensorFlow 2与Keras深度学习训练营 - JP/04-CNNs/03-Deep-Learning-Custom-Images-Malaria.ipynb)
[CNN - 用于图像分类的卷积神经网络 - Fashion MNIST数据项目](完整TensorFlow 2与Keras深度学习训练营 - JP/04-CNNs/04-DL-CV-Assessment - Fashion MNIST数据项目.ipynb)
[RNN - 使用LSTM进行冷冻甜品销售预测](完整TensorFlow 2与Keras深度学习训练营 - JP/05-RNNs/02-RNN-Forzen-Dessert-Montly-Sales-Forecasting.ipynb)
[NLP - Yelp评论分类 - 自然语言处理项目](数据科学与机器学习训练营 - JP/22.自然语言处理/02-NLP项目 - Yelp.ipynb)
[英国各国家平均饮食习惯 - 自编码器](完整TensorFlow 2与Keras深度学习训练营 - JP/07-AutoEncoders/02-英国各国平均饮食习惯 - 自编码器.ipynb)

数据分析与可视化项目

Python数据可视化项目：使用Pandas和Matplotlib对各国GDP、各大洲间预期寿命对比、人均GDP相对增长、人口相对增长等进行数据分析与可视化。
[燃油经济性案例研究 - 项目](数据分析/项目 - 案例研究2 - 燃油经济性/案例研究 - 燃油经济性.ipynb)：分析美国环保署提供的燃油经济性数据，探讨温室气体评分分布、2008年与2018年的综合油耗、排量与综合油耗之间的相关性、温室气体评分与综合油耗的关系。2018年相比2008年，使用替代燃料的独特车型是否更多？多了多少？不同车辆级别的燃油经济性（油耗提升）有何改善？SmartWay车辆有哪些特征？这些特征随时间有变化吗？（油耗、温室气体）哪些因素与更好的燃油经济性（油耗）相关？从2008年到2018年，综合油耗提升最多的车型是哪一款？
[葡萄酒质量案例研究 - 项目](数据分析/项目 - 案例研究1 - 红酒质量/案例研究 - 红酒质量.ipynb)：分析葡萄酒数据，为葡萄酒企业更好地酿造葡萄酒提供参考。特定类型的葡萄酒（红葡萄酒或白葡萄酒）是否与更高的品质相关？酸度（pH值）处于哪个水平时获得最高平均评分？酒精含量较高的葡萄酒是否评分更高？含糖量较高的甜型葡萄酒是否评分更高？按颜色与质量划分的红白葡萄酒比例
[电视、中场秀与超级碗 - 项目](项目 - 电视、中场秀与超级碗)：分析超级碗的数据，并回答以下问题——比赛结果最悬殊的是哪些？比赛对电视收视率有何影响？收视率、电视评分及广告成本随时间如何变化？在中场秀表演方面，哪些音乐人最为活跃？
[天气趋势 - 项目](数据分析/项目 - 天气趋势/探索天气趋势项目.ipynb)：分析全球天气趋势、新加坡天气趋势，比较全球与新加坡过去10年的移动平均趋势。
[社交媒体数据实时洞察 - 项目](项目 - 社交媒体数据实时洞察)：分析Twitter的数据，并回答诸如“全球趋势和本地趋势分别是什么？”、“寻找共同趋势”以及“对推文和标签进行频率分析”等问题。
[股票数据统计](AI编程与Python/01.迷你项目UDACITY - 股票数据统计/股票数据统计.ipynb)：分析谷歌、苹果和亚马逊的股价，并计算滚动平均值。
[Android Play商店应用数据分析 - 项目](项目 - Android Play商店应用数据分析)：分析Android Play商店的数据，并回答诸如“有多少应用是付费的？它们赚了多少钱？这些应用是什么时候发布的？”等问题。

训练营

[RL - Python与强化学习实践AI - JP - 暂停](RL - 实践AI与Python和强化学习 - JP)

00. NumPy速成课程
01. Matplotlib可视化
02. Pandas与Scikit-learn
03. ANNs
04. CNNs
05. gym入门
06. 经典Q学习
07. 深度Q学习
08. 图像上的深度Q学习
09. 创建自定义Open AI Gym环境

TensorFlow 2.0：深度学习与人工智能 - LP

第2节 - Google Colab
第3节 - 机器学习与神经元
第4节 - 前馈人工神经网络
第5节 - CNN 卷积神经网络
第6节 - RNN - 循环神经网络、时间序列、序列数据
第7节 - NLP
第8节 - 推荐系统
第9节 - 面向计算机视觉的迁移学习
第10节 - GAN
第11节 - 深度强化学习（理论）
第12节 - 使用深度学习的股票交易项目
第13节：TensorFlow 高级用法
第14节：低级别 TensorFlow
第15节：深入解析——损失函数
第16节：深入解析——梯度下降
第17至21节：其他

DeepLearning.AI - 课程 04. TensorFlow 中的序列、时间序列与预测

第01周 - 序列与预测
第02周 - 用于时间序列的深度神经网络
第03周 - 用于时间序列的循环神经网络
第04周 - 真实世界的时间序列数据

DeepLearning.AI - 课程 03. TensorFlow 中的自然语言处理

第01周 - 文本情感分析
第02周 - 词嵌入
第03周 - 序列模型
第04周 - 序列模型与文学

DeepLearning.AI - 课程 02. TensorFlow 中的卷积神经网络

第01周 - 探索更大的数据集
第02周 - 数据增强：一种避免过拟合的技术
第03周 - 迁移学习
第04周 - 多分类问题

DeepLearning.AI - 课程 01. 面向人工智能、机器学习和深度学习的 TensorFlow 入门

第01周 - 一种新的编程范式
第02周 - 计算机视觉入门
第03周 - 使用 CNN 提升视觉能力
第04周 - 使用真实世界图像

深度学习 TensorFlow 开发者证书 - ZTM - 进行中

01. 导言
02. 深度学习与 TensorFlow 基础
03. 使用 TensorFlow 的神经网络回归
04. 使用 TensorFlow 的神经网络分类
05. TensorFlow 中的计算机视觉与卷积神经网络
06. 迁移学习——特征提取
07. 迁移学习——微调
08. 迁移学习——扩展规模
09. 阶段性项目 1 - Food Vision Big
10. TensorFlow 中的 NLP 基础
11. 阶段性项目 2 - SkimLit
12. 时间序列基础 + 阶段性项目 3 - BitPredict
13. 通过 TensorFlow 证书考试
15. 附录 - 机器学习入门
16. 附录 - 机器学习框架
14、17至19. 其他

TensorFlow 2 和 Keras 深度学习完全训练营 - 日语版

NumPy 急救课程
Pandas 急救课程
可视化急救课程
基础人工神经网络 - ANNs
卷积神经网络 - CNNs
循环神经网络 - RNNs
自然语言处理 - NLP
- 使用 RNN 生成文本 - 莎士比亚
自编码器
生成对抗网络 - GANs
- GANs - 使用密集层的生成对抗网络
- DCGANs - 深度卷积生成对抗网络
部署
- 鸢尾花预测项目
- 基于 Flask 的鸢尾花预测应用

机器学习与数据科学大师班 - JP

新课程 2021 Python 机器学习与数据科学大师班
Python 快速入门
NumPy
Pandas
Matplotlib
Seaborn 数据可视化
数据分析与数据可视化综合项目
- Fandango 与其他网站的电影评分对比
线性回归模型
特征工程与数据预处理
交叉验证、网格搜索与线性回归项目
- Ames 房屋数据项目
逻辑回归模型
- 心脏病检测项目
KNN - K 最近邻
- Sona 数据 - 检测岩石或矿石项目
SVM - 支持向量机
- 葡萄酒欺诈检测项目
基于树的方法 - 决策树学习
随机森林
提升方法
- 蘑菇可食用性预测项目 - 使用 AdaBoost
- 蘑菇可食用性预测项目 - 使用梯度提升
监督学习综合项目 - 队列分析与客户流失预测
朴素贝叶斯分类与自然语言处理（监督学习）
- NLP - 特征提取
- 航班推文情感分析 - 分类
- 电影评论情感分析 - 分类
K 均值聚类（无监督学习）
- 颜色量化
- CIA 国家分析与聚类
层次聚类（无监督学习）
- 汽车型号聚类
DBSCAN（无监督学习）
- DBSCAN - 理论与入门
- 超参数调优
- 批发客户 - 聚类
主成分分析（无监督学习）
- PCA 手动实现
- 使用 sklearn 的 PCA
- PCA - 手写数字分类
模型部署
- 使用 Flask 将模型作为 API 提供服务

完整机器学习与数据科学 - 从零到精通

使用 Pandas 进行数据分析
使用 NumPy 进行数据分析
使用 Polyfit 进行线性回归 - 数据 36
Matplotlib - 数据可视化
Scikit-learn - 构建机器学习模型
里程碑项目 - 监督学习（分类）- 心脏病检测
里程碑项目 - 监督学习（回归）- 推土机销售价格预测
深度学习项目 - 犬种预测

ML - 机器学习与数据科学 A-Z 实战 Python - NS

03. 数据预处理
04. 机器学习类型
05. 监督学习 - 分类
06. 监督学习 - 回归
07. 无监督学习 - 聚类
08. 超参数优化

[数据科学与机器学习训练营](数据科学与机器学习训练营 - JP)

Python速成课程
用于数据分析的Python - NumPy
用于数据分析的Python - Pandas
用于数据可视化的Python - Matplotlib
用于数据可视化的Python - Seaborn
Pandas内置数据可视化
使用Plotly和Cufflinks进行可视化
数据综合项目
- [911报警电话 - 数据综合项目](数据科学与机器学习训练营 - JP/10-数据综合项目/项目 - 911报警电话/01-911报警电话数据综合项目 - 我的解决方案.ipynb)
线性回归
- [电子商务项目](数据科学与机器学习训练营 - JP/11-线性回归/02-线性回归 - 电子商务项目.ipynb)
逻辑回归
- [广告投放项目](数据科学与机器学习训练营 - JP/13-逻辑回归/02-逻辑回归 - 广告投放项目.ipynb)
K近邻算法 (KNN)
- [匿名化数据项目](数据科学与机器学习训练营 - JP/14-K近邻算法/02-K近邻算法 - 匿名化数据项目.ipynb)
决策树与随机森林
- [贷款预测项目](数据科学与机器学习训练营 - JP/15-决策树与随机森林/02-决策树与随机森林 - 贷款预测项目.ipynb)
支持向量机 (SVM)
- [鸢尾花分类项目](数据科学与机器学习训练营 - JP/16-支持向量机/02-支持向量机项目.ipynb)
K均值聚类
主成分分析
推荐系统
自然语言处理
- [Yelp评论分类](数据科学与机器学习训练营 - JP/22. 自然语言处理/02-NLP项目 - Yelp.ipynb)
神经网络与深度学习
- [回归项目 - 预测美国金县房屋销售价格](数据科学与机器学习训练营 - JP/21. 神经网络与深度学习/02_Tensorflow_Regression_Housing_Price_Prediction.ipynb)
- [分类项目 - 威斯康星州乳腺癌诊断数据](数据科学与机器学习训练营 - JP/21. 神经网络与深度学习/03_Tensorflow_Classification_Breast_Cancer_Wisconsin_(Diagnostic).ipynb)
- [最终项目 - 分类 - 贷款违约预测](数据科学与机器学习训练营 - JP/21. 神经网络与深度学习/04_Tensorflow_Keras_Project_Loan_Predictions.ipynb)
- TensorBoard
大数据与Spark结合Python
SciPy

完整数据科学训练营 - 365

第一部分 - 数据科学领域
第二部分 - 概率论
第三部分 - 统计学（描述性与推断性）
第四部分 - Python
第五部分 - Python中的高级统计方法 / Python中的机器学习
第六部分 - 数学
第七部分 - 深度学习
软件集成
案例研究 - 缺勤问题

书籍

动手学机器学习：使用Scikit-Learn、Keras和TensorFlow（进行中）

机器学习基础
机器学习全景
端到端机器学习项目
分类
训练模型

百页机器学习书

引言
符号与定义
基础算法
学习算法的构成
基本实践
神经网络与深度学习
问题与解答
高级实践
无监督学习
无监督学习 - 深入内容
其他形式的学习
结论

推进机器学习与数据科学之旅 - （进行中）

为了在特定领域和主题上提升我的ML和DS相关技能：

[应用机器学习 - 集成学习](ML - 应用机器学习 - 集成学习)

项目：泰坦尼克号数据集
01.ML基础
02.数据准备
03.集成学习
04.提升
05.装袋
06.堆叠
07.模型评估与选择

[应用机器学习 - 特征工程](ML - 应用机器学习 - 特征工程)

项目：泰坦尼克号数据集
01.ML基础
02.特征工程简介
03.探索数据
04.创建并清理特征
05.为建模准备特征
06.比较和评估模型

[应用机器学习 - 算法](ML - 应用机器学习 - 算法)

项目：泰坦尼克号数据集
01.回顾基础
02.逻辑回归
03.支持向量机
04.多层感知器
05.随机森林
06.提升
07.最终模型选择和评估

[应用机器学习 - 基础](ML - 应用机器学习 - 基础)

项目：泰坦尼克号数据集
01.ML基础
02.探索性数据分析和数据清洗
03.评估 - 衡量成功
04.优化模型
05.端到端流程

[ML - 机器学习中应避免的错误](ML - 应避免的机器学习错误/01_00_机器学习中应避免的错误.ipynb)

假设数据可以直接使用
忽视咨询领域专家
过度拟合模型
未对数据进行标准化
关注错误的因素
数据泄露
忘记使用传统统计工具
认为部署轻而易举
认为机器学习是万能的
孤立开发
不处理样本不平衡问题
在未妥善处理多重共线性的情况下解释系数
仅以准确率来评估
过于技术性的展示

深度学习、机器学习、人工智能与数据科学

数据分析、数据处理与数据可视化

Apache Spark & PySpark

数据科学家阅读材料

监督学习
- 第 01 课：机器学习概览
- 第 02 课：线性回归
- 第 03 课：感知器算法
- 第 04 课：决策树
- 第 05 课：朴素贝叶斯
- 第 06 课：支持向量机
- 第 07 课：集成方法
- 第 08 课：模型评估指标
- 第 09 课：训练与调优
- 第 10 课：寻找捐赠者项目

Kaggle 课程

Python
Pandas
数据清洗
机器学习入门
机器学习中级
特征工程
机器学习可解释性
数据可视化
深度学习入门
游戏 AI 和强化学习入门
自然语言处理
微型挑战
计算机视觉
SQL 入门
高级 SQL

Google ML 课程

ML 冲刺课程
问题定义
数据准备
聚类
推荐系统
测试和调试
GANs

概率与统计（进行中）

线性回归分析
多元回归分析
实用统计
- 使用 Python 的招生案例研究（辛普森悖论）
- 模拟抛硬币与概率
- 模拟多次抛硬币与二项分布
- 癌症检测结果
- 条件概率与贝叶斯法则
Excel 数据处理、分析和可视化

杜克大学数据科学数学技能

主题包括：

集合论，包括文氏图
实数轴的性质
等等

许可证

本项目采用 MIT 许可证授权 - 详情请参阅 LICENSE.md 文件

Data-Science-and-Machine-Learning-Projects-Dojo 快速上手指南

本仓库是一个数据科学、机器学习与可视化的实战演练场（Dojo），汇集了从基础统计分析到深度学习、自然语言处理及 Web 应用部署的完整项目案例。

环境准备

系统要求

操作系统: Windows, macOS 或 Linux
Python 版本: 推荐 Python 3.8 - 3.10 (部分旧版依赖可能不兼容 Python 3.11+)
包管理器: pip 或 conda (推荐 Anaconda/Miniconda 以简化科学计算库安装)

前置依赖

本项目涉及大量科学计算与深度学习库，建议优先使用国内镜像源加速下载。

核心库: NumPy, Pandas, Scikit-learn, Matplotlib, Seaborn
深度学习: TensorFlow, Keras
其他工具: Jupyter Notebook, Streamlit, NLTK, GeoPandas 等

安装步骤

1. 克隆项目

git clone https://github.com/ptyadana/Data-Science-and-Machine-Learning-Projects-Dojo.git
cd Data-Science-and-Machine-Learning-Projects-Dojo

2. 创建虚拟环境 (推荐)

使用 conda 创建隔离环境（需预先安装 Anaconda 或 Miniconda）：

conda create -n ds_dojo python=3.9
conda activate ds_dojo

或使用 venv:

python -m venv ds_dojo_env
# Windows
ds_dojo_env\Scripts\activate
# macOS/Linux
source ds_dojo_env/bin/activate

3. 安装依赖包

由于项目涵盖面广，建议按需安装或一次性安装主要科学计算栈。以下命令配置了清华大学开源软件镜像源以加速下载：

pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

# 安装核心数据科学与可视化库
pip install numpy pandas matplotlib seaborn scikit-learn geopandas pandas-profiling

# 安装深度学习与自然语言处理库
pip install tensorflow keras nltk dlib face_recognition

# 安装 Web 应用框架
pip install streamlit flask plotly cufflinks bokeh

# 安装 Spark 支持 (可选，如需运行大数据相关项目)
pip install pyspark

注意: dlib 和 face_recognition 在 Windows 上可能需要预编译的二进制文件或 C++ 构建环境。若安装失败，可尝试先安装 cmake 或使用 conda install -c conda-forge dlib。

基本使用

本项目主要由一系列 Jupyter Notebook (.ipynb) 文件组成，每个文件对应一个独立的实战案例。

1. 启动 Jupyter Notebook

在项目根目录下运行：

jupyter notebook

浏览器将自动打开，导航至具体的项目文件夹（例如 Project - Breast Cancer Classification Project - SVM）。

2. 运行示例项目：乳腺癌肿瘤分类

这是最经典的二分类入门项目。

在 Jupyter 界面中点击打开 Breast_Cancer_Classification_Project.ipynb。
依次执行单元格（Cell），代码将自动完成以下流程：
- 加载 UCI 乳腺癌数据集。
- 进行数据探索与可视化 (EDA)。
- 使用 Scikit-learn 预处理数据并划分训练集/测试集。
- 训练支持向量机 (SVM) 模型。
- 输出评估报告（准确率、混淆矩阵等）。

3. 运行 Streamlit Web 应用示例

对于包含 ml-app 或类似 Streamlit 项目的文件夹，可通过以下命令启动交互式 Web 应用：

# 假设当前位于包含 app.py 的项目目录
streamlit run app.py

系统将提供一个本地 URL（通常是 http://localhost:8501），在浏览器中访问即可体验随机森林回归模型的交互界面。

4. 探索其他领域

NLP: 查看 Naive-Bayes-and-NLP 文件夹下的航班推文情感分析项目。
深度学习: 进入 Neural Network - Deep Learning 文件夹，运行基于 TensorFlow 的狗品种识别项目。
大数据: 若已配置 Spark 环境，可尝试 PySpark 相关笔记进行大规模数据处理练习。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 160k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|今天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架