Data-Science-and-Machine-Learning-Projects-Dojo
Data-Science-and-Machine-Learning-Projects-Dojo 是一个汇聚了数据科学、机器学习及数据可视化实战项目的开源资源库。它旨在解决初学者和从业者在理论学习与实际操作之间存在的鸿沟,通过提供从基础统计分析到复杂深度学习的全流程代码示例,帮助用户将抽象的算法理论转化为具体的解决问题的能力。
该项目非常适合数据科学开发者、人工智能研究人员以及希望提升实战技能的学生使用。无论是想入门 Pandas 进行数据清洗,还是希望深入掌握 TensorFlow、Keras 构建神经网络,亦或是学习如何利用 Scikit-learn 实现随机森林等经典算法,都能在这里找到对应的练习场景。其独特的技术亮点在于覆盖范围极广且紧跟行业主流:不仅囊括了 NumPy、Matplotlib、Seaborn 等基础库的应用,还整合了 GeoPandas 地理数据分析、NLTK 自然语言处理以及 Face Recognition 人脸识别等前沿领域案例。此外,项目还展示了如何将模型通过 Streamlit 或 Flask 快速部署为 Web 应用,并利用 Apache Spark 处理大规模数据,为用户提供了从数据探索、模型训练到最终落地的完整闭环参考,是打磨数据技能的理想“道场”。
使用场景
某医疗科技公司的数据分析师正急需构建一个乳腺癌肿瘤良恶性预测模型,以辅助医生进行早期诊断。
没有 Data-Science-and-Machine-Learning-Projects-Dojo 时
- 从零摸索架构:面对复杂的医疗数据,需手动搭建从数据清洗(Pandas)到模型训练(Scikit-learn/TensorFlow)的完整流程,极易在代码结构上犯错。
- 可视化效率低下:缺乏成熟的绘图模板,使用 Matplotlib 或 Seaborn 制作专业的统计图表耗时费力,难以快速向医疗团队展示数据分布特征。
- 算法选型困难:在不清楚随机森林、SVM 或提升算法(Boosting)哪种更适合当前小样本医疗数据时,缺乏参考案例,只能盲目试错。
- 部署门槛高:模型训练完成后,不知道如何利用 Flask 或 Streamlit 快速将其转化为医生可交互的 Web 应用,导致成果停留在笔记本阶段。
使用 Data-Science-and-Machine-Learning-Projects-Dojo 后
- 复用成熟范式:直接参考项目中“乳腺癌分类”的完整代码逻辑,快速复用其基于 SVM 的特征工程与模型构建流程,将开发周期缩短数天。
- 一键生成洞察:利用集成的 Pandas Profiling 和 Plotly 组件,迅速生成包含交互式图表的数据报告,直观呈现肿瘤半径、纹理等关键特征的差异。
- 精准算法对标:通过对比项目中随机森林与神经网络在不同数据集的表现,迅速确定最适合当前任务的算法组合,显著提升预测准确率。
- 快速应用落地:套用项目提供的 Streamlit 或 Flask 模板,仅需少量修改即可将本地模型封装为在线诊断工具,实现从代码到临床辅助的无缝衔接。
Data-Science-and-Machine-Learning-Projects-Dojo 通过提供全栈式的实战项目库,将原本数周的研发探索过程压缩为高效的模块化组装,极大降低了医疗 AI 落地的技术门槛。
运行环境要求
- 未说明
- 非必需(基础项目可在 CPU 运行)
- 深度学习项目(如 TensorFlow/Keras 狗品种预测)及 Google Colab 环境建议使用支持 CUDA 的 NVIDIA GPU
- 具体型号、显存大小及 CUDA 版本未说明
未说明(建议至少 8GB,处理大数据集或 Spark 项目推荐 16GB+)

快速开始
数据科学、机器学习与可视化道场
数据科学与机器学习项目的集合,也是我练习数据科学、机器学习、深度学习和数据可视化相关技能、理论、概率、统计等内容的道场。
使用的技术栈
机器学习、深度学习、数据科学库
- NumPy - 用于Python科学计算的包
- Pandas - 快速、强大、灵活且易于使用的开源数据分析和操作工具
- Pandas Profiling - 从DataFrame生成报告
- Geo Pandas - 为Pandas对象提供地理数据支持。
- Scikit-learn - 简单高效的预测性数据分析工具
- TensorFlow - 一个端到端的开源机器学习平台
- Keras - 深度学习框架
- NLTK - 自然语言处理工具包
- dlib - 用于在C++中构建实际机器学习和数据分析应用的工具包
- Face Recognition - 全球最简单的Python和命令行人脸识别API
数据可视化库
- Matplotlib - 一个功能全面的库,用于在Python中创建静态、动画和交互式可视化
- Seaborn - 统计数据可视化
- Bokeh - 面向现代Web浏览器的交互式可视化库
- Plotly - ML和数据科学模型的前端
- Cufflinks - Plotly + Pandas的生产力工具
转化为Web应用
Spark
- Apache Spark - 用于大规模数据处理的统一分析引擎。
- Spark with pyspark - PySpark是Apache Spark与Python的结合
- Databricks - 统一的数据分析平台 - 一个云平台,适用于大规模数据工程和协作式数据科学。
工具与数据源
- Jupyter Notebook - 用于数据分析的Notebook系统
- Google Colab - Google提供的优秀Notebook系统,可免费使用GPU
- Kaggle - 数据集资源库
- Plotly Chart Studio - 在线发布和嵌入交互式图表的最快方式
项目
乳腺癌肿瘤诊断 - 分类项目
- 该项目旨在基于多项观察和特征,构建一个机器学习模型来预测肿瘤是良性还是恶性。
- 使用来自威斯康星州乳腺癌(诊断)数据集 - UCI的数据。
Fandango电影评分 - 终身项目
来自机器学习和数据科学大师班课程的数据分析与可视化终身项目。
- 这是故事对在线电影评分要保持警惕,尤其是Fandango的评分背后的数据。
- 使用来自538的数据。
- 如果你打算去看电影,你能多大程度信任在线评论和评分呢?特别是当提供评分的公司同时也通过销售电影票获利时。
- 他们是否倾向于将电影评分定得比实际更高?
- 等等。
监督学习终身项目 - 队列分析与客户流失预测
- 该项目旨在构建一个机器学习模型,以预测客户是否会流失。
- 包括基于电信用户合同类型等因素的队列分析。
心脏病预测 - 分类项目
来自“零基础到精通”完整机器学习和数据科学课程的里程碑项目。
- 该项目旨在构建一个能够根据个人医疗属性预测其是否患有心脏病的机器学习模型。
- 使用来自UCI心脏病数据集 - Kaggle版本的数据。
推土机售价预测 - 回归项目
来自“零基础到精通”完整机器学习和数据科学课程的里程碑项目。
- 该项目旨在构建一个机器学习模型,以根据历史价格预测推土机的售价。
- 使用来自推土机蓝皮书 - Kaggle版本的数据。
深度学习ANN项目 - 狗品种预测
来自“零基础到精通”完整机器学习和数据科学课程的项目。
- 该项目旨在使用TensorFlow构建深度学习模型,以预测狗的品种。
- 使用来自狗品种识别 - Kaggle版本的数据。
911报警电话数据Capstone项目
数据科学与机器学习训练营课程中的数据分析与可视化Capstone项目。
- 分析来自kaggle的911报警电话数据
- 911报警电话数量最多的前5个邮政编码
- 911报警电话数量最多的前5个乡镇
- 911报警最常见的原因
- 基于分析结果的不同类型可视化图表
- 等等。
ML应用 - 随机森林算法 - ML项目
- 使用Streamlit构建的机器学习应用,用于利用随机森林算法建立回归模型。
机器学习与数据科学项目
大师班项目
- Ames住房数据项目 - 线性回归
- 心脏病检测项目 - 逻辑回归
- Sona数据 - 检测岩石或矿石项目 - KNN
- 葡萄酒欺诈检测项目 - SVM
- 蘑菇可食用性预测项目 - AdaBoost
- 蘑菇可食用性预测项目 - 梯度提升
- 电商项目 - 线性回归
- 广告项目 - 逻辑回归
- 匿名化数据项目 - KNN
- 监督学习Capstone项目 - 队列分析与客户流失预测
- NLP - 航班推文情感分析 - 分类
- NLP - 电影评论情感分析 - 分类
- 颜色量化 - KMeans
- CIA国家分析与聚类 - KMeans
- 汽车型号 - 层次聚类
- 批发客户 - DBSCAN聚类
- 乳腺癌 - PCA手动实现
- 乳腺癌 - 使用sklearn的PCA
其他项目
- 项目 - 使用XG-Boost预测二手车价格
- 项目 - 使用二分类 - 逻辑回归预测NBA新秀的职业生涯长度
- 项目 - 面部分类 - SVM
- 项目 - 使用交互项预测销售收入 - 多元线性回归
- 项目 - 预测销售收入 - 简单线性回归
- 项目 - 乳腺癌肿瘤诊断分类 - SVM
- 项目 - 音乐推荐系统
- 项目 - Smarty Brain图像预测
深度学习项目
- 基于Flask的鸢尾花预测应用
- [ANN - 贷款违约预测项目](数据科学与机器学习训练营 - JP/21.神经网络与深度学习/04_Tensorflow_Keras_Project_Loan_Predictions.ipynb)
- [ANN - 美国金县房屋销售房价预测项目](数据科学与机器学习训练营 - JP/21.神经网络与深度学习/02_Tensorflow_Regression_Housing_Price_Prediction.ipynb)
- [ANN - 威斯康星州乳腺癌(诊断)项目](数据科学与机器学习训练营 - JP/21.神经网络与深度学习/03_Tensorflow_Classification_Breast_Cancer_Wisconsin_(Diagnostic).ipynb)
- [CNN - 用于图像分类的卷积神经网络 - MNIST数据项目](完整TensorFlow 2与Keras深度学习训练营 - JP/04-CNNs/01-Keras-CNN-MNIST(灰度图像).ipynb)
- [CNN - 用于图像分类的卷积神经网络 - CIFAR 10数据项目](完整TensorFlow 2与Keras深度学习训练营 - JP/04-CNNs/02-Keras-CNN-CIFAR-10(彩色图像).ipynb)
- [CNN - 用于图像分类的卷积神经网络 - 实际图像 - 疟疾检测项目](完整TensorFlow 2与Keras深度学习训练营 - JP/04-CNNs/03-Deep-Learning-Custom-Images-Malaria.ipynb)
- [CNN - 用于图像分类的卷积神经网络 - Fashion MNIST数据项目](完整TensorFlow 2与Keras深度学习训练营 - JP/04-CNNs/04-DL-CV-Assessment - Fashion MNIST数据项目.ipynb)
- [RNN - 使用LSTM进行冷冻甜品销售预测](完整TensorFlow 2与Keras深度学习训练营 - JP/05-RNNs/02-RNN-Forzen-Dessert-Montly-Sales-Forecasting.ipynb)
- [NLP - Yelp评论分类 - 自然语言处理项目](数据科学与机器学习训练营 - JP/22.自然语言处理/02-NLP项目 - Yelp.ipynb)
- [英国各国家平均饮食习惯 - 自编码器](完整TensorFlow 2与Keras深度学习训练营 - JP/07-AutoEncoders/02-英国各国平均饮食习惯 - 自编码器.ipynb)
数据分析与可视化项目
- Python数据可视化项目:使用Pandas和Matplotlib对各国GDP、各大洲间预期寿命对比、人均GDP相对增长、人口相对增长等进行数据分析与可视化。
- [燃油经济性案例研究 - 项目](数据分析/项目 - 案例研究2 - 燃油经济性/案例研究 - 燃油经济性.ipynb):分析美国环保署提供的燃油经济性数据,探讨温室气体评分分布、2008年与2018年的综合油耗、排量与综合油耗之间的相关性、温室气体评分与综合油耗的关系。2018年相比2008年,使用替代燃料的独特车型是否更多?多了多少?不同车辆级别的燃油经济性(油耗提升)有何改善?SmartWay车辆有哪些特征?这些特征随时间有变化吗?(油耗、温室气体)哪些因素与更好的燃油经济性(油耗)相关?从2008年到2018年,综合油耗提升最多的车型是哪一款?
- [葡萄酒质量案例研究 - 项目](数据分析/项目 - 案例研究1 - 红酒质量/案例研究 - 红酒质量.ipynb):分析葡萄酒数据,为葡萄酒企业更好地酿造葡萄酒提供参考。特定类型的葡萄酒(红葡萄酒或白葡萄酒)是否与更高的品质相关?酸度(pH值)处于哪个水平时获得最高平均评分?酒精含量较高的葡萄酒是否评分更高?含糖量较高的甜型葡萄酒是否评分更高?按颜色与质量划分的红白葡萄酒比例
- [电视、中场秀与超级碗 - 项目](项目 - 电视、中场秀与超级碗):分析超级碗的数据,并回答以下问题——比赛结果最悬殊的是哪些?比赛对电视收视率有何影响?收视率、电视评分及广告成本随时间如何变化?在中场秀表演方面,哪些音乐人最为活跃?
- [天气趋势 - 项目](数据分析/项目 - 天气趋势/探索天气趋势项目.ipynb):分析全球天气趋势、新加坡天气趋势,比较全球与新加坡过去10年的移动平均趋势。
- [社交媒体数据实时洞察 - 项目](项目 - 社交媒体数据实时洞察):分析Twitter的数据,并回答诸如“全球趋势和本地趋势分别是什么?”、“寻找共同趋势”以及“对推文和标签进行频率分析”等问题。
- [股票数据统计](AI编程与Python/01.迷你项目UDACITY - 股票数据统计/股票数据统计.ipynb):分析谷歌、苹果和亚马逊的股价,并计算滚动平均值。
- [Android Play商店应用数据分析 - 项目](项目 - Android Play商店应用数据分析):分析Android Play商店的数据,并回答诸如“有多少应用是付费的?它们赚了多少钱?这些应用是什么时候发布的?”等问题。
训练营
[RL - Python与强化学习实践AI - JP - 暂停](RL - 实践AI与Python和强化学习 - JP)
- 00. NumPy速成课程
- 01. Matplotlib可视化
- 02. Pandas与Scikit-learn
- 03. ANNs
- 04. CNNs
- 05. gym入门
- 06. 经典Q学习
- 07. 深度Q学习
- 08. 图像上的深度Q学习
- 09. 创建自定义Open AI Gym环境
TensorFlow 2.0:深度学习与人工智能 - LP
- 第2节 - Google Colab
- 第3节 - 机器学习与神经元
- 第4节 - 前馈人工神经网络
- 第5节 - CNN 卷积神经网络
- 第6节 - RNN - 循环神经网络、时间序列、序列数据
- 第7节 - NLP
- 第8节 - 推荐系统
- 第9节 - 面向计算机视觉的迁移学习
- 第10节 - GAN
- 第11节 - 深度强化学习(理论)
- 第12节 - 使用深度学习的股票交易项目
- 第13节:TensorFlow 高级用法
- 第14节:低级别 TensorFlow
- 第15节:深入解析——损失函数
- 第16节:深入解析——梯度下降
- 第17至21节:其他
DeepLearning.AI - 课程 04. TensorFlow 中的序列、时间序列与预测
- 第01周 - 序列与预测
- 第02周 - 用于时间序列的深度神经网络
- 第03周 - 用于时间序列的循环神经网络
- 第04周 - 真实世界的时间序列数据
DeepLearning.AI - 课程 03. TensorFlow 中的自然语言处理
- 第01周 - 文本情感分析
- 第02周 - 词嵌入
- 第03周 - 序列模型
- 第04周 - 序列模型与文学
DeepLearning.AI - 课程 02. TensorFlow 中的卷积神经网络
- 第01周 - 探索更大的数据集
- 第02周 - 数据增强:一种避免过拟合的技术
- 第03周 - 迁移学习
- 第04周 - 多分类问题
DeepLearning.AI - 课程 01. 面向人工智能、机器学习和深度学习的 TensorFlow 入门
- 第01周 - 一种新的编程范式
- 第02周 - 计算机视觉入门
- 第03周 - 使用 CNN 提升视觉能力
- 第04周 - 使用真实世界图像
深度学习 TensorFlow 开发者证书 - ZTM - 进行中
- 01. 导言
- 02. 深度学习与 TensorFlow 基础
- 03. 使用 TensorFlow 的神经网络回归
- 04. 使用 TensorFlow 的神经网络分类
- 05. TensorFlow 中的计算机视觉与卷积神经网络
- 06. 迁移学习——特征提取
- 07. 迁移学习——微调
- 08. 迁移学习——扩展规模
- 09. 阶段性项目 1 - Food Vision Big
- 10. TensorFlow 中的 NLP 基础
- 11. 阶段性项目 2 - SkimLit
- 12. 时间序列基础 + 阶段性项目 3 - BitPredict
- 13. 通过 TensorFlow 证书考试
- 15. 附录 - 机器学习入门
- 16. 附录 - 机器学习框架
- 14、17至19. 其他
TensorFlow 2 和 Keras 深度学习完全训练营 - 日语版
- NumPy 急救课程
- Pandas 急救课程
- 可视化急救课程
- 基础人工神经网络 - ANNs
- 卷积神经网络 - CNNs
- 循环神经网络 - RNNs
- 自然语言处理 - NLP
- 自编码器
- 生成对抗网络 - GANs
- 部署
机器学习与数据科学大师班 - JP
- 新课程 2021 Python 机器学习与数据科学大师班
- Python 快速入门
- NumPy
- Pandas
- Matplotlib
- Seaborn 数据可视化
- 数据分析与数据可视化综合项目
- 线性回归模型
- 特征工程与数据预处理
- 交叉验证、网格搜索与线性回归项目
- 逻辑回归模型
- KNN - K 最近邻
- SVM - 支持向量机
- 基于树的方法 - 决策树学习
- 随机森林
- 提升方法
- 监督学习综合项目 - 队列分析与客户流失预测
- 朴素贝叶斯分类与自然语言处理(监督学习)
- K 均值聚类(无监督学习)
- 层次聚类(无监督学习)
- DBSCAN(无监督学习)
- 主成分分析(无监督学习)
- 模型部署
- 使用 Flask 将模型作为 API 提供服务
完整机器学习与数据科学 - 从零到精通
- 使用 Pandas 进行数据分析
- 使用 NumPy 进行数据分析
- 使用 Polyfit 进行线性回归 - 数据 36
- Matplotlib - 数据可视化
- Scikit-learn - 构建机器学习模型
- 里程碑项目 - 监督学习(分类)- 心脏病检测
- 里程碑项目 - 监督学习(回归)- 推土机销售价格预测
- 深度学习项目 - 犬种预测
ML - 机器学习与数据科学 A-Z 实战 Python - NS
- 03. 数据预处理
- 04. 机器学习类型
- 05. 监督学习 - 分类
- 06. 监督学习 - 回归
- 07. 无监督学习 - 聚类
- 08. 超参数优化
[数据科学与机器学习训练营](数据科学与机器学习训练营 - JP)
- Python速成课程
- 用于数据分析的Python - NumPy
- 用于数据分析的Python - Pandas
- 用于数据可视化的Python - Matplotlib
- 用于数据可视化的Python - Seaborn
- Pandas内置数据可视化
- 使用Plotly和Cufflinks进行可视化
- 数据综合项目
- [911报警电话 - 数据综合项目](数据科学与机器学习训练营 - JP/10-数据综合项目/项目 - 911报警电话/01-911报警电话数据综合项目 - 我的解决方案.ipynb)
- 线性回归
- [电子商务项目](数据科学与机器学习训练营 - JP/11-线性回归/02-线性回归 - 电子商务项目.ipynb)
- 逻辑回归
- [广告投放项目](数据科学与机器学习训练营 - JP/13-逻辑回归/02-逻辑回归 - 广告投放项目.ipynb)
- K近邻算法 (KNN)
- [匿名化数据项目](数据科学与机器学习训练营 - JP/14-K近邻算法/02-K近邻算法 - 匿名化数据项目.ipynb)
- 决策树与随机森林
- [贷款预测项目](数据科学与机器学习训练营 - JP/15-决策树与随机森林/02-决策树与随机森林 - 贷款预测项目.ipynb)
- 支持向量机 (SVM)
- [鸢尾花分类项目](数据科学与机器学习训练营 - JP/16-支持向量机/02-支持向量机项目.ipynb)
- K均值聚类
- 主成分分析
- 推荐系统
- 自然语言处理
- [Yelp评论分类](数据科学与机器学习训练营 - JP/22. 自然语言处理/02-NLP项目 - Yelp.ipynb)
- 神经网络与深度学习
- [回归项目 - 预测美国金县房屋销售价格](数据科学与机器学习训练营 - JP/21. 神经网络与深度学习/02_Tensorflow_Regression_Housing_Price_Prediction.ipynb)
- [分类项目 - 威斯康星州乳腺癌诊断数据](数据科学与机器学习训练营 - JP/21. 神经网络与深度学习/03_Tensorflow_Classification_Breast_Cancer_Wisconsin_(Diagnostic).ipynb)
- [最终项目 - 分类 - 贷款违约预测](数据科学与机器学习训练营 - JP/21. 神经网络与深度学习/04_Tensorflow_Keras_Project_Loan_Predictions.ipynb)
- TensorBoard
- 大数据与Spark结合Python
- SciPy
完整数据科学训练营 - 365
- 第一部分 - 数据科学领域
- 第二部分 - 概率论
- 第三部分 - 统计学(描述性与推断性)
- 第四部分 - Python
- 第五部分 - Python中的高级统计方法 / Python中的机器学习
- 第六部分 - 数学
- 第七部分 - 深度学习
- 软件集成
- 案例研究 - 缺勤问题
书籍
动手学机器学习:使用Scikit-Learn、Keras和TensorFlow(进行中)
- 机器学习基础
- 机器学习全景
- 端到端机器学习项目
- 分类
- 训练模型
百页机器学习书
- 引言
- 符号与定义
- 基础算法
- 学习算法的构成
- 基本实践
- 神经网络与深度学习
- 问题与解答
- 高级实践
- 无监督学习
- 无监督学习 - 深入内容
- 其他形式的学习
- 结论
推进机器学习与数据科学之旅 - (进行中)
为了在特定领域和主题上提升我的ML和DS相关技能:
[应用机器学习 - 集成学习](ML - 应用机器学习 - 集成学习)
- 项目:泰坦尼克号数据集
- 01.ML基础
- 02.数据准备
- 03.集成学习
- 04.提升
- 05.装袋
- 06.堆叠
- 07.模型评估与选择
[应用机器学习 - 特征工程](ML - 应用机器学习 - 特征工程)
- 项目:泰坦尼克号数据集
- 01.ML基础
- 02.特征工程简介
- 03.探索数据
- 04.创建并清理特征
- 05.为建模准备特征
- 06.比较和评估模型
[应用机器学习 - 算法](ML - 应用机器学习 - 算法)
- 项目:泰坦尼克号数据集
- 01.回顾基础
- 02.逻辑回归
- 03.支持向量机
- 04.多层感知器
- 05.随机森林
- 06.提升
- 07.最终模型选择和评估
[应用机器学习 - 基础](ML - 应用机器学习 - 基础)
- 项目:泰坦尼克号数据集
- 01.ML基础
- 02.探索性数据分析和数据清洗
- 03.评估 - 衡量成功
- 04.优化模型
- 05.端到端流程
[ML - 机器学习中应避免的错误](ML - 应避免的机器学习错误/01_00_机器学习中应避免的错误.ipynb)
- 假设数据可以直接使用
- 忽视咨询领域专家
- 过度拟合模型
- 未对数据进行标准化
- 关注错误的因素
- 数据泄露
- 忘记使用传统统计工具
- 认为部署轻而易举
- 认为机器学习是万能的
- 孤立开发
- 不处理样本不平衡问题
- 在未妥善处理多重共线性的情况下解释系数
- 仅以准确率来评估
- 过于技术性的展示
深度学习、机器学习、人工智能与数据科学
- 深度学习 - 使用 TensorFlow 进行自然语言处理
- 深度学习 - 人脸识别
- 深度学习 - 图像识别
- 深度学习 - 使用 Keras 2.0 构建深度学习应用
- 应用机器学习 - 集成学习
- 应用机器学习 - 特征工程
- 应用机器学习 - 算法
- 应用机器学习 - 基础
- Python 机器学习 - 03_k-Means 聚类
- Python 机器学习 - 02_决策树
- Python 机器学习 - 01_基础
- 机器学习 - 机器学习中应避免的错误
- 机器学习 - 使用 Iris 花进行分类建模
- 数据科学 A-Z 建模
- 面向神经网络和 AI 界面的设计
- GPT-3 简介:人工智能的一次飞跃
数据分析、数据处理与数据可视化
- 数据分析与可视化 - Python 数据分析与可视化大师班
- Pandas - Pandas 代码挑战
- Pandas - 高级 Pandas
- 数据可视化 - 使用 Plotly 进行数据可视化
- 数据分析 - 使用 Pandas 和 Python 进行数据分析 - BP
- 数据分析 - Python 数据手册 - 数据清洗
- Pandas - Pandas 手册 - 数据操作
- 更多 Python 数据工具 - Microsoft
Apache Spark & PySpark
- Spark SQL 和 DataFrame 入门
- Apache Spark 必备培训
- 用于机器学习和人工智能的 Spark
- Apache PySpark 示例教程
- Apache Spark 深度学习必备培训
数据科学家阅读材料
- 监督学习
- 第 01 课:机器学习概览
- 第 02 课:线性回归
- 第 03 课:感知器算法
- 第 04 课:决策树
- 第 05 课:朴素贝叶斯
- 第 06 课:支持向量机
- 第 07 课:集成方法
- 第 08 课:模型评估指标
- 第 09 课:训练与调优
- 第 10 课:寻找捐赠者项目
Kaggle 课程
- Python
- Pandas
- 数据清洗
- 机器学习入门
- 机器学习中级
- 特征工程
- 机器学习可解释性
- 数据可视化
- 深度学习入门
- 游戏 AI 和强化学习入门
- 自然语言处理
- 微型挑战
- 计算机视觉
- SQL 入门
- 高级 SQL
Google ML 课程
- ML 冲刺课程
- 问题定义
- 数据准备
- 聚类
- 推荐系统
- 测试和调试
- GANs
概率与统计(进行中)
- 线性回归分析
- 多元回归分析
- 实用统计
- 使用 Python 的招生案例研究(辛普森悖论)
- 模拟抛硬币与概率
- 模拟多次抛硬币与二项分布
- 癌症检测结果
- 条件概率与贝叶斯法则
- Excel 数据处理、分析和可视化
杜克大学数据科学数学技能
主题包括:
- 集合论,包括文氏图
- 实数轴的性质
- 等等
许可证
本项目采用 MIT 许可证授权 - 详情请参阅 LICENSE.md 文件
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器