mlcourse.ai

10.6k 5.7k 简单 1 次阅读昨天NOASSERTION开发框架其他数据工具

AI 解读由 AI 自动生成，仅供参考

mlcourse.ai 是由 OpenDataScience 社区发起、前谷歌云 GenAI 专家 Yury Kashnitsky 主导的一门开源机器学习课程。它旨在解决初学者在掌握机器学习时面临的“理论枯燥”与“实践脱节”两大痛点，通过精心设计的教学路径，帮助学习者从零构建扎实的知识体系。

这门课程非常适合希望系统入门或进阶的开发者、数据科学家及高校学生。其最大的技术亮点在于实现了数学理论与工程实践的完美平衡：课程既包含严谨的数学公式推导讲座，又提供了大量基于真实场景的编程作业和 Kaggle 竞赛实战。内容涵盖从 Pandas 数据处理到梯度提升树（Gradient Boosting）等核心算法的全流程，甚至引导用户从头实现随机梯度下降分类器等复杂算法。

目前，mlcourse.ai 采用灵活的自学模式，将学习过程规划为十周的渐进式旅程，每周明确指引阅读材料、视频讲座及对应的练习任务。除了完全免费开放的核心课程内容外，它还提供了可选的付费“bonus 作业包”，包含更具挑战性的非演示版题目及详细解答，以支持社区的持续运营。无论你是想夯实数学基础，还是渴望在 Kaggle 比赛中提升排名，mlcourse.ai 都能提供一条清晰且高效的成长路径。

使用场景

一名刚转行数据科学的工程师试图独立掌握机器学习核心算法，却在碎片化的网络资源中迷失方向，难以将数学理论与代码实战有效结合。

没有 mlcourse.ai 时

理论脱离实践：看了大量数学公式推导，却不知道如何用 Python 实现，面对 Kaggle 比赛无从下手。
学习路径混乱：网上教程质量参差不齐，从 Pandas 基础到梯度提升树的进阶路线缺乏系统规划，容易半途而废。
缺乏深度挑战：只能运行现成的演示代码，无法亲手从零编写随机梯度下降或梯度 boosting 算法，对底层逻辑理解浮于表面。
反馈机制缺失：遇到模型效果不佳时，没有权威的基线对比和详细解析，难以判断是数据问题还是算法实现错误。

使用 mlcourse.ai 后

知行合一：课程完美平衡理论与实战，每讲完数学原理立刻通过 Jupyter 作业和 Kaggle 内部赛进行验证，如"Alice"和"Medium"项目。
路径清晰明确：跟随由 Google Cloud 专家 Yury Kashnitsky 设计的 10 周自学计划，按部就班地从数据处理进阶到复杂模型构建。
硬核编码训练：通过付费奖励作业包，挑战从零手写高效分类器和梯度提升算法，真正吃透算法内核而非仅调用库函数。
权威指导反馈：获得详细的基线解决方案和逐步指导，能精准定位优化空间，在竞争中不断突破性能瓶颈。

mlcourse.ai 通过“数学公式 + 硬核代码 + 竞赛实战”的闭环模式，帮助学习者跨越从理论认知到工程落地的巨大鸿沟。

运行环境要求

操作系统

未说明

GPU

未说明

内存

未说明

依赖

notes这是一个自进度的机器学习课程，主要基于 Jupyter Notebook 运行。内容涵盖从 Pandas 数据分析到梯度提升等多个主题。部分作业涉及 Kaggle 竞赛，需自行注册账号参与。课程提供英文、俄文和中文版本的笔记。Bonus Assignments（额外作业包）需付费获取，包含更深入的实战项目和解决方案。

python未说明

pandas

scikit-learn

matplotlib

seaborn

plotly

jupyter

vowpalwabbit

prophet

快速开始

ODS贴纸

mlcourse.ai – 开放式机器学习课程

mlcourse.ai 是由 OpenDataScience (ods.ai) 主办的开放式机器学习课程，由 Yury Kashnitsky (yorko) 领导，他目前是 Google Cloud 的 GenAI 专家。Yury 同时拥有应用数学博士学位和 Kaggle 竞赛大师称号，他的目标是设计一门理论与实践完美平衡的机器学习课程。因此，课程在讲座中会涉及数学公式，同时通过作业和 Kaggle Inclass 比赛提供大量实践机会。目前，该课程采用 自定进度模式。在这里，我们将引导你完成 mlcourse.ai 的自定进度学习。

奖励作业

此外，你还可以购买包含 mlcourse.ai 最佳非演示版本作业的 奖励作业包。在 Patreon 上选择“奖励作业”等级，或在 Boosty（俄语平台）上选择类似等级。

交易详情

mlcourse.ai 目前仍处于自定进度模式，但我们提供附带解答的奖励作业，只需每月支付 17 美元即可获得。建议你在学习课程内容的同时，持续支付 1 至 5 个月；当然，一次性支付也是可以的，同样能解锁奖励作业包的访问权限。

注意：首次付款将在加入 Patreon 等级时扣除，后续付款则会在下个月的第一天自动扣款，因此最好在每月的前半个月内购买此包。

mlcourse.ai 从未计划完全商业化（它诞生于优秀的开放 ODS.ai 社区，并将始终保持开放和免费），但这一举措有助于覆盖部分运营成本。此外，Yury 也付出了大量心血，将所有优质作业整合成一个包。请注意，与课程的其他内容不同，奖励作业受版权保护。非正式地说，Yury 允许你与 2–3 位朋友分享该包，但严禁公开传播奖励作业包。

奖励作业包包含 10 份作业，其中一些要求你在详细指导下在 Kaggle 比赛中击败基线模型（例如“Alice”[https://mlcourse.ai/book/topic04/bonus_assignment04_alice_baselines.html] 和 “Medium”[https://mlcourse.ai/book/topic06/bonus_assignment06.html]），或者从头实现算法——高效的随机梯度下降分类器 [https://mlcourse.ai/book/topic08/bonus_assignment08.html] 和梯度提升树 [https://mlcourse.ai/book/topic10/bonus_assignment10.html]。

自定进度学习

我们将引导你完成 mlcourse.ai 的 10 周学习。针对每一周的内容，从 Pandas 到梯度提升，都会提供详细的指导，包括需要阅读的文章、观看的讲座以及要完成的作业。

文章

这是在 medium.com :uk: 和 habr.com :ru: 上发表的文章列表。同时也提到了中文版的笔记本 [:cn:]，并提供了 Kaggle 笔记本（英文）的链接。图标可点击。

使用 Pandas 进行探索性数据分析 :uk: :ru: :cn:, Kaggle Notebook
使用 Python 进行数据可视化分析 :uk: :ru: :cn:, Kaggle 笔记本：part1, part2
分类、决策树与 k 最近邻 :uk: :ru: :cn:, Kaggle Notebook
线性分类与回归 :uk: :ru: :cn:, Kaggle 笔记本：part1, part2, part3, part4, part5
装袋法与随机森林 :uk: :ru: :cn:, Kaggle 笔记本：part1, part2, part3
特征工程与特征选择 :uk: :ru: :cn:, Kaggle Notebook
无监督学习：主成分分析与聚类 :uk: :ru: :cn:, Kaggle Notebook
Vowpal Wabbit：处理 GB 级数据的学习 :uk: :ru: :cn:, Kaggle Notebook
使用 Python 进行时间序列分析，第 1 部分 :uk: :ru: :cn:。使用 Facebook Prophet 预测未来，第 2 部分 :uk:, :cn: Kaggle 笔记本：part1, part2
梯度提升 :uk: :ru:, :cn:, Kaggle Notebook

讲座

视频讲座已上传至此 YouTube 播放列表。

简介，视频，幻灯片

使用 Pandas 进行探索性数据分析，视频
可视化：EDA 的主要图表，视频
决策树：理论部分和实践部分
逻辑回归：理论基础，实践部分（“Alice”竞赛中的基线模型）
集成学习与随机森林——第一部分。分类指标——第二部分。一个商业任务示例：预测客户付款——第三部分
线性回归与正则化——理论部分，LASSO & Ridge，LTV 预测——实践部分
无监督学习——主成分分析和聚类
用于分类和回归的随机梯度下降——第一部分，第二部分待定
使用 Python 进行时间序列分析（ARIMA、Prophet）——视频
梯度提升：基本思想——第一部分，XGBoost、LightGBM 和 CatBoost 背后的关键理念 + 实践——第二部分

作业

以下为演示作业。此外，在 “Bonus Assignments”层级中，您还可以获取非演示作业。

使用 Pandas 进行探索性数据分析，nbviewer，Kaggle Notebook，解答
分析心血管疾病数据，nbviewer，Kaggle Notebook，解答
使用玩具任务和 UCI Adult 数据集构建决策树，nbviewer，Kaggle Notebook，解答
讽刺检测，Kaggle Notebook，解答。线性回归作为优化问题，nbviewer，Kaggle Notebook
信用评分问题中的逻辑回归和随机森林，nbviewer，Kaggle Notebook，解答
在回归任务中探索 OLS、Lasso 和随机森林，nbviewer，Kaggle Notebook，解答
无监督学习，nbviewer，Kaggle Notebook，解答
实现在线回归器，nbviewer，Kaggle Notebook，解答
时间序列分析，nbviewer，Kaggle Notebook，解答
在竞赛中超越基线，Kaggle Notebook

Kaggle 竞赛

捉我若能：通过网页会话追踪进行入侵者检测。Kaggle Inclass
预测 Medium 文章的受欢迎程度。Kaggle Inclass
DotA 2 胜利预测。Kaggle Inclass

使用 Jupyter Book 构建课程材料

我们正在使用 Jupyter Book v1 来构建本书。

安装用于依赖管理的 uv：pip install uv；
运行 uv sync 以安装项目依赖，或运行 uv lock --upgrade 来更新它们；
运行 uv run jb build mlcourse_ai_jupyter_book（注意：此命令适用于 Jupyter Book v1）——这将需要一些时间，生成的输出位于 mlcourse_ai_jupyter_book/_build 文件夹中。其中，mlcourse_ai_jupyter_book/_build/html/index.html 就是 mlcourse.ai 主页上所展示的内容。

执行后会显示您本地课程材料文件的路径，例如 file:///Users/nickname/Documents/mlcourse.ai/mlcourse_ai_jupyter_book/_build/html/index.html。您可以在浏览器中打开该文件，以在本地查看课程内容。

引用 mlcourse.ai

如果您在自己的工作中引用了 mlcourse.ai，可以使用以下 BibTeX 记录：

@misc{mlcourse_ai,
    author = {Kashnitsky, Yury},
    title = {mlcourse.ai – 开放式机器学习课程},
    year = {2020},
    publisher = {GitHub},
    journal = {GitHub 仓库},
    howpublished = {\url{https://github.com/Yorko/mlcourse.ai}},
}

mlcourse.ai 快速上手指南

mlcourse.ai 是由 OpenDataScience (ods.ai) 社区发起的开源机器学习课程，由 Google Cloud 专家 Yury Kashnitsky 主导。课程旨在平衡理论与实践，涵盖从 Pandas 数据分析到梯度提升（Gradient Boosting）的完整机器学习流程。本课程采用**自定进度（self-paced）**模式，提供英文、俄文及中文学习资料。

环境准备

在开始学习之前，请确保您的开发环境满足以下要求：

操作系统：Windows、macOS 或 Linux 均可。
Python 版本：推荐 Python 3.8 及以上版本。
核心依赖库：
- pandas, numpy, scikit-learn, matplotlib, seaborn
- jupyter (用于运行笔记本)
- xgboost, lightgbm, catboost (进阶章节需要)
- prophet (时间序列章节需要)
账号准备：
- Kaggle 账号：课程包含大量 Kaggle Inclass 竞赛和 Notebook 练习，建议提前注册。
- GitHub 账号：用于克隆课程代码仓库。

提示：如果您不想在本地配置环境，可以直接使用课程提供的 Kaggle Notebooks 链接在线运行代码，无需安装任何依赖。

安装步骤

方案一：本地环境搭建（推荐国内用户使用镜像源）

克隆课程仓库 打开终端，执行以下命令获取最新课程资料（包含中文 Notebook）：
```
git clone https://github.com/Yorko/mlcourse.ai.git
cd mlcourse.ai
```

创建虚拟环境 建议使用 conda 或 venv 隔离环境。

python -m venv mlcourse_env
# Windows:
mlcourse_env\Scripts\activate
# macOS/Linux:
source mlcourse_env/bin/activate

安装依赖包 为确保下载速度，推荐使用国内镜像源（如清华源或阿里源）安装核心库：
```
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jupyter pandas numpy scikit-learn matplotlib seaborn xgboost lightgbm catboost
```
注：时间序列部分所需的 prophet 库安装较复杂，如遇问题可暂时跳过，或使用 Kaggle 在线环境学习该章节。

方案二：在线免安装（最快捷）

直接访问课程提供的 Kaggle Notebook 链接进行学习，无需本地安装。

访问 mlcourse.ai 官网文章列表，点击每章对应的 Kaggle Notebook 链接。
点击 "Copy and Edit" 即可在浏览器中直接运行代码。

基本使用

课程共分为 10 周（10 个主题），从基础数据分析到高级集成学习。以下是启动学习的标准流程：

1. 启动 Jupyter Notebook

进入课程目录并启动服务：

cd jupyter_english # 或 jupyter_chinese (如果有本地中文笔记)
jupyter notebook

浏览器将自动打开，您可以看到按主题分类的文件夹。

2. 学习路径示例（以第一周为例）

阅读理论：访问 Topic 1: Exploratory Data Analysis with Pandas。
- 中文笔记地址：使用 Pandas 进行数据探索
观看视频：访问 YouTube 播放列表中的 Lecture 1。
动手实践：
1. 在本地或 Kaggle 打开 assignment01_pandas_uci_adult.ipynb。
2. 按照注释指引，使用 Pandas 加载 adult.data 数据集。
3. 完成数据清洗、可视化及简单的统计推断任务。

3. 进阶挑战（可选）

完成基础演示作业后，可参与课程配套的 Kaggle 竞赛（如 "Alice" 或 "Medium" 项目），尝试超越基准线（Baseline）。

若需获取带详细解答的非演示版作业（Bonus Assignments），可通过 Patreon 或 Boosty 支持作者以获得访问权限。

4. 后续主题概览

按顺序完成以下模块的学习：

Pandas 数据探索
Python 数据可视化
决策树与 KNN 分类
线性分类与回归
Bagging 与随机森林
特征工程与选择
无监督学习 (PCA & 聚类)
大规模数据处理 (Vowpal Wabbit / SGD)
时间序列分析
梯度提升 (Gradient Boosting)

版本历史

v1.0.02022/01/16

常见问题

为什么 Jupyter Notebook 在 nbviewer、GitHub 或 Binder 上无法渲染？

在本地运行 Notebook 时图片无法显示怎么办？

使用 Anaconda 运行时遇到 'AttributeError: NoneType object has no attribute split' 错误如何解决？

如何处理测试集中的缺失值填充？

VarianceThreshold 处理后数据形状没有变化是正常的吗？

俄语版本的 Notebook 中发现拼写错误或代码问题还会修复吗？

如何停止接收 GitHub Issue 的邮件通知？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 160.8k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|昨天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架