ML-paper-notes

564 78 非常简单 1 次阅读 4天前图像开发框架语言模型

AI 解读由 AI 自动生成，仅供参考

ML-paper-notes 是一个专注于机器学习、计算机视觉和自然语言处理领域的开源论文笔记库。它系统性地整理了大量前沿学术文章的核心观点，并将精炼后的总结以 PDF 形式呈现，涵盖了自监督学习、对比学习及半监督学习等多个热门方向。

面对海量且晦涩难懂的 AI 学术论文，研究人员和开发者往往需要耗费大量时间才能提取关键信息。ML-paper-notes 有效解决了这一痛点，通过提供结构清晰、重点突出的导读笔记，帮助用户快速把握论文的创新点与技术细节，大幅降低了阅读门槛和时间成本。

该资源特别适合 AI 领域的研究人员、算法工程师以及希望紧跟技术前沿的学生使用。无论是为了寻找灵感、复现模型，还是进行文献综述，都能从中获得高效支持。其独特亮点在于按主题分类的组织方式，以及从早期经典方法（如图像着色、拼图预测）到最新大模型半监督学习的完整脉络梳理，为理解自监督表示学习的发展历程提供了极佳的参考路径。

使用场景

某计算机视觉团队的算法工程师正在为医疗影像项目调研最新的自监督学习方案，以解决标注数据稀缺的难题。

没有 ML-paper-notes 时

检索效率低下：需要在 arXiv 上手动搜索海量论文，难以快速筛选出针对“旋转特征解耦”或“去偏对比学习”等特定技术点的核心文献。
理解成本高昂：面对复杂的数学公式和冗长的实验章节，需花费数天逐篇精读才能提炼出可复用的核心思想，严重拖慢研发进度。
知识体系碎片化：笔记散落在个人文档或便签中，缺乏按主题（如半监督学习、对比学习）的系统整理，难以横向对比不同方法的优劣。
复现方向迷茫：由于缺乏对前人工作局限性的总结，容易在已被证伪或效果不佳的技术路线上浪费宝贵的算力资源。

使用 ML-paper-notes 后

精准定位文献：直接通过目录找到《Self-Supervised Representation Learning by Rotation Feature Decoupling》等高度匹配论文的精选笔记，几分钟内锁定关键技术。
快速掌握精髓：阅读结构化的 PDF 摘要，迅速理解模型架构创新点与实验结论，将单篇论文的理解时间从数天压缩至半小时。
构建系统认知：利用其按主题分类的笔记库，清晰梳理出自监督学习从“拼图预测”到“对比学习”的技术演进脉络，辅助制定技术路线图。
规避试错陷阱：参考笔记中关于各方法适用场景与缺陷的分析，直接避开低效方案，将精力集中在最有潜力的算法改进上。

ML-paper-notes 通过将晦涩的学术论文转化为结构化的知识图谱，极大缩短了从理论调研到工程落地的周期。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库仅为机器学习论文的笔记和摘要集合（PDF 格式），不包含可执行的源代码、模型训练脚本或推理程序，因此无需特定的操作系统、GPU、内存、Python 版本或依赖库即可使用。用户只需具备 PDF 阅读器即可查看内容。

python未说明

快速开始

机器学习论文

此仓库包含我对一些机器学习相关论文的笔记和简要总结，按主题分类，总结以PDF格式提供。

自监督与对比学习

自监督关系推理用于表示学习（2020）：[论文] [笔记]
大型自监督模型是强大的半监督学习者（2020）[论文] [笔记]
去偏对比学习（2020）[论文] [笔记]
Selfie：用于图像嵌入的自监督预训练（2019）：[论文] [笔记]
通过旋转特征解耦进行自监督表示学习（2019）：[论文] [笔记]
重新审视自监督视觉表示学习（2019）：[论文] [笔记]
AET vs. AED：通过自动编码变换进行无监督表示学习（2019）：[论文] [笔记]
通过知识迁移提升自监督学习（2018）：[论文] [笔记]
通过学习识别伪影进行自监督特征学习（2018）：[论文] [笔记]
通过预测图像旋转进行无监督表示学习（2018）：[论文] [笔记]
用于自监督学习的跨像素光流相似性（2018）：[论文] [笔记]
多任务自监督视觉学习（2017）：[论文] [笔记]
分裂脑自编码器：通过跨通道预测进行无监督学习（2017）：[论文] [笔记]
作为视觉理解代理任务的彩色化（2017）：[论文] [笔记]
通过拼图游戏进行视觉表示的无监督学习（2017）：[论文] [笔记]
通过上下文预测进行无监督视觉表示学习（2016）：[论文] [笔记]
彩色图像着色（2016）：[论文] [笔记]
从时空共现中学习视觉群体（2015）：[论文] [笔记]
使用示例卷积神经网络进行判别式无监督特征学习（2015）：[论文] [笔记]

半监督学习

半监督学习中的负采样（2020）：[论文] [笔记]
用于半监督学习的时间一致性自监督（2020）：[论文] [笔记]
双学生：突破半监督学习中教师的限制（2019）：[论文] [笔记]
S4L：自监督半监督学习（2019）：[论文] [笔记]
通过增强分布对齐进行半监督学习（2019）：[论文] [笔记]
MixMatch：一种全面的半监督学习方法（2019）：[论文] [笔记]
无监督数据增强（2019）：[论文] [笔记]
用于半监督学习的插值一致性训练（2019）：[论文] [笔记]
用于半监督图像识别的深度协同训练（2018）：[论文] [笔记]
通过mixup统一半监督和鲁棒学习（2019）：[论文] [笔记]
深度半监督学习算法的真实评估（2018）：[论文] [笔记]
基于跨视图训练的半监督序列建模（2018）：[论文] [笔记]
虚拟对抗训练（2017）：[论文] [笔记]
平均教师是更好的榜样（2017）：[论文] [笔记]
用于半监督学习的时序集成（2017）：[论文] [笔记]
使用梯子网络进行半监督学习（2015）：[论文] [笔记]

视频理解

多尺度视觉Transformer（2021）：[论文] [笔记]
ViViT：一种视频视觉Transformer（2021）：[论文] [笔记]
用于视频Transformer的时空混合注意力机制（2021）：[论文] [笔记]
对于视频理解，时空注意力就足够了吗？（2021）：[论文] [笔记]
一张图像胜过16×16个词，那么一段视频又值多少呢？（2021）：[论文] [笔记]
用于细粒度视频理解的时序查询网络（2021）：[论文] [笔记]
X3D：扩展架构以实现高效的视频识别（2020）：[论文] [笔记]
用于动作识别的时序金字塔网络（2020）：[论文] [笔记]
STM：用于动作识别的时空与运动编码（2019）：[论文] [笔记]
基于通道分离卷积网络的视频分类（2019）：[论文] [笔记]
基于相关性网络的视频建模（2019）：[论文] [笔记]
视频作为时空区域图（2018）：[论文] [笔记]
SlowFast网络用于视频识别（2018）：[论文] [笔记]
TSM：用于高效视频理解的时序移位模块（2018）：[论文] [笔记]
Timeception用于复杂动作识别（2018）：[论文] [笔记]
非局部神经网络（2017）：[论文] [笔记]
用于视频中动作识别的时序片段网络（2017）：[论文] [笔记]
Quo Vadis动作识别：一种新模型及Kinetics数据集（2017）：[论文] [笔记]
更深入地研究用于动作识别的时空卷积（2017）：[论文] [笔记]
ActionVLAD：学习时空聚合以进行动作分类（2017）：[论文] [笔记]
用于视频动作识别的时空残差网络（2016）：[论文] [笔记]
深度时序线性编码网络（2016）：[论文] [笔记]
用于动作分割与检测的时序卷积网络（2016）：[论文] [笔记]
使用3D卷积网络学习时空特征（2014）：[论文] [笔记]

领域适应、领域泛化与分布外泛化

重新思考基于分布匹配的领域适应（2020）：[论文] [笔记]
可迁移性 vs. 可区分性：批谱正则化（2019）：[论文] [笔记]
关于学习领域适应的不变表示（2019）：[论文] [笔记]
通用领域适应（2019）：[论文] [笔记]
可迁移的对抗训练（2019）：[论文] [笔记]
多对抗领域适应（2018）：[论文] [笔记]
条件对抗领域适应（2018）：[论文] [笔记]
学习对抗公平且可迁移的表示（2018）：[论文] [笔记]
在深度学习中，重要性加权的作用是什么？（2018）：[论文] [笔记]

可解释性

朝向解释与缓解自然语言理解模型的捷径学习行为（2021）：[论文] [笔记]
超越注意力可视化之外的Transformer可解释性（2020）：[论文] [笔记]
什么塑造了特征表示？探索数据集、架构和训练（2020）：[论文] [笔记]
基于注意力的丢弃层用于弱监督目标定位（2019）：[论文] [笔记]
注意力并非解释（2019）：[论文] [笔记]
SmoothGrad：通过添加噪声来去除噪声（2017）：[论文] [笔记]
深度网络的公理化归因（2017）：[论文] [笔记]
注意力分支网络：用于视觉解释的注意力机制学习（2019）：[论文] [笔记]
更加关注注意力：通过注意力迁移提升CNN性能（2016）：[论文] [笔记]

自然语言处理（NLP）

预训练、提示与预测：自然语言处理中提示方法的系统综述（2021）：[论文] [笔记]
无监督数据增强：使用朴素增强且无需未标注数据（2020）：[论文] [笔记]
用于预训练语言模型微调的监督对比学习（2021）：[论文] [笔记]
BERT与PALs：用于多任务学习中高效适应的投影注意力层（2020）：[论文] [笔记]
FreeLB：增强型对抗训练用于自然语言理解（2020）：[论文] [笔记]
MixText：面向半监督文本分类的语言学启发式插值（2020）：[论文] [笔记]

生成模型

从像素进行生成式预训练（2020）：[论文] [笔记]
生成对抗网络的一致性正则化（2020）：[论文] [笔记]

无监督学习

不变信息聚类用于无监督图像分类与分割（2019）：[论文] [笔记]
用于视觉特征无监督学习的深度聚类（2018）：[论文] [笔记]

语义分割

DeepLabv3+：带空洞可分离卷积的编码器-解码器（2018）：[论文] [笔记]
大卷积核很重要：通过全局卷积网络改进语义分割（2017）：[论文] [笔记]
理解卷积在语义分割中的作用（2018）：[论文] [笔记]
重新思考语义图像分割中的空洞卷积（2017）：[论文] [笔记]
RefineNet：用于高分辨率语义分割的多路径细化网络（2017）：[论文] [笔记]
Pyramid Scene Parsing Network（2017）：[论文] [笔记]
SegNet：用于图像分割的深度卷积编码器-解码器架构（2016）：[论文] [笔记]
ENet：用于实时语义分割的深度神经网络架构（2016）：[论文] [笔记]
关注尺度：尺度感知的语义图像分割（2016）：[论文] [笔记]
Deeplab：使用DCNN、空洞卷积和CRF进行语义图像分割（2016）：[论文] [笔记]
U-Net：用于生物医学图像分割的卷积网络（2015）：[论文] [笔记]
用于语义分割的全卷积网络（2015）：[论文] [笔记]
超列用于目标分割与细粒度定位（2015）：[论文] [笔记]

弱监督与半监督语义分割

基于框的类别级区域掩码及填充率引导损失（2019）：[论文] [笔记]
FickleNet：利用随机推理进行弱监督与半监督语义分割（2019）：[论文] [笔记]
基于深度种子区域生长的弱监督语义分割网络（2018）：[论文] [笔记]
在图像级监督下学习像素级语义亲和力（2018）：[论文] [笔记]
利用对抗性擦除进行目标区域挖掘（2018）：[论文] [笔记]
重温空洞卷积：一种用于弱监督与半监督分割的简单方法（2018）：[论文] [笔记]
告诉我该看哪里：引导式注意力推理网络（2018）：[论文] [笔记]
使用生成对抗网络的半监督语义分割（2017）：[论文] [笔记]
用于半监督语义分割的解耦深度神经网络（2015）：[论文] [笔记]
用于语义图像分割的DCNN的弱监督与半监督学习（2015）：[论文] [笔记]

信息检索

VSE++：通过硬负样本改进视觉-语义嵌入（2018）：[论文] [笔记]

图神经网络

基于关联嵌入的像素到图转换（2017）：[论文] [笔记]
关联嵌入：用于联合检测与分组的端到端学习（2017）：[论文] [笔记]
用于学习对象、关系和物理规律的交互网络（2016）：[论文] [笔记]
DeepWalk：社交表示的在线学习（2014）：[论文] [笔记]
图神经网络模型（2009）：[论文] [笔记]

正则化

流形混合：通过插值隐藏状态获得更好的表示（2018）：[论文] [笔记]

深度学习方法与模型

AutoAugment（2018）：[论文] [笔记]
堆叠沙漏网络（2017）：[论文] [笔记]

文档分析与分割

dhSegment：一种用于文档分割的通用深度学习方法（2018）：[论文] [笔记]
利用多模态全卷积神经网络学习从文档中提取语义结构（2017）：[论文] [笔记]
利用条件随机场对历史手写文档图像进行页面分割（2016）：[论文] [笔记]
ICDAR 2015历史文档文本行检测竞赛（2015）：[论文] [笔记]
利用全卷积网络进行手写文本行分割（2017）：[论文] [笔记]
用于大词汇量手写文本识别的深度神经网络（2015）：[论文] [笔记]
利用卷积自编码器对历史文档图像进行页面分割（2015）：[论文] [笔记]

ML-paper-notes 快速上手指南

ML-paper-notes 并非一个需要编译运行的软件库，而是一个机器学习论文笔记资源集合。该仓库整理了大量关于自监督学习、半监督学习、视频理解等领域的经典论文，并提供了作者手写的精简版 PDF 笔记。

本指南旨在帮助开发者快速获取并阅读这些高质量的学习资料。

环境准备

本项目无需特定的操作系统或复杂的依赖环境，只需具备以下条件即可：

操作系统：Windows, macOS 或 Linux 均可。
必备工具：
- git：用于克隆代码仓库。
- PDF 阅读器：如 Adobe Acrobat, Chrome 浏览器，或 Linux 下的 evince/okular 等，用于查看笔记文件。
网络环境：由于原始论文链接多指向 arXiv 或 CVPR 官网，国内访问可能较慢。建议配置科学上网环境，或在下载论文时使用国内学术镜像（如 ArXiv 国内镜像站）。

安装步骤

通过 Git 将仓库克隆到本地即可“安装”完成。

1. 克隆仓库

打开终端（Terminal 或 CMD），执行以下命令：

git clone https://github.com/khanrc/ml-paper-notes.git

提示：如果 GitHub 连接缓慢，可使用国内镜像源加速：
git clone https://gitee.com/mirrors/ml-paper-notes.git
(注：若 Gitee 镜像未同步最新内容，请尝试使用 GitHub 官方地址配合加速工具)

2. 进入目录

cd ml-paper-notes

此时，所有论文笔记均已下载到本地的 notes/ 文件夹中。

基本使用

本项目的核心用法是直接阅读 notes 目录下的 PDF 文件。每个 PDF 对应一篇论文的精华总结。

1. 浏览笔记列表

你可以直接在文件管理器中打开 notes 文件夹，或者在终端中列出所有可用的笔记文件：

ls notes/

你将看到类似以下的文件名（对应 README 中的分类）：

95_big_self-supervised_models.pdf (自监督学习)
45_mixmatch.pdf (半监督学习)
SlowFast_Networks_for_Video_Recognition.pdf (视频理解)
85_CDAN.pdf (域适应)

2. 阅读特定笔记

根据你的研究兴趣，直接使用 PDF 阅读器打开对应文件。

Linux/Mac 命令行示例：

# 使用默认浏览器打开 MixMatch 的笔记
open notes/45_mixmatch.pdf 

# 或者使用 evince (Linux)
evince notes/45_mixmatch.pdf

Windows 命令行示例：

start notes\45_mixmatch.pdf

3. 对照原文阅读

每个笔记文件在 README 中都有对应的原始论文链接。建议的阅读流程是：

先阅读 notes/xxx.pdf 快速掌握论文核心思想、模型架构和实验结论。
点击 README 中对应的 [[Paper]] 链接下载或在线阅读完整论文进行深入细节研究。

主要涵盖领域速查：

Self-Supervised & Contrastive Learning: 自监督与对比学习（如 SimCLR, MoCo 相关前身研究）
Semi-Supervised Learning: 半监督学习（如 MixMatch, FixMatch, Mean Teacher）
Video Understanding: 视频理解与时序动作定位（如 SlowFast, TSM, Video Transformer）
Domain Adaptation: 域适应与泛化

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|3天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|4天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 147.9k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.1k|★★☆☆☆|昨天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|3天前

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|3天前

语言模型图像Agent