AutoDL

1.2k 217 较难 1 次阅读 1周前Apache-2.0其他Agent数据工具开发框架图像

AI 解读由 AI 自动生成，仅供参考

AutoDL 是一款致力于实现“零人工干预”的自动化深度学习开源框架。作为 NeurIPS AutoDL 挑战赛的冠军方案，它能够自动处理图像、视频、音频、文本及表格数据等多种模态，一站式解决二分类、多分类及多标签分类等复杂任务。

传统深度学习往往需要专家耗费大量精力进行数据清洗、特征工程、模型选型及超参数调优，而 AutoDL 将这些繁琐步骤完全自动化。用户只需准备好数据并启动程序，系统便会智能搜索最优网络结构与参数，最快仅需十秒即可输出高性能分类器，并实时反馈学习效果。这不仅大幅降低了技术门槛，也显著提升了研发效率。

该工具特别适合希望快速验证想法的算法研究人员、缺乏充足调参资源的开发者，以及需要处理多模态数据的企业团队。其核心亮点在于极强的通用性与自适应能力，内置了从传统机器学习模型到 ResNet、BERT 等前沿深度模型的优选库，能灵活应对数据倾斜、小样本及资源受限等现实难题。无论是构建人脸识别、情感分析系统，还是优化推荐引擎，AutoDL 都能让使用者在享受一杯咖啡的时间内，获得具备竞争力的模型成果。

使用场景

某电商初创公司的算法团队需要在一天内为新增的“用户评论情感与商品类别”多标签分类任务构建原型，以支持即将到来的促销活动。

没有 AutoDL 时

人工调参耗时极长：数据科学家需花费数天时间手动尝试 ResNet、BERT 等不同架构，并反复调整学习率等超参数，难以在截止日前完成。
多模态处理门槛高：面对包含文本评论和商品图片的混合数据，团队需分别编写复杂的预处理代码和特征工程脚本，开发成本高昂。
小样本效果难保证：由于新类目初期标注数据稀缺，传统模型极易过拟合，团队缺乏有效手段在有限数据下训练出泛化能力强的模型。
资源分配低效：工程师将 80% 的精力耗费在基础模型搭建和调试上，仅剩少量时间用于业务逻辑分析，导致整体产出比低。

使用 AutoDL 后

全自动流程秒级启动：只需导入原始数据并运行 AutoDL，系统自动完成从特征工程、模型选型（如自动匹配 TextCNN 或 GRU）到超参搜索的全过程，10 秒即可输出基准模型。
统一解决多模态难题：AutoDL 内置通用算法流，无缝处理文本与图像的混合输入，无需人工干预即可针对多标签分类任务生成最优策略。
小数据场景表现优异：凭借在 NeurIPS 竞赛中验证的冠军方案，AutoDL 能自动应对数据倾斜和小样本问题，直接输出高 AUC 值的鲁棒模型。
实时反馈加速迭代：团队可实时查看秒级刷新的学习曲线，立即将节省下的时间投入到业务规则优化和营销策略制定中。

AutoDL 将原本需要数周的多模态建模工作压缩至分钟级，让团队真正实现了“准备数据，喝杯咖啡，即可交付”的高效开发模式。

运行环境要求

操作系统

Windows
Linux

GPU

需要 NVIDIA GPU，CUDA 10.0，cuDNN 7.5 (Windows 安装指南指定 cuDNN v7.6.2.24)

内存

未说明

依赖

notesWindows 用户需额外安装 Visual C++ Build Tools；建议使用虚拟环境（如 conda）进行安装；提供与竞赛同步的 Docker 镜像（CPU/GPU 版本）；需手动下载预训练模型文件（如 speech_model.h5）至指定目录。

python3.5+

pytorch==1.3.1

tensorflow==1.15

torchvision

快速开始

English | 简体中文

GitHub All Releases GitHub closed issues GitHub release (latest by date)

AutoDL Challenge@NeurIPS 冠军方案，竞赛细节参见 AutoDL Competition。

1. AutoDL是什么？

AutoDL聚焦于自动进行任意模态（图像、视频、语音、文本、表格数据）多标签分类的通用算法，可以用一套标准算法流解决现实世界的复杂分类问题，解决调数据、特征、模型、超参等烦恼，最短10秒就可以做出性能优异的分类器。本工程在不同领域的24个离线数据集、15个线上数据集都获得了极为优异的成绩。AutoDL拥有以下特性：

☕ 全自动：全自动深度学习/机器学习框架，全流程无需人工干预。数据、特征、模型的所有细节都已调节至最佳，统一解决了资源受限、数据倾斜、小数据、特征工程、模型选型、网络结构优化、超参搜索等问题。只需要准备数据，开始AutoDL，然后喝一杯咖啡。

🌌 通用性：支持任意模态，包括图像、视频、音频、文本和结构化表格数据，支持任意多标签分类问题，包括二分类、多分类、多标签分类。它在不同领域都获得了极其优异的成绩，如行人识别、行人动作识别、人脸识别、声纹识别、音乐分类、口音分类、语言分类、情感分类、邮件分类、新闻分类、广告优化、推荐系统、搜索引擎、精准营销等等。

👍 效果出色：AutoDL竞赛获得压倒性优势的冠军方案，包含对传统机器学习模型和最新深度学习模型支持。模型库包括从LR/SVM/LGB/CGB/XGB到ResNet*/MC3/DNN/ThinResnet*/TextCNN/RCNN/GRU/BERT等优选出的冠军模型。

⚡ 极速/实时：最快只需十秒即可获得极具竞争力的模型性能。结果实时刷新（秒级），无需等待即可获得模型实时效果反馈。

2. 目录

1. AutoDL是什么？
2. 目录
3. 效果
4. AutoDL竞赛使用说明
- 4.1. 使用效果示例（横轴为对数时间轴，纵轴为AUC）
5. 安装
- 5.1. pip 安装
6. 快速上手
7. 可用数据集
- 7.1. (可选) 下载数据集
- 7.2. 公共数据集信息
8. 贡献代码
9. 加入社区
10. 开源协议

3. 效果

预赛榜单（DeepWisdom总分第一，平均排名1.2，在5个数据集中取得了4项第一）
决赛榜单（DeepWisdom总分第一，平均排名1.8，在10个数据集中取得了7项第一）

4. AutoDL竞赛使用说明

基础环境
```
python>=3.5
CUDA 10
cuDNN 7.5
```

clone仓库

cd <path_to_your_directory>
git clone https://github.com/DeepWisdom/AutoDL.git

预训练模型准备下载模型 speech_model.h5 放至 AutoDL_sample_code_submission/at_speech/pretrained_models/ 目录。

可选：使用与竞赛同步的docker环境

cd path/to/autodl/
docker run -it -v "$(pwd):/app/codalab" -p 8888:8888 evariste/autodl:cpu-latest

nvidia-docker run -it -v "$(pwd):/app/codalab" -p 8888:8888 evariste/autodl:gpu-latest

数据集准备：使用 AutoDL_sample_data 中样例数据集，或批量下载竞赛公开数据集。
进行本地测试
```
python run_local_test.py
```

本地测试完整使用。 python run_local_test.py -dataset_dir='AutoDL_sample_data/miniciao' -code_dir='AutoDL_sample_code_submission' 您可在 AutoDL_scoring_output/ 目录中查看实时学习曲线反馈的HTML页面。

细节可参考 AutoDL Challenge official starting_kit.

4.1. 使用效果示例（横轴为对数时间轴，纵轴为AUC）

可以看出，在五个不同模态的数据集下，AutoDL算法流都获得了极为出色的全时期效果，可以在极短的时间内达到极高的精度。

5. 安装

本仓库在 Python 3.6+, PyTorch 1.3.1 和 TensorFlow 1.15上测试.

你应该在虚拟环境中安装autodl。如果对虚拟环境不熟悉，请看用户指导.

用合适的Python版本创建虚拟环境，然后激活它。

5.1 windows10 安装过程

5.1.1 安装 cuda 10.0 和 cudnn v7.6.2.24

5.1.2 安装 Miniconda3-4.5.4-Windows-x86_64.exe

Miniconda3-4.5.4-Windows-x86_64.exe
百度云提取码：xb9x

5.1.3 安装 visualcppbuildtools_full.exe

visualcppbuildtools_full.exe
百度云提取码：xb9x

5.1.4 创建 `start_env.bat` 文件

将其移动到安装的 Miniconda3 同级目录下

cmd.exe "/K" .\Miniconda3\Scripts\activate.bat .\Miniconda3

5.1.5 双击 `start_env.bat` 安装 autodl-gpu

conda install pytorch==1.3.1
conda install torchvision -c pytorch
pip install autodl-gpu

5.2 Linux安装

pip install autodl-gpu

6. 快速上手

6.1. 快速上手之AutoDL本地效果测试

指导参见快速上手之AutoDL本地效果测试，样例代码参见 examples/run_local_test.py

6.2. 快速上手之图像分类

参见快速上手之图像分类，样例代码参见 examples/run_image_classification_example.py

6.3. 快速上手之视频分类

指导参见快速上手之视频分类，样例代码参见examples/run_video_classification_example.py

6.4. 快速上手之音频分类

指导参见快速上手之音频分类，样例代码参见examples/run_speech_classification_example.py

6.5. 快速上手之文本分类

指导参见快速上手之文本分类，样例代码参见examples/run_text_classification_example.py。

6.6. 快速上手之表格分类

指导参见快速上手之表格分类，样例代码参见examples/run_tabular_classification_example.py.

7. 可用数据集

7.1. (可选) 下载数据集

python download_public_datasets.py

7.2. 公共数据集信息

#	名称	类型	领域	大小	来源	数据（不含测试标签）	测试标签
1	Munster	图像	手写字符识别	18 MB	MNIST	munster.data	munster.solution
2	City	图像	物体识别	128 MB	Cifar-10	city.data	city.solution
3	Chucky	图像	物体识别	128 MB	Cifar-100	chucky.data	chucky.solution
4	Pedro	图像	人物识别	377 MB	PA-100K	pedro.data	pedro.solution
5	Decal	图像	航拍图像	73 MB	NWPU VHR-10	decal.data	decal.solution
6	Hammer	图像	医疗图像	111 MB	Ham10000	hammer.data	hammer.solution
7	Kreatur	视频	动作识别	469 MB	KTH	kreatur.data	kreatur.solution
8	Kreatur3	视频	动作识别	588 MB	KTH	kreatur3.data	kreatur3.solution
9	Kraut	视频	动作识别	1.9 GB	KTH	kraut.data	kraut.solution
10	Katze	视频	动作识别	1.9 GB	KTH	katze.data	katze.solution
11	data01	语音	发言人识别	1.8 GB	--	data01.data	data01.solution
12	data02	语音	情感识别	53 MB	--	data02.data	data02.solution
13	data03	语音	口音识别	1.8 GB	--	data03.data	data03.solution
14	data04	语音	语种识别	469 MB	--	data04.data	data04.solution
15	data05	语音	语言识别	208 MB	--	data05.data	data05.solution
16	O1	文本	评论	828 KB	--	O1.data	O1.solution
17	O2	文本	情感分析	25 MB	--	O2.data	O2.solution
18	O3	文本	新闻	88 MB	--	O3.data	O3.solution
19	O4	文本	垃圾邮件过滤	87 MB	--	O4.data	O4.solution
20	O5	文本	新闻	14 MB	--	O5.data	O5.solution
21	Adult	表格	人口普查	2 MB	Adult	adult.data	adult.solution
22	Dilbert	表格	--	162 MB	--	dilbert.data	dilbert.solution
23	Digits	表格	手写字符识别	137 MB	MNIST	digits.data	digits.solution
24	Madeline	表格	--	2.6 MB	--	madeline.data	madeline.solution

8. 贡献代码

❤️ 请毫不犹豫参加贡献 Open an issue 或提交 PRs。

9. 加入社区

10. 开源协议

Apache License 2.0

AutoDL 快速上手指南

AutoDL 是一个全自动深度学习框架，支持图像、视频、音频、文本及表格数据的多标签分类。无需人工干预特征工程或模型选型，最短 10 秒即可构建高性能分类器。

1. 环境准备

在开始之前，请确保您的系统满足以下要求：

操作系统: Linux 或 Windows 10
Python 版本: >= 3.5 (推荐 3.6+)
GPU 环境 (可选但推荐):
- CUDA 10.0
- cuDNN 7.5+
深度学习框架: 已在 PyTorch 1.3.1 和 TensorFlow 1.15 上测试通过。

注意：建议在虚拟环境（venv 或 conda）中安装以避免依赖冲突。

2. 安装步骤

方式一：Linux / macOS 直接安装

如果您已配置好 Python 环境，可直接通过 pip 安装：

pip install autodl-gpu

方式二：Windows 10 完整安装流程

Windows 用户建议按以下步骤配置环境：

安装基础依赖：
- 下载并安装 CUDA 10.0 和 cuDNN v7.6.2.24。
- 安装 Miniconda3。
- 安装 Visual C++ Build Tools。
创建并激活环境：在 Miniconda 同级目录下创建 start_env.bat 文件，内容如下：
```
cmd.exe "/K" .\Miniconda3\Scripts\activate.bat .\Miniconda3
```
双击运行该脚本激活环境。

安装 AutoDL：在激活的命令行中依次执行：

conda install pytorch==1.3.1
conda install torchvision -c pytorch
pip install autodl-gpu

方式三：使用 Docker (推荐竞赛复现)

若希望环境与 NeurIPS AutoDL 竞赛完全一致，可使用官方 Docker 镜像：

CPU 版本:

docker run -it -v "$(pwd):/app/codalab" -p 8888:8888 evariste/autodl:cpu-latest

GPU 版本:

nvidia-docker run -it -v "$(pwd):/app/codalab" -p 8888:8888 evariste/autodl:gpu-latest

3. 基本使用

AutoDL 的核心优势在于“一键自动训练”。以下以最通用的本地测试流程为例，展示如何对任意模态数据进行分类。

第一步：准备数据

您可以使用官方提供的样例数据集，或准备自己的数据文件夹。若需下载公共数据集：

python download_public_datasets.py

第二步：运行自动训练

使用 run_local_test.py 脚本启动训练。该脚本会自动识别数据模态（图像/文本/表格等），进行特征工程、模型搜索和超参优化。

python run_local_test.py -dataset_dir='AutoDL_sample_data/miniciao' -code_dir='AutoDL_sample_code_submission'

-dataset_dir: 指向包含 .data 和 .solution 文件的数据集目录。
-code_dir: 指向提交代码的目录（通常使用默认示例代码即可）。

第三步：查看结果

运行过程中，您可以在 AutoDL_scoring_output/ 目录下找到生成的 HTML 文件。打开该文件即可查看实时的学习曲线（AUC 随时间变化），无需等待训练结束即可获得性能反馈。

更多特定模态示例：针对具体任务（如纯图像分类、语音分类等），项目提供了更精简的示例脚本，可参考 examples/ 目录下的 run_image_classification_example.py 或 run_text_classification_example.py 等文件。

版本历史

v1.02020/05/01

opensource2020/04/04

常见问题

AutoDL 支持时间序列分类任务（如音乐节拍检测）吗？

如何修复图像、视频、NLP 或语音任务的预训练模型路径错误？

是否可以在不使用 Docker 的情况下运行 AutoDL？

AutoDL 是否已经发布到 PyPI，如何通过 pip 安装？

在哪里可以找到 AutoDL 的基础文档？

AutoDL 有新手教程或使用指南吗？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 158.1k|★★☆☆☆|今天

开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信

★ 144.3k|★☆☆☆☆|今天

Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|6天前