gcForest

1.3k 426 简单 1 次阅读 1周前开发框架

AI 解读由 AI 自动生成，仅供参考

gcForest 是南京大学周志华教授团队提出的“深度森林”算法的官方实现，旨在为深度学习提供一种无需依赖大量数据和复杂调参的替代方案。它通过构建多层级联的随机森林结构，自动学习数据的层次化特征表示，有效解决了传统深度学习模型在小样本数据上表现不佳、训练成本高以及超参数敏感等痛点。

该工具特别适合机器学习研究人员、数据科学家以及希望探索非神经网络深度学习路径的开发者使用。其核心亮点在于采用了类似 Scikit-Learn 的简洁 API 风格，用户仅需几行代码即可完成模型的训练与预测；同时支持灵活配置模型结构（如级联森林或多粒度扫描），并兼容随机森林、XGBoost 等多种基分类器。虽然当前仓库主要作为算法原理的演示版本（新版已迁移至 deep-forest 项目），但它依然为理解基于树的集成深度学习机制提供了宝贵的参考实现，支持 Python 3.5 及以上环境，便于学术研究与教学演示。

使用场景

某医疗科研团队正在利用患者的多维生理指标数据构建疾病早期筛查模型，试图在有限样本下获得高准确率。

没有 gcForest 时

深度神经网络（DNN）需要海量标注数据才能收敛，而医疗数据稀缺导致模型极易过拟合，泛化能力差。
调整 DNN 的层数、节点数及学习率等超参数如同“大海捞针”，耗费大量算力与时间成本。
模型内部机制如同“黑盒”，难以向医生解释判定依据，阻碍了临床信任与落地应用。
传统随机森林虽可解释性强，但在处理复杂特征交互时精度遭遇瓶颈，无法满足高精度筛查需求。

使用 gcForest 后

采用级联森林结构，仅需少量样本即可通过多层特征变换挖掘深层规律，显著提升了小数据场景下的预测精度。
基于 Scikit-Learn 风格 API，无需繁琐的梯度下降调参，通过配置 JSON 文件即可快速定义模型层级，开发效率倍增。
保留了树模型的可解释性优势，能够清晰追踪每一层级的特征贡献，让诊断逻辑对医护人员透明可见。
灵活集成 XGBoost 或随机森林作为基估计器，既继承了集成学习的鲁棒性，又突破了单一模型的性能上限。

gcForest 成功打破了深度学习对大数据的依赖，让小样本医疗数据也能发挥出媲美深度网络的决策价值。

运行环境要求

GPU

非必需
仅当选择 XGBoost 作为基分类器时支持 GPU 加速，具体显卡型号、显存及 CUDA 版本未说明

内存

未说明（文档提及若内存不足可设置 set_keep_model_in_mem(False)）

依赖

notes该仓库 (gcForest v1.1.1) 已停止维护，官方推荐使用新的 'deep-forest' 项目以获得更好的效率。当前版本主要作为算法演示。依赖库需通过 'pip install -r requirements.txt' 安装。支持随机森林、XGBoost、额外树、逻辑回归和 SGD 等基分类器。

python2.7 或 3.5 (v1.1.1 版本)

scikit-learn

xgboost (可选，用于 GPU 支持)

numpy

快速开始

更新（2021年2月1日）

注意！

本仓库将不再维护，请查看我们的新仓库，其中的 Deep Forest 在效率上有了重大改进。

详情请见：

仓库：https://github.com/LAMDA-NJU/Deep-Forest
文档：https://deep-forest.readthedocs.io/
PyPI 上的包：https://pypi.org/project/deep-forest/

您可以通过 pip 安装新版 gcForest：

pip install deep-forest

本仓库中的旧版本（gcForest v1.1.1）仅作为算法的示例使用。

gcForest v1.1.1 来了！

这是 gcForest 实现的官方克隆版。（由于学校服务器有时不稳定，我们将其官方克隆放置在 GitHub 上）

官方软件包网站：http://lamda.nju.edu.cn/code_gcForest.ashx

本软件包按“原样”提供，仅供学术用途。您可以自行承担风险运行它。如用于其他目的，请联系周志华教授（zhouzh@lamda.nju.edu.cn）。

说明：基于 [1] 提出的 gcForest 的 Python 2.7 实现。
包含 gcForest 库的演示实现以及一些演示客户端脚本，以展示如何使用该代码。
该实现足够灵活，允许您修改模型或适配自己的数据集。

参考文献：[1] Z.-H. Zhou 和 J. Feng. 深度森林：迈向深度神经网络的替代方案。
IJCAI-2017。 (https://arxiv.org/abs/1702.08835v2 )

要求：本软件包基于 Python 2.7 开发，请确保已安装 requirements.txt 中列出的所有依赖项。

注意：本软件包由冯骥先生（http://lamda.nju.edu.cn/fengj/）开发并维护。如有关于代码的问题，请随时联系冯骥先生（fengj@lamda.nju.edu.cn），或在此处提交问题。

新增功能：

类 Scikit-Learn 风格的 API
更多详细示例
如果您希望使用 XGBoost 作为基分类器，支持 GPU
支持 Python 3.5（v1.1.1）

v1.1.1 Python 3.5 兼容性：该软件包应适用于 Python 3.5。目前尚未完全测试，但看起来应该没问题。

v1.1.1 Bug 修复：当对同一模型进行多次预测时，如果使用池化层，结果将保持一致。此 bug 仅出现在 Scikit-Learn 风格的 API 中，现在新 API 也已修复。

快速入门

使用该库最简单的方式如下：

from gcforest.gcforest import GCForest
gc = GCForest(config) # config 应为字典
X_train_enc = gc.fit_transform(X_train, y_train)
y_pred = gc.predict(X_test)

就是这样。有关详细用法，请参阅 /examples/demo_mnist.py。

如需早期版本及原始论文中报告的更多模型配置，请参考：

v1.0

支持的基分类器

gcForest 内部的基分类器可以是任何分类器。本库支持以下分类器：

RandomForestClassifier
XGBClassifier
ExtraTreesClassifier
LogisticRegression
SGDClassifier

如需添加其他分类器，您可以手动从 lib/gcforest/estimators/__init__.py 中添加。

自定义模型结构

使用单个 JSON 文件定义您的模型。

如果您只需要级联森林结构，只需编写一个 JSON 文件即可。可参考 /examples/demo_mnist-ca.json。（这里的 -ca 表示级联）
如果您同时需要细粒度森林和级联森林，则还需要指定模型的细粒度结构。可参考 /examples/demo_mnist-gc.json。
然后，使用 gcforest.utils.config_utils.load_json 加载您的 JSON 文件。
```
config = load_json(your_json_file)
gc = GCForest(config) # 就这样
```
并运行 python examples/demo_mnist.py --model examples/yourmodel.json

在 Python 脚本中定义模型。

您也可以直接在 Python 脚本中定义模型结构。模型配置应为 Python 字典，可参考 /examples/demo_mnist.py 中的 get_toy_config 作为示例。

支持的 API

fit_transform(X_train,y_train)
fit_transform(X_train,y_train, X_test=X_test, y_test=y_test), 这允许您在训练过程中评估模型。
set_keep_model_in_mem(False). 如果您的内存不足，可将其设置为 False。（默认为 True）。如果您将其设置为 False，则需要使用 fit_transform(X_train,y_train, X_test=X_test, y_test=y_test) 来评估模型。
predict(X_test)
transform(X_test)

支持的数据类型

如果您仅使用级联层，X_train、X_test 的合法数据类型为：

形状为 (n_samples, n_features) 的 2D NumPy 数组。
3D 或 4D NumPy 数组也可接受。例如，传递形状为 (60000, 28, 28) 或 (60000, 3, 28, 28) 的 X_train，会自动被重塑为 (60000, 784)/(60000, 2352)。

如果您需要使用细粒度层，X_train、X_test 必须是 4D NumPy 数组

对于图像类数据，维度应为 (n_samples, n_channels, n_height, n_width)
对于序列类数据，维度应为 (n_samples, n_features, seq_len, 1)。例如，IMDB 数据的 n_features 为 1，而音乐 MFCC 数据的 n_features 则为 13。

其他

请阅读 examples/demo_mnist.py 以获取详细教程。

软件包依赖

本软件包基于 Python 2.7 开发，当前版本不建议使用更高版本的 Python。

在运行代码之前，请执行以下命令以安装依赖项： pip install -r requirements.txt

早期版本

如需早期版本，请参考：

v1.0

祝编程愉快！

gcForest 快速上手指南

重要提示：本仓库（gcForest v1.1.1）已停止维护，仅作为算法原理的参考实现。官方推荐使用新一代 Deep Forest，其在效率上有显著提升。

新版仓库：https://github.com/LAMDA-NJU/Deep-Forest

安装新版：pip install deep-forest

以下指南针对本仓库版本（gcForest v1.1.1），适用于需要复现原始论文算法或学习原理的场景。

环境准备

操作系统：Linux / macOS / Windows
Python 版本：
- 推荐：Python 2.7（原生开发环境）
- 兼容：Python 3.5（v1.1.1 版本已支持，但建议充分测试）
前置依赖：本项目依赖 numpy, scikit-learn, xgboost 等库。请确保在安装前已准备好编译环境（如 gcc/g++）。

安装步骤

克隆代码仓库或下载源码包。
进入项目目录，安装依赖包：

pip install -r requirements.txt

国内加速建议：若下载依赖较慢，可使用国内镜像源加速安装：
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

(注：若需直接使用新版 Deep Forest，请运行 pip install deep-forest)

基本使用

gcForest 提供了类似 Scikit-Learn 的 API 风格，最简单的使用流程如下：

1. 最小化代码示例

from gcforest.gcforest import GCForest

# config 是一个字典，定义模型结构（可参考 examples/demo_mnist.py 中的 get_toy_config）
config = {
    "cascade": [
        {
            "layer": 0,
            "estimators": [
                {"n_estimators": 100, "max_depth": None, "min_samples_split": 2, "n_jobs": -1},
                {"n_estimators": 100, "max_depth": None, "min_samples_split": 2, "n_jobs": -1}
            ],
            "classes": 10,
            "estimator_names": ["random_forest", "random_forest"],
            "estimator_params": [{"n_estimators": 100, "max_depth": None, "min_samples_split": 2, "n_jobs": -1}, {"n_estimators": 100, "max_depth": None, "min_samples_split": 2, "n_jobs": -1}]
        }
    ]
}

# 初始化模型
gc = GCForest(config)

# 训练并转换数据 (X_train: 特征，y_train: 标签)
X_train_enc = gc.fit_transform(X_train, y_train)

# 预测
y_pred = gc.predict(X_test)

2. 加载自定义配置文件

你也可以通过 JSON 文件定义复杂的级联森林结构（包含细粒度层和级联层）：

from gcforest.utils.config_utils import load_json
from gcforest.gcforest import GCForest

# 加载 JSON 配置文件
config = load_json("your_model_config.json")

# 初始化并运行
gc = GCForest(config)
X_train_enc = gc.fit_transform(X_train, y_train)
y_pred = gc.predict(X_test)

运行示例脚本参考：

python examples/demo_mnist.py --model examples/yourmodel.json

3. 支持的基础分类器

在配置中，gcForest 支持以下基础分类器作为节点：

RandomForestClassifier
XGBClassifier (支持 GPU 加速)
ExtraTreesClassifier
LogisticRegression
SGDClassifier

如需添加其他分类器，可手动修改 lib/gcforest/estimators/__init__.py。

常见问题

运行细粒度模型（fine-grained model）时进程被杀死，但级联模型（cascade model）正常工作，这是为什么？

遇到 'AttributeError: NoneType object has no attribute n_classes_' 错误如何解决？

如何使用 gcForest 训练自己的图片数据集（而非 MNIST 的 .npz 格式）？

运行 train_cascade.py 时报错找不到 '*.pkl' 文件（outputs.pkl）怎么办？

修改配置文件保存模型时出现错误或生成的 pkl 文件无效，如何处理？

gcForest 中的窗口滑动机制与卷积神经网络（CNN）中的池化层有什么区别？

增加每个森林中树的数量（number of trees）是否总能提升模型性能？

gcForest 只能使用随机森林作为基估计器吗？可以替换为其他模型吗？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 156k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|4天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|5天前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架