EAGLE

2.3k 269 中等 1 次阅读 3天前NOASSERTION语言模型开发框架

AI 解读由 AI 自动生成，仅供参考

EAGLE 是一套专为大型语言模型（LLM）设计的高效解码加速方案，旨在显著提升文本生成速度，同时确保输出质量与原始模型完全一致。它主要解决了传统自回归解码速度慢、其他加速方法难以兼顾效率与精度的痛点。

作为目前经第三方评测认证最快的推测性解码方法，EAGLE 通过外推模型中间层的上下文特征向量来预测后续令牌，从而大幅减少计算开销。其技术演进亮点显著：EAGLE-2 引入动态树结构调整机制，进一步优化性能；最新的 EAGLE-3 则突破性地融合了多层级语义特征，在无需特征预测约束的情况下实现了无损加速。实测数据显示，在 13B 参数模型上，EAGLE-3 的生成速度可达传统方法的 5.6 倍，且仅需消费级显卡（如 8 张 RTX 3090）即可完成训练与部署，对资源有限的团队十分友好。

此外，EAGLE 具备良好的兼容性，可无缝集成至 vLLM、DeepSpeed、FlashAttention 等主流推理框架及硬件优化方案中。这套工具非常适合 AI 研究人员、后端开发工程师以及希望降低推理成本的企业用户，帮助他们在不牺牲模型效果的前提下，实现更流畅、更低延迟的大模型应用体验。

使用场景

某初创团队正在开发一款基于 13B 参数大模型的实时智能客服系统，需要在有限的消费级显卡资源下支撑高并发对话请求。

没有 EAGLE 时

响应延迟高：采用传统自回归解码，用户提问后需等待数秒才能看到完整回复，严重影响交互体验。
硬件成本高昂：为达到可接受的并发量，被迫租用昂贵的 A100 集群，初创资金难以负荷。
部署门槛高：现有的加速方案往往需要复杂的并行策略或特定的高端硬件，小团队缺乏调优能力。
生成质量妥协：尝试过其他投机采样方法，但常出现语句不通顺或与原模型分布不一致的“幻觉”问题。

使用 EAGLE 后

速度显著提升：利用 EAGLE-3 技术，在 2 张 RTX 3090 上实现了比传统解码快 5.6 倍的生成速度，对话几乎零延迟。
低成本高性能：无需升级硬件，仅用消费级显卡即可跑出超越单卡 A100 的推理性能，大幅降低运营成本。
无损一致性：EAGLE 从数学上保证了生成文本分布与原模型完全一致，确保了客服回答的专业性和准确性。
易于集成落地：直接兼容 vLLM 等主流框架，团队在一天内即可完成训练与部署，快速上线业务。

EAGLE 让资源受限的团队也能在低成本硬件上享受极致的推理加速，同时严格守住大模型的生成质量底线。

运行环境要求

操作系统

未说明

GPU

需要 NVIDIA GPU
训练和测试环境示例为 8x RTX 3090
推理示例为 2x RTX 3090 (fp16) 或 2x RTX 3060
支持 AMD ROCm 和 AWS NeuronX
具体显存需求取决于基座模型大小（如 13B 模型需多卡或大显存），未明确最低显存阈值

内存

未说明

依赖

notes1. 该工具主要用于加速大语言模型推理（投机采样），需配合特定的基座模型（如 Vicuna, LLaMA, Qwen 等）及对应的 EAGLE 权重使用。 2. 官方推荐使用 SpecForge 进行 EAGLE-3 的开箱即用训练。 3. 当基座模型为 Qwen2 时，必须使用 bf16 精度而非 fp16 以避免数值溢出。 4. 默认主分支为 EAGLE-3 和 EAGLE-2 实现，若需使用 EAGLE-1 请切换至 v1 分支。 5. 支持与 vLLM, DeepSpeed, FlashAttention 等技术结合使用。

python未说明 (需支持 venv 及 requirements.txt 中的依赖)

torch

transformers

accelerate

vllm (可选集成)

sglang (可选集成)

快速开始

EAGLE

benchmark

EAGLE（用于提升语言模型效率的外推算法）是一种新的基准方法，能够在保证性能的前提下实现大型语言模型（LLMs）的快速解码。该方法通过外推LLMs的次顶层上下文特征向量，显著提升生成效率。

EAGLE的特点是：
- 经过第三方评估认证，目前是最快的推测性解码方法。
- 在gpt-fast上实现了2倍的速度提升。
- 比原生解码快3倍（13B）。
- 比Lookahead快2倍（13B）。
- 比Medusa快1.6倍（13B）。 - 能够在生成文本分布上证明与原生解码的一致性。 - 训练时间仅需1-2天，可在8张RTX 3090显卡上进行测试，因此即使显卡资源有限的用户也能负担得起。
- 可与其他并行化技术结合使用，如vLLM、DeepSpeed、Mamba、FlashAttention、量化以及硬件优化等。

EAGLE-2利用草稿模型的置信度分数来近似接受率，动态调整草稿树结构，从而进一步提升性能。

EAGLE-2的特点是：
- 比原生解码快4倍（13B）。
- 比EAGLE-1快1.4倍（13B）。

EAGLE-3取消了EAGLE中的特征预测约束，并在训练过程中通过训练时测试来模拟这一过程。考虑到顶层特征仅限于下一个标记的预测，EAGLE-3用低、中、高层次语义特征的融合来替代它们。EAGLE-3在确保无损性能的同时，进一步提升了生成速度。

EAGLE-3的特点是：
- 比原生解码快5.6倍（13B）。
- 比EAGLE-1快1.8倍（13B）。

demogif

推理在2张RTX 3090显卡上以fp16精度使用Vicuna 13B模型进行。

支持

EAGLE已被合并到以下主流LLM服务框架中（按字母顺序排列）。

更新

2025.9.18: EAGLE-3被NeurIPS'25接收。

2025.7.23: 我们强烈建议使用SpecForge，配合SGLang即可直接训练EAGLE-3。

2025.3.19: EAGLE-3发布。

2024.8.8: 现在支持Qwen-2。

2024.6.27: EAGLE-2发布。

2024.2.25: EAGLE经第三方评估认证为最快的推测性解码方法。

2024.1.17: 现在支持Mixtral-8x7B-Instruct。

2023.12.8: EAGLE v1.0发布。

待办事项

支持非贪婪推理（可证明保持文本分布一致）。
支持更多LLMs，例如Mixtral 8x7B。
支持LLaMA-3。
支持Qwen-2。
支持vLLM（请查看的实现）。
EAGLE-3。
EAGLE-3的训练代码。
支持LLaMA-4。
支持Qwen-3的官方EAGLE-3。
EAGLE-4。

默认主分支是EAGLE-3和EAGLE-2的实现。若要使用EAGLE-1，请切换至v1分支。

设置与安装

git clone https://github.com/SafeAILab/EAGLE.git
cd EAGLE
python -m venv ~/venvs/ea_env
source ~/venvs/ea_env/bin/activate
pip install -r requirements.txt

EAGLE-3 权重

注：本仓库仅支持官方的EAGLE-3检查点。非官方检查点的性能可能会有所不同。如果您想与EAGLE-3进行对比，请务必使用官方检查点及官方草稿树设置。

Hugging Face 上的EAGLE-3 模型

基础模型	EAGLE-3 模型	官方
Vicuna-13B v1.3 lmsys/vicuna-13b-v1.3	yuhuili/EAGLE3-Vicuna1.3-13B	是
LLaMA-3.1-8B-Instruct meta-llama/Llama-3.1-8B-Instruct	yuhuili/EAGLE3-LLaMA3.1-Instruct-8B	是
LLaMA-3.3-70B-Instruct meta-llama/Llama-3.3-70B-Instruct	yuhuili/EAGLE3-LLaMA3.3-Instruct-70B	是
DeepSeek-R1-Distill-LLaMA-8B deepseek-ai/DeepSeek-R1-Distill-Llama-8B	yuhuili/EAGLE3-DeepSeek-R1-Distill-LLaMA-8B	是
LLaMA-4-Scout-17B-16E-Instruct meta-llama/Llama-4-Scout-17B-16E-Instruct	lmsys/sglang-EAGLE3-Llama-4-Scout-17B-16E-Instruct-v1	否
LLaMA-4-Maverick-17B-128E-Instruct meta-llama/Llama-4-Maverick-17B-128E-Instruct	lmsys/sglang-EAGLE3-Llama-4-Maverick-17B-128E-Instruct-v1 nvidia/Llama-4-Maverick-17B-128E-Eagle3	否
Qwen3-1.7B Qwen/Qwen3-1.7B	AngelSlim/Qwen3-1.7B_eagle3	否
Qwen3-4B Qwen/Qwen3-4B	AngelSlim/Qwen3-4B_eagle3	否
Qwen3-8B Qwen/Qwen3-8B	Tengyunw/qwen3_8b_eagle3 AngelSlim/Qwen3-8B_eagle3 Zjcxy-SmartAI/Eagle3-Qwen3-8B-zh	否
Qwen3-14B Qwen/Qwen3-14B	AngelSlim/Qwen3-14B_eagle3	否
Qwen3-30B-A3B Qwen/Qwen3-30B-A3B	Tengyunw/qwen3_30b_moe_eagle3 AngelSlim/Qwen3-a3B_eagle3	否
Qwen3-32B Qwen/Qwen3-32B	AngelSlim/Qwen3-32B_eagle3 Zjcxy-SmartAI/Eagle3-Qwen3-32B-zh	否
Qwen3-235B-A22B Qwen/Qwen3-235B-A22B	nvidia/Qwen3-235B-A22B-Eagle3 lmsys/Qwen3-235B-A22B-EAGLE3	否
MiniCPM4-8B openbmb/MiniCPM4-8B	linglingdan/Eagle3_for_MiniCPM4	否
OLMoE-1B-7B-Instruct allenai/OLMoE-1B-7B-0125-Instruct	wantsleep/OLMoE_1B_7B_Eagle3	否
granite-3.1-1b-a400m-instruct ibm-granite/granite-3.1-1b-a400m-instruct	wantsleep/granite-3.1-1b-a400m-EAGLE3	否
GPT-OSS-120B openai/gpt-oss-120b	lmsys/EAGLE3-gpt-oss-120b-bf16 nvidia/gpt-oss-120b-Eagle3	否
GLM-4.7-Flash zai-org/GLM-4.7-Flash	thoughtworks/GLM-4.7-Flash-Eagle3	否

EAGLE 权重

注：当前代码默认使用EAGLE-3。如果您希望使用EAGLE权重，请在EaModel.from_pretrained中指定use_eagle3=False。

注：当目标模型为Qwen2时，请使用bf16精度而非fp16，以避免数值溢出。Qwen2的草稿模型训练数据集为ShareGPT，该数据集已移除非英文内容。因此，若您希望在中文等非英文数据上使用该模型，请使用相应数据进行训练。

Hugging Face 上的 EAGLE 模型

基础模型	EAGLE 模型	EAGLE 参数量	官方
Vicuna-7B v1.3	yuhuili/EAGLE-Vicuna-7B-v1.3	0.24B	是
Vicuna-13B v1.3	yuhuili/EAGLE-Vicuna-13B-v1.3	0.37B	是
Vicuna-33B v1.3	yuhuili/EAGLE-Vicuna-33B-v1.3	0.56B	是
LLaMA2-Chat 7B	yuhuili/EAGLE-llama2-chat-7B	0.24B	是
LLaMA2-Chat 13B	yuhuili/EAGLE-llama2-chat-13B	0.37B	是
LLaMA2-Chat 70B	yuhuili/EAGLE-llama2-chat-70B	0.99B	是
Mixtral-8x7B-Instruct v0.1	yuhuili/EAGLE-mixtral-instruct-8x7B	0.28B	是
LLaMA3-Instruct 8B	yuhuili/EAGLE-LLaMA3-Instruct-8B	0.25B	是
LLaMA3-Instruct 70B	yuhuili/EAGLE-LLaMA3-Instruct-70B	0.99B	是
Qwen2-7B-Instruct	yuhuili/EAGLE-Qwen2-7B-Instruct	0.26B	是
Qwen2-72B-Instruct	yuhuili/EAGLE-Qwen2-72B-Instruct	1.05B	是
LLaMA3.1-Instruct 8B	yuhuili/EAGLE-LLaMA3.1-Instruct-8B	0.25B	是
Qwen2.5-14B-Instruct	Zjcxy-SmartAI/Eagle-Qwen2.5-14B-Instruct	0.33B	否

推理

我们提供的推理代码会自动分配模型权重（将模型加载到多个 GPU 上），使您能够运行超出单个 GPU 内存限制的模型。

使用 UI

我们提供了一个建议的 Web 界面，您可以通过运行以下命令来使用。模型完全加载后，终端会输出一个 URL，您可以在浏览器中输入该 URL 进行访问。

python -m eagle.application.webui --ea-model-path [EAGLE 权重路径]\ 
		--base-model-path [原始模型路径]\
		--model-type [vicuna\llama2\llama3]\
        --total-token [int]

total-token 是草稿令牌的数量。对于较小的模型和较先进的 GPU，此值可以设置得更大。根据具体的设备和模型进行调整可以获得更好的效果。如果设置为 -1，EAGLE-2 将自动配置该参数。

使用代码

您可以使用我们提供的 "eagenerate" 来加速生成，就像使用 Hugging Face 的 'generate' 一样。以下是一个示例。

from eagle.model.ea_model import EaModel
from fastchat.model import get_conversation_template
model = EaModel.from_pretrained(
    base_model_path=base_model_path,
    ea_model_path=EAGLE_model_path,
    torch_dtype=torch.float16,
    low_cpu_mem_usage=True,
    device_map="auto",
    total_token=-1
)
model.eval()
your_message="Hello"
conv = get_conversation_template("vicuna")
conv.append_message(conv.roles[0], your_message)
conv.append_message(conv.roles[1], None)
prompt = conv.get_prompt()
input_ids=model.tokenizer([prompt]).input_ids
input_ids = torch.as_tensor(input_ids).cuda()
output_ids=model.eagenerate(input_ids,temperature=0.5,max_new_tokens=512)
output=model.tokenizer.decode(output_ids[0])

注意：Vicuna、LLaMA2-Chat 和 LLaMA3-Instruct 都是聊天模型。您需要使用正确的聊天模板，否则会导致模型输出异常并影响 EAGLE 的性能。

训练

cd eagle/traineagle3
deepspeed main.py --deepspeed_config ds_config.json

我们强烈建议使用 SpecForge 来开箱即用地使用 SGLang 训练 EAGLE-3。

自定义模型的推理

如果原始的 LLM 结构与 LLaMA 和 Mixtral 不同，您可以按照以下方式使用 EAGLE：

从 Transformers 库中复制 modeling_basemodelname.py 文件，并进行修改，以利用预分配的 kv_cache 来提升基础模型的速度。您可以参考 model/modeling_llama_kv.py 文件获取指导，其中需要修改的地方都标有 # [MODIFIED]。这些修改非常少。

评估

您可以通过以下命令在 MT-bench 上测试 EAGLE 的速度。模型会自动下载，您可能需要通过 huggingface-cli login 输入您的 Hugging Face 访问令牌。

python -m eagle.evaluation.gen_ea_answer_llama3chat --ea-model-path yuhuili/EAGLE3-LLaMA3.1-Instruct-8B --base-model-path meta-llama/Llama-3.1-8B-Instruct --use_eagle3

huggingface-cli login.

python -m eagle.evaluation.gen_ea_answer_qwen3 --ea-model-path /workspace/yunhai/Qwen3-4B_eagle3 --base-model-path Qwen/Qwen3-4B --use_eagle3

如果您需要具体的加速比，还需要运行以下命令来获取普通自回归的速度。

python -m eagle.evaluation.gen_baseline_answer_llama3chat --ea-model-path yuhuili/EAGLE3-LLaMA3.1-Instruct-8B --base-model-path meta-llama/Llama-3.1-8B-Instruct

以上两个命令会分别生成一个 .jsonl 文件，记录生成结果和实际耗时。然后，您可以使用 evaluation/speed.py 来计算速度比。

🌟 我们的贡献者

衷心感谢所有贡献者。

Contributors

参考文献

有关技术细节和完整实验结果，请参阅 EAGLE 论文、EAGLE-2 论文和 EAGLE-3 论文。

@inproceedings{li2024eagle, 
	author = {Yuhui Li and Fangyun Wei and Chao Zhang and Hongyang Zhang}, 
	title = {{EAGLE}: Speculative Sampling Requires Rethinking Feature Uncertainty}, 
	booktitle = {国际机器学习会议},
	year = {2024}
}
@inproceedings{li2024eagle2, 
	author = {Yuhui Li and Fangyun Wei and Chao Zhang and Hongyang Zhang}, 
	title = {{EAGLE-2}: Faster Inference of Language Models with Dynamic Draft Trees}, 
	booktitle = {自然语言处理中的经验方法},
	year = {2024}
}
@inproceedings{li2025eagle3,
    author = {Yuhui Li and Fangyun Wei and Chao Zhang and Hongyang Zhang},
    title = {{EAGLE-3}: Scaling up Inference Acceleration of Large Language Models via Training-Time Test}, 
    booktitle = {神经信息处理系统年度会议},
    year = {2025}
}

致谢

本项目受到了大语言模型社区中许多优秀项目的启发，例如 Medusa、FastChat 等。项目标志由 GPT-4 设计。我们还要感谢与 SGLang 团队（James Liu、Ke Bao、Yineng Zhang、Lianmin Zheng、Ying Sheng 等多位成员）、Tianle Cai、Hao Zhang、Ziteng Sun 等人的诸多宝贵讨论。

EAGLE 快速上手指南

EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency) 是一种用于大语言模型（LLM）快速解码的推测性采样技术。它通过外推 LLM 的第二顶层上下文特征向量，在保持生成文本分布一致性的前提下，显著提升推理速度。最新版本的 EAGLE-3 相比普通解码速度提升可达 5.6 倍。

环境准备

操作系统: Linux (推荐 Ubuntu 20.04+)
Python: 3.8 - 3.11
GPU: 支持 CUDA 的 NVIDIA GPU (推荐 RTX 3090 或更高，显存需满足目标模型需求)
- 注：EAGLE-3 训练可在 8x RTX 3090 上完成，推理仅需单卡或双卡。
依赖库: PyTorch, Transformers, Accelerate 等 (将通过 requirements.txt 自动安装)

安装步骤

克隆仓库

git clone https://github.com/SafeAILab/EAGLE.git
cd EAGLE

创建虚拟环境并激活

python -m venv ~/venvs/ea_env
source ~/venvs/ea_env/bin/activate

安装依赖 国内用户建议使用清华或阿里镜像源加速安装：

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

基本使用

当前主分支默认使用 EAGLE-3 实现。使用前请确保已下载对应的 EAGLE 权重模型（见下文模型列表）。

1. 获取模型权重

EAGLE 需要配合特定的“草稿模型”权重使用。你可以从 Hugging Face 下载官方支持的模型，例如针对 Vicuna-13B 的 EAGLE-3 模型：

基座模型：lmsys/vicuna-13b-v1.3
EAGLE-3 权重：yuhuili/EAGLE3-Vicuna1.3-13B

2. 代码推理示例

以下是最简单的 Python 推理脚本示例：

import torch
from eagle.model import EaModel
from transformers import AutoTokenizer

# 配置路径
base_model_path = "lmsys/vicuna-13b-v1.3"       # 原始大模型路径
eagle_model_path = "yuhuili/EAGLE3-Vicuna1.3-13B" # EAGLE 权重路径

# 加载 Tokenizer
tokenizer = AutoTokenizer.from_pretrained(base_model_path)

# 加载 EAGLE 模型
# use_eagle3=True 为默认值，若需使用旧版 EAGLE-1 请设为 False
model = EaModel.from_pretrained(
    base_model_path=base_model_path,
    eagle_model_path=eagle_model_path,
    torch_dtype=torch.float16, # Qwen2 系列建议改为 torch.bfloat16 以防溢出
    device_map="auto"
)

# 准备输入
input_text = "Once upon a time,"
inputs = tokenizer(input_text, return_tensors="pt").to(model.device)

# 执行推理
# EAGLE 会自动处理推测性解码过程
outputs = model.generate(
    **inputs,
    max_new_tokens=100,
    temperature=0.7,
    top_p=0.9,
    do_sample=True
)

# 输出结果
result = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(result)

3. 启动交互式 UI (可选)

项目自带简单的 Web UI 用于测试：

python demo.py --base-model lmsys/vicuna-13b-v1.3 --eagle-model yuhuili/EAGLE3-Vicuna1.3-13B

运行后在浏览器访问显示的本地地址即可进行对话测试。

提示：若需使用非官方支持的模型或自定义模型，请参考仓库中的 Train 章节进行微调训练。对于生产环境部署，推荐结合 vLLM 或 SGLang 框架使用，以获得更佳的并发性能。

常见问题

如何训练 EAGLE-3 模型？代码库中似乎缺少相关的训练脚本。

EAGLE-3 论文中提到的“接受率”（Acceptance Rate）具体是如何定义和计算的？

如何在项目中贡献针对多批次（Multi-batch）推理优化的代码或创建新分支？

如何使 EAGLE 支持 Qwen2 模型的推理和训练？

为什么我复现的 EAGLE-1/2 接受长度（accept_length）结果偏低（约为 2），是代码有 Bug 吗？

EAGLE-3 的训练损失函数具体发生了什么变化？是否移除了特征预测？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架

使用场景

没有 EAGLE 时

使用 EAGLE 后

运行环境要求

快速开始

EAGLE

支持

更新

待办事项

默认主分支是EAGLE-3和EAGLE-2的实现。若要使用EAGLE-1，请切换至v1分支。

目录

设置与安装

EAGLE-3 权重

Hugging Face 上的EAGLE-3 模型

EAGLE 权重

Hugging Face 上的 EAGLE 模型

推理

使用 UI

使用代码

训练

自定义模型的推理

评估

🌟 我们的贡献者

参考文献

致谢

EAGLE 快速上手指南

环境准备

安装步骤

基本使用

1. 获取模型权重

2. 代码推理示例

3. 启动交互式 UI (可选)

常见问题

相似工具推荐

stable-diffusion-webui

everything-claude-code

ComfyUI

NextChat

ML-For-Beginners

ragflow