LLaMA-Adapter

GitHub
5.9k 382 较难 1 次阅读 3天前GPL-3.0语言模型开发框架其他
AI 解读 由 AI 自动生成,仅供参考

LLaMA-Adapter 是一套高效的大语言模型微调方案,旨在让 LLaMA 系列模型快速具备指令遵循和多模态理解能力。它核心解决了传统全量微调成本高昂、耗时漫长且资源消耗巨大的痛点,仅需约 1.2M 的可训练参数和 1 小时即可完成适配,极大降低了算力门槛。

该工具非常适合希望低成本定制大模型的 AI 研究人员、开发者以及需要快速验证想法的技术团队。其独特的技术亮点在于引入了“零初始化注意力机制”(Zero-init Attention),通过在预训练模型中插入轻量级适配器层,在几乎不改变原有参数的前提下实现高性能微调。此外,LLaMA-Adapter 不仅支持文本指令微调,还扩展到了视觉 - 语言等多模态任务(如 LLaMA-Adapter V2),并能与 LangChain 等框架无缝集成。作为已被 ICLR 2024 收录的开源项目,它为社区提供了一条通往高性能大模型应用的便捷路径。

使用场景

某初创教育科技公司希望将通用的 LLaMA 大模型快速改造为能够解答高中物理题并遵循特定教学风格的专属助教。

没有 LLaMA-Adapter 时

  • 训练成本高昂:全量微调需要更新数十亿参数,必须租用昂贵的多卡 GPU 集群,单次实验成本高达数千美元。
  • 时间周期漫长:数据准备到模型收敛通常需要数天甚至数周,无法跟上课程内容的快速迭代节奏。
  • 存储压力巨大:每针对一个新学科(如化学或历史)微调一个模型,都需要保存一份完整的巨型权重文件,服务器存储空间迅速告急。
  • 灾难性遗忘风险:在注入新知识时,模型容易丢失原有的通用语言理解能力,导致回答变得生硬或逻辑混乱。

使用 LLaMA-Adapter 后

  • 极致参数高效:仅需训练约 120 万可学习参数(Zero-init Attention 机制),单张消费级显卡即可完成微调,硬件成本降低两个数量级。
  • 小时级快速交付:从数据输入到获得可用模型仅需 1 小时,团队可以在一天内完成多个学科模型的验证与部署。
  • 轻量级存储管理:只需保存微小的适配器权重文件,同一基座模型可灵活挂载多个不同学科的“插件”,极大节省存储空间。
  • 能力稳定保留:独特的零初始化注意力机制确保模型在掌握物理知识的同时,完美保留了 LLaMA 原有的流畅对话与推理底座能力。

LLaMA-Adapter 通过极致的参数效率,让中小企业也能以低成本、分钟级的速度实现大模型的垂直领域定制化落地。

运行环境要求

操作系统
  • Linux
GPU
  • 必需 NVIDIA GPU
  • 训练 LLaMA-7B 示例使用 8 卡环境 (torchrun --nproc_per_node 8),推理支持单卡
  • 具体显存需求未说明,但需容纳 LLaMA 基座模型 (7B/65B) 及 CUDA 加速环境
内存

未说明

依赖
notes1. 官方安装脚本仅针对 Linux (conda 环境)。 2. 需单独申请或下载 LLaMA 基座模型权重 (7B 或 65B)。 3. 不同版本模型 (V1, V2, Multimodal) 的具体依赖可能不同,需参考对应子目录文档。 4. 训练示例基于 Alpaca 数据集。
python3.8
pytorch
cudatoolkit
LLaMA-Adapter hero image

快速开始

LLaMA-Adapter:高效微调LLaMA 🚀

公告:我们发布了 LLaMA2-Accessory,一个用于 预训练微调部署 LLM多模态 LLM 的开源工具包。🔥

官方实现了论文 'LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention''LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model'


本仓库提出了 LLaMA-Adapter (V2),一种轻量级的适配方法,用于微调 指令跟随多模态 LLaMA 模型 🔥。

快来体验 LLaMA-Adapter 的网页演示 🤗:Hugging Face SpacesLLaMA-Adapter V2ImageBind-LLM

欢迎加入我们的 Wechat 社区!

最新消息

  • [2024.01.18] LLaMA-AdapterICLR 2024 接收!🎉
  • [2023.12.08] 我们发布了 OneLLM,该模型使用统一框架将 八种 模态对齐到语言。🔥🔥🔥
  • [2023.11.11] 我们发布了 SPHINX,一款全新的多模态 LLM,相比 LLaMa-Adapter-V2 实现了巨大飞跃。🔥🔥🔥
  • [2023.10.11] 我们发布了 LLaMA-Adapter V2.1,这是 LLaMA-Adapter V2 的改进版本,具有更强的多模态推理能力。详情请参见 llama_adapter_v2_multimodal7b
  • [2023.08.28] 我们通过 OmniQuant 发布了量化后的 LLM,这是一种高效、精准且全面覆盖(甚至极低比特)的量化算法。多模态版本即将推出。🔥🔥🔥
  • [2023.07.24] 我们发布了 LLaMA2-Accessory,一个用于 预训练微调部署 大型语言模型 (LLM) 以及 多模态 LLM 的开源工具包。更多详情请访问 Alpha-VLLM/LLaMA2-Accessory!🔥🔥🔥
  • [2023.07.05] 我们发布了 llama_adapter_v2_multimodal7b 的预训练/微调代码。
  • [2023.07.04] 我们发布了通过全量微调和 LLaMA-Adapter 复现 Gorilla 的代码,请参阅 gorilla/README.md
  • [2023.06.08] 我们发布了 ImageBind-LLM 的演示网站:[http://imagebind-llm.opengvlab.com/]。
  • [2023.06.06] 我们发布了 Point-Bind,它将 ImageBind 扩展至 3D 点云,从而为 imagebind_LLM 提供 3D 指令跟随能力。
  • [2023.06.05] 我们支持将 LLaMA-Adapter(包括 V1 和 V2)与 LangChain 集成。请查看 Notebook
  • [2023.05.29] 我们在 imagebind_LLM 中发布了 ImageBind-LLM 的代码。
  • [2023.05.23] 我们发布了 LLaMA-Adapter V2 的 演示多模态代码!
  • [2023.05.05] 我们发布了新工作 Personalize Segment Anything 的论文和代码,该方法可在 10 秒内 高效微调 Segment Anything,并改进 DreamBooth 以实现更好的 文本到图像生成
  • [2023.04.30] 我们注意到 GPT-4 的评估存在强烈的首答偏好偏差。我们将很快更新论文以揭示这一位置偏差。特别感谢 Canwen Xu
  • [2023.04.28] 我们发布了 LLaMA-Adapter V2,这是一款多模态指令模型。请参阅我们的 论文演示代码!
  • [2023.03.28] LLaMA-Adapter V1论文训练代码 已发布。📌

已发布模型

名称 方法 数据 模态 视觉 文本
LLaMA-Adapter V1 前缀、门控 Alpaca 文本 × LLaMA-7B
LLaMA-Adapter V2 对话 缩放、偏置、归一化 ShareGPT 文本 × LLaMA-65B
LLaMA-Adapter V2 多模态 [P] 前缀、投影、门控
[F] 偏置、归一化
[P] 图像-文本-V1
[F] GPT4LLM、LLaVA
图像&文本 CLIP-ViT-L/14 LLaMA-7B
LLaMA-Adapter V2.1 多模态 [P] 前缀、投影、门控
[F] 偏置、归一化、LoRA
[P] 图像-文本-V1
[F] GPT4LLM、LLaVA、VQAv2
图像&文本 CLIP-ViT-L/14 LLaMA-7B
ImageBind-LLM [P] 前缀、投影、门控
[F] 偏置、归一化、LoRA
[P] 图像-文本-V1
[F] 指令遵循
ImageBind 模态 + 点云 imagebind_huge Open-Chinese-LLaMA-7B
ImageBind-对话 [P] 前缀、投影、门控
[F] 偏置、归一化、LoRA
[P] 图像-文本-V1
[F] LLaVA、ShareGPT
ImageBind 模态 + 点云 imagebind_huge Open-Chinese-LLaMA-7B
  • [P] 表示 Pre-train(预训练),[F] 表示 Fine-tune(微调)
  • 图像-文本-V1 是 LAION400M、COYO、MMC4、SBU、Conceptual Captions 和 COCO 的拼接
  • ImageBind 模态 包括图像、视频、文本、音频、深度、热成像、IMU
  • ImageBind-对话 将于近期发布

概述

效率对比:

模型 参数量 存储空间 训练时间
Alpaca 7B 13G 3小时
LLaMA-Adapter 1.2M 4.7M 1小时

通过将适配器插入 LLaMA 的 Transformer 中,我们的方法仅引入了 1.2M 可学习参数,并在 1 小时 内将 LLaMA 转变为一个指令跟随模型。为了在训练初期稳定模型,我们提出了一种新颖的 零初始化注意力 方法,结合零门控机制,以自适应地融入指令信号。微调完成后,LLaMA-Adapter 能够生成高质量的指令跟随句子,其效果可与完全微调的 Stanford AlpacaAlpaca-Lora 相媲美。

我们的方法可以轻松扩展到 多模态输入指令。例如,针对 ScienceQA 的图像条件 LLaMA-Adapter 推理框架如下,这一框架同样适用于其他模态,如音频和视频。

设置

以下是用于 LLaMA-Adapter V1 的从头开始脚本。

conda create -n llama_adapter -y python=3.8
conda activate llama_adapter

# 安装 PyTorch
conda install pytorch cudatoolkit -c pytorch -y

# 安装依赖和 LLaMA-Adapter
pip install -r requirements.txt
pip install -e .

注意: 要设置其他模型,请参考 llama_adapter_v2_chat65bllama_adapter_v2_multimodal7bimagebind_LLM,以获取更多详细信息。

推理

请通过 此表单(官方)申请访问预训练的 LLaMA,或从 Hugging Face(非官方)下载 LLaMA-7B。然后,从 这里 获取我们 LLaMA-Adapter 的权重。我们将下载的 LLaMA 和适配器权重路径分别记为 TARGET_FOLDERADAPTER_PATH

以下是一个使用 7B LLaMA 模型和我们的 LLaMA-Adapter 生成指令跟随句子的示例:

torchrun --nproc_per_node 1 example.py \
         --ckpt_dir $TARGET_FOLDER/model_size\
         --tokenizer_path $TARGET_FOLDER/tokenizer.model \
         --adapter_path $ADAPTER_PATH

训练

我们在 这里 发布了 LLaMA-Adapter 在 LLaMA-7B 模型上的简单微调代码,便于用最少的依赖项轻松复现。我们很快还将发布 LLaMA-65B 和多模态 LLaMA-Adapter 的微调代码。

请从 Stanford Alpaca 下载包含 52,000 条指令跟随训练数据的 数据集,并将其放置在 DATA_PATH 目录下。然后运行:

cd alpaca_finetuning_v1

torchrun --nproc_per_node 8 finetuning.py \
         --model Llama7B_adapter \
         --llama_model_path $TARGET_FOLDER/ \
         --data_path $DATA_PATH/alpaca_data.json \
         --adapter_layer 30 \
         --adapter_len 10 \
         --max_seq_len 512 \
         --batch_size 4 \
         --epochs 5 \
         --warmup_epochs 2 \
         --blr 9e-3 \
         --weight_decay 0.02 \
         --output_dir ./checkpoint/

与其他方法的比较

指令 1:

我该如何培养自己的批判性思维能力?请给出三条建议。

  • LLaMA-Adapter V2:
  1. 广泛阅读:阅读书籍、文章及其他信息来源,有助于提升你的批判性思维能力。通过接触不同的观点和想法,你可以更有效地分析和评估信息。

  2. 练习正念:正念是指活在当下,关注自己的思想和感受。通过更加觉察自己的思想和情绪,你可以更好地理解并评估它们,从而形成更为客观和理性的思维方式。

  3. 参与开放式的讨论:加入讨论小组或辩论俱乐部,与其他成员进行开放式的交流。这可以帮助你挑战自身的假设,鼓励你从不同角度思考问题,进而提升批判性思维能力。

  • LLaMA-Adapter V1:
  1. 广泛且批判性地阅读。
  2. 与持有不同观点的人展开讨论。
  3. 提出问题并寻求答案。

指令 2:

作为一名超级英雄,你会如何向一个好奇的孩子解释你的起源故事呢?

  • LLaMA-Adapter V2:

作为一名超级英雄,我有一个非常有趣又激动人心的起源故事要跟你分享。从前,有个叫约翰的小男孩,他住在一座小镇上。约翰总是充满好奇心,也渴望帮助他人,因此他每天都会探索周围的世界,了解不同的文化和人群。有一天,他在外出探险时偶然发现了一处神秘的山洞。在山洞里,约翰找到了一件神奇的装置,它赋予了他超凡的能力。有了这些能力,约翰可以飞翔、用眼睛发射激光,甚至让自己隐形。

约翰明白自己必须善用这些力量,于是他决定成为一名超级英雄,用自己的能力保护小镇和镇上的居民。从此,他每天刻苦训练,学习如何运用自己的超能力,以及如何对抗邪恶势力。最终,约翰成为了人们口中的“隐形侠”,他利用自己的超能力帮助他人,让世界变得更加美好。

这就是我的起源故事,我相信你一定会喜欢的!

  • LLaMA-Adapter V1:

从前,有一位拥有特殊能力的少年。他用这种能力去帮助有需要的人,保护无辜者。后来,他被大家称为超级英雄,用他的超能力与邪恶作斗争,守护着这个世界。

指令 3:

请介绍一下羊驼。

  • LLaMA-Adapter:羊驼属于骆驼科动物,原产于南美洲的安第斯山脉。它们通常以10至20只的群体生活,性格温顺,适应性强,能在恶劣的气候条件下生存。羊驼的毛色多为白色或灰色,拥有一身长而柔滑的皮毛。此外,羊驼还以其高品质的羊毛闻名,这种羊毛常被用于制作服装和其他产品。
其他方法
  • Alpaca-LoRA:羊驼是骆驼科的一员,原产于南美洲的安第斯山脉。它们以柔软奢华的羊驼毛著称,这种毛被用来制作衣服、毯子等物品。羊驼是草食动物,以草和其他植物为食。它们群居,通常以不超过20只的群体生活。

  • 斯坦福羊驼:羊驼是一种小型、毛茸茸的动物,与骆驼和美洲驼同属一类。它们原产于秘鲁和玻利维亚,大约在5000年前就被驯化。人们饲养羊驼主要是为了获取其细软的羊驼毛,用于制作针织品和其他服饰。羊驼是群居动物,通常以小家庭为单位生活,由一只年长的雄性领导。它们非常善于社交,能与主人建立深厚的感情。

  • text-davinci-003:羊驼是南美洲的一种家养骆驼科动物,与美洲驼相似。它们原产于南美洲的安第斯山脉,作为牲畜饲养,主要取其柔软奢华的羊驼毛。羊驼是群居动物,通常以不超过20只的群体生活。它们一般以2到5只为一群,饲养起来相对容易。羊驼是草食动物,以草、干草和其他植被为食。它们性格温和友善,因此也很适合作为宠物。


指令 4:

请介绍一下2019年墨西哥的总统。

  • LLaMA-Adapter:2019年墨西哥的总统是安德烈斯·曼努埃尔·洛佩斯·奥夫拉多尔,他于2018年12月1日就任。他是左翼政党莫雷纳党的一员,以民粹主义政策著称。他致力于打击腐败、减少贫困,并改善国家的基础设施建设。同时,他也一直公开批评美国的移民政策。
其他方法
  • Alpaca-LoRA:2019年墨西哥的总统是安德烈斯·曼努埃尔·洛佩斯·奥夫拉多尔,他于2018年12月1日就任。他是国家复兴运动(MORENA)政党的成员,也是自1946年以来首位来自左翼的墨西哥总统。他以反腐败和反新自由主义政策闻名,同时也致力于改善墨西哥人民的生活状况。

  • 斯坦福羊驼:2019年,安德烈斯·曼努埃尔·洛佩斯·奥夫拉多尔宣誓就任墨西哥总统。他是该国第58任总统,也是首位来自左翼政党莫雷纳的总统。他在2018年以打击腐败、减少贫困为竞选承诺当选,但随后因处理经济、犯罪问题以及与美国关系的方式而受到批评。他以雄心勃勃的社会福利计划著称,曾提高最低工资并向低收入家庭提供援助,因此备受赞誉。他被视为墨西哥民主与人权的捍卫者。

  • text-davinci-003:2019年墨西哥的总统是安德烈斯·曼努埃尔·洛佩斯·奥夫拉多尔,简称AMLO。他是一位墨西哥政治家,自2018年12月1日起担任墨西哥总统。他是国家复兴运动(MORENA)党的一员,此前曾在2000年至2005年间担任墨西哥城政府首长。他是一位左翼民粹主义者,曾承诺减少墨西哥的腐败和不平等现象。他还表示将增加对社会项目和基础设施建设的公共支出。


指令 5:

编写一个 Python 程序,打印前 10 个斐波那契数。

  • LLaMA-Adapter:
def fibonacci():
    a = 0
    b = 1
    for i in range(10):
        a, b = b, a + b
        print(a, b)
    print("斐波那契数: ", a, b)

fibonacci()
其他方法
  • Alpaca-LoRA
def fibonacci(n):
    if n == 0:
        return 0
    elif n == 1:
        return 1
    else:
        return fibonacci(n-1) + fibonacci(n-2)

print(fibonacci(10))
  • 斯坦福 Alpaca
numbers = [0, 1]

for i in range(2, 11):
    numbers.append(numbers[i-2] + numbers[i-1])

print(numbers)
# 输出:[0, 1, 1, 2, 3, 5, 8, 13, 21, 34]
  • text-davinci-003
# 斐波那契数列是如下整数序列中的数字,称为斐波那契数列,其特点是每个数都等于前两个数之和。

# 斐波那契数列:0, 1, 1, 2, 3, 5, 8, 13, 21, 34, ...

# 程序:

# 初始化斐波那契数列的前两个数字
a = 0
b = 1

# 打印斐波那契数列的前 10 个数字
print(a)
print(b)

for i in range(2,10):
    c = a + b
    a = b
    b = c
    print(c)

指令 6:

编写一个程序,打印从 1 到 100 的数字。但对于 3 的倍数,打印“Fizz”代替该数字;对于 5 的倍数,打印“Buzz”代替该数字。对于既是 3 的倍数又是 5 的倍数的数字,打印“FizzBuzz”。

  • LLaMA-Adapter
def print_numbers(n):
    for i in range(1, 101):
        if i % 3 == 0 and i % 5 == 0:
            print("FizzBuzz")
        elif i % 3 == 0:
            print("Fizz")
        elif i % 5 == 0:
            print("Buzz")
        else:
            print(i)
其他方法
  • Alpaca-LoRA
for i in range(1, 101):
    if i % 3 == 0 and i % 5 == 0:
        print("FizzBuzz")
    elif i % 3 == 0:
        print("Fizz")
    elif i % 5 == 0:
        print("Buzz")
    else:
        print(i)
  • 斯坦福 Alpaca
for i in range(1, 101):
    if i % 3 == 0 and i % 5 == 0:
        print('FizzBuzz')
    elif i % 3 == 0:
        print('Fizz')
    elif i % 5 == 0:
        print('Buzz')
    else:
        print(i)
  • text-davinci-003
for (let i = 1; i <= 100; i++) {
  if (i % 3 === 0 && i % 5 === 0) {
    console.log("FizzBuzz");
  } else if (i % 3 === 0) {
    console.log("Fizz");
  } else if (i % 5 === 0) {
    console.log("Buzz");
  } else {
    console.log(i);
  }
}

贡献者

高鹏, 韩嘉明, 张仁瑞, 周傲俊

招聘公告

🔥 我们正在招聘 实习生、博士后和全职研究员,加入 上海人工智能实验室通用视觉组,研究方向为多模态和视觉基础模型。如有兴趣,请联系 gaopengcuhk@gmail.com

引用

如果您觉得我们的 LLaMA-Adapter 代码和论文有用,请引用以下内容:

@article{zhang2023llamaadapter,
  title = {LLaMA-Adapter: 使用零初始化注意力高效微调语言模型},
  author={Zhang, Renrui and Han, Jiaming and Liu, Chris and Gao, Peng and Zhou, Aojun and Hu, Xiangfei and Yan, Shilin and Lu, Pan and Li, Hongsheng and Qiao, Yu},
  journal={arXiv 预印本 arXiv:2303.16199},
  year={2023}
}

如果您觉得我们的 LLaMA-Adapter V2 代码和论文有用,请引用以下内容:

@article{gao2023llamaadapterv2,
  title = {LLaMA-Adapter V2:参数高效的视觉指令模型},
  author={Gao, Peng and Han, Jiaming and Zhang, Renrui and Lin, Ziyi and Geng, Shijie and Zhou, Aojun and Zhang, Wei and Lu, Pan and He, Conghui and Yue, Xiangyu and Li, Hongsheng and Qiao, Yu},
  journal={arXiv 预印本 arXiv:2304.15010},
  year={2023}
}

致谢

本仓库受益于 LLaMA斯坦福 AlpacaAlpaca-Lora。感谢他们的杰出工作。

版本历史

v.2.1.02023/10/12
v.2.0.02023/05/25
v.1.0.02023/03/19

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|1周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

152.6k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|3天前
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|3天前
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|6天前
插件开发框架