Platypus

628 56 中等 1 次阅读 1周前语言模型开发框架

AI 解读由 AI 自动生成，仅供参考

Platypus 是一套基于 LLaMA 和 LLaMA-2 架构的高效大语言模型微调方案，旨在通过低成本、快速的方式提升模型性能。它核心解决了传统大模型微调过程中资源消耗巨大、训练周期长以及数据利用效率低等痛点，让开发者无需昂贵算力即可定制专属模型。

该项目主要面向 AI 研究人员、算法工程师及希望深入探索大模型微调的开发者。Platypus 的独特技术亮点在于巧妙结合了 LoRA（低秩适应）和 PEFT（参数高效微调）技术，仅更新极少量参数即可实现显著的效果提升。项目不仅开源了完整的微调代码和数据清洗流程，还提供了经过验证的最佳超参数配置（如学习率、LoRA 秩等），并支持多 GPU 数据并行与模型并行策略，灵活适配不同规模的计算资源。此外，Platypus 社区活跃，已推出多个融合变体模型（如 OpenOrca-Platypus2），并提供了便捷的命令行工具与 FastChat 集成方案，帮助用户轻松部署本地聊天机器人或进行二次开发。无论是学术研究还是工程落地，Platypus 都为大模型的精细化打磨提供了一条务实且高效的路径。

使用场景

某初创教育科技公司希望基于开源 LLaMA-2 模型，快速构建一个能精准解答高中数学题的专属辅导助手，但面临算力有限且缺乏大规模标注数据的困境。

没有 Platypus 时

训练成本高昂：全量微调大模型需要昂贵的多卡集群，公司现有的单张或少量 GPU 资源根本无法加载模型，导致项目无法启动。
开发周期漫长：缺乏高效的参数微调方案，团队需花费数周时间调试分布式训练环境，且容易遭遇显存溢出（OOM）错误。
领域适配性差：通用模型在面对复杂的数学推导和特定解题格式时表现生硬，经常产生幻觉或逻辑断裂，无法满足教学严谨性要求。
数据利用低效：难以将分散的开源数学数据集（如 OpenOrca 等）高效整合并转化为模型可理解的高质量指令数据。

使用 Platypus 后

低成本快速落地：借助 Platypus 集成的 LoRA 技术，团队仅需少量显存即可在消费级显卡上完成 7B 或 13B 模型的微调，大幅降低硬件门槛。
流程标准化与加速：利用其提供的 finetune.py 脚本和预设超参数（如 rank=16, alpha=16），一天内即可完成从数据清洗到模型产出的全流程。
专业能力显著提升：经过特定数学语料微调后的模型，在解题步骤的逻辑连贯性和公式准确性上大幅提升，能像真人老师一样逐步推导。
灵活的数据融合：直接复用其数据精炼管道，轻松合并多个开源数据集，快速构建出高质量的领域专用训练集。

Platypus 让资源有限的团队也能以极低的成本和极快的速度，将通用大模型“变身”为垂直领域的专家助手。

运行环境要求

操作系统

Linux

GPU

必需 NVIDIA GPU
推理/评估：13B 模型需单张 A100 80GB，70B 模型需两张 A100 80GB
微调：支持多卡数据并行，若显存不足需使用模型并行（如 accelerate）

内存

未说明

依赖

notes1. 微调 LLaMA-2 7B 时必须在 HF trainer 中设置 bf16=True 且 fp16=False；单卡微调需设置 ddp_find_unused_parameters=False。2. 合并模型报错时，建议卸载并重新从源码安装最新版的 peft 和 bitsandbytes。3. 复现基准测试结果需使用特定版本的 lm-evaluation-harness (commit b281b09)。4. 项目主要针对多 GPU 环境优化，支持 torchrun 数据并行。

python3.x (通过 pip3 安装)

torch>=2.0

peft

transformers

accelerate

bitsandbytes

sentence-transformers

fastchat

快速开始

鸭嘴兽：快速、经济且强大的大语言模型微调工具（https://platypus-llm.github.io）

Platypus

鸭嘴兽模型系列是基于LLaMA和LLaMa-2 Transformer架构进行微调与合并的变体。鸭嘴兽利用了LoRA和PEFT技术。

所有模型及数据集均可通过HuggingFace获取：garage-bAInd

更新

2023年8月21日：如果您正在微调LLaMa-2 7B，请在HF训练器中添加bf16=True并将fp16=False改为True。LLaMa-1 7B则无需更改。此调整仅适用于LLaMa-2 7B。 此外，若您仅使用1张GPU，请将HF训练器中的ddp_find_unused_paramters=False改为True。我们将会更新微调脚本以自动处理这些变更。

2023年8月14日：我们已清理并优化了数据流水线，新增了数据精炼与相似度计算功能。未来几天内，我们将发布一个脚本，用于从11个开源数据集中复现我们的完整数据集。

2023年8月13日：由OpenOrca合作推出的最新模型OpenOrca-Platypus2-13B的未量化GPU聊天机器人已在Hugging Face Spaces上上线，由OpenOrca提供支持：立即聊天！

Platypus

2023年8月11日：我们的论文和项目官网已正式发布！

命令行界面

Fastchat为希望运行该模型的用户提供了一个简单的部署方案。首先通过HuggingFace下载模型，然后克隆Fastchat仓库：

git clone https://github.com/lm-sys/FastChat.git
cd FastChat

接着安装所需依赖：

pip3 install --upgrade pip  # 启用PEP 660支持
pip3 install -e .

最后运行以下命令：

python3 -m fastchat.serve.cli --model-path garage-bAInd/Platypus-30B --conv_template alpaca

本地部署

本仓库支持多GPU环境，并提供了根据计算资源选择模型并行或数据并行的代码。

安装依赖项
```
pip install -r requirements.txt
```
请务必使用精确的依赖版本，否则可能会遇到模型保存或内存不足的问题。

微调（`finetune.py`）

运行fine-tuning.sh脚本。

注意：上述脚本使用torchrun进行数据并行。由于在对.py文件进行少量修改后，理论上无需PyTorch即可完成微调，因此PyTorch并未包含在requirements.txt中。若要使用fine-tuning.sh脚本，请安装PyTorch。我们建议使用torchrun以及PyTorch 2.0及以上版本，以获得更快的速度和torch.compile的支持。如果您不安装PyTorch，或采用其他方法如accelerate launch，请务必注释掉脚本中所有与PyTorch相关的代码行。

用于微调鸭嘴兽模型的超参数如下：

超参数	13B / 70B 值
学习率	4e-4 / 3e-4
批量大小	16
微批次大小	1
热身步数	100
轮次	1
权重衰减	0.
学习率调度器	余弦
LoRA alpha	16
LoRA rank	16
LoRA dropout	0.05
LoRA目标模块	gate_proj, up_proj, down_proj
截断长度	4096
在输入上训练	False
按长度分组	False
添加EOS标记	False

使用2张GPU计算梯度累积步数的示例：= 全局批量大小 / 微批次大小 / GPU数量 = 16 / 1 / 2 = 8。

如果您的模型无法容纳在每张GPU的显存中，请使用下方的替代微调方案（或借助accelerate、FDSP等工具）来利用模型并行性。accelerate是一个不错的替代方案。

python finetune.py \
    --base_model meta-llama/Llama-2-70b-hf \
    --data-path ./final_data.json \
    --output_dir ./llama2-platypus-70b \
    --batch_size 16 \
    --micro_batch_size 1 \
    --num_epochs 1 \
    --learning_rate 0.0003 \
    --cutoff_len 4096 \
    --val_set_size 0 \
    --lora_r 16 \
    --lora_alpha 16 \
    --lora_dropout 0.05 \
    --lora_target_modules '[gate_proj, down_proj, up_proj]' \
    --train_on_inputs False \
    --add_eos_token False \
    --group_by_length False \
    --prompt_template_name alpaca \
    --lr_scheduler 'cosine' \
    --warmup_steps 100

合并

完成微调后，使用merge.sh脚本将LoRA权重合并回基础LLaMa模型（或您选择的基础模型），以便导出为HuggingFace格式。

尽管我们仍在探索更优的合并方式（敬请期待！），但目前的合并流程仍依赖于PEFT提供的基础线性合并方法。在开始微调之前，我们会尽可能地寻找可合并的基础模型及其对应的训练数据集。LoRA合并的成功与否很大程度上取决于所使用的数据质量。我们最成功的合并案例中，两个微调数据集之间的相似度极低。例如，GPlatty-30B就是Platypus-30B与gpt4-alpaca-lora-30b的合并结果。GPlatty的准确率提升了2%，而这两个LoRA模型的训练数据集相似度评分非常低。更多信息请参阅我们的论文。

注意：若在合并过程中遇到任何错误，请尝试卸载bitsandbytes和peft，然后重新安装最新版本（peft应始终从源码安装）。

数据集精炼

我们通过关键词搜索，在构成Open-Platypus的11个开源数据集中找到了STEM和逻辑相关问题。随后，为了去除重复内容，我们使用SentenceTransformers嵌入技术对问题进行了余弦相似度检查。最后，我们再次进行相似度检查，移除训练集中与测试集过于相似的问题。

与此相关的所有代码均可在本仓库的data_pipeline文件夹中找到。

复现基准评测结果

安装 LM 评估框架：

git clone https://github.com/EleutherAI/lm-evaluation-harness
cd lm-evaluation-harness
git checkout b281b0921b636bc36ad05c0b0b0763bd6dd43463 # Open LLM Leaderboard 使用的提交版本
pip install -e .

每个任务在单块 A100 80GB GPU 上对 13B 参数模型进行评估，而对于 70B 参数模型则使用两块 A100 GPU。

ARC：

python main.py --model hf-causal-experimental --model_args pretrained=garage-bAInd/Platypus-13B,use_accelerate=True --tasks arc_challenge --batch_size 2 --no_cache --write_out --output_path results/Platypus-13B/arc_challenge_25shot.json --device cuda --num_fewshot 25

HellaSwag：

python main.py --model hf-causal-experimental --model_args pretrained=garage-bAInd/Platypus-13B,use_accelerate=True --tasks hellaswag --batch_size 2 --no_cache --write_out --output_path results/Platypus-13B/hellaswag_10shot.json --device cuda --num_fewshot 10

MMLU：

python main.py --model hf-causal-experimental --model_args pretrained=garage-bAInd/Platypus-13B,use_accelerate=True --tasks hendrycksTest-* --batch_size 2 --no_cache --write_out --output_path results/Platypus-13B/mmlu_5shot.json --device cuda --num_fewshot 5

TruthfulQA：

python main.py --model hf-causal-experimental --model_args pretrained=garage-bAInd/Platypus-13B,use_accelerate=True --tasks truthfulqa_mc --batch_size 2 --no_cache --write_out --output_path results/Platypus-13B/truthfulqa_0shot.json --device cuda

适配器推理（`inference.py`）

这是一个基本的示例脚本，用于直接使用微调后的适配器和/或本地数据进行推理。当前版本从 CSV 文件中读取数据。您可以轻松修改此脚本以从 Hugging Face 拉取数据或使用 JSON 文件。请在使用此脚本之前进行必要的编辑（它假设采用 Alpaca 格式）。

BibTeX

@article{platypus2023,
    title={鸭嘴兽：快速、廉价且强大的大语言模型精调}, 
    author={艾瑞尔·N·李、科尔·J·亨特、纳塔尼尔·鲁伊斯},
    booktitle={arXiv 预印本 arxiv:2308.07317},
    year={2023}
}

Platypus 快速上手指南

Platypus 是一系列基于 LLaMA 和 LLaMA-2 架构的微调与合并模型，利用 LoRA 和 PEFT 技术实现高效、低成本的大语言模型优化。所有模型和数据集均可在 Hugging Face (garage-bAInd) 获取。

环境准备

系统要求

GPU: 推荐多 GPU 环境以支持数据并行或模型并行。
显存:
- 微调 7B/13B 模型：建议单卡或多卡总显存充足。
- 微调 70B 模型：需多卡支持模型并行，或使用 accelerate 等方案。
Python: 建议 Python 3.8+。
PyTorch: 推荐使用 PyTorch 2.0+ 以启用 torch.compile 加速（需单独安装）。

前置依赖

确保已安装 Git 和 pip。若使用国内网络，建议在 pip 命令中指定清华或阿里镜像源加速下载：

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

安装步骤

1. 克隆仓库并安装基础依赖

git clone <repository_url>
cd <repository_directory>
pip install -r requirements.txt

注：若需进行微调训练，请额外安装 PyTorch（官方文档：https://pytorch.org/get-started/locally/），推荐使用 torchrun 配合 PyTorch 2.0+。

2. (可选) 安装 FastChat 用于 CLI 推理

若希望通过命令行快速体验模型，可安装 FastChat：

git clone https://github.com/lm-sys/FastChat.git
cd FastChat
pip3 install --upgrade pip
pip3 install -e . -i https://pypi.tuna.tsinghua.edu.cn/simple

基本使用

方式一：通过 FastChat 运行推理（最简单）

下载模型后，使用以下命令启动交互式对话（以 Platypus-30B 为例）：

python3 -m fastchat.serve.cli --model-path garage-bAInd/Platypus-30B --conv_template alpaca

方式二：本地微调（Fine-tuning）

使用提供的脚本进行 LoRA 微调。以下为使用 torchrun 进行数据并行的示例（需确保已安装 PyTorch）：

./fine-tuning.sh

若显存不足无法容纳整个模型，可使用 accelerate 进行模型并行微调，示例命令如下：

python finetune.py \
    --base_model meta-llama/Llama-2-70b-hf \
    --data-path ./final_data.json \
    --output_dir ./llama2-platypus-70b \
    --batch_size 16 \
    --micro_batch_size 1 \
    --num_epochs 1 \
    --learning_rate 0.0003 \
    --cutoff_len 4096 \
    --val_set_size 0 \
    --lora_r 16 \
    --lora_alpha 16 \
    --lora_dropout 0.05 \
    --lora_target_modules '[gate_proj, down_proj, up_proj]' \
    --train_on_inputs False \
    --add_eos_token False \
    --group_by_length False \
    --prompt_template_name alpaca \
    --lr_scheduler 'cosine' \
    --warmup_steps 100

方式三：合并 LoRA 权重

微调完成后，使用 merge.sh 将 LoRA 权重合并回基座模型以便导出：

./merge.sh

注意：若合并报错，请尝试卸载并重新安装最新版的 bitsandbytes 和 peft（peft 建议从源码安装）。

常见问题

分布式模式下训练时出现 NCCL 通信超时（Timeout）错误怎么办？

微调 LLaMA-2-70B 模型时遇到显存溢出（OOM）错误如何解决？

在单张 GPU（如 A100）上运行 fine-tuning.sh 时报错 "CUDA error: invalid device ordinal" 怎么办？

微调时可以移除 Prompt 模板（templates）吗？这对最终性能有影响吗？

训练过程中评估损失（Eval loss）显示为 'nan' 是什么原因？

如何在单卡环境下正确配置微调脚本以避免分布式相关错误？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架

使用场景

没有 Platypus 时

使用 Platypus 后

运行环境要求

快速开始

鸭嘴兽：快速、经济且强大的大语言模型微调工具（https://platypus-llm.github.io）

更新

命令行界面

本地部署

微调（finetune.py）

合并

数据集精炼

复现基准评测结果

适配器推理（inference.py）

BibTeX

Platypus 快速上手指南

环境准备

系统要求

前置依赖

安装步骤

1. 克隆仓库并安装基础依赖

2. (可选) 安装 FastChat 用于 CLI 推理

基本使用

方式一：通过 FastChat 运行推理（最简单）

方式二：本地微调（Fine-tuning）

方式三：合并 LoRA 权重

常见问题

相似工具推荐

stable-diffusion-webui

everything-claude-code

ComfyUI

NextChat

ML-For-Beginners

ragflow

微调（`finetune.py`）

适配器推理（`inference.py`）