Llama-X

1.6k 103 较难 1 次阅读 1个月前Apache-2.0语言模型开发框架其他

AI 解读由 AI 自动生成，仅供参考

Llama-X 是一个开放的学术研究项目，旨在通过社区协作，系统性地将 LLaMA 大语言模型逐步优化至行业最先进水平（SOTA）。该项目致力于解决开源社区在模型改进过程中存在的重复劳动问题，通过长期、严谨的迭代研发，加速技术突破。

Llama-X 特别适合 AI 研究人员、开发者以及对大模型底层技术感兴趣的技术爱好者使用。其核心亮点在于极致的开放性：项目承诺公开所有代码、模型权重、训练数据及实验细节，并将每个主要版本的研究方法总结为学术论文。此外，新模型的发布必须经过严格的自动评估，确保性能有显著提升。

目前，Llama-X 规划了十大核心研究方向，涵盖指令微调、人类反馈强化学习（RLHF）、长上下文处理、多模态能力、多语言支持以及模型可解释性等前沿领域。项目已发布首个版本 Llama-X 3.0.1（7B 参数），并制定了清晰的演进路线图，目标是从对标 GPT-3 起步，逐步缩小与 GPT-4 等顶尖模型的性能差距。加入 Llama-X，意味着参与到一场透明、高效且充满活力的开源大模型进化之旅中。

使用场景

某高校自然语言处理实验室正致力于研发一款支持长文档分析与多语言交互的开源大模型，以服务于跨学科科研项目。

没有 Llama-X 时

研究团队需从零复现基础训练流程，大量时间耗费在重复搭建基础设施和调试代码上，难以聚焦核心算法创新。
缺乏系统性的长上下文（>30k）优化方案，模型在处理长篇学术论文或法律文档时经常出现信息丢失或逻辑断裂。
多语言能力薄弱，非英语语料的微调效果远不如英文，限制了模型在国际合作课题中的实际应用范围。
版本迭代缺乏统一标准，社区贡献分散且难以验证，导致实验结果不可复现，阻碍了学术成果的严谨发表。

使用 Llama-X 后

直接复用 Llama-X 公开的高效训练栈与完整代码库，团队将研发周期缩短 60%，迅速将精力投入到指令微调与可解释性研究中。
基于 Llama-X 在长上下文 Transformer 领域的最新成果，模型成功实现了对百页级技术文档的精准摘要与问答，关键信息召回率显著提升。
利用 Llama-X 预置的多语言优化策略，模型在中文、西班牙语等语料上的表现逼近英文水平，顺利支撑起跨国联合研究项目。
遵循 Llama-X 严格的版本演进与自动评估机制，团队每次迭代均有量化指标支撑，研究成果得以快速整理为高质量学术论文并开源共享。

Llama-X 通过提供系统化、可复现的开源研究基座，让学术团队从重复造轮子中解放出来，加速了从基础模型到领域专用 SOTA 模型的演进过程。

运行环境要求

操作系统

Linux

GPU

必需 NVIDIA GPU
示例显示使用 8x V100 (32GB 显存) 进行训练
支持 CUDA 11.3 (通过 cudatoolkit=11.3 指定)

内存

未说明 (建议根据模型规模配置，7B 模型多卡训练通常需要大量系统内存)

依赖

notes1. 项目明确基于 LLaMA 架构，需先拥有 LLaMA 官方权重并转换为 HuggingFace 格式方可运行。 2. 训练示例使用了 DeepSpeed Zero-3 优化技术。 3. 代码支持全量微调 (Fully Finetune)，而非仅 LoRA。 4. 声明仅限学术研究使用，禁止商业用途。 5. README 中的安装命令主要针对 Linux 环境 (conda/cudatoolkit)。

python3.10

pytorch==1.12.0

torchvision==0.13.0

torchaudio==0.12.0

cudatoolkit==11.3

transformers==4.31.0

deepspeed

tensorboard

快速开始

Llama-X：提升LLaMA至SOTA大模型的开放学术研究

这是Llama-X项目的仓库，其目标是：

与开源社区共同逐步提升LLaMA的性能，使其达到SOTA大模型水平。
将Llama-X作为一项长期、系统化且严谨的开放学术研究开展。
避免社区重复性工作，携手合作，更快、更多地实现模型迭代与进步。

本项目将遵循以下原则：

我们将公开所有代码、模型、数据以及实验的详细信息。
我们将持续地逐版本改进模型，并发布最新的方法。
每个主要版本的方法都将总结为学术论文。
我们公布了完整的研究计划。欢迎各位贡献者相互协作，通过迭代目标版本来逐步完善Llama-X。
新模型的提交必须在自动评估中较当前版本取得显著提升。

📣 如果您对Llama-X感兴趣，请加入！

新闻

我们已完成首个模型版本（Llama-X 3.0.1 7B）的训练。请在演示页面体验我们的模型，后续将在此仓库中更新不同规模的数据、代码和模型权重。

十大研究方向

[1]. 指令微调 研究

指令遵循微调

[2]. RLHF & RLAIF 研究

基础 RLHF
AI 从 AI 学习

[3]. 数据质量 研究

用于预训练、微调、用户反馈、多模态等的高质量数据

[4]. 长上下文 Transformer 研究

实现高效处理长序列（>3万 token）的 Transformer

[5]. 多模态（文本 + 图像）建模 研究

文本 + 图像输入，文本输出

[6]. 多语言 研究

多语言性能与英语相当

[7]. 高效基础设施与优化 研究

提升训练与推理速度
构建可预测扩展的深度学习栈

[8]. 评估 研究

对模型能力进行全面评估

[9]. 可解释性 研究

解释 LLM 各项能力的来源

[10]. LLM 在行动 研究

将 LLM 与搜索、推荐及其他插件结合

Llama-X 模型版本

Llama-X	基线	性能
3.0.0 (LLaMA)	GPT-3	超越
3.1.0	text-davinci-001	相当
3.2.0	text-davinci-002	相当
3.3.0	text-davinci-003	相当
3.5.0	gpt-35-turbo	相当
3.6.0	GPT-4	平均差距 80%
3.7.0	GPT-4	平均差距 60%
3.8.0	GPT-4	平均差距 40%
3.9.0	GPT-4	平均差距 20%
4.0.0	GPT-4	相当

我们目前专注于上述研究方向 [1] 和 [3]，并将发布首个模型版本（Llama-X 3.0.1）及论文。

Llama-X 评估

Llama-X 的每个新版本在以下所有 A 类基准的自动评估中，都应显著优于当前版本（>+1%）。此外，B 类基准的额外评估将在 3.6.0 及更高版本中加入：

类别	基准
A	MMLU
A	HumanEval
A	GSM-8K
A	NaturalQuestions
A	TruthfulQA
B	Leetcode
B	GRE
B	AP
B	MMLU-多语言
B	视觉输入（待定）

结果如下：

模型	MMLU	TruthfulQA	GSM-8K	NaturalQuestions
InstructGPT davinci v2 (175B)^	0.57	0.62	0.35	0.389
Llama-X 3.0.1 (7B)	0.4412	0.2032	0.1887	0.2422
Llama-i (7B)	0.5121	0.2142	0.2259	0.3499

^ InstructGPT davinci v2 (175B) 的结果摘自斯坦福 CRFM 基准测试。

Llama-X 论文列表

LLaMA：开放且高效的基座语言模型。

使用方法

环境搭建。安装 Conda 环境：

conda create -n llamax python=3.10
conda activate llamax
git clone https://github.com/AetherCortex/Llama-X.git
cd Llama-X/src
conda install pytorch==1.12.0 torchvision==0.13.0 torchaudio==0.12.0 cudatoolkit=11.3 -c pytorch
pip install transformers==4.31.0
cd ../..
pip install -r requirements.txt

训练数据示例（例如，Stanford Alpaca)：

Llama-X/src/data/alpaca_data.json

将 LLaMA 检查点转换为 HuggingFace 格式：

cd Llama-X/src
python transformers/src/transformers/models/llama/convert_llama_weights_to_hf.py \
    --input_dir /path/to/llama-7B/ \
    --model_size 7B \
    --output_dir /path/to/llama-7B/hf

使用 DeepSpeed Zero-3 训练 LLaMA-7B：

deepspeed train.py \
    --model_name_or_path /path/to/llama-7B/hf \
    --data_path /path/to/example_data.json \
    --output_dir /path/to/llama-7B/hf/ft \
    --num_train_epochs 3 \
    --model_max_length 512 \
    --per_device_train_batch_size 64 \
    --per_device_eval_batch_size 1 \
    --gradient_accumulation_steps 1 \
    --evaluation_strategy "no" \
    --save_strategy "steps" \
    --save_steps 100 \
    --save_total_limit 2 \
    --learning_rate 2e-5 \
    --warmup_steps 2 \
    --logging_steps 2 \
    --lr_scheduler_type "cosine" \
    --report_to "tensorboard" \
    --gradient_checkpointing True \
    --deepspeed configs/deepspeed_config.json \
    --fp16 True

使用 DeepSpeed Zero-3 进行多节点训练：

deepspeed --num_gpus num_of_gpus_in_each_node \
    --num_nodes num_of_nodes \
    --master_addr ip_address_of_main_node \
    --master_port 34545 \
    --hostfile configs/hostfile \
    train.py \
    --model_name_or_path /path/to/llama-7B/hf \
    --data_path /path/to/example_data.json \
    --output_dir /path/to/llama-7B/hf/ft \
    --num_train_epochs 3 \
    --model_max_length 512 \
    --per_device_train_batch_size 64 \
    --per_device_eval_batch_size 4 \
    --gradient_accumulation_steps 1 \
    --evaluation_strategy "no" \
    --save_strategy "steps" \
    --save_steps 100 \
    --save_total_limit 2 \
    --learning_rate 2e-5 \
    --warmup_steps 2 \
    --logging_steps 2 \
    --lr_scheduler_type "cosine" \
    --report_to "tensorboard" \
    --gradient_checkpointing True \
    --deepspeed configs/deepspeed_config.json \
    --fp16 True

当前 Llama-X 代码支持：
- 完全微调：优化完整的 LLaMA 检查点，而非采用“低秩适应（LoRA）”。
- 高效性：在 8 张 V100 GPU 上，以“5万条样本/epoch”和“batch size=64”的配置，可在 1 小时内完成 7B 模型的训练。

LLaMA	Batch Size	V100s	时间（小时）
7 B	64	8	1.00
13 B	32	8	2.00

推理


# 网页演示推理
python generate.py

# 批量推理
待办事项

如何贡献

开发者可以通过贡献有用的代码、数据、论文和计算资源等方式成为贡献者。

代码：包括算法实现、训练优化、推理优化以及模型部署等。
数据：每个研究领域和版本迭代都需要高质量的数据，包括指令-回答对、预训练数据、多模态数据、多语言数据以及用户反馈数据等。
论文：我们将维护一个Llama-X论文列表，并以Llama-X为基础模型，用于优化、全面测试并显著改进的学术论文。您可以查看Llama X论文列表。
计算资源：我们希望通过协调部分开发者的冗余算力或高校/企业的非营利性赞助，来帮助加快模型迭代速度。

如何与我们沟通

Github Issues
邮箱：llama-x@mail.com
Discord：

感谢

本项目受到了多个开源项目的启发：

Meta AI LLaMA

Huggingface Transformers Llama

Alpaca 和 Alpaca-LoRA

免责声明

本项目相关的资源（例如代码、数据和模型权重）仅限于学术研究用途，禁止用于商业目的。Llama-X 的任何模型生成的内容都受到随机性和不可控因素的影响，本项目无法保证其准确性。本项目不对模型输出的内容承担任何法律责任，也不对因使用相关资源及输出结果而可能产生的任何损失承担责任。

Llama-X 快速上手指南

Llama-X 是一个旨在通过开源社区协作，系统性地将 LLaMA 模型性能提升至 SOTA（最先进）水平的学术研究项目。本项目公开代码、模型、数据及实验细节，支持全量微调（Full Finetune）。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux (推荐 Ubuntu)
Python 版本: 3.10
GPU: 支持 CUDA 的 NVIDIA GPU (官方示例基于 8x V100，单卡也可运行但需调整 batch size)
前置依赖:
- Conda (用于管理虚拟环境)
- Git
- CUDA Toolkit 11.3+

注意：本项目目前主要面向学术研究，商业使用受限。

安装步骤

请按照以下步骤配置环境并安装依赖。为了获得更稳定的下载体验，国内用户可配置 pip 和 conda 的国内镜像源。

1. 创建并激活 Conda 环境

conda create -n llamax python=3.10
conda activate llamax

2. 克隆项目代码

git clone https://github.com/AetherCortex/Llama-X.git
cd Llama-X/src

3. 安装 PyTorch 及相关组件

根据官方要求安装特定版本的 PyTorch (CUDA 11.3)。 国内用户建议使用清华或阿里镜像加速下载：

# 使用默认源
conda install pytorch==1.12.0 torchvision==0.13.0 torchaudio==0.12.0 cudatoolkit=11.3 -c pytorch

# 若下载缓慢，推荐使用清华镜像源：
# conda install pytorch==1.12.0 torchvision==0.13.0 torchaudio==0.12.0 cudatoolkit=11.3 -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/

4. 安装 Transformers 及其他依赖

pip install transformers==4.31.0
cd ../..
# 建议配置 pip 国内镜像 (如阿里云)
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/

基本使用

1. 准备模型权重

Llama-X 基于 LLaMA 架构，您需要先拥有原始的 LLaMA 权重文件，并将其转换为 HuggingFace 格式。

假设您已将 LLaMA 原始权重下载至 /path/to/llama-7B/，执行以下转换命令：

cd Llama-X/src
python transformers/src/transformers/models/llama/convert_llama_weights_to_hf.py \
    --input_dir /path/to/llama-7B/ \
    --model_size 7B \
    --output_dir /path/to/llama-7B/hf

2. 数据准备

准备您的训练数据，格式需兼容 Alpaca 格式（JSON）。示例数据路径参考： Llama-X/src/data/alpaca_data.json

3. 开始训练 (单节点)

使用 DeepSpeed Zero-3 进行全量微调。以下是在 8 张 GPU 上训练 7B 模型的示例命令：

deepspeed train.py \
    --model_name_or_path /path/to/llama-7B/hf \
    --data_path /path/to/example_data.json \
    --output_dir /path/to/llama-7B/hf/ft \
    --num_train_epochs 3 \
    --model_max_length 512 \
    --per_device_train_batch_size 64 \
    --per_device_eval_batch_size 1 \
    --gradient_accumulation_steps 1 \
    --evaluation_strategy "no" \
    --save_strategy "steps" \
    --save_steps 100 \
    --save_total_limit 2 \
    --learning_rate 2e-5 \
    --warmup_steps 2 \
    --logging_steps 2 \
    --lr_scheduler_type "cosine" \
    --report_to "tensorboard" \
    --gradient_checkpointing True \
    --deepspeed configs/deepspeed_config.json \
    --fp16 True

性能提示：在 8x V100 GPU 环境下，使用 batch_size=64 处理 50k 条数据/epoch 约需 1 小时。若显存不足，请适当减小 per_device_train_batch_size 并调整 gradient_accumulation_steps。

4. 模型推理

训练完成后，可通过以下命令启动 Web Demo 进行交互式测试：

python generate.py

注：批量推理（Batch Inference）功能目前正在开发中 (To Do)。

常见问题

为什么在相同翻译数据上微调，LLaMA-7B 效果好而 LLaMA-13B 效果差？

如何让 LLaMA 具备像 GPT-4 那样的视觉理解能力？

为什么在显存足以加载模型参数的情况下，配置中仍然使用 CPU 进行参数卸载（offload_param）？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|3天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|4天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 147.9k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.1k|★★☆☆☆|昨天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|3天前

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|3天前

语言模型图像Agent

使用场景

没有 Llama-X 时

使用 Llama-X 后

运行环境要求

快速开始

Llama-X：提升LLaMA至SOTA大模型的开放学术研究

目录

新闻

十大研究方向

Llama-X 模型版本

Llama-X 评估

Llama-X 论文列表

使用方法

如何贡献

如何与我们沟通

感谢

免责声明

Llama-X 快速上手指南

环境准备

安装步骤

1. 创建并激活 Conda 环境

2. 克隆项目代码

3. 安装 PyTorch 及相关组件

4. 安装 Transformers 及其他依赖

基本使用

1. 准备模型权重

2. 数据准备

3. 开始训练 (单节点)

4. 模型推理

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

markitdown

LLMs-from-scratch