DataArc-SynData-Toolkit

1.6k 40 简单 1 次阅读 3天前语言模型开发框架数据工具

AI 解读由 AI 自动生成，仅供参考

DataArc-SynData-Toolkit 是一款由 DataArcTech 与国际数字经济学院联合开源的合成数据生成平台，旨在帮助开发者高效构建大语言模型（LLM）所需的定制化训练数据。面对高质量训练数据稀缺、获取成本高以及多语言支持不足的痛点，该工具通过简单的配置文件或图形界面（GUI），让用户无需编写复杂代码即可一键生成数据。

它特别适合 AI 研究人员、算法工程师及希望优化模型性能的开发者使用。其核心亮点在于强大的灵活性与模块化设计：不仅支持基于本地语料、自动抓取 Huggingface 数据集以及模型蒸馏等多种数据源，还内置了从数据合成到后训练（支持 SFT 和 GRPO）、再到模型评估（集成 DeepEval）的端到端工作流。此外，它具备出色的多语言能力，涵盖英语及多种低资源语言，并兼容本地部署与 OpenAI 等多种模型提供商。

实测数据显示，使用该工具生成的合成数据进行训练，可使模型在医疗、金融和法律等垂直领域的性能提升超过 20%。配合并行处理与断点续跑功能，DataArc-SynData-Toolkit 大幅降低了数据准备的技术门槛与时间成本，是加速大模型落地应用的得力助手。

使用场景

某医疗科技公司的算法团队正急需构建一个专病领域的诊断大模型，但面临高质量标注数据极度匮乏的困境。

没有 DataArc-SynData-Toolkit 时

数据获取成本高昂：依赖人工整理病历或购买昂贵数据集，耗时数月且难以覆盖罕见病例，导致项目启动严重滞后。
多语言支持困难：面对低资源语种的医疗文献，缺乏有效的自动化合成手段，只能放弃多语言模型的训练计划。
流程割裂效率低：数据生成、模型微调（SFT）与评估需切换不同工具链，配置复杂且容易出错，迭代周期长达数周。
容错机制缺失：长流程任务一旦中途失败，必须从头重新运行，浪费大量算力资源和时间。

使用 DataArc-SynData-Toolkit 后

一键生成高质量数据：通过简单配置文件，利用本地语料或 Huggingface 源自动合成定制化医疗数据，将数据准备时间从数月缩短至几天。
无缝拓展多语言场景：直接调用其多语言支持能力，轻松生成包含低资源语种的训练集，快速实现全球化模型部署。
端到端流水线加速：内置基于 verl 的微调模块和 DeepEval 评估组件，实现从数据合成到模型验证的一站式闭环，迭代效率提升数倍。
断点续跑保障稳定：借助中间结果保存功能，任务中断后可直接从上一成功阶段恢复，大幅降低试错成本并节省算力。

DataArc-SynData-Toolkit 通过模块化设计与端到端自动化，让团队仅用几行配置即可将模型在医疗领域的表现提升超过 20%，真正实现了低成本、高效率的垂直领域大模型落地。

运行环境要求

操作系统

未说明

GPU

未说明（支持本地模型部署及蒸馏，隐含需要 GPU，但具体型号和显存未在 README 中列出）

内存

未说明

依赖

notes该项目采用前后端分离架构，后端基于 FastAPI，前端基于 React。包管理器推荐使用 uv。支持多种数据合成方式（本地、HuggingFace、蒸馏）及多模态（图像）任务。训练模块集成 verl 支持 SFT 和 GRPO，评估模块集成 DeepEval。具体的硬件依赖详情需参考项目文档中的 DEPENDENCIES.md 文件。

python3.10+

pydantic>=2.0

fastapi

react (frontend)

verl

deepeval

transformers (隐含)

torch (隐含)

快速开始

DataArc SynData 工具包

一个模块化、高度用户友好的合成数据生成工具包，支持多源、多语言的数据合成。

轻松零代码 CLI 和 GUI 合成用于大模型训练的合成数据！

:book: [ English | 中文 ]

:dart: 项目概述

DataArc SynData 工具包是由 DataArcTech 和国际数字经济研究院开发并开源的合成数据生成工具包。它允许用户根据自身需求，通过简单的配置文件，一步生成定制化的训练数据。

:bulb: 核心特性

使用极其简单：只需一条命令和一个配置文件即可合成数据。同时提供GUI，操作更加便捷。
支持多源合成数据：
- 本地合成：支持基于本地语料库生成数据。
- Huggingface 集成：自动爬取并筛选 Huggingface 上的数据。
- 模型蒸馏：可通过模型蒸馏生成合成数据。
集成后训练模块：由 verl 提供支持的端到端模型训练工作流，支持 SFT 和 GRPO。
后训练模型评估：使用 DeepEval 对训练后的模型进行评估。
多语言支持：支持英语及多种低资源语言。
多提供商模型支持：兼容本地部署、OpenAI API 等多种方式。
高度可扩展性：整个合成数据流程模块化，开发者可灵活自定义。

:movie_camera: 演示

观看我们的 2 分钟演示视频，了解 DataArc SynData 工具包 的实际使用效果。

https://github.com/user-attachments/assets/4b4d5ae4-d274-4971-a3cb-e9f07e841374

我们还提供了完整教程，帮助您快速上手。

:microscope: 性能

模型	医疗	金融	法律
Qwen-2.5-7B-Instruct	42.34%	52.91%	19.80%
使用合成数据训练	64.57%	73.93%	42.80%

仅需几行代码，性能即可提升超过 20%。

:notebook: 更改记录

[25/11/17] 🎉 我们开源了合成数据平台。
[25/11/27] 我们添加了并行处理模块，显著加速合成数据生成流程。
[25/11/28] 我们增加了中间结果保存功能，允许用户从上次成功阶段继续，而无需重新开始整个流程——这是一项重要的节省 token 的功能。
[25/12/25] 🔥重大升级：

前后端分离：DataArc SynData 工具包现在采用完全前后端分离的架构，包含一个 FastAPI 后端（REST APIs + SSE 实时进度流）和独立的 React 前端，以提升可视化效果、易用性和可扩展性。
通过 verl 支持后训练：引入了由 verl 提供支持的集成后训练模块，可在合成数据上实现包括 SFT 和 GRPO 在内的端到端模型训练流程。
多语言扩展：新增对 阿拉伯语 数据集的支持，利用阿拉伯语翻译模型生成完全本地化的合成数据输出。

[26/01/12] 🖼️ 添加图像模态支持：

图像模态本地任务：使用 VLM 从本地图片或 PDF 中提取的图表生成 VQA（视觉问答）数据。
图像模态网络任务：自动搜索并从 HuggingFace Hub 获取图像-文本数据集。

[26/01/26] 📊 后训练模型评估：

DeepEval 集成：新增由 DeepEval 提供支持的模型评估模块。
三种评估指标：
- 答案正确性：根据可自定义的评分标准，将模型输出与真实答案进行对比。
- 两两偏好：比较微调后的模型与基础模型，以衡量改进程度。
- 格式合规性：评估模型输出是否符合指定的格式要求。

[!TIP]

如果您无法使用最新功能，请拉取最新代码。

:factory: DataArc SynData 工具包流程

DataArc SynData 工具包 旨在通过模块化的流程合成数据，允许用户自定义每个步骤的策略和实现方法。主要组件包括：

合成数据生成：通过本地合成、从 Huggingface 检索数据集以及模型蒸馏等方式生成数据。
- 开发者可以继承 BaseTaskConfig 和 BaseTaskExecutor 来自定义生成任务。
数据过滤与重写：根据目标模型的要求，对初步合成的数据进行过滤和重写。
- 开发者可以继承 BaseRewriteConfig 和 BaseRewriter 来自定义合成数据的重写方式（或不进行重写）。

dataarc-sdg_pipeline

通过模块解耦，开发者可以根据具体需求灵活定制功能模块。

:jigsaw: 使用场景

我们提供了三个不同的使用场景，展示了如何通过 DataArc SynData 工具包 合成数据。

:file_folder: 项目结构

DataArc-SynData-Toolkit/
├── configs/                        # YAML 配置示例
│   ├── sdg.yaml                    # SDG 流水线配置
│   ├── sft.yaml                    # SFT 训练配置
│   ├── grpo.yaml                   # GRPO 训练配置
│   └── eval.yaml                   # 模型评估配置
│
├── sdgsystem/                      # 核心系统
│   ├── app/                        # FastAPI 后端 (REST + SSE)
│   ├── generation/                 # 数据生成
│   ├── documents/                  # 文件解析与检索
│   ├── huggingface/                # HF 数据集集成
│   ├── distillation/               # 模型蒸馏合成
│   ├── tasks/                      # SDG 执行任务
│   ├── evaluation/                 # 数据质量评估
│   ├── deepeval/                   # 训练后模型评估 (G-Eval)
│   ├── models/                     # 统一的 LLM 接口及后处理
│   ├── trainer/                    # 训练后优化 (verl: SFT + GRPO)
│   ├── translation/                # 多语言支持
│   ├── webui/                      # React 前端
│   ├── pipeline.py                 # 核心 SDG 流水线
│   └── cli.py                      # CLI 入口
│
├── verl/                           # 集成的 verl 框架
├── docs/                           # 文档
├── pyproject.toml
└── README.md

:rocket: 快速开始

1. 安装 DataArc SynData Toolkit

# 1. 克隆仓库
git clone https://github.com/DataArcTech/DataArc-SynData-Toolkit.git
cd DataArc-SynData-Toolkit

# 2. 如果尚未安装 uv，先安装
pip install uv

# 3. 安装依赖
uv sync

有关硬件要求和依赖的详细信息，请参阅依赖与安装指南。

2. 配置

请参考示例配置文件，并根据您的需求修改配置。

3. 合成数据

通过 CLI 运行：

创建一个 .env 文件，并指定以下字段。

API_KEY=sk-xxx   # 您的 API 密钥
BASE_URL=https://api.openai.com/v1  # 可选：您的基础 URL

然后运行以下命令。

uv run sdg generate configs/sdg.yaml  # 或替换为您自己的 .yaml 文件

:twisted_rightwards_arrows: 使用合成数据进行训练

DataArc SynData Toolkit 集成了由 verl 提供支持的端到端模型训练模块，使您能够直接在合成数据上训练模型。我们支持两种训练方法：SFT（监督微调） 和 GRPO（分组相对策略优化）。

CLI 快速入门

1. 准备您的配置

根据 SFT 配置示例或 GRPO 配置示例创建一个训练配置文件。

2. 运行训练

# SFT 训练
uv run sdg train configs/sft.yaml

# GRPO 训练
uv run sdg train configs/grpo.yaml

有关详细的配置选项，请参阅示例 YAML 文件。

:bar_chart: 训练后模型评估

DataArc SynData Toolkit 提供了一个由 DeepEval 支持的模型评估模块，使您能够使用 LLM 作为裁判 (G-Eval) 来评估训练后的模型。我们支持三种指标：答案正确性、格式合规性 和 成对偏好。

CLI 快速入门

1. 准备您的配置

根据评估配置示例创建一个评估配置文件。

将您的 API 密钥添加到 .env 文件中。

OPENAI_API_KEY=sk-xxx   # 您的 OpenAI API 密钥
OPENAI_BASE_URL=https://api.openai.com/v1  # 可选：您的 OpenAI 基础 URL
CONFIDENT_API_KEY=confident_us_xxx  # 您的 Confident AI API 密钥（访问 Deepeval，注册后可免费创建）

2. 运行评估

uv run sdg eval configs/eval.yaml

结果可以在 Confident AI 的网页上可视化，并会保存到配置的输出目录中。

:desktop_computer: 使用 GUI 运行

使用以下命令启动 FastAPI 服务器。

uv run fastapi dev sdgsystem/app/main.py

打开另一个终端，并使用以下命令构建前端。

cd sdgsystem/webui

# 安装依赖
pnpm install

# 启动开发服务器
pnpm dev

如果您对我们的 Web UI 有任何疑问，请查看我们的 Web UI 文档。

:date: 下一次发布计划

加密合成数据生成：使用加密的敏感数据进行生成。

:handshake: 贡献

我们欢迎贡献！

星标历史

DataArc SynData Toolkit 快速上手指南

DataArc SynData Toolkit 是一个模块化、易用的合成数据生成工具，支持多源、多语言数据合成，并可一键完成大模型训练数据的生成、微调（SFT/GRPO）及评估。

环境准备

系统要求

操作系统: Linux / macOS / Windows (WSL2 推荐)
Python 版本: 3.10 或更高
包管理器: uv (推荐，用于加速依赖安装)
前端依赖 (如需使用 GUI): Node.js, pnpm

前置依赖

确保已安装 Git 和 Python 3.10+。若未安装 uv，请先执行：

pip install uv

💡 国内加速建议：如遇网络问题，可配置 uv 使用国内镜像源：
export UV_INDEX_URL=https://pypi.tuna.tsinghua.edu.cn/simple

安装步骤

克隆项目仓库

git clone https://github.com/DataArcTech/DataArc-SynData-Toolkit.git
cd DataArc-SynData-Toolkit

安装项目依赖 使用 uv 自动同步环境并安装所有依赖：
```
uv sync
```

基本使用

1. 配置 API 密钥

在项目根目录创建 .env 文件，填入你的 LLM API 信息：

API_KEY=sk-xxx
BASE_URL=https://api.openai.com/v1

2. 修改配置文件

参考 configs/sdg.yaml 示例，根据需求调整数据源、生成策略及模型参数。

3. 生成合成数据

执行以下命令启动数据生成流程：

uv run sdg generate configs/sdg.yaml

4. （可选）微调与评估

生成数据后，可直接进行模型微调和效果评估：

SFT 微调：
```
uv run sdg train configs/sft.yaml
```
GRPO 微调：
```
uv run sdg train configs/grpo.yaml
```
模型评估（需配置 DeepEval API）：
```
uv run sdg eval configs/eval.yaml
```

5. （可选）启动图形界面 (GUI)

如需可视化操作，可分别启动后端与前端：

终端 1 - 启动后端：

uv run fastapi dev sdgsystem/app/main.py

终端 2 - 启动前端：

cd sdgsystem/webui
pnpm install
pnpm dev

访问前端地址即可通过图形界面完成全流程操作。

常见问题

DataArc-SynData-Toolkit 的 API 是否需要配置身份验证（如 API Key）以防止未授权访问？

为什么多数投票（Majority Voting）功能中没有实现嵌入缓存（Embedding Cache）来加速语义比较？

生产环境中是否应该修复默认的通配符 CORS 配置（allow_origins=["*"]）？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架