DataArc-SynData-Toolkit

GitHub
1.6k 40 简单 1 次阅读 3天前语言模型开发框架数据工具
AI 解读 由 AI 自动生成,仅供参考

DataArc-SynData-Toolkit 是一款由 DataArcTech 与国际数字经济学院联合开源的合成数据生成平台,旨在帮助开发者高效构建大语言模型(LLM)所需的定制化训练数据。面对高质量训练数据稀缺、获取成本高以及多语言支持不足的痛点,该工具通过简单的配置文件或图形界面(GUI),让用户无需编写复杂代码即可一键生成数据。

它特别适合 AI 研究人员、算法工程师及希望优化模型性能的开发者使用。其核心亮点在于强大的灵活性与模块化设计:不仅支持基于本地语料、自动抓取 Huggingface 数据集以及模型蒸馏等多种数据源,还内置了从数据合成到后训练(支持 SFT 和 GRPO)、再到模型评估(集成 DeepEval)的端到端工作流。此外,它具备出色的多语言能力,涵盖英语及多种低资源语言,并兼容本地部署与 OpenAI 等多种模型提供商。

实测数据显示,使用该工具生成的合成数据进行训练,可使模型在医疗、金融和法律等垂直领域的性能提升超过 20%。配合并行处理与断点续跑功能,DataArc-SynData-Toolkit 大幅降低了数据准备的技术门槛与时间成本,是加速大模型落地应用的得力助手。

使用场景

某医疗科技公司的算法团队正急需构建一个专病领域的诊断大模型,但面临高质量标注数据极度匮乏的困境。

没有 DataArc-SynData-Toolkit 时

  • 数据获取成本高昂:依赖人工整理病历或购买昂贵数据集,耗时数月且难以覆盖罕见病例,导致项目启动严重滞后。
  • 多语言支持困难:面对低资源语种的医疗文献,缺乏有效的自动化合成手段,只能放弃多语言模型的训练计划。
  • 流程割裂效率低:数据生成、模型微调(SFT)与评估需切换不同工具链,配置复杂且容易出错,迭代周期长达数周。
  • 容错机制缺失:长流程任务一旦中途失败,必须从头重新运行,浪费大量算力资源和时间。

使用 DataArc-SynData-Toolkit 后

  • 一键生成高质量数据:通过简单配置文件,利用本地语料或 Huggingface 源自动合成定制化医疗数据,将数据准备时间从数月缩短至几天。
  • 无缝拓展多语言场景:直接调用其多语言支持能力,轻松生成包含低资源语种的训练集,快速实现全球化模型部署。
  • 端到端流水线加速:内置基于 verl 的微调模块和 DeepEval 评估组件,实现从数据合成到模型验证的一站式闭环,迭代效率提升数倍。
  • 断点续跑保障稳定:借助中间结果保存功能,任务中断后可直接从上一成功阶段恢复,大幅降低试错成本并节省算力。

DataArc-SynData-Toolkit 通过模块化设计与端到端自动化,让团队仅用几行配置即可将模型在医疗领域的表现提升超过 20%,真正实现了低成本、高效率的垂直领域大模型落地。

运行环境要求

操作系统
  • 未说明
GPU

未说明(支持本地模型部署及蒸馏,隐含需要 GPU,但具体型号和显存未在 README 中列出)

内存

未说明

依赖
notes该项目采用前后端分离架构,后端基于 FastAPI,前端基于 React。包管理器推荐使用 uv。支持多种数据合成方式(本地、HuggingFace、蒸馏)及多模态(图像)任务。训练模块集成 verl 支持 SFT 和 GRPO,评估模块集成 DeepEval。具体的硬件依赖详情需参考项目文档中的 DEPENDENCIES.md 文件。
python3.10+
uv
pydantic>=2.0
fastapi
react (frontend)
verl
deepeval
transformers (隐含)
torch (隐含)
DataArc-SynData-Toolkit hero image

快速开始

DataArc SynData 工具包

Python 3.10+ 框架:uv Pydantic v2

一个模块化、高度用户友好的合成数据生成工具包,支持多源、多语言的数据合成。

轻松零代码 CLIGUI 合成用于大模型训练的合成数据!

:book: [ English | 中文 ]

:dart: 项目概述

DataArc SynData 工具包是由 DataArcTech国际数字经济研究院 开发并开源的合成数据生成工具包。它允许用户根据自身需求,通过简单的配置文件,一步生成定制化的训练数据。

:bulb: 核心特性

  • 使用极其简单:只需一条命令和一个配置文件即可合成数据。同时提供GUI,操作更加便捷。
  • 支持多源合成数据
    • 本地合成:支持基于本地语料库生成数据。
    • Huggingface 集成:自动爬取并筛选 Huggingface 上的数据。
    • 模型蒸馏:可通过模型蒸馏生成合成数据。
  • 集成后训练模块:由 verl 提供支持的端到端模型训练工作流,支持 SFT 和 GRPO。
  • 后训练模型评估:使用 DeepEval 对训练后的模型进行评估。
  • 多语言支持:支持英语及多种低资源语言。
  • 多提供商模型支持:兼容本地部署、OpenAI API 等多种方式。
  • 高度可扩展性:整个合成数据流程模块化,开发者可灵活自定义。

:movie_camera: 演示

观看我们的 2 分钟演示视频,了解 DataArc SynData 工具包 的实际使用效果。

https://github.com/user-attachments/assets/4b4d5ae4-d274-4971-a3cb-e9f07e841374

我们还提供了完整教程,帮助您快速上手。

:microscope: 性能

模型 医疗 金融 法律
Qwen-2.5-7B-Instruct 42.34% 52.91% 19.80%
使用合成数据训练 64.57% 73.93% 42.80%

仅需几行代码,性能即可提升超过 20%。

:notebook: 更改记录

[25/11/17] 🎉 我们开源了合成数据平台。
[25/11/27] 我们添加了并行处理模块,显著加速合成数据生成流程。
[25/11/28] 我们增加了中间结果保存功能,允许用户从上次成功阶段继续,而无需重新开始整个流程——这是一项重要的节省 token 的功能
[25/12/25] 🔥重大升级:

  • 前后端分离DataArc SynData 工具包现在采用完全前后端分离的架构,包含一个 FastAPI 后端(REST APIs + SSE 实时进度流)和独立的 React 前端,以提升可视化效果、易用性和可扩展性。
  • 通过 verl 支持后训练:引入了由 verl 提供支持的集成后训练模块,可在合成数据上实现包括 SFTGRPO 在内的端到端模型训练流程。
  • 多语言扩展:新增对 阿拉伯语 数据集的支持,利用阿拉伯语翻译模型生成完全本地化的合成数据输出。

[26/01/12] 🖼️ 添加图像模态支持:

  • 图像模态本地任务:使用 VLM 从本地图片或 PDF 中提取的图表生成 VQA(视觉问答)数据。
  • 图像模态网络任务:自动搜索并从 HuggingFace Hub 获取图像-文本数据集。

[26/01/26] 📊 后训练模型评估:

  • DeepEval 集成:新增由 DeepEval 提供支持的模型评估模块。
  • 三种评估指标
    • 答案正确性:根据可自定义的评分标准,将模型输出与真实答案进行对比。
    • 两两偏好:比较微调后的模型与基础模型,以衡量改进程度。
    • 格式合规性:评估模型输出是否符合指定的格式要求。

[!TIP]

如果您无法使用最新功能,请拉取最新代码。

:factory: DataArc SynData 工具包流程

DataArc SynData 工具包 旨在通过模块化的流程合成数据,允许用户自定义每个步骤的策略和实现方法。主要组件包括:

  • 合成数据生成:通过本地合成、从 Huggingface 检索数据集以及模型蒸馏等方式生成数据。
  • 数据过滤与重写:根据目标模型的要求,对初步合成的数据进行过滤和重写。

dataarc-sdg_pipeline

通过模块解耦,开发者可以根据具体需求灵活定制功能模块。

:jigsaw: 使用场景

我们提供了三个不同的使用场景,展示了如何通过 DataArc SynData 工具包 合成数据。

:file_folder: 项目结构

DataArc-SynData-Toolkit/
├── configs/                        # YAML 配置示例
│   ├── sdg.yaml                    # SDG 流水线配置
│   ├── sft.yaml                    # SFT 训练配置
│   ├── grpo.yaml                   # GRPO 训练配置
│   └── eval.yaml                   # 模型评估配置
│
├── sdgsystem/                      # 核心系统
│   ├── app/                        # FastAPI 后端 (REST + SSE)
│   ├── generation/                 # 数据生成
│   ├── documents/                  # 文件解析与检索
│   ├── huggingface/                # HF 数据集集成
│   ├── distillation/               # 模型蒸馏合成
│   ├── tasks/                      # SDG 执行任务
│   ├── evaluation/                 # 数据质量评估
│   ├── deepeval/                   # 训练后模型评估 (G-Eval)
│   ├── models/                     # 统一的 LLM 接口及后处理
│   ├── trainer/                    # 训练后优化 (verl: SFT + GRPO)
│   ├── translation/                # 多语言支持
│   ├── webui/                      # React 前端
│   ├── pipeline.py                 # 核心 SDG 流水线
│   └── cli.py                      # CLI 入口
│
├── verl/                           # 集成的 verl 框架
├── docs/                           # 文档
├── pyproject.toml
└── README.md

:rocket: 快速开始

1. 安装 DataArc SynData Toolkit

# 1. 克隆仓库
git clone https://github.com/DataArcTech/DataArc-SynData-Toolkit.git
cd DataArc-SynData-Toolkit

# 2. 如果尚未安装 uv,先安装
pip install uv

# 3. 安装依赖
uv sync

有关硬件要求和依赖的详细信息,请参阅 依赖与安装指南

2. 配置

请参考 示例配置文件,并根据您的需求修改配置。

3. 合成数据

通过 CLI 运行:

创建一个 .env 文件,并指定以下字段。

API_KEY=sk-xxx   # 您的 API 密钥
BASE_URL=https://api.openai.com/v1  # 可选:您的基础 URL

然后运行以下命令。

uv run sdg generate configs/sdg.yaml  # 或替换为您自己的 .yaml 文件

:twisted_rightwards_arrows: 使用合成数据进行训练

DataArc SynData Toolkit 集成了由 verl 提供支持的端到端模型训练模块,使您能够直接在合成数据上训练模型。我们支持两种训练方法:SFT(监督微调)GRPO(分组相对策略优化)

CLI 快速入门

1. 准备您的配置

根据 SFT 配置示例GRPO 配置示例 创建一个训练配置文件。

2. 运行训练

# SFT 训练
uv run sdg train configs/sft.yaml

# GRPO 训练
uv run sdg train configs/grpo.yaml

有关详细的配置选项,请参阅示例 YAML 文件。

:bar_chart: 训练后模型评估

DataArc SynData Toolkit 提供了一个由 DeepEval 支持的模型评估模块,使您能够使用 LLM 作为裁判 (G-Eval) 来评估训练后的模型。我们支持三种指标:答案正确性格式合规性成对偏好

CLI 快速入门

1. 准备您的配置

根据 评估配置示例 创建一个评估配置文件。

将您的 API 密钥添加到 .env 文件中。

OPENAI_API_KEY=sk-xxx   # 您的 OpenAI API 密钥
OPENAI_BASE_URL=https://api.openai.com/v1  # 可选:您的 OpenAI 基础 URL
CONFIDENT_API_KEY=confident_us_xxx  # 您的 Confident AI API 密钥(访问 Deepeval,注册后可免费创建)

2. 运行评估

uv run sdg eval configs/eval.yaml

结果可以在 Confident AI 的网页上可视化,并会保存到配置的输出目录中。

:desktop_computer: 使用 GUI 运行

使用以下命令启动 FastAPI 服务器。

uv run fastapi dev sdgsystem/app/main.py

打开另一个终端,并使用以下命令构建前端。

cd sdgsystem/webui

# 安装依赖
pnpm install

# 启动开发服务器
pnpm dev

如果您对我们的 Web UI 有任何疑问,请查看我们的 Web UI 文档

:date: 下一次发布计划

  • 加密合成数据生成:使用加密的敏感数据进行生成。

:handshake: 贡献

我们欢迎贡献!

星标历史

星标历史图

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

139k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|今天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|昨天
Agent图像开发框架