DataArc-SynData-Toolkit
DataArc-SynData-Toolkit 是一款由 DataArcTech 与国际数字经济学院联合开源的合成数据生成平台,旨在帮助开发者高效构建大语言模型(LLM)所需的定制化训练数据。面对高质量训练数据稀缺、获取成本高以及多语言支持不足的痛点,该工具通过简单的配置文件或图形界面(GUI),让用户无需编写复杂代码即可一键生成数据。
它特别适合 AI 研究人员、算法工程师及希望优化模型性能的开发者使用。其核心亮点在于强大的灵活性与模块化设计:不仅支持基于本地语料、自动抓取 Huggingface 数据集以及模型蒸馏等多种数据源,还内置了从数据合成到后训练(支持 SFT 和 GRPO)、再到模型评估(集成 DeepEval)的端到端工作流。此外,它具备出色的多语言能力,涵盖英语及多种低资源语言,并兼容本地部署与 OpenAI 等多种模型提供商。
实测数据显示,使用该工具生成的合成数据进行训练,可使模型在医疗、金融和法律等垂直领域的性能提升超过 20%。配合并行处理与断点续跑功能,DataArc-SynData-Toolkit 大幅降低了数据准备的技术门槛与时间成本,是加速大模型落地应用的得力助手。
使用场景
某医疗科技公司的算法团队正急需构建一个专病领域的诊断大模型,但面临高质量标注数据极度匮乏的困境。
没有 DataArc-SynData-Toolkit 时
- 数据获取成本高昂:依赖人工整理病历或购买昂贵数据集,耗时数月且难以覆盖罕见病例,导致项目启动严重滞后。
- 多语言支持困难:面对低资源语种的医疗文献,缺乏有效的自动化合成手段,只能放弃多语言模型的训练计划。
- 流程割裂效率低:数据生成、模型微调(SFT)与评估需切换不同工具链,配置复杂且容易出错,迭代周期长达数周。
- 容错机制缺失:长流程任务一旦中途失败,必须从头重新运行,浪费大量算力资源和时间。
使用 DataArc-SynData-Toolkit 后
- 一键生成高质量数据:通过简单配置文件,利用本地语料或 Huggingface 源自动合成定制化医疗数据,将数据准备时间从数月缩短至几天。
- 无缝拓展多语言场景:直接调用其多语言支持能力,轻松生成包含低资源语种的训练集,快速实现全球化模型部署。
- 端到端流水线加速:内置基于 verl 的微调模块和 DeepEval 评估组件,实现从数据合成到模型验证的一站式闭环,迭代效率提升数倍。
- 断点续跑保障稳定:借助中间结果保存功能,任务中断后可直接从上一成功阶段恢复,大幅降低试错成本并节省算力。
DataArc-SynData-Toolkit 通过模块化设计与端到端自动化,让团队仅用几行配置即可将模型在医疗领域的表现提升超过 20%,真正实现了低成本、高效率的垂直领域大模型落地。
运行环境要求
- 未说明
未说明(支持本地模型部署及蒸馏,隐含需要 GPU,但具体型号和显存未在 README 中列出)
未说明

快速开始
DataArc SynData 工具包
一个模块化、高度用户友好的合成数据生成工具包,支持多源、多语言的数据合成。
轻松零代码 CLI 和 GUI 合成用于大模型训练的合成数据!
:book: [ English | 中文 ]
:dart: 项目概述
DataArc SynData 工具包是由 DataArcTech 和 国际数字经济研究院 开发并开源的合成数据生成工具包。它允许用户根据自身需求,通过简单的配置文件,一步生成定制化的训练数据。
:bulb: 核心特性
- 使用极其简单:只需一条命令和一个配置文件即可合成数据。同时提供GUI,操作更加便捷。
- 支持多源合成数据:
- 本地合成:支持基于本地语料库生成数据。
- Huggingface 集成:自动爬取并筛选 Huggingface 上的数据。
- 模型蒸馏:可通过模型蒸馏生成合成数据。
- 集成后训练模块:由 verl 提供支持的端到端模型训练工作流,支持 SFT 和 GRPO。
- 后训练模型评估:使用 DeepEval 对训练后的模型进行评估。
- 多语言支持:支持英语及多种低资源语言。
- 多提供商模型支持:兼容本地部署、OpenAI API 等多种方式。
- 高度可扩展性:整个合成数据流程模块化,开发者可灵活自定义。
:movie_camera: 演示
观看我们的 2 分钟演示视频,了解 DataArc SynData 工具包 的实际使用效果。
https://github.com/user-attachments/assets/4b4d5ae4-d274-4971-a3cb-e9f07e841374
我们还提供了完整教程,帮助您快速上手。
:microscope: 性能
| 模型 | 医疗 | 金融 | 法律 |
|---|---|---|---|
| Qwen-2.5-7B-Instruct | 42.34% | 52.91% | 19.80% |
| 使用合成数据训练 | 64.57% | 73.93% | 42.80% |
仅需几行代码,性能即可提升超过 20%。
:notebook: 更改记录
[25/11/17] 🎉 我们开源了合成数据平台。
[25/11/27] 我们添加了并行处理模块,显著加速合成数据生成流程。
[25/11/28] 我们增加了中间结果保存功能,允许用户从上次成功阶段继续,而无需重新开始整个流程——这是一项重要的节省 token 的功能。
[25/12/25] 🔥重大升级:
- 前后端分离:DataArc SynData 工具包现在采用完全前后端分离的架构,包含一个 FastAPI 后端(REST APIs + SSE 实时进度流)和独立的 React 前端,以提升可视化效果、易用性和可扩展性。
- 通过 verl 支持后训练:引入了由 verl 提供支持的集成后训练模块,可在合成数据上实现包括 SFT 和 GRPO 在内的端到端模型训练流程。
- 多语言扩展:新增对 阿拉伯语 数据集的支持,利用阿拉伯语翻译模型生成完全本地化的合成数据输出。
[26/01/12] 🖼️ 添加图像模态支持:
- 图像模态本地任务:使用 VLM 从本地图片或 PDF 中提取的图表生成 VQA(视觉问答)数据。
- 图像模态网络任务:自动搜索并从 HuggingFace Hub 获取图像-文本数据集。
[26/01/26] 📊 后训练模型评估:
- DeepEval 集成:新增由 DeepEval 提供支持的模型评估模块。
- 三种评估指标:
- 答案正确性:根据可自定义的评分标准,将模型输出与真实答案进行对比。
- 两两偏好:比较微调后的模型与基础模型,以衡量改进程度。
- 格式合规性:评估模型输出是否符合指定的格式要求。
[!TIP]
如果您无法使用最新功能,请拉取最新代码。
:factory: DataArc SynData 工具包流程
DataArc SynData 工具包 旨在通过模块化的流程合成数据,允许用户自定义每个步骤的策略和实现方法。主要组件包括:
- 合成数据生成:通过本地合成、从 Huggingface 检索数据集以及模型蒸馏等方式生成数据。
- 开发者可以继承 BaseTaskConfig 和 BaseTaskExecutor 来自定义生成任务。
- 数据过滤与重写:根据目标模型的要求,对初步合成的数据进行过滤和重写。
- 开发者可以继承 BaseRewriteConfig 和 BaseRewriter 来自定义合成数据的重写方式(或不进行重写)。

通过模块解耦,开发者可以根据具体需求灵活定制功能模块。
:jigsaw: 使用场景
我们提供了三个不同的使用场景,展示了如何通过 DataArc SynData 工具包 合成数据。
:file_folder: 项目结构
DataArc-SynData-Toolkit/
├── configs/ # YAML 配置示例
│ ├── sdg.yaml # SDG 流水线配置
│ ├── sft.yaml # SFT 训练配置
│ ├── grpo.yaml # GRPO 训练配置
│ └── eval.yaml # 模型评估配置
│
├── sdgsystem/ # 核心系统
│ ├── app/ # FastAPI 后端 (REST + SSE)
│ ├── generation/ # 数据生成
│ ├── documents/ # 文件解析与检索
│ ├── huggingface/ # HF 数据集集成
│ ├── distillation/ # 模型蒸馏合成
│ ├── tasks/ # SDG 执行任务
│ ├── evaluation/ # 数据质量评估
│ ├── deepeval/ # 训练后模型评估 (G-Eval)
│ ├── models/ # 统一的 LLM 接口及后处理
│ ├── trainer/ # 训练后优化 (verl: SFT + GRPO)
│ ├── translation/ # 多语言支持
│ ├── webui/ # React 前端
│ ├── pipeline.py # 核心 SDG 流水线
│ └── cli.py # CLI 入口
│
├── verl/ # 集成的 verl 框架
├── docs/ # 文档
├── pyproject.toml
└── README.md
:rocket: 快速开始
1. 安装 DataArc SynData Toolkit
# 1. 克隆仓库
git clone https://github.com/DataArcTech/DataArc-SynData-Toolkit.git
cd DataArc-SynData-Toolkit
# 2. 如果尚未安装 uv,先安装
pip install uv
# 3. 安装依赖
uv sync
有关硬件要求和依赖的详细信息,请参阅 依赖与安装指南。
2. 配置
请参考 示例配置文件,并根据您的需求修改配置。
3. 合成数据
通过 CLI 运行:
创建一个 .env 文件,并指定以下字段。
API_KEY=sk-xxx # 您的 API 密钥
BASE_URL=https://api.openai.com/v1 # 可选:您的基础 URL
然后运行以下命令。
uv run sdg generate configs/sdg.yaml # 或替换为您自己的 .yaml 文件
:twisted_rightwards_arrows: 使用合成数据进行训练
DataArc SynData Toolkit 集成了由 verl 提供支持的端到端模型训练模块,使您能够直接在合成数据上训练模型。我们支持两种训练方法:SFT(监督微调) 和 GRPO(分组相对策略优化)。
CLI 快速入门
1. 准备您的配置
根据 SFT 配置示例 或 GRPO 配置示例 创建一个训练配置文件。
2. 运行训练
# SFT 训练
uv run sdg train configs/sft.yaml
# GRPO 训练
uv run sdg train configs/grpo.yaml
有关详细的配置选项,请参阅示例 YAML 文件。
:bar_chart: 训练后模型评估
DataArc SynData Toolkit 提供了一个由 DeepEval 支持的模型评估模块,使您能够使用 LLM 作为裁判 (G-Eval) 来评估训练后的模型。我们支持三种指标:答案正确性、格式合规性 和 成对偏好。
CLI 快速入门
1. 准备您的配置
根据 评估配置示例 创建一个评估配置文件。
将您的 API 密钥添加到 .env 文件中。
OPENAI_API_KEY=sk-xxx # 您的 OpenAI API 密钥
OPENAI_BASE_URL=https://api.openai.com/v1 # 可选:您的 OpenAI 基础 URL
CONFIDENT_API_KEY=confident_us_xxx # 您的 Confident AI API 密钥(访问 Deepeval,注册后可免费创建)
2. 运行评估
uv run sdg eval configs/eval.yaml
结果可以在 Confident AI 的网页上可视化,并会保存到配置的输出目录中。
:desktop_computer: 使用 GUI 运行
使用以下命令启动 FastAPI 服务器。
uv run fastapi dev sdgsystem/app/main.py
打开另一个终端,并使用以下命令构建前端。
cd sdgsystem/webui
# 安装依赖
pnpm install
# 启动开发服务器
pnpm dev
如果您对我们的 Web UI 有任何疑问,请查看我们的 Web UI 文档。
:date: 下一次发布计划
- 加密合成数据生成:使用加密的敏感数据进行生成。
:handshake: 贡献
我们欢迎贡献!
星标历史
常见问题
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。
