[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-DataArcTech--DataArc-SynData-Toolkit":3,"tool-DataArcTech--DataArc-SynData-Toolkit":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",140436,2,"2026-04-05T23:32:43",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":79,"owner_email":79,"owner_twitter":79,"owner_website":79,"owner_url":80,"languages":81,"stars":101,"forks":102,"last_commit_at":103,"license":79,"difficulty_score":23,"env_os":104,"env_gpu":105,"env_ram":104,"env_deps":106,"category_tags":118,"github_topics":79,"view_count":23,"oss_zip_url":79,"oss_zip_packed_at":79,"status":16,"created_at":119,"updated_at":120,"faqs":121,"releases":137},2314,"DataArcTech\u002FDataArc-SynData-Toolkit","DataArc-SynData-Toolkit","Synthetic Data Generation Platform By DataArcTech","DataArc-SynData-Toolkit 是一款由 DataArcTech 与国际数字经济学院联合开源的合成数据生成平台，旨在帮助开发者高效构建大语言模型（LLM）所需的定制化训练数据。面对高质量训练数据稀缺、获取成本高以及多语言支持不足的痛点，该工具通过简单的配置文件或图形界面（GUI），让用户无需编写复杂代码即可一键生成数据。\n\n它特别适合 AI 研究人员、算法工程师及希望优化模型性能的开发者使用。其核心亮点在于强大的灵活性与模块化设计：不仅支持基于本地语料、自动抓取 Huggingface 数据集以及模型蒸馏等多种数据源，还内置了从数据合成到后训练（支持 SFT 和 GRPO）、再到模型评估（集成 DeepEval）的端到端工作流。此外，它具备出色的多语言能力，涵盖英语及多种低资源语言，并兼容本地部署与 OpenAI 等多种模型提供商。\n\n实测数据显示，使用该工具生成的合成数据进行训练，可使模型在医疗、金融和法律等垂直领域的性能提升超过 20%。配合并行处理与断点续跑功能，DataArc-SynData-Toolkit 大幅降低了数据准备的技术门槛与时间成本，是加速大模型落","DataArc-SynData-Toolkit 是一款由 DataArcTech 与国际数字经济学院联合开源的合成数据生成平台，旨在帮助开发者高效构建大语言模型（LLM）所需的定制化训练数据。面对高质量训练数据稀缺、获取成本高以及多语言支持不足的痛点，该工具通过简单的配置文件或图形界面（GUI），让用户无需编写复杂代码即可一键生成数据。\n\n它特别适合 AI 研究人员、算法工程师及希望优化模型性能的开发者使用。其核心亮点在于强大的灵活性与模块化设计：不仅支持基于本地语料、自动抓取 Huggingface 数据集以及模型蒸馏等多种数据源，还内置了从数据合成到后训练（支持 SFT 和 GRPO）、再到模型评估（集成 DeepEval）的端到端工作流。此外，它具备出色的多语言能力，涵盖英语及多种低资源语言，并兼容本地部署与 OpenAI 等多种模型提供商。\n\n实测数据显示，使用该工具生成的合成数据进行训练，可使模型在医疗、金融和法律等垂直领域的性能提升超过 20%。配合并行处理与断点续跑功能，DataArc-SynData-Toolkit 大幅降低了数据准备的技术门槛与时间成本，是加速大模型落地应用的得力助手。","\u003Cdiv align=\"center\">\n\n# DataArc SynData Toolkit\n\n[![Python 3.10+](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fpython-3.10+-blue.svg)](https:\u002F\u002Fwww.python.org\u002Fdownloads\u002F)\n[![Framework: uv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPackage_Manager-uv-42b983.svg)](https:\u002F\u002Fgithub.com\u002Fastral-sh\u002Fuv)\n[![Pydantic v2](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPydantic-v2-ffa000.svg)](https:\u002F\u002Fdocs.pydantic.dev\u002F)\n\n\u003Cp>\n  \u003Ca href=\"https:\u002F\u002Fdiscord.gg\u002Fu48SJ9HEbd\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?style=for-the-badge&message=Community&color=7289da&logo=discord&logoColor=white&label=Discord&labelColor=1a1a2e\">\n  \u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FDataArcTech\u002FDataArc-SynData-Toolkit\u002Fissues\u002F2\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?style=for-the-badge&message=Group&color=07c160&logo=wechat&logoColor=white&label=WeChat&labelColor=1a1a2e\">\n  \u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fx.com\u002FDataArcTech\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?style=for-the-badge&message=Home&color=000000&logo=x&logoColor=white&label=&labelColor=1a1a2e\">\n  \u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fwww.linkedin.com\u002Fcompany\u002Fdataarctech\u002F\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?style=for-the-badge&message=Home&color=0077B5&logo=linkedin&logoColor=white&label=LinkedIn&labelColor=1a1a2e\">\n  \u003C\u002Fa>\n\u003C\u002Fp>\n\n*A modular, highly user-friendly synthetic data generation toolkit supporting multi-source, multi-language data synthesis.*\n\n### Easily synthesize training data for LLMs with zero-code [CLI](#rocket-quick-start) and [GUI](#desktop_computer-run-with-gui) !\n\n:book: [ **English** | [中文](.\u002FREADME_zh.md) ]\n\n\u003C\u002Fdiv>\n\n## :dart: Project Overview\n\n**DataArc SynData Toolkit** is a synthetic data generation toolkit developed and open-sourced by [DataArcTech](https:\u002F\u002Fwww.dataarctech.com\u002F) and [International Digital Economy Academy](https:\u002F\u002Fwww.idea.edu.cn\u002F). It enables users to generate customized training data in one step through simple configuration files based on their requirements.\n\n## :bulb: Key Features\n\n- **Extremely Simple Usage**: Synthesize data with [a single command](#3-synthesize-data) and a configuration file. [GUI](#desktop_computer-run-with-gui) is also provided for easy operations.\n- **Support for Multi-Source Synthetic Data**:\n  - **Local Synthesis**: Support for generating data based on local corpora.\n  - **Huggingface Integration**: Automatically crawl and filter data from Huggingface.\n  - **Model Distillation**: Enable synthetic data generation through model distillation.\n- **Integrated Post-Training Module**: End-to-end model training workflows powered by [verl](https:\u002F\u002Fgithub.com\u002Fvolcengine\u002Fverl), supporting SFT and GRPO.\n- **Post-Training Model Evaluation**: Evaluate trained models using [DeepEval](https:\u002F\u002Fgithub.com\u002Fconfident-ai\u002Fdeepeval).\n- **Multilingual Support**: Supports English and various low-resource languages.\n- **Multi-Provider Model Support**: Works with local deployment, OpenAI APIs, and more.\n- **Highly Extensible**: The entire synthetic data workflow is modular, allowing developers to flexibly customize them.\n\n## :movie_camera: Demo\n\nWatch our 2-minute demo to experience how **DataArc SynData Toolkit** works in practice.\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F4b4d5ae4-d274-4971-a3cb-e9f07e841374\n\nWe also provide a [complete tutorial](https:\u002F\u002Fyoutu.be\u002FzIHH3YnZKr4) to help you get started.\n\n## :microscope: Performance\n\n| Model                       | Medical | Finance | Law    |\n|-----------------------------|---------|---------|--------|\n| Qwen-2.5-7B-Instruct        | 42.34%  | 52.91%  | 19.80% |\n| Trained with Synthetic Data | 64.57%  | 73.93%  | 42.80% |\n\nA few lines of code deliver over 20% performance improvements.\n\n## :notebook: Changelog\n\n[25\u002F11\u002F17] 🎉We open-sourced our synthetic data platform.  \n[25\u002F11\u002F27] We added **parallel processing module** to significantly accelerate the synthetic data generation pipeline.  \n[25\u002F11\u002F28] We added **intermediate result saving**, allowing users to resume from the last successful stage** instead of restarting the entire pipeline — a major **token saver**.  \n[25\u002F12\u002F25] 🔥Major upgrade:\n- **Frontend–Backend Separation**: **DataArc SynData Toolkit** now adopts a fully frontend–backend separated architecture, featuring a **FastAPI backend** (REST APIs + SSE streaming for real-time progress) and a standalone **React** frontend for improved visualization, usability, and scalability.\n- **Post-Training Support via verl**: Introduced an integrated post-training module powered by **verl**, enabling end-to-end model training workflows including **SFT** and **GRPO** on synthesized data.\n- **Multilingual Expansion**: Added support for generating **Arabic** datasets, leveraging an Arabic translation model to produce fully localized synthetic data outputs.\n\n[26\u002F01\u002F12] 🖼️ Image Modality Support Added:\n- **Image modality Local Task**: Generate VQA (Visual Question Answering) data from local images or PDF-extracted figures using VLMs.\n- **Image modality Web Task**: Automatically search and retrieve image-text datasets from HuggingFace Hub.\n\n[26\u002F01\u002F26] 📊 Post-Training Model Evaluation:\n- **DeepEval Integration**: Added model evaluation module powered by **DeepEval**.\n- **Three Evaluation Metrics**:\n  - **Answer Correctness**: Compare model output against ground truth with customizable rubrics.\n  - **Pairwise Preference**: Compare post-trained model vs base model to measure improvement.\n  - **Format Compliance**: Evaluate adherence to output format instructions.\n\n> [!TIP]\n>\n> If you cannot use the latest feature, please pull the latest code.\n\n## :factory: DataArc SynData Toolkit Pipeline\n\n**DataArc SynData Toolkit** is designed to synthesize data in a modular pipeline, allowing users to customize the strategies and implementation methods of each step. The main components include:\n\n- **Synthetic Data Generation**: Generate data through methods such as local synthesis, Huggingface dataset retrieval, and model distillation.\n  - Developers can inherit [BaseTaskConfig](.\u002Fsdgsystem\u002Fconfigs\u002Fconfig.py) and [BaseTaskExecutor](.\u002Fsdgsystem\u002Ftasks\u002Fbase.py) to customize the generation task.\n- **Data Filtering and Rewriting**: Filter and rewrite initially synthesized data according to the target model's requirements.\n  - Developers can inherit [BaseRewriteConfig](.\u002Fsdgsystem\u002Fconfigs\u002Fconfig.py) and [BaseRewriter](.\u002Fsdgsystem\u002Fgeneration\u002Frewriter.py) to customize the rewrite method for synthetic data (or no rewriting).\n\n![dataarc-sdg_pipeline](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FDataArcTech_DataArc-SynData-Toolkit_readme_aa326cf210bd.png)\n\nBy decoupling modules, developers can achieve flexible customization of functional modules based on specific needs.\n\n## :jigsaw: Use Cases\n\nWe provide [three different use cases](docs\u002FUSE_CASES.md) that sythesize data through **DataArc SynData Toolkit**.\n\n## :file_folder: Project Structure\n\n```\nDataArc-SynData-Toolkit\u002F\n├── configs\u002F                        # YAML configuration examples\n│   ├── sdg.yaml                    # SDG pipeline config\n│   ├── sft.yaml                    # SFT training config\n│   ├── grpo.yaml                   # GRPO training config\n│   └── eval.yaml                   # Model evaluation config\n│\n├── sdgsystem\u002F                      # Core System\n│   ├── app\u002F                        # FastAPI backend (REST + SSE)\n│   ├── generation\u002F                 # Data generation\n│   ├── documents\u002F                  # File parsing & retrieval\n│   ├── huggingface\u002F                # HF dataset integration\n│   ├── distillation\u002F               # Model distillation synthesis\n│   ├── tasks\u002F                      # SDG execution tasks\n│   ├── evaluation\u002F                 # Data quality evaluation\n│   ├── deepeval\u002F                   # Post-training model evaluation (G-Eval)\n│   ├── models\u002F                     # Unified LLM interface & postprocess\n│   ├── trainer\u002F                    # Post-training (verl: SFT + GRPO)\n│   ├── translation\u002F                # Multilingual support\n│   ├── webui\u002F                      # React frontend\n│   ├── pipeline.py                 # Core SDG pipeline\n│   └── cli.py                      # CLI entry\n│\n├── verl\u002F                           # Integrated verl framework\n├── docs\u002F                           # Documentation\n├── pyproject.toml\n└── README.md\n```\n\n## :rocket: Quick Start\n\n### 1. Install DataArc SynData Toolkit\n\n```shell\n# 1. Clone the repository\ngit clone https:\u002F\u002Fgithub.com\u002FDataArcTech\u002FDataArc-SynData-Toolkit.git\ncd DataArc-SynData-Toolkit\n\n# 2. Install uv if not already installed\npip install uv\n\n# 3. Install dependencies \nuv sync\n```\n\nFor hardware requirements and dependencies detail, please refer to [dependency and installation guide](\u002Fdocs\u002FDEPENDENCIES.md).\n\n### 2. Configuration\n\nPlease refer to the [example configuration file](.\u002Fconfigs\u002Fsdg.yaml) and modify the configuration based on your requirements.\n\n### 3. Synthesize Data\n\nRun through CLI: \n\nCreate a .env file and specified the following fields.\n\n```shell\nAPI_KEY=sk-xxx   # your api key\nBASE_URL=https:\u002F\u002Fapi.openai.com\u002Fv1  # Optional: your base url\n```\n\nAnd run following command.\n\n```shell\nuv run sdg generate configs\u002Fsdg.yaml  # or change to your .yaml file\n```\n\n## :twisted_rightwards_arrows: Training with Synthesized Data\n\n**DataArc SynData Toolkit** integrates an end-to-end model training module powered by [verl](https:\u002F\u002Fgithub.com\u002Fvolcengine\u002Fverl), enabling you to train models directly on your synthesized data. We support two training methods: **SFT (Supervised Fine-Tuning)** and **GRPO (Group Relative Policy Optimization)**.\n\n### Quick Start with CLI\n\n#### 1. Prepare Your Configuration\n\nCreate a training configuration file based on the [SFT Configuration Example](.\u002Fconfigs\u002Fsft.yaml) or [GRPO Configuration Example](.\u002Fconfigs\u002Fgrpo.yaml).\n\n#### 2. Run Training\n\n```shell\n# SFT training\nuv run sdg train configs\u002Fsft.yaml\n\n# GRPO training\nuv run sdg train configs\u002Fgrpo.yaml\n```\n\nFor detailed configuration options, refer to the example YAML files.\n\n## :bar_chart: Evaluating Post-Trained Models\n\n**DataArc SynData Toolkit** provides a model evaluation module powered by [DeepEval](https:\u002F\u002Fgithub.com\u002Fconfident-ai\u002Fdeepeval), enabling you to assess your post-trained models using LLM-as-a-Judge (G-Eval). We support three metrics: **Answer Correctness**,  **Format Compliance** and **Pairwise Preference**.\n\n### Quick Start with CLI\n\n#### 1. Prepare Your Configuration\n\nCreate an evaluation configuration file based on the [Evaluation Configuration Example](.\u002Fconfigs\u002Feval.yaml).\n\nAdd your API keys to .env file.\n\n```shell\nOPENAI_API_KEY=sk-xxx   # your openai api key\nOPENAI_BASE_URL=https:\u002F\u002Fapi.openai.com\u002Fv1  # Optional: your openai base url\nCONFIDENT_API_KEY=confident_us_xxx  # your confident ai api key (access deepeval, can be created for free after signup)\n```\n\n#### 2. Run Evaluation\n\n```shell\nuv run sdg eval configs\u002Feval.yaml\n```\n\nResults can be visulized on confident ai webpage and will be saved to the configured output directory.\n\n## :desktop_computer: Run with GUI\n\nStart FastAPI server with following command.\n\n```shell\nuv run fastapi dev sdgsystem\u002Fapp\u002Fmain.py\n```\n\nOpen another terminal and build frontend with following command.\n\n```shell\ncd sdgsystem\u002Fwebui\n\n# Install dependencies\npnpm install\n\n# Start development server\npnpm dev\n```\n\nIf you have any doubt about regrading our Web UI, check our [Web UI document](\u002Fsdgsystem\u002Fwebui\u002FREADME.md).\n\n## :date: Schedule for the Next Release\n\n- **Encrypted Synthetic Data Generation**: Run generation with sensitive data encrypted.\n\n## :handshake: Contributing\n\nWe welcome contributions!\n\n## Star History\n\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FDataArcTech_DataArc-SynData-Toolkit_readme_be8af1f11015.png)](https:\u002F\u002Fwww.star-history.com\u002F#DataArcTech\u002FDataArc-SynData-Toolkit&type=timeline&legend=top-left)\n","\u003Cdiv align=\"center\">\n\n# DataArc SynData 工具包\n\n[![Python 3.10+](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fpython-3.10+-blue.svg)](https:\u002F\u002Fwww.python.org\u002Fdownloads\u002F)\n[![框架：uv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPackage_Manager-uv-42b983.svg)](https:\u002F\u002Fgithub.com\u002Fastral-sh\u002Fuv)\n[![Pydantic v2](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPydantic-v2-ffa000.svg)](https:\u002F\u002Fdocs.pydantic.dev\u002F)\n\n\u003Cp>\n  \u003Ca href=\"https:\u002F\u002Fdiscord.gg\u002Fu48SJ9HEbd\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?style=for-the-badge&message=Community&color=7289da&logo=discord&logoColor=white&label=Discord&labelColor=1a1a2e\">\n  \u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FDataArcTech\u002FDataArc-SynData-Toolkit\u002Fissues\u002F2\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?style=for-the-badge&message=Group&color=07c160&logo=wechat&logoColor=white&label=WeChat&labelColor=1a1a2e\">\n  \u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fx.com\u002FDataArcTech\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?style=for-the-badge&message=Home&color=000000&logo=x&logoColor=white&label=&labelColor=1a1a2e\">\n  \u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fwww.linkedin.com\u002Fcompany\u002Fdataarctech\u002F\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?style=for-the-badge&message=Home&color=0077B5&logo=linkedin&logoColor=white&label=LinkedIn&labelColor=1a1a2e\">\n  \u003C\u002Fa>\n\u003C\u002Fp>\n\n*一个模块化、高度用户友好的合成数据生成工具包，支持多源、多语言的数据合成。*\n\n### 轻松零代码 [CLI](#rocket-quick-start) 和 [GUI](#desktop_computer-run-with-gui) 合成用于大模型训练的合成数据！\n\n:book: [ **English** | [中文](.\u002FREADME_zh.md) ]\n\n\u003C\u002Fdiv>\n\n## :dart: 项目概述\n\n**DataArc SynData 工具包**是由 [DataArcTech](https:\u002F\u002Fwww.dataarctech.com\u002F) 和 [国际数字经济研究院](https:\u002F\u002Fwww.idea.edu.cn\u002F) 开发并开源的合成数据生成工具包。它允许用户根据自身需求，通过简单的配置文件，一步生成定制化的训练数据。\n\n## :bulb: 核心特性\n\n- **使用极其简单**：只需[一条命令](#3-synthesize-data)和一个配置文件即可合成数据。同时提供[GUI](#desktop_computer-run-with-gui)，操作更加便捷。\n- **支持多源合成数据**：\n  - **本地合成**：支持基于本地语料库生成数据。\n  - **Huggingface 集成**：自动爬取并筛选 Huggingface 上的数据。\n  - **模型蒸馏**：可通过模型蒸馏生成合成数据。\n- **集成后训练模块**：由 [verl](https:\u002F\u002Fgithub.com\u002Fvolcengine\u002Fverl) 提供支持的端到端模型训练工作流，支持 SFT 和 GRPO。\n- **后训练模型评估**：使用 [DeepEval](https:\u002F\u002Fgithub.com\u002Fconfident-ai\u002Fdeepeval) 对训练后的模型进行评估。\n- **多语言支持**：支持英语及多种低资源语言。\n- **多提供商模型支持**：兼容本地部署、OpenAI API 等多种方式。\n- **高度可扩展性**：整个合成数据流程模块化，开发者可灵活自定义。\n\n## :movie_camera: 演示\n\n观看我们的 2 分钟演示视频，了解 **DataArc SynData 工具包** 的实际使用效果。\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F4b4d5ae4-d274-4971-a3cb-e9f07e841374\n\n我们还提供了[完整教程](https:\u002F\u002Fyoutu.be\u002FzIHH3YnZKr4)，帮助您快速上手。\n\n## :microscope: 性能\n\n| 模型                       | 医疗 | 金融 | 法律    |\n|-----------------------------|------|------|---------|\n| Qwen-2.5-7B-Instruct        | 42.34%  | 52.91%  | 19.80% |\n| 使用合成数据训练           | 64.57%  | 73.93%  | 42.80% |\n\n仅需几行代码，性能即可提升超过 20%。\n\n## :notebook: 更改记录\n\n[25\u002F11\u002F17] 🎉 我们开源了合成数据平台。  \n[25\u002F11\u002F27] 我们添加了**并行处理模块**，显著加速合成数据生成流程。  \n[25\u002F11\u002F28] 我们增加了**中间结果保存功能**，允许用户从上次成功阶段继续，而无需重新开始整个流程——这是一项重要的**节省 token 的功能**。  \n[25\u002F12\u002F25] 🔥重大升级：\n- **前后端分离**：**DataArc SynData 工具包**现在采用完全前后端分离的架构，包含一个 **FastAPI 后端**（REST APIs + SSE 实时进度流）和独立的 **React 前端**，以提升可视化效果、易用性和可扩展性。\n- **通过 verl 支持后训练**：引入了由 **verl** 提供支持的集成后训练模块，可在合成数据上实现包括 **SFT** 和 **GRPO** 在内的端到端模型训练流程。\n- **多语言扩展**：新增对 **阿拉伯语** 数据集的支持，利用阿拉伯语翻译模型生成完全本地化的合成数据输出。\n\n[26\u002F01\u002F12] 🖼️ 添加图像模态支持：\n- **图像模态本地任务**：使用 VLM 从本地图片或 PDF 中提取的图表生成 VQA（视觉问答）数据。\n- **图像模态网络任务**：自动搜索并从 HuggingFace Hub 获取图像-文本数据集。\n\n[26\u002F01\u002F26] 📊 后训练模型评估：\n- **DeepEval 集成**：新增由 **DeepEval** 提供支持的模型评估模块。\n- **三种评估指标**：\n  - **答案正确性**：根据可自定义的评分标准，将模型输出与真实答案进行对比。\n  - **两两偏好**：比较微调后的模型与基础模型，以衡量改进程度。\n  - **格式合规性**：评估模型输出是否符合指定的格式要求。\n\n> [!TIP]\n>\n> 如果您无法使用最新功能，请拉取最新代码。\n\n## :factory: DataArc SynData 工具包流程\n\n**DataArc SynData 工具包** 旨在通过模块化的流程合成数据，允许用户自定义每个步骤的策略和实现方法。主要组件包括：\n\n- **合成数据生成**：通过本地合成、从 Huggingface 检索数据集以及模型蒸馏等方式生成数据。\n  - 开发者可以继承 [BaseTaskConfig](.\u002Fsdgsystem\u002Fconfigs\u002Fconfig.py) 和 [BaseTaskExecutor](.\u002Fsdgsystem\u002Ftasks\u002Fbase.py) 来自定义生成任务。\n- **数据过滤与重写**：根据目标模型的要求，对初步合成的数据进行过滤和重写。\n  - 开发者可以继承 [BaseRewriteConfig](.\u002Fsdgsystem\u002Fconfigs\u002Fconfig.py) 和 [BaseRewriter](.\u002Fsdgsystem\u002Fgeneration\u002Frewriter.py) 来自定义合成数据的重写方式（或不进行重写）。\n\n![dataarc-sdg_pipeline](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FDataArcTech_DataArc-SynData-Toolkit_readme_aa326cf210bd.png)\n\n通过模块解耦，开发者可以根据具体需求灵活定制功能模块。\n\n## :jigsaw: 使用场景\n\n我们提供了[三个不同的使用场景](docs\u002FUSE_CASES.md)，展示了如何通过 **DataArc SynData 工具包** 合成数据。\n\n## :file_folder: 项目结构\n\n```\nDataArc-SynData-Toolkit\u002F\n├── configs\u002F                        # YAML 配置示例\n│   ├── sdg.yaml                    # SDG 流水线配置\n│   ├── sft.yaml                    # SFT 训练配置\n│   ├── grpo.yaml                   # GRPO 训练配置\n│   └── eval.yaml                   # 模型评估配置\n│\n├── sdgsystem\u002F                      # 核心系统\n│   ├── app\u002F                        # FastAPI 后端 (REST + SSE)\n│   ├── generation\u002F                 # 数据生成\n│   ├── documents\u002F                  # 文件解析与检索\n│   ├── huggingface\u002F                # HF 数据集集成\n│   ├── distillation\u002F               # 模型蒸馏合成\n│   ├── tasks\u002F                      # SDG 执行任务\n│   ├── evaluation\u002F                 # 数据质量评估\n│   ├── deepeval\u002F                   # 训练后模型评估 (G-Eval)\n│   ├── models\u002F                     # 统一的 LLM 接口及后处理\n│   ├── trainer\u002F                    # 训练后优化 (verl: SFT + GRPO)\n│   ├── translation\u002F                # 多语言支持\n│   ├── webui\u002F                      # React 前端\n│   ├── pipeline.py                 # 核心 SDG 流水线\n│   └── cli.py                      # CLI 入口\n│\n├── verl\u002F                           # 集成的 verl 框架\n├── docs\u002F                           # 文档\n├── pyproject.toml\n└── README.md\n```\n\n## :rocket: 快速开始\n\n### 1. 安装 DataArc SynData Toolkit\n\n```shell\n# 1. 克隆仓库\ngit clone https:\u002F\u002Fgithub.com\u002FDataArcTech\u002FDataArc-SynData-Toolkit.git\ncd DataArc-SynData-Toolkit\n\n# 2. 如果尚未安装 uv，先安装\npip install uv\n\n# 3. 安装依赖\nuv sync\n```\n\n有关硬件要求和依赖的详细信息，请参阅 [依赖与安装指南](\u002Fdocs\u002FDEPENDENCIES.md)。\n\n### 2. 配置\n\n请参考 [示例配置文件](.\u002Fconfigs\u002Fsdg.yaml)，并根据您的需求修改配置。\n\n### 3. 合成数据\n\n通过 CLI 运行：\n\n创建一个 `.env` 文件，并指定以下字段。\n\n```shell\nAPI_KEY=sk-xxx   # 您的 API 密钥\nBASE_URL=https:\u002F\u002Fapi.openai.com\u002Fv1  # 可选：您的基础 URL\n```\n\n然后运行以下命令。\n\n```shell\nuv run sdg generate configs\u002Fsdg.yaml  # 或替换为您自己的 .yaml 文件\n```\n\n## :twisted_rightwards_arrows: 使用合成数据进行训练\n\n**DataArc SynData Toolkit** 集成了由 [verl](https:\u002F\u002Fgithub.com\u002Fvolcengine\u002Fverl) 提供支持的端到端模型训练模块，使您能够直接在合成数据上训练模型。我们支持两种训练方法：**SFT（监督微调）** 和 **GRPO（分组相对策略优化）**。\n\n### CLI 快速入门\n\n#### 1. 准备您的配置\n\n根据 [SFT 配置示例](.\u002Fconfigs\u002Fsft.yaml) 或 [GRPO 配置示例](.\u002Fconfigs\u002Fgrpo.yaml) 创建一个训练配置文件。\n\n#### 2. 运行训练\n\n```shell\n# SFT 训练\nuv run sdg train configs\u002Fsft.yaml\n\n# GRPO 训练\nuv run sdg train configs\u002Fgrpo.yaml\n```\n\n有关详细的配置选项，请参阅示例 YAML 文件。\n\n## :bar_chart: 训练后模型评估\n\n**DataArc SynData Toolkit** 提供了一个由 [DeepEval](https:\u002F\u002Fgithub.com\u002Fconfident-ai\u002Fdeepeval) 支持的模型评估模块，使您能够使用 LLM 作为裁判 (G-Eval) 来评估训练后的模型。我们支持三种指标：**答案正确性**、**格式合规性** 和 **成对偏好**。\n\n### CLI 快速入门\n\n#### 1. 准备您的配置\n\n根据 [评估配置示例](.\u002Fconfigs\u002Feval.yaml) 创建一个评估配置文件。\n\n将您的 API 密钥添加到 `.env` 文件中。\n\n```shell\nOPENAI_API_KEY=sk-xxx   # 您的 OpenAI API 密钥\nOPENAI_BASE_URL=https:\u002F\u002Fapi.openai.com\u002Fv1  # 可选：您的 OpenAI 基础 URL\nCONFIDENT_API_KEY=confident_us_xxx  # 您的 Confident AI API 密钥（访问 Deepeval，注册后可免费创建）\n```\n\n#### 2. 运行评估\n\n```shell\nuv run sdg eval configs\u002Feval.yaml\n```\n\n结果可以在 Confident AI 的网页上可视化，并会保存到配置的输出目录中。\n\n## :desktop_computer: 使用 GUI 运行\n\n使用以下命令启动 FastAPI 服务器。\n\n```shell\nuv run fastapi dev sdgsystem\u002Fapp\u002Fmain.py\n```\n\n打开另一个终端，并使用以下命令构建前端。\n\n```shell\ncd sdgsystem\u002Fwebui\n\n# 安装依赖\npnpm install\n\n# 启动开发服务器\npnpm dev\n```\n\n如果您对我们的 Web UI 有任何疑问，请查看我们的 [Web UI 文档](\u002Fsdgsystem\u002Fwebui\u002FREADME.md)。\n\n## :date: 下一次发布计划\n\n- **加密合成数据生成**：使用加密的敏感数据进行生成。\n\n## :handshake: 贡献\n\n我们欢迎贡献！\n\n## 星标历史\n\n[![星标历史图](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FDataArcTech_DataArc-SynData-Toolkit_readme_be8af1f11015.png)](https:\u002F\u002Fwww.star-history.com\u002F#DataArcTech\u002FDataArc-SynData-Toolkit?type=timeline&legend=top-left)","# DataArc SynData Toolkit 快速上手指南\n\nDataArc SynData Toolkit 是一个模块化、易用的合成数据生成工具，支持多源、多语言数据合成，并可一键完成大模型训练数据的生成、微调（SFT\u002FGRPO）及评估。\n\n## 环境准备\n\n### 系统要求\n- **操作系统**: Linux \u002F macOS \u002F Windows (WSL2 推荐)\n- **Python 版本**: 3.10 或更高\n- **包管理器**: `uv` (推荐，用于加速依赖安装)\n- **前端依赖** (如需使用 GUI): Node.js, pnpm\n\n### 前置依赖\n确保已安装 Git 和 Python 3.10+。若未安装 `uv`，请先执行：\n```bash\npip install uv\n```\n\n> 💡 **国内加速建议**：如遇网络问题，可配置 `uv` 使用国内镜像源：\n> ```bash\n> export UV_INDEX_URL=https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> ```\n\n## 安装步骤\n\n1. **克隆项目仓库**\n   ```bash\n   git clone https:\u002F\u002Fgithub.com\u002FDataArcTech\u002FDataArc-SynData-Toolkit.git\n   cd DataArc-SynData-Toolkit\n   ```\n\n2. **安装项目依赖**\n   使用 `uv` 自动同步环境并安装所有依赖：\n   ```bash\n   uv sync\n   ```\n\n## 基本使用\n\n### 1. 配置 API 密钥\n在项目根目录创建 `.env` 文件，填入你的 LLM API 信息：\n```shell\nAPI_KEY=sk-xxx\nBASE_URL=https:\u002F\u002Fapi.openai.com\u002Fv1\n```\n\n### 2. 修改配置文件\n参考 `configs\u002Fsdg.yaml` 示例，根据需求调整数据源、生成策略及模型参数。\n\n### 3. 生成合成数据\n执行以下命令启动数据生成流程：\n```bash\nuv run sdg generate configs\u002Fsdg.yaml\n```\n\n### 4. （可选）微调与评估\n生成数据后，可直接进行模型微调和效果评估：\n\n- **SFT 微调**：\n  ```bash\n  uv run sdg train configs\u002Fsft.yaml\n  ```\n- **GRPO 微调**：\n  ```bash\n  uv run sdg train configs\u002Fgrpo.yaml\n  ```\n- **模型评估**（需配置 DeepEval API）：\n  ```bash\n  uv run sdg eval configs\u002Feval.yaml\n  ```\n\n### 5. （可选）启动图形界面 (GUI)\n如需可视化操作，可分别启动后端与前端：\n\n**终端 1 - 启动后端**：\n```bash\nuv run fastapi dev sdgsystem\u002Fapp\u002Fmain.py\n```\n\n**终端 2 - 启动前端**：\n```bash\ncd sdgsystem\u002Fwebui\npnpm install\npnpm dev\n```\n\n访问前端地址即可通过图形界面完成全流程操作。","某医疗科技公司的算法团队正急需构建一个专病领域的诊断大模型，但面临高质量标注数据极度匮乏的困境。\n\n### 没有 DataArc-SynData-Toolkit 时\n- **数据获取成本高昂**：依赖人工整理病历或购买昂贵数据集，耗时数月且难以覆盖罕见病例，导致项目启动严重滞后。\n- **多语言支持困难**：面对低资源语种的医疗文献，缺乏有效的自动化合成手段，只能放弃多语言模型的训练计划。\n- **流程割裂效率低**：数据生成、模型微调（SFT）与评估需切换不同工具链，配置复杂且容易出错，迭代周期长达数周。\n- **容错机制缺失**：长流程任务一旦中途失败，必须从头重新运行，浪费大量算力资源和时间。\n\n### 使用 DataArc-SynData-Toolkit 后\n- **一键生成高质量数据**：通过简单配置文件，利用本地语料或 Huggingface 源自动合成定制化医疗数据，将数据准备时间从数月缩短至几天。\n- **无缝拓展多语言场景**：直接调用其多语言支持能力，轻松生成包含低资源语种的训练集，快速实现全球化模型部署。\n- **端到端流水线加速**：内置基于 verl 的微调模块和 DeepEval 评估组件，实现从数据合成到模型验证的一站式闭环，迭代效率提升数倍。\n- **断点续跑保障稳定**：借助中间结果保存功能，任务中断后可直接从上一成功阶段恢复，大幅降低试错成本并节省算力。\n\nDataArc-SynData-Toolkit 通过模块化设计与端到端自动化，让团队仅用几行配置即可将模型在医疗领域的表现提升超过 20%，真正实现了低成本、高效率的垂直领域大模型落地。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FDataArcTech_DataArc-SynData-Toolkit_aa326cf2.png","DataArcTech","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FDataArcTech_89de5d7d.png","Welcome to DataArc Tech Inc.",null,"https:\u002F\u002Fgithub.com\u002FDataArcTech",[82,86,90,94,98],{"name":83,"color":84,"percentage":85},"Python","#3572A5",93.1,{"name":87,"color":88,"percentage":89},"TypeScript","#3178c6",6.7,{"name":91,"color":92,"percentage":93},"CSS","#663399",0.1,{"name":95,"color":96,"percentage":97},"JavaScript","#f1e05a",0,{"name":99,"color":100,"percentage":97},"HTML","#e34c26",1582,40,"2026-04-02T10:06:39","未说明","未说明（支持本地模型部署及蒸馏，隐含需要 GPU，但具体型号和显存未在 README 中列出）",{"notes":107,"python":108,"dependencies":109},"该项目采用前后端分离架构，后端基于 FastAPI，前端基于 React。包管理器推荐使用 uv。支持多种数据合成方式（本地、HuggingFace、蒸馏）及多模态（图像）任务。训练模块集成 verl 支持 SFT 和 GRPO，评估模块集成 DeepEval。具体的硬件依赖详情需参考项目文档中的 DEPENDENCIES.md 文件。","3.10+",[110,111,112,113,114,115,116,117],"uv","pydantic>=2.0","fastapi","react (frontend)","verl","deepeval","transformers (隐含)","torch (隐含)",[26,13,51],"2026-03-27T02:49:30.150509","2026-04-06T09:43:37.929595",[122,127,132],{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},10604,"DataArc-SynData-Toolkit 的 API 是否需要配置身份验证（如 API Key）以防止未授权访问？","不需要。该工具包设计为在本地主机（localhost）上运行的本地开发工具，API 仅对本地用户可访问。为了保持简单，目前不强制要求配置 API Key 身份验证。如果您计划将其部署到网络可访问的服务器，则建议自行添加中间件进行保护。","https:\u002F\u002Fgithub.com\u002FDataArcTech\u002FDataArc-SynData-Toolkit\u002Fissues\u002F12",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},10605,"为什么多数投票（Majority Voting）功能中没有实现嵌入缓存（Embedding Cache）来加速语义比较？","实际上不需要额外的嵌入缓存层。语义聚类方法首先使用 SentenceTransformers 计算嵌入，该库内部已经处理了批处理、GPU 加速和分词优化。嵌入仅用于一次性计算相似度矩阵，随后通过查找最大簇并选择其中心点（medoid）作为投票结果。因此，现有的实现效率已经足够，无需引入复杂的缓存机制。","https:\u002F\u002Fgithub.com\u002FDataArcTech\u002FDataArc-SynData-Toolkit\u002Fissues\u002F5",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},10606,"生产环境中是否应该修复默认的通配符 CORS 配置（allow_origins=[\"*\"]）？","是的，但这取决于部署场景。由于该系统默认设计为本地开发工具，因此默认允许所有来源（*）是为了方便开发调试。但是，如果您将此应用部署到网络可访问的服务器上，必须收紧 CORS 设置以防止 CSRF 攻击和数据泄露。建议通过环境变量配置允许的域名列表，例如：\n\nALLOWED_ORIGINS=\"http:\u002F\u002Fyour-domain.com,http:\u002F\u002Flocalhost:3000\"\n\n并在代码中动态读取该配置来替换通配符。","https:\u002F\u002Fgithub.com\u002FDataArcTech\u002FDataArc-SynData-Toolkit\u002Fissues\u002F4",[]]