[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-datadreamer-dev--DataDreamer":3,"tool-datadreamer-dev--DataDreamer":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":67,"owner_avatar_url":76,"owner_bio":77,"owner_company":78,"owner_location":78,"owner_email":79,"owner_twitter":78,"owner_website":80,"owner_url":81,"languages":82,"stars":91,"forks":92,"last_commit_at":93,"license":94,"difficulty_score":23,"env_os":95,"env_gpu":96,"env_ram":95,"env_deps":97,"category_tags":101,"github_topics":102,"view_count":10,"oss_zip_url":78,"oss_zip_packed_at":78,"status":16,"created_at":121,"updated_at":122,"faqs":123,"releases":154},2310,"datadreamer-dev\u002FDataDreamer","DataDreamer","DataDreamer: Prompt. Generate Synthetic Data. Train & Align Models.    🤖💤","DataDreamer 是一款强大的开源 Python 库，旨在简化从提示词设计、合成数据生成到模型训练与对齐的完整工作流程。在高质量标注数据稀缺且获取成本高昂的背景下，它帮助开发者轻松构建用于微调大语言模型的定制化数据集，有效解决了数据瓶颈问题。\n\n这款工具特别适合 AI 研究人员、算法工程师以及希望深入探索模型微调技术的开发者使用。其核心优势在于将复杂的流程封装为简洁易用的接口，用户只需编写少量代码即可定义数据生成逻辑，自动调用大模型批量生产高质量合成数据，并直接衔接后续的模型训练环节。DataDreamer 不仅具备科研级的严谨性，支持可复现的实验管理，还拥有极高的运行效率。无论是需要验证新算法的学术团队，还是致力于优化垂直领域模型的企业技术岗，都能通过 DataDreamer 快速搭建高效的数据闭环，让模型迭代变得更加简单流畅。","\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fdatadreamer.dev\">\u003Cimg src=\"https:\u002F\u002Fdatadreamer.dev\u002Fdocs\u002Flatest\u002F_static\u002Flogo.svg\" alt=\"DataDreamer\" style=\"max-width: 100%;\">\u003C\u002Fa>\u003Cbr \u002F>\n  \u003Ca href=\"https:\u002F\u002Fdatadreamer.dev\">\u003Cb>https:\u002F\u002Fdatadreamer.dev\u003C\u002Fb>\u003C\u002Fa>\n\u003C\u002Fp>\n\u003Cp align=\"center\">\n   \u003Cb>Prompt. Generate Synthetic Data. Train & Align Models.\u003C\u002Fb>\u003Cbr \u002F>\u003Cbr \u002F>\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Factions\u002Fworkflows\u002Frelease.yml\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Factions\u002Fworkflow\u002Fstatus\u002Fdatadreamer-dev\u002FDataDreamer\u002Frelease.yml?logo=githubactions&logoColor=white&label=Tests%20%26%20Release\" alt=\"Tests & Release\" style=\"max-width: 100%;\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fcodecov.io\u002Fgh\u002Fdatadreamer-dev\u002FDataDreamer\">\u003Cimg src=\"https:\u002F\u002Fcodecov.io\u002Fgh\u002Fdatadreamer-dev\u002FDataDreamer\u002Fgraph\u002Fbadge.svg?token=KZB00BKWJE\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Factions\u002Fworkflows\u002Ftests.yml\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fendpoint?url=https:\u002F\u002Fraw.githubusercontent.com\u002Fastral-sh\u002Fruff\u002F57b6a8cedd26481516a1a6af510d6b24272d0a76\u002Fassets\u002Fbadge\u002Fv2.json\" alt=\"Ruff\" style=\"max-width: 100%;\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fpypi.org\u002Fproject\u002Fdatadreamer.dev\u002F\">\u003Cimg src=\"https:\u002F\u002Fbadge.fury.io\u002Fpy\u002Fdatadreamer.dev.svg\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fdatadreamer.dev\u002Fdocs\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fwebsite.svg?down_color=red&down_message=offline&label=Documentation&up_message=online&url=https:\u002F\u002Fdatadreamer.dev\u002Fdocs\u002F\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fdatadreamer.dev\u002Fdocs\u002Flatest\u002Fpages\u002Fcontributing.html\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FContributor-Guide-blue?logo=Github&color=purple\"\u002F>\u003C\u002Fa>\n  \u003Cbr \u002F>\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Fblob\u002Fmain\u002FLICENSE.txt\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-MIT-blue.svg\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fajayp.app\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FNLP-NLP?labelColor=011F5b&color=990000&label=University%20of%20Pennsylvania\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.10379\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2402.10379-b31b1b.svg\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fdiscord.gg\u002FdwWW8wuCtK\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDiscord-Chat-blue?logo=discord&color=4338ca&labelColor=black\"\u002F>\u003C\u002Fa>\n\u003C\u002Fp>\n\nDataDreamer is a powerful open-source Python library for prompting, synthetic data generation, and training workflows. It is designed to be simple, extremely efficient, and research-grade.\n\n\u003Cdiv align=\"center\">\n  \u003Ctable class=\"docutils align-default\">\n    \u003Ctbody>\n        \u003Ctr>\n          \u003Ctd colspan=\"2\">\n            \u003Cp align=\"center\">\u003Cb>Installation\u003C\u002Fb>\u003C\u002Fp> \u003Cpre lang=\"bash\">pip3 install datadreamer.dev\u003C\u002Fpre>\n          \u003C\u002Ftd>\n        \u003C\u002Ftr>\n    \u003C\u002Ftbody>\n    \u003Ctbody>\n        \u003Ctr>\n          \u003Cth class=\"head\">\u003Ccode>demo.py\u003C\u002Fcode>\u003C\u002Fth>\n          \u003Cth class=\"head\">Result of \u003Ccode>demo.py\u003C\u002Fcode>\u003C\u002Fth>\n        \u003C\u002Ftr>\n    \u003C\u002Ftbody>\n    \u003Ctbody>\n        \u003Ctr>\n          \u003Ctd>\n&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;\u003Cbr \u002F>\n              \u003Ca href=\"https:\u002F\u002Fdatadreamer.dev\u002Fdocs\u002Flatest\u002F\" title=\"demo.py\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatadreamer-dev_DataDreamer_readme_a4a6b69cac41.png\" alt=\"demo.py\" \u002F>\u003C\u002Fa>\n              \u003Cbr \u002F>\u003Cbr \u002F>\n              \u003Cp align=\"center\">\n                See the \u003Ca class=\"reference external\" href=\"https:\u002F\u002Fdatadreamer.dev\u002Fdocs\u002Flatest\u002F\" title=\"demo.py\">full demo script\u003C\u002Fa>\n              \u003C\u002Fp>\n              \u003Cbr \u002F>\n          \u003C\u002Ftd>\n          \u003Ctd>\n&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;\u003Cbr \u002F>\n            \u003Ca href=\"https:\u002F\u002Fdatadreamer.dev\u002Fdocs\u002Flatest\u002F\" title=\"Demo\">\u003Cimg style=\"height: 400px;\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatadreamer-dev_DataDreamer_readme_1ccde7df34d1.png\" alt=\"Demo\" \u002F>\u003C\u002Fa>\n            \u003Cp align=\"center\">\n              See the \u003Ca class=\"reference external\" href=\"https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fdatadreamer-dev\u002Fabstracts_and_tweets\">synthetic dataset\u003C\u002Fa> and \u003Ca class=\"reference external\" href=\"https:\u002F\u002Fhuggingface.co\u002Fdatadreamer-dev\u002Fabstracts_to_tweet_model\">the trained model\u003C\u002Fa>\n            \u003C\u002Fp>\n          \u003C\u002Ftd>\n        \u003C\u002Ftr> \n    \u003C\u002Ftbody>\n    \u003Ctbody>\n        \u003Ctr>\n          \u003Ctd colspan=\"2\">\n              \u003Cp align=\"center\">\n                🚀 For more demonstrations and recipes see the \u003Ca class=\"reference external\" href=\"https:\u002F\u002Fdatadreamer.dev\u002Fdocs\u002Flatest\u002Fpages\u002Fget_started\u002Fquick_tour\u002Findex.html\" title=\"Quick Tour\"> Quick Tour\u003C\u002Fa> page.\n              \u003C\u002Fp>\n          \u003C\u002Ftd>\n        \u003C\u002Ftr>\n    \u003C\u002Ftbody>\n  \u003C\u002Ftable>\n\u003C\u002Fdiv>\n\nWith DataDreamer you can:\n\n* 💬 **Create Prompting Workflows**: Create and run multi-step, complex, prompting workflows easily with major open source or API-based LLMs.\n* 📊 **Generate Synthetic Datasets**: Generate synthetic datasets for novel tasks or augment existing datasets with LLMs.\n* ⚙️ **Train Models**: Align models. Fine-tune models. Instruction-tune models. Distill models. Train on existing data or synthetic data.\n* ... learn more about what's possible in the [Overview Guide](https:\u002F\u002Fdatadreamer.dev\u002Fdocs\u002Flatest\u002Fpages\u002Fget_started\u002Foverview_guide.html)\n\nDataDreamer is:\n\n* 🧩 **Simple**: Simple and approachable to use with sensible defaults, yet powerful with support for bleeding edge techniques.\n* 🔬 **Research-Grade**: Built for researchers, by researchers, but accessible to all. A focus on correctness, best practices, and reproducibility.\n* 🏎️ **Efficient**: Aggressive caching and resumability built-in. Support for techniques like quantization, parameter-efficient training (LoRA), and more.\n* 🔄 **Reproducible**: Workflows built with DataDreamer are easily shareable, reproducible, and extendable.\n* 🤝 **Makes Sharing Easy**: Publishing datasets and models is simple. Automatically generate data cards and model cards with metadata. Generate a list of any citations required.\n* ... learn more about the [motivation and design principles behind DataDreamer](https:\u002F\u002Fdatadreamer.dev\u002Fdocs\u002Flatest\u002Fpages\u002Fget_started\u002Fmotivation_and_design.html).\n\n## Citation\n\nPlease cite the [DataDreamer paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.10379):\n\n```bibtex\n@misc{patel2024datadreamer,\n      title={DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows}, \n      author={Ajay Patel and Colin Raffel and Chris Callison-Burch},\n      year={2024},\n      eprint={2402.10379},\n      archivePrefix={arXiv},\n      primaryClass={cs.CL}\n}\n```\n\n## Contact\n\nPlease reach out to us via [email (ajayp@upenn.edu)](mailto:ajayp@upenn.edu) or on [Discord](https:\u002F\u002Fdiscord.gg\u002FdwWW8wuCtK) if you have any questions, comments, or feedback.\n\n\u003Cbr \u002F>\n\n------------------------------\n\nCopyright © 2024, [Ajay Patel](https:\u002F\u002Fajayp.app\u002F). Released under the [MIT License](https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Fblob\u002Fmain\u002FLICENSE.txt).\n\nThank you to the maintainers at [Hugging Face](https:\u002F\u002Fgithub.com\u002Fhuggingface) and [LiteLLM](https:\u002F\u002Fgithub.com\u002FBerriAI\u002Flitellm) for accepting contributions necessary for DataDreamer and providing upstream support.\n\n------------------------------\n#### Funding Acknowledgements\n\n\u003Csub>\u003Cb>ODNI, IARPA:\u003C\u002Fb> This research is supported in part by the Office of the Director of National Intelligence (ODNI), Intelligence Advanced Research Projects Activity (IARPA), via the HIATUS Program contract #2022-22072200005. The views and conclusions contained herein are those of the authors and should not be interpreted as necessarily representing the official policies, either expressed or implied, of ODNI, IARPA, or the U.S. Government. The U.S. Government is authorized to reproduce and distribute reprints for governmental purposes notwithstanding any copyright annotation therein.\u003C\u002Fsup>\n","\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fdatadreamer.dev\">\u003Cimg src=\"https:\u002F\u002Fdatadreamer.dev\u002Fdocs\u002Flatest\u002F_static\u002Flogo.svg\" alt=\"DataDreamer\" style=\"max-width: 100%;\">\u003C\u002Fa>\u003Cbr \u002F>\n  \u003Ca href=\"https:\u002F\u002Fdatadreamer.dev\">\u003Cb>https:\u002F\u002Fdatadreamer.dev\u003C\u002Fb>\u003C\u002Fa>\n\u003C\u002Fp>\n\u003Cp align=\"center\">\n   \u003Cb>提示工程。生成合成数据。训练与对齐模型。\u003C\u002Fb>\u003Cbr \u002F>\u003Cbr \u002F>\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Factions\u002Fworkflows\u002Frelease.yml\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Factions\u002Fworkflow\u002Fstatus\u002Fdatadreamer-dev\u002FDataDreamer\u002Frelease.yml?logo=githubactions&logoColor=white&label=Tests%20%26%20Release\" alt=\"Tests & Release\" style=\"max-width: 100%;\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fcodecov.io\u002Fgh\u002Fdatadreamer-dev\u002FDataDreamer\">\u003Cimg src=\"https:\u002F\u002Fcodecov.io\u002Fgh\u002Fdatadreamer-dev\u002FDataDreamer\u002Fgraph\u002Fbadge.svg?token=KZB00BKWJE\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Factions\u002Fworkflows\u002Ftests.yml\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fendpoint?url=https:\u002F\u002Fraw.githubusercontent.com\u002Fastral-sh\u002Fruff\u002F57b6a8cedd26481516a1a6af510d6b24272d0a76\u002Fassets\u002Fbadge\u002Fv2.json\" alt=\"Ruff\" style=\"max-width: 100%;\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fpypi.org\u002Fproject\u002Fdatadreamer.dev\u002F\">\u003Cimg src=\"https:\u002F\u002Fbadge.fury.io\u002Fpy\u002Fdatadreamer.dev.svg\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fdatadreamer.dev\u002Fdocs\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fwebsite.svg?down_color=red&down_message=offline&label=Documentation&up_message=online&url=https:\u002F\u002Fdatadreamer.dev\u002Fdocs\u002F\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fdatadreamer.dev\u002Fdocs\u002Flatest\u002Fpages\u002Fcontributing.html\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FContributor-Guide-blue?logo=Github&color=purple\"\u002F>\u003C\u002Fa>\n  \u003Cbr \u002F>\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Fblob\u002Fmain\u002FLICENSE.txt\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-MIT-blue.svg\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fajayp.app\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FNLP-NLP?labelColor=011F5b&color=990000&label=University%20of%20Pennsylvania\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.10379\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2402.10379-b31b1b.svg\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fdiscord.gg\u002FdwWW8wuCtK\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDiscord-Chat-blue?logo=discord&color=4338ca&labelColor=black\"\u002F>\u003C\u002Fa>\n\u003C\u002Fp>\n\nDataDreamer 是一个功能强大的开源 Python 库，用于提示工程、合成数据生成和训练工作流。它设计简洁、效率极高，并且达到研究级标准。\n\n\u003Cdiv align=\"center\">\n  \u003Ctable class=\"docutils align-default\">\n    \u003Ctbody>\n        \u003Ctr>\n          \u003Ctd colspan=\"2\">\n            \u003Cp align=\"center\">\u003Cb>安装\u003C\u002Fb>\u003C\u002Fp> \u003Cpre lang=\"bash\">pip3 install datadreamer.dev\u003C\u002Fpre>\n          \u003C\u002Ftd>\n        \u003C\u002Ftr>\n    \u003C\u002Ftbody>\n    \u003Ctbody>\n        \u003Ctr>\n          \u003Cth class=\"head\">\u003Ccode>demo.py\u003C\u002Fcode>\u003C\u002Fth>\n          \u003Cth class=\"head\">`demo.py` 的结果\u003C\u002Fth>\n        \u003C\u002Ftr>\n    \u003C\u002Ftbody>\n    \u003Ctbody>\n        \u003Ctr>\n          \u003Ctd>\n&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;\u003Cbr \u002F>\n              \u003Ca href=\"https:\u002F\u002Fdatadreamer.dev\u002Fdocs\u002Flatest\u002F\" title=\"demo.py\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatadreamer-dev_DataDreamer_readme_a4a6b69cac41.png\" alt=\"demo.py\" \u002F>\u003C\u002Fa>\n              \u003Cbr \u002F>\u003Cbr \u002F>\n              \u003Cp align=\"center\">\n                查看完整的 \u003Ca class=\"reference external\" href=\"https:\u002F\u002Fdatadreamer.dev\u002Fdocs\u002Flatest\u002F\" title=\"demo.py\">演示脚本\u003C\u002Fa>\n              \u003C\u002Fp>\n              \u003Cbr \u002F>\n          \u003C\u002Ftd>\n          \u003Ctd>\n&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;\u003Cbr \u002F>\n            \u003Ca href=\"https:\u002F\u002Fdatadreamer.dev\u002Fdocs\u002Flatest\u002F\" title=\"Demo\">\u003Cimg style=\"height: 400px;\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatadreamer-dev_DataDreamer_readme_1ccde7df34d1.png\" alt=\"Demo\" \u002F>\u003C\u002Fa>\n            \u003Cp align=\"center\">\n              查看 \u003Ca class=\"reference external\" href=\"https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fdatadreamer-dev\u002Fabstracts_and_tweets\">合成数据集\u003C\u002Fa> 和 \u003Ca class=\"reference external\" href=\"https:\u002F\u002Fhuggingface.co\u002Fdatadreamer-dev\u002Fabstracts_to_tweet_model\">训练好的模型\u003C\u002Fa>\n            \u003C\u002Fp>\n          \u003C\u002Ftd>\n        \u003C\u002Ftr> \n    \u003C\u002Ftbody>\n    \u003Ctbody>\n        \u003Ctr>\n          \u003Ctd colspan=\"2\">\n              \u003Cp align=\"center\">\n                🚀 更多演示和使用示例，请参阅 \u003Ca class=\"reference external\" href=\"https:\u002F\u002Fdatadreamer.dev\u002Fdocs\u002Flatest\u002Fpages\u002Fget_started\u002Fquick_tour\u002Findex.html\" title=\"Quick Tour\">快速入门指南\u003C\u002Fa> 页面。\n              \u003C\u002Fp>\n          \u003C\u002Ftd>\n        \u003C\u002Ftr>\n    \u003C\u002Ftbody>\n  \u003C\u002Ftable>\n\u003C\u002Fdiv>\n\n借助 DataDreamer，您可以：\n\n* 💬 **创建提示工作流**：轻松地使用主流开源或基于 API 的大语言模型创建并运行多步骤、复杂的提示工作流。\n* 📊 **生成合成数据集**：利用大语言模型为新任务生成合成数据集，或扩充现有数据集。\n* ⚙️ **训练模型**：对齐模型、微调模型、指令微调模型、蒸馏模型；既可以在现有数据上训练，也可以在合成数据上训练。\n* ... 更多可能性请参阅 [概览指南](https:\u002F\u002Fdatadreamer.dev\u002Fdocs\u002Flatest\u002Fpages\u002Fget_started\u002Foverview_guide.html)。\n\nDataDreamer 具有以下特点：\n\n* 🧩 **简单易用**：默认设置合理，易于上手，同时支持前沿技术，功能强大。\n* 🔬 **研究级**：由研究人员为研究人员打造，但对所有人开放。注重正确性、最佳实践和可重复性。\n* 🏎️ **高效**：内置激进的缓存机制和断点续训功能。支持量化、参数高效训练（LoRA）等技术。\n* 🔄 **可重复性**：使用 DataDreamer 构建的工作流易于分享、复现和扩展。\n* 🤝 **便于共享**：发布数据集和模型非常简单。可自动生成包含元数据的数据卡片和模型卡片，并列出所有必要的引用文献。\n* ... 更多关于 DataDreamer 的[动机与设计原则](https:\u002F\u002Fdatadreamer.dev\u002Fdocs\u002Flatest\u002Fpages\u002Fget_started\u002Fmotivation_and_design.html)。\n\n## 引用\n\n请引用 [DataDreamer 论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.10379)：\n\n```bibtex\n@misc{patel2024datadreamer,\n      title={DataDreamer: 用于合成数据生成和可复现大模型工作流的工具}, \n      author={Ajay Patel 和 Colin Raffel 和 Chris Callison-Burch},\n      year={2024},\n      eprint={2402.10379},\n      archivePrefix={arXiv},\n      primaryClass={cs.CL}\n}\n```\n\n## 联系方式\n\n如有任何问题、意见或反馈，请通过 [电子邮件 (ajayp@upenn.edu)](mailto:ajayp@upenn.edu) 或 [Discord](https:\u002F\u002Fdiscord.gg\u002FdwWW8wuCtK) 联系我们。\n\n\u003Cbr \u002F>\n\n------------------------------\n\n版权所有 © 2024，[Ajay Patel](https:\u002F\u002Fajayp.app\u002F)。根据 [MIT 许可证](https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Fblob\u002Fmain\u002FLICENSE.txt)发布。\n\n感谢 [Hugging Face](https:\u002F\u002Fgithub.com\u002Fhuggingface) 和 [LiteLLM](https:\u002F\u002Fgithub.com\u002FBerriAI\u002Flitellm) 的维护者们接受 DataDreamer 所需的贡献，并提供上游支持。\n\n------------------------------\n#### 资助致谢\n\n\u003Csub>\u003Cb>ODNI, IARPA：\u003C\u002Fb> 本研究部分由美国国家情报总监办公室（ODNI）下属的情报高级研究计划活动（IARPA）通过 HIATUS 计划合同 #2022-22072200005 资助。文中所表达的观点和结论仅属作者个人，不应被解读为必然代表 ODNI、IARPA 或美国政府的官方政策，无论明示或暗示。美国政府有权在不考虑其中任何版权标注的情况下，为政府目的复制和分发再版材料。\u003C\u002Fsup>","# DataDreamer 快速上手指南\n\nDataDreamer 是一个强大的开源 Python 库，专为提示工程（Prompting）、合成数据生成以及模型训练与对齐工作流而设计。它兼具简洁性、高效性和科研级可靠性，帮助开发者轻松构建可复现的大语言模型（LLM）应用。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**：支持 Linux、macOS 或 Windows。\n*   **Python 版本**：建议安装 Python 3.8 或更高版本。\n*   **前置依赖**：\n    *   已安装 `pip` 包管理工具。\n    *   （可选）若需进行本地模型训练或推理，建议配置好 CUDA 环境及相应的 GPU 驱动。\n    *   （可选）若使用特定云厂商 API，请提前准备好 API Key。\n\n## 安装步骤\n\n您可以通过 PyPI 直接使用 pip 安装 DataDreamer。\n\n**标准安装命令：**\n\n```bash\npip3 install datadreamer.dev\n```\n\n> **提示**：如果您在中国大陆地区，遇到下载速度慢的问题，推荐使用国内镜像源加速安装：\n\n```bash\npip3 install datadreamer.dev -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n## 基本使用\n\nDataDreamer 的核心在于通过代码定义清晰的工作流。以下是一个最基础的示例，展示如何创建一个简单的提示工作流并生成合成数据。\n\n### 1. 创建脚本\n\n新建一个名为 `demo.py` 的文件，并写入以下内容。此示例演示了如何调用 LLM 将学术摘要转化为推文风格的内容。\n\n```python\nfrom datadreamer import DataDreamer\n\n# 初始化 DataDreamer 会话\nwith DataDreamer(\".\u002Foutput\"):\n    # 加载大语言模型 (此处以开源模型为例，也可替换为 API 模型)\n    llm = llms.HuggingFaceModel(\"google\u002Fflan-t5-base\")\n\n    # 定义数据集 (这里使用内置的示例数据作为输入)\n    inputs = datasets.LoadDataset(\"scientific_abstracts\")\n\n    # 运行提示工作流：将摘要转换为推文\n    outputs = llm.generate(\n        inputs=inputs,\n        system_prompt=\"You are a helpful assistant that converts scientific abstracts into tweets.\",\n        user_prompt=\"Abstract: {abstract}\",\n        output_col_name=\"tweet\"\n    )\n\n    # 保存生成的合成数据集\n    outputs.save_to_huggingface_dataset(\"my_scientific_tweets\")\n    \n    # (可选) 基于生成的数据微调模型\n    # trainer.train(...) \n```\n\n### 2. 运行脚本\n\n在终端中执行该脚本：\n\n```bash\npython3 demo.py\n```\n\n### 3. 查看结果\n\n运行完成后，您可以在指定的输出目录（默认为 `.\u002Foutput`）中找到生成的合成数据集。根据完整 Demo 的逻辑，您最终可以得到：\n*   **合成数据集**：已发布至 Hugging Face 的数据集（如 `datadreamer-dev\u002Fabstracts_and_tweets`）。\n*   **训练好的模型**：基于合成数据微调后的模型（如 `datadreamer-dev\u002Fabstracts_to_tweet_model`）。\n\n---\n\n**下一步**：更多高级功能（如多步工作流、量化训练、LoRA 微调等）请参阅官方文档的 [Quick Tour](https:\u002F\u002Fdatadreamer.dev\u002Fdocs\u002Flatest\u002Fpages\u002Fget_started\u002Fquick_tour\u002Findex.html) 页面。","某医疗科技公司的算法团队正致力于开发一款针对罕见皮肤病的辅助诊断模型，但面临真实患者图像数据极度匮乏且隐私敏感的困境。\n\n### 没有 DataDreamer 时\n- 数据收集周期漫长，团队需耗时数月协调多家医院获取脱敏数据，仍无法满足训练需求。\n- 手动编写脚本生成合成数据流程繁琐，缺乏统一的提示词管理与版本控制，导致数据质量参差不齐。\n- 模型训练与数据生成环节割裂，每次调整数据策略都需重新编写代码，难以快速验证假设。\n- 缺乏标准化的评估流程，无法量化合成数据对模型性能的具体提升效果，研发风险高。\n\n### 使用 DataDreamer 后\n- 利用 DataDreamer 的提示词工程功能，基于少量种子数据快速生成成千上万条高质量、多样化的合成皮肤病图像描述及对应标签。\n- 通过内置的工作流编排，将数据生成、清洗到模型微调对齐整合为单一脚本，实现“一键式”迭代，研发效率提升数倍。\n- 借助其研究级追踪能力，团队可精确对比不同合成策略下的模型表现，迅速锁定最优数据方案。\n- 在完全保护患者隐私的前提下，成功构建了大规模专用数据集，使模型在罕见病种上的识别准确率显著提升。\n\nDataDreamer 将原本断裂的数据与模型研发链路融合为高效闭环，让小样本场景下的专用大模型训练变得简单可行。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatadreamer-dev_DataDreamer_a4a6b69c.png","datadreamer-dev","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fdatadreamer-dev_d460baa6.png","The official account of the DataDreamer project.",null,"opensource@datadreamer.dev","https:\u002F\u002Fdatadreamer.dev","https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev",[83,87],{"name":84,"color":85,"percentage":86},"Python","#3572A5",96.6,{"name":88,"color":89,"percentage":90},"Shell","#89e051",3.4,1107,60,"2026-04-03T09:43:50","MIT","未说明","未说明（支持量化和参数高效训练如 LoRA，暗示可选配 GPU 以加速）",{"notes":98,"python":95,"dependencies":99},"README 中未详细列出具体的系统环境、GPU 型号、内存大小及 Python 版本要求。该工具是一个用于提示工程、合成数据生成及模型训练的工作流库，安装命令为 `pip3 install datadreamer.dev`。它集成了对主流开源或 API 大模型的支持，并内置了缓存、断点续跑、量化及 LoRA 等高效技术。具体依赖可能随配置的后端模型（如 Hugging Face 模型）而变化，建议参考官方文档获取详细的运行环境指南。",[100],"datadreamer.dev",[51,26,15,13],[103,104,105,106,107,108,109,110,111,112,113,114,115,116,117,118,119,120],"deep-learning","machine-learning","natural-language-processing","nlp","nlp-library","python","pytorch","transformers","alignment","fine-tuning","gpt","instruction-tuning","llm","llmops","llms","openai","synthetic-data","synthetic-dataset-generation","2026-03-27T02:49:30.150509","2026-04-06T06:44:20.330118",[124,129,134,139,144,149],{"id":125,"question_zh":126,"answer_zh":127,"source_url":128},10586,"如何从源代码安装 DataDreamer 以便修改代码并在其他目录中使用？","目前项目主要通过 PyPI 安装，对本地编辑和安装的支持有限。您可以尝试以下两种方法：\n1. **安装后编辑文件**：先通过 `pip install datadreamer.dev` 安装，然后找到安装位置直接编辑源文件。\n2. **子类化扩展**：如果您需要修改特定类（如 `VLLM`），可以通过继承该类并重写所需方法来实现自定义，而无需直接修改源码。\n注意：该项目暂不支持类似 `pip install -e .` 的可编辑安装模式。","https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Fissues\u002F18",{"id":130,"question_zh":131,"answer_zh":132,"source_url":133},10587,"如何在多 GPU 环境下使用 ParallelLLM 进行负载均衡或并行推理？","您可以使用 `ParallelLLM` 类来并行运行多个 LLM 实例。例如，在双 GPU 机器上，可以分别为每个 GPU 创建一个 `VLLM` 实例，然后将它们传递给 `ParallelLLM`：\n```python\nfrom datadreamer.llms import VLLM, ParallelLLM\nllm_1 = VLLM(\"gpt2\", device=0)\nllm_2 = VLLM(\"gpt2\", device=1)\nparallel_llm = ParallelLLM(llm_1, llm_2)\n```\n如果您使用的是 Hugging Face Transformers，也可以参考项目中的 `test_parallel_llm` 测试用例获取示例代码。","https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Fissues\u002F17",{"id":135,"question_zh":136,"answer_zh":137,"source_url":138},10588,"遇到 `add_special_tokens` 不是 transformers pipeline 有效参数的报错怎么办？","这通常是由于 `transformers` 库的特定版本与新模型（如 Llama3）兼容性暂时性问题导致的。解决方案是更新依赖包到最新版本：\n1. 升级 `datadreamer.dev` 到最新版（PyPI 上的最新版本已修复此问题）。\n2. 确保 `transformers` 库也更新到最新稳定版。\n如果问题仍然存在，请检查您的 `transformers` 版本（建议 >= 4.41.3），旧版本可能存在该参数支持缺失的 Bug。","https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Fissues\u002F29",{"id":140,"question_zh":141,"answer_zh":142,"source_url":143},10589,"为什么 `trl` 库的版本被锁定在 0.7.6？能否升级到更高版本以兼容新版 transformers？","该限制已被移除。维护者已更新依赖配置，现在支持 `trl` 0.8.1 及更高版本，这些版本兼容 `transformers >= 4.39`。请确保您将 `datadreamer.dev` 升级到至少 `0.26.0` 版本（可通过 `pip install --upgrade datadreamer.dev` 完成），即可解决因版本锁定导致的导入错误。","https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Fissues\u002F20",{"id":145,"question_zh":146,"answer_zh":147,"source_url":148},10590,"是否可以让训练器完全在内存中运行而不写入磁盘，以加快实验速度？","默认情况下训练器需要输出到磁盘，但可以通过以下变通方法实现“内存”运行：\n1. **使用 RAM 磁盘**：将输出目录设置为 `\u002Fdev\u002Fshm\u002Fmy_output_folder`。`\u002Fdev\u002Fshm\u002F` 是 Linux 系统中基于内存的文件系统，数据存储在 RAM 中而非硬盘上，可显著提高读写速度。\n2. **使用 LoRA 微调**：配合 LoRA 训练时，保存的检查点文件非常小（仅几 MB），可以减少磁盘占用并提升效率。\n这种方法适合快速实验场景，无需持久化存储大模型权重。","https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Fissues\u002F16",{"id":150,"question_zh":151,"answer_zh":152,"source_url":153},10591,"在自定义新的 LLM 类（如对接 TGI 服务）时，为什么接口会被多次调用？","即使设置了 `lazy=False`，如果使用了 `:memory:` 选项，`Prompt` 步骤内部仍可能以惰性模式运行。为了检测返回数据的类型，系统会对迭代器执行一次“窥探”（peek）操作（即获取第一个元素），这会导致额外的调用。\n这些额外的调用是框架内部的类型检查机制所致，通常不会影响最终结果，也不需要在您的自定义实现中特别处理。只要确保核心的 `_run_batch` 逻辑正确即可。","https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Fissues\u002F22",[155,160,165,170,175,180,185,190,195,200,205,210,215,220,225,230,235,240,245,250],{"id":156,"version":157,"summary_zh":158,"released_at":159},71149,"0.46.0","**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Fcommits\u002F0.46.0\n**Install this version**: `pip install 'https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Freleases\u002Fdownload\u002F0.46.0\u002Fdatadreamer_dev-0.46.0-py3-none-any.whl'`","2025-02-02T21:23:50",{"id":161,"version":162,"summary_zh":163,"released_at":164},71150,"0.45.0","**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Fcommits\u002F0.45.0\n**Install this version**: `pip install 'https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Freleases\u002Fdownload\u002F0.45.0\u002Fdatadreamer_dev-0.45.0-py3-none-any.whl'`","2025-01-30T16:47:57",{"id":166,"version":167,"summary_zh":168,"released_at":169},71151,"0.44.0","**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Fcommits\u002F0.44.0\n**Install this version**: `pip install 'https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Freleases\u002Fdownload\u002F0.44.0\u002Fdatadreamer_dev-0.44.0-py3-none-any.whl'`","2025-01-30T10:03:10",{"id":171,"version":172,"summary_zh":173,"released_at":174},71152,"0.43.0","**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Fcommits\u002F0.43.0\n**Install this version**: `pip install 'https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Freleases\u002Fdownload\u002F0.43.0\u002Fdatadreamer_dev-0.43.0-py3-none-any.whl'`","2025-01-29T21:31:58",{"id":176,"version":177,"summary_zh":178,"released_at":179},71153,"0.42.0","**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Fcommits\u002F0.42.0\n**Install this version**: `pip install 'https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Freleases\u002Fdownload\u002F0.42.0\u002Fdatadreamer_dev-0.42.0-py3-none-any.whl'`","2025-01-28T21:21:05",{"id":181,"version":182,"summary_zh":183,"released_at":184},71154,"0.41.0","**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Fcommits\u002F0.41.0\n**Install this version**: `pip install 'https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Freleases\u002Fdownload\u002F0.41.0\u002Fdatadreamer_dev-0.41.0-py3-none-any.whl'`","2025-01-28T04:10:31",{"id":186,"version":187,"summary_zh":188,"released_at":189},71155,"0.40.0","**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Fcommits\u002F0.40.0\n**Install this version**: `pip install 'https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Freleases\u002Fdownload\u002F0.40.0\u002Fdatadreamer_dev-0.40.0-py3-none-any.whl'`","2025-01-28T01:43:38",{"id":191,"version":192,"summary_zh":193,"released_at":194},71156,"0.39.0","**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Fcommits\u002F0.39.0\n**Install this version**: `pip install 'https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Freleases\u002Fdownload\u002F0.39.0\u002Fdatadreamer_dev-0.39.0-py3-none-any.whl'`","2025-01-18T22:25:56",{"id":196,"version":197,"summary_zh":198,"released_at":199},71157,"0.38.0","**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Fcommits\u002F0.38.0\n**Install this version**: `pip install 'https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Freleases\u002Fdownload\u002F0.38.0\u002Fdatadreamer_dev-0.38.0-py3-none-any.whl'`","2024-08-02T20:07:50",{"id":201,"version":202,"summary_zh":203,"released_at":204},71158,"0.37.0","**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Fcommits\u002F0.37.0\n**Install this version**: `pip install 'https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Freleases\u002Fdownload\u002F0.37.0\u002Fdatadreamer_dev-0.37.0-py3-none-any.whl'`","2024-08-01T12:10:14",{"id":206,"version":207,"summary_zh":208,"released_at":209},71159,"0.36.0","**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Fcommits\u002F0.36.0\n**Install this version**: `pip install 'https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Freleases\u002Fdownload\u002F0.36.0\u002Fdatadreamer_dev-0.36.0-py3-none-any.whl'`","2024-07-31T13:20:58",{"id":211,"version":212,"summary_zh":213,"released_at":214},71160,"0.35.0","**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Fcommits\u002F0.35.0\n**Install this version**: `pip install 'https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Freleases\u002Fdownload\u002F0.35.0\u002Fdatadreamer_dev-0.35.0-py3-none-any.whl'`","2024-05-02T05:40:18",{"id":216,"version":217,"summary_zh":218,"released_at":219},71161,"0.34.0","**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Fcommits\u002F0.34.0\n**Install this version**: `pip install 'https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Freleases\u002Fdownload\u002F0.34.0\u002Fdatadreamer_dev-0.34.0-py3-none-any.whl'`","2024-04-30T18:23:59",{"id":221,"version":222,"summary_zh":223,"released_at":224},71162,"0.33.0","**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Fcommits\u002F0.33.0\n**Install this version**: `pip install 'https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Freleases\u002Fdownload\u002F0.33.0\u002Fdatadreamer_dev-0.33.0-py3-none-any.whl'`","2024-04-30T16:33:50",{"id":226,"version":227,"summary_zh":228,"released_at":229},71163,"0.32.0","**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Fcommits\u002F0.32.0\n**Install this version**: `pip install 'https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Freleases\u002Fdownload\u002F0.32.0\u002Fdatadreamer_dev-0.32.0-py3-none-any.whl'`","2024-04-30T05:47:42",{"id":231,"version":232,"summary_zh":233,"released_at":234},71164,"0.31.0","**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Fcommits\u002F0.31.0\n**Install this version**: `pip install 'https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Freleases\u002Fdownload\u002F0.31.0\u002Fdatadreamer_dev-0.31.0-py3-none-any.whl'`","2024-04-25T18:53:33",{"id":236,"version":237,"summary_zh":238,"released_at":239},71165,"0.30.0","**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Fcommits\u002F0.30.0\n**Install this version**: `pip install 'https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Freleases\u002Fdownload\u002F0.30.0\u002Fdatadreamer_dev-0.30.0-py3-none-any.whl'`","2024-04-25T17:17:00",{"id":241,"version":242,"summary_zh":243,"released_at":244},71166,"0.29.0","**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Fcommits\u002F0.29.0\n**Install this version**: `pip install 'https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Freleases\u002Fdownload\u002F0.29.0\u002Fdatadreamer_dev-0.29.0-py3-none-any.whl'`","2024-04-25T04:02:06",{"id":246,"version":247,"summary_zh":248,"released_at":249},71167,"0.28.0","**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Fcommits\u002F0.28.0\n**Install this version**: `pip install 'https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Freleases\u002Fdownload\u002F0.28.0\u002Fdatadreamer_dev-0.28.0-py3-none-any.whl'`","2024-04-06T19:44:51",{"id":251,"version":252,"summary_zh":253,"released_at":254},71168,"0.27.0","**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Fcommits\u002F0.27.0\n**Install this version**: `pip install 'https:\u002F\u002Fgithub.com\u002Fdatadreamer-dev\u002FDataDreamer\u002Freleases\u002Fdownload\u002F0.27.0\u002Fdatadreamer_dev-0.27.0-py3-none-any.whl'`","2024-04-04T02:20:16"]