[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-InternLM--xtuner":3,"tool-InternLM--xtuner":64},[4,17,27,35,44,52],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",140436,2,"2026-04-05T23:32:43",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":10,"last_commit_at":41,"category_tags":42,"status":16},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[13,14,15,43],"视频",{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":23,"last_commit_at":50,"category_tags":51,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":53,"name":54,"github_repo":55,"description_zh":56,"stars":57,"difficulty_score":23,"last_commit_at":58,"category_tags":59,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,60,43,61,15,62,26,13,63],"数据工具","插件","其他","音频",{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":75,"owner_avatar_url":76,"owner_bio":77,"owner_company":78,"owner_location":78,"owner_email":79,"owner_twitter":80,"owner_website":81,"owner_url":82,"languages":83,"stars":95,"forks":96,"last_commit_at":97,"license":98,"difficulty_score":99,"env_os":100,"env_gpu":101,"env_ram":102,"env_deps":103,"category_tags":112,"github_topics":113,"view_count":23,"oss_zip_url":78,"oss_zip_packed_at":78,"status":16,"created_at":125,"updated_at":126,"faqs":127,"releases":156},4157,"InternLM\u002Fxtuner","xtuner","A Next-Generation Training Engine Built for Ultra-Large MoE Models","xtuner 是一款专为超大规模混合专家（MoE）模型打造的新一代训练引擎。面对当前大模型训练中显存消耗巨大、并行策略复杂以及长序列处理困难等挑战，xtuner 提供了高效且稳定的解决方案。它支持高达万亿参数规模的 MoE 模型训练，并能在无需复杂专家并行的情况下扩展至 2000 亿参数规模，显著降低了分布式训练的门槛。\n\n该工具特别适合从事大模型预训练、指令微调及强化学习的研究人员与开发者，尤其是那些需要在有限硬件资源下探索超大模型潜力，或致力于国产昇腾（Ascend）NPU 生态优化的团队。xtuner 的核心亮点在于其“无丢弃”训练机制和卓越的内存优化能力，使其能在 64k 超长上下文场景中保持稳定；同时，它在 2000 亿参数以上的模型训练吞吐量上超越了传统 3D 并行方案，甚至在昇腾集群上的效率表现优于 NVIDIA H800。通过简化并行策略并提升硬件利用率，xtuner 让超大规模模型的训练变得更加轻松高效。","\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FInternLM_xtuner_readme_7c2753bb73e7.png\" width=\"600\"\u002F>\n  \u003Cbr \u002F>\u003Cbr \u002F>\n\n[![GitHub Repo stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FInternLM\u002Fxtuner?style=social)](https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fstargazers)\n[![license](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002FInternLM\u002Fxtuner.svg)](https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fblob\u002Fmain\u002FLICENSE)\n[![PyPI](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fv\u002Fxtuner)](https:\u002F\u002Fpypi.org\u002Fproject\u002Fxtuner\u002F)\n[![Downloads](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FInternLM_xtuner_readme_06ceb8478afc.png)](https:\u002F\u002Fpypi.org\u002Fproject\u002Fxtuner\u002F)\n[![issue resolution](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues-closed-raw\u002FInternLM\u002Fxtuner)](https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fissues)\n[![open issues](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues-raw\u002FInternLM\u002Fxtuner)](https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fissues)\n\n👋 join us on [![Static Badge](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-grey?style=social&logo=wechat&label=WeChat)](https:\u002F\u002Fcdn.vansin.top\u002Finternlm\u002Fxtuner.jpg)\n[![Static Badge](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-grey?style=social&logo=twitter&label=Twitter)](https:\u002F\u002Ftwitter.com\u002Fintern_lm)\n[![Static Badge](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-grey?style=social&logo=discord&label=Discord)](https:\u002F\u002Fdiscord.gg\u002Fxa29JuW87d)\n\n🔍 Explore our models on\n[![Static Badge](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-gery?style=social&label=🤗%20Huggingface)](https:\u002F\u002Fhuggingface.co\u002Fxtuner)\n[![Static Badge](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-gery?style=social&label=🤖%20ModelScope)](https:\u002F\u002Fwww.modelscope.cn\u002Forganization\u002Fxtuner)\n[![Static Badge](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-gery?style=social&label=🧰%20OpenXLab)](https:\u002F\u002Fopenxlab.org.cn\u002Fusercenter\u002Fxtuner)\n[![Static Badge](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-gery?style=social&label=🧠%20WiseModel)](https:\u002F\u002Fwww.wisemodel.cn\u002Forganization\u002Fxtuner)\n\nEnglish | [简体中文](README_zh-CN.md)\n\n\u003C\u002Fdiv>\n\n## 🚀 Speed Benchmark\n\n\u003Cdiv align=center>\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FInternLM_xtuner_readme_bf973c0b7ad3.png\" style=\"width:80%\">\n\u003C\u002Fdiv>\n\n## 🎉 News\n\n- **\\[2025\u002F09\\]** XTuner V1 Released! A Next-Generation Training Engine Built for Ultra-Large MoE Models\n\n## 📖 XTuner V1\n\nXTuner V1 is a next-generation LLM training engine specifically designed for ultra-large-scale MoE models. Unlike traditional 3D parallel training architectures, XTuner V1 is optimized for the mainstream MoE training scenarios prevalent in today's academic research.\n\n### Key Features\n**📊 Dropless Training**\n\t\n  - **Scalable without complexity:** Train 200B-scale MoE models without expert parallelism; 600B models require only intra-node expert parallelism\t\n  - **Optimized parallelism strategy:** Smaller expert parallelism dimension compared to traditional 3D approaches, enabling more efficient Dropless training\n\n**📝 Long Sequence Support**\n\t\n  - **Memory-efficient design:** Train 200B MoE models on 64k sequence lengths without sequence parallelism through advanced memory optimization techniques\t\n  - **Flexible scaling:** Full support for DeepSpeed Ulysses sequence parallelism with linearly scalable maximum sequence length\t\n  - **Robust performance:** Maintains stability despite expert load imbalance during long sequence training\n\n**⚡ Superior Efficiency**\n\n  - **Massive scale:** Supports MoE training up to 1T parameters\t\n  - **Breakthrough performance:** First to achieve FSDP training throughput that surpasses traditional 3D parallel schemes for MoE models above 200B scale\n  - **Hardware optimization:** Achieves training efficiency on Ascend A3 Supernode that exceeds NVIDIA H800\n\n\n\u003Cdiv align=center>\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FInternLM_xtuner_readme_8657e32e944c.png\" style=\"width:90%\">\n\u003C\u002Fdiv>\n\n\n## 🔥 Roadmap\n\nXTuner V1 is committed to continuously improving training efficiency for pre-training, instruction fine-tuning, and reinforcement learning of ultra-large MoE models, with special focus on Ascend NPU optimization.\n\n### 🚀 Training Engine\n\nOur vision is to establish XTuner V1 as a versatile training backend that seamlessly integrates with the broader open-source ecosystem.\n\n\n|   Model    |  GPU(FP8) | GPU(BF16)| NPU(BF16) |\n|------------|-----------|----------|-----------|\n| Intern S1  |    ✅     |    ✅    |    ✅     |\n| Intern VL  |    ✅     |    ✅    |    ✅     |\n| Qwen3 Dense|    ✅     |    ✅    |    ✅     |\n| Qwen3 MoE  |    ✅     |    ✅    |    ✅     |\n| GPT OSS    |    ✅     |    ✅    |    🚧     |\n| Deepseek V3|    ✅     |    ✅    |    🚧     |\n| KIMI K2    |    ✅     |    ✅    |    🚧     |\n\n\n### 🧠 Algorithm\n\nThe algorithm component is actively evolving. We welcome community contributions - with XTuner V1, scale your algorithms to unprecedented sizes!\n\n**Implemented**\n\n\n- ✅ **Multimodal Pre-training** - Full support for vision-language model training\n- ✅ **Multimodal Supervised Fine-tuning** - Optimized for instruction following\t\n- ✅ [GRPO](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.03300) - Group Relative Policy Optimization\n\n\n**Coming Soon**\n\n- 🔄 [MPO](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2411.10442) - Mixed Preference Optimization\n- 🔄 [DAPO](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.14476) - Dynamic Sampling Policy Optimization\n- 🔄 **Multi-turn Agentic RL** - Advanced agent training capabilities\n\n\n### ⚡ Inference Engine Integration\n\nSeamless deployment with leading inference frameworks:\n- [x] LMDeploy\n- [ ] vLLM\n- [ ] SGLang\n\n\n\n### Data Preparation\n\n- You can use [GraphGen](https:\u002F\u002Fgithub.com\u002Fopen-sciencelab\u002FGraphGen) to create synthetic data for fine-tuning.\n\n## 🤝 Contributing\n\nWe appreciate all contributions to XTuner. Please refer to [CONTRIBUTING.md](.github\u002FCONTRIBUTING.md) for the contributing guideline.\n\n## 🙏 Acknowledgement\n\nThe development of XTuner V1's training engine has been greatly inspired by and built upon the excellent work of the open-source community. We extend our sincere gratitude to the following pioneering projects:\n\n**Training Engine:**\n\n- [Torchtitan](https:\u002F\u002Fgithub.com\u002Fpytorch\u002Ftorchtitan) - A PyTorch native platform for training generative AI models\n- [Deepspeed](https:\u002F\u002Fgithub.com\u002Fdeepspeedai\u002FDeepSpeed) - Microsoft's deep learning optimization library\t\n- [MindSpeed](https:\u002F\u002Fgitee.com\u002Fascend\u002FMindSpeed) - Ascend's high-performance training acceleration library\t\n- [Megatron](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FMegatron-LM) - NVIDIA's large-scale transformer training framework\n\n\n**Reinforcement Learning:**\n\nXTuner V1's reinforcement learning capabilities have been enhanced through insights and best practices from:\n\n- [veRL](https:\u002F\u002Fgithub.com\u002Fvolcengine\u002Fverl) - Volcano Engine Reinforcement Learning for LLMs\t\n- [SLIME](https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime) - THU's scalable RLHF implementation\t\n- [AReal](https:\u002F\u002Fgithub.com\u002FinclusionAI\u002FAReaL) - Ant Reasoning Reinforcement Learning for LLMs\n- [OpenRLHF](https:\u002F\u002Fgithub.com\u002FOpenRLHF\u002FOpenRLHF) - An Easy-to-use, Scalable and High-performance RLHF Framework based on Ray\n\nWe are deeply grateful to all contributors and maintainers of these projects for advancing the field of large-scale model training.\n\n\n## 🖊️ Citation\n\n```bibtex\n@misc{2023xtuner,\n    title={XTuner: A Toolkit for Efficiently Fine-tuning LLM},\n    author={XTuner Contributors},\n    howpublished = {\\url{https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner}},\n    year={2023}\n}\n```\n\n## License\n\nThis project is released under the [Apache License 2.0](LICENSE). Please also adhere to the Licenses of models and datasets being used.\n","\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FInternLM_xtuner_readme_7c2753bb73e7.png\" width=\"600\"\u002F>\n  \u003Cbr \u002F>\u003Cbr \u002F>\n\n[![GitHub 仓库星级](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FInternLM\u002Fxtuner?style=social)](https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fstargazers)\n[![许可证](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002FInternLM\u002Fxtuner.svg)](https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fblob\u002Fmain\u002FLICENSE)\n[![PyPI](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fv\u002Fxtuner)](https:\u002F\u002Fpypi.org\u002Fproject\u002Fxtuner\u002F)\n[![下载量](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FInternLM_xtuner_readme_06ceb8478afc.png)](https:\u002F\u002Fpypi.org\u002Fproject\u002Fxtuner\u002F)\n[![问题解决数](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues-closed-raw\u002FInternLM\u002Fxtuner)](https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fissues)\n[![未解决问题数](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues-raw\u002FInternLM\u002Fxtuner)](https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fissues)\n\n👋 欢迎加入我们的 [![静态徽章](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-grey?style=social&logo=wechat&label=WeChat)](https:\u002F\u002Fcdn.vansin.top\u002Finternlm\u002Fxtuner.jpg)\n[![静态徽章](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-grey?style=social&logo=twitter&label=Twitter)](https:\u002F\u002Ftwitter.com\u002Fintern_lm)\n[![静态徽章](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-grey?style=social&logo=discord&label=Discord)](https:\u002F\u002Fdiscord.gg\u002Fxa29JuW87d)\n\n🔍 在以下平台探索我们的模型：\n[![静态徽章](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-gery?style=social&label=🤗%20Huggingface)](https:\u002F\u002Fhuggingface.co\u002Fxtuner)\n[![静态徽章](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-gery?style=social&label=🤖%20ModelScope)](https:\u002F\u002Fwww.modelscope.cn\u002Forganization\u002Fxtuner)\n[![静态徽章](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-gery?style=social&label=🧰%20OpenXLab)](https:\u002F\u002Fopenxlab.org.cn\u002Fusercenter\u002Fxtuner)\n[![静态徽章](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-gery?style=social&label=🧠%20WiseModel)](https:\u002F\u002Fwww.wisemodel.cn\u002Forganization\u002Fxtuner)\n\nEnglish | [简体中文](README_zh-CN.md)\n\n\u003C\u002Fdiv>\n\n## 🚀 速度基准测试\n\n\u003Cdiv align=center>\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FInternLM_xtuner_readme_bf973c0b7ad3.png\" style=\"width:80%\">\n\u003C\u002Fdiv>\n\n## 🎉 新闻\n\n- **\\[2025\u002F09\\]** XTuner V1 发布！专为超大规模 MoE 模型打造的新一代训练引擎\n\n## 📖 XTuner V1\n\nXTuner V1 是一款专为超大规模 MoE 模型设计的新一代 LLM 训练引擎。与传统的 3D 并行训练架构不同，XTuner V1 针对当今学术研究中主流的 MoE 训练场景进行了优化。\n\n### 核心特性\n**📊 无丢弃训练**\n\t\n  - **可扩展且不复杂：** 无需专家并行即可训练 200B 规模的 MoE 模型；600B 模型仅需节点内专家并行\t\n  - **优化的并行策略：** 相比传统 3D 方法，专家并行维度更小，从而实现更高效的无丢弃训练\n\n**📝 长序列支持**\n\t\n  - **内存高效设计：** 通过先进的内存优化技术，在不使用序列并行的情况下，可在 64k 序列长度上训练 200B 的 MoE 模型\t\n  - **灵活扩展：** 完全支持 DeepSpeed Ulysses 序列并行，最大序列长度可线性扩展\t\n  - **强大性能：** 即使在长序列训练过程中出现专家负载不均衡，也能保持稳定\n\n**⚡ 更高的效率**\n\n  - **超大规模：** 支持高达 1T 参数的 MoE 训练\t\n  - **突破性性能：** 首次实现 FSDP 训练吞吐量超越传统 3D 并行方案，适用于 200B 以上规模的 MoE 模型\n  - **硬件优化：** 在 Ascend A3 超级节点上达到的训练效率甚至超过 NVIDIA H800\n\n\n\u003Cdiv align=center>\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FInternLM_xtuner_readme_8657e32e944c.png\" style=\"width:90%\">\n\u003C\u002Fdiv>\n\n\n## 🔥 路线图\n\nXTuner V1 致力于不断提升超大规模 MoE 模型在预训练、指令微调和强化学习方面的训练效率，尤其注重 Ascend NPU 的优化。\n\n### 🚀 训练引擎\n\n我们的愿景是将 XTuner V1 打造成一个多功能的训练后端，能够无缝集成到更广泛的开源生态系统中。\n\n\n|   模型    |  GPU(FP8) | GPU(BF16)| NPU(BF16) |\n|------------|-----------|----------|-----------|\n| Intern S1  |    ✅     |    ✅    |    ✅     |\n| Intern VL  |    ✅     |    ✅    |    ✅     |\n| Qwen3 Dense|    ✅     |    ✅    |    ✅     |\n| Qwen3 MoE  |    ✅     |    ✅    |    ✅     |\n| GPT OSS    |    ✅     |    ✅    |    🚧     |\n| Deepseek V3|    ✅     |    ✅    |    🚧     |\n| KIMI K2    |    ✅     |    ✅    |    🚧     |\n\n\n### 🧠 算法\n\n算法组件正在积极演进。我们欢迎社区贡献——借助 XTuner V1，让您的算法规模达到前所未有的水平！\n\n**已实现**\n\n\n- ✅ **多模态预训练** - 完全支持视觉-语言模型训练\n- ✅ **多模态监督微调** - 针对指令跟随进行了优化\t\n- ✅ [GRPO](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.03300) - 分组相对策略优化\n\n\n**即将推出**\n\n- 🔄 [MPO](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2411.10442) - 混合偏好优化\n- 🔄 [DAPO](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.14476) - 动态采样策略优化\n- 🔄 **多轮代理式强化学习** - 先进的代理训练能力\n\n\n### ⚡ 推理引擎集成\n\n与领先的推理框架无缝对接：\n- [x] LMDeploy\n- [ ] vLLM\n- [ ] SGLang\n\n\n\n### 数据准备\n\n- 您可以使用 [GraphGen](https:\u002F\u002Fgithub.com\u002Fopen-sciencelab\u002FGraphGen) 来创建用于微调的合成数据。\n\n## 🤝 贡献\n\n我们感谢所有对 XTuner 的贡献。请参阅 [CONTRIBUTING.md](.github\u002FCONTRIBUTING.md) 以获取贡献指南。\n\n## 🙏 致谢\n\nXTuner V1 训练引擎的开发深受开源社区优秀工作的启发，并在此基础上构建而成。我们向以下先驱项目致以诚挚的谢意：\n\n**训练引擎：**\n\n- [Torchtitan](https:\u002F\u002Fgithub.com\u002Fpytorch\u002Ftorchtitan) - 用于生成式 AI 模型训练的 PyTorch 原生平台\n- [Deepspeed](https:\u002F\u002Fgithub.com\u002Fdeepspeedai\u002FDeepSpeed) - Microsoft 的深度学习优化库\t\n- [MindSpeed](https:\u002F\u002Fgitee.com\u002Fascend\u002FMindSpeed) - Ascend 的高性能训练加速库\t\n- [Megatron](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FMegatron-LM) - NVIDIA 的大规模 Transformer 训练框架\n\n\n**强化学习：**\n\nXTuner V1 的强化学习能力得益于以下项目的洞察与最佳实践：\n\n- [veRL](https:\u002F\u002Fgithub.com\u002Fvolcengine\u002Fverl) - Volcano Engine 面向 LLM 的强化学习\t\n- [SLIME](https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime) - THU 的可扩展 RLHF 实现\t\n- [AReal](https:\u002F\u002Fgithub.com\u002FinclusionAI\u002FAReaL) - Ant Reasoning 面向 LLM 的强化学习\n- [OpenRLHF](https:\u002F\u002Fgithub.com\u002FOpenRLHF\u002FOpenRLHF) - 基于 Ray 的易用、可扩展且高性能的 RLHF 框架\n\n我们衷心感谢这些项目的所有贡献者和维护者，正是他们的努力推动了大规模模型训练领域的发展。\n\n## 🖊️ 引用\n\n```bibtex\n@misc{2023xtuner,\n    title={XTuner：高效微调大语言模型的工具包},\n    author={XTuner 贡献者},\n    howpublished = {\\url{https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner}},\n    year={2023}\n}\n```\n\n## 许可证\n\n本项目采用 [Apache License 2.0](LICENSE) 开源协议。请同时遵守所使用模型和数据集的相关许可证。","# XTuner V1 快速上手指南\n\nXTuner V1 是专为超大规模混合专家模型（MoE）打造的下一代大语言模型训练引擎。它在无需复杂专家并行的情况下即可训练 200B 规模模型，并针对昇腾（Ascend）NPU 进行了深度优化，支持长序列训练与高效强化学习。\n\n## 环境准备\n\n### 系统要求\n- **操作系统**: Linux (推荐 Ubuntu 20.04+)\n- **硬件支持**:\n  - **GPU**: NVIDIA GPU (支持 FP8\u002FBF16，如 H800 等)\n  - **NPU**: 华为昇腾 Ascend A3 Supernode (BF16)\n- **软件依赖**:\n  - Python >= 3.8\n  - PyTorch (需匹配对应的 CUDA 或 CANN 版本)\n  - CUDA Toolkit (GPU 用户) 或 CANN (NPU 用户)\n\n### 前置检查\n请确保已安装对应硬件的驱动程序及基础深度学习框架。若使用昇腾 NPU，请预先安装好 MindSpore 或兼容的 PyTorch 适配版本及 `MindSpeed` 库。\n\n## 安装步骤\n\n推荐使用 pip 进行安装。国内用户可使用镜像源加速下载。\n\n### 1. 安装稳定版\n```bash\npip install xtuner -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n### 2. 安装最新版 (可选)\n如需体验最新功能（如最新的 MoE 优化策略），可从源码安装：\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner.git\ncd xtuner\npip install -e . -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n### 3. 验证安装\n安装完成后，运行以下命令检查版本及可用性：\n```bash\nxtuner version\n```\n\n## 基本使用\n\nXTuner V1 的核心优势在于通过配置文件驱动训练，支持从预训练、指令微调到强化学习的全流程。以下是一个最简单的指令微调（SFT）示例流程。\n\n### 1. 准备配置文件\nXTuner 内置了多种主流模型（如 InternLM, Qwen, DeepSeek 等）的预设配置。列出所有可用配置：\n```bash\nxtuner list-cfg\n```\n\n假设我们要微调 `Intern S1` 模型，选择一个合适的配置文件（例如 `intern_s1_7b_qlora_alpaca_e3.py`），将其复制到当前目录或直接引用。\n\n### 2. 准备数据\n确保你的数据集格式符合 XTuner 要求（通常为 JSONL 格式，包含 `conversation` 字段）。\n*提示：你也可以使用 [GraphGen](https:\u002F\u002Fgithub.com\u002Fopen-sciencelab\u002FGraphGen) 生成合成数据进行微调。*\n\n### 3. 启动训练\n使用 `xtuner train` 命令启动训练。以下示例使用内置配置并在单卡上运行：\n\n```bash\nxtuner train intern_s1_7b_qlora_alpaca_e3 --work-dir .\u002Foutput_intern_s1\n```\n\n**关键参数说明：**\n- `intern_s1_7b_qlora_alpaca_e3`: 配置文件名称（自动识别模型架构与并行策略）。\n- `--work-dir`: 指定模型权重、日志和检查点的输出目录。\n\n### 4. 转换与部署\n训练完成后，将 LoRA 权重合并到基座模型中，以便推理使用（以 LMDeploy 为例）：\n\n```bash\nxtuner convert merge \\\n    .\u002Fpath\u002Fto\u002Fbase_model \\\n    .\u002Foutput_intern_s1\u002Fiter_300.pth \\\n    .\u002Fmerged_model \\\n    --max-shard-size 2GB\n```\n\n合并后的模型可直接通过 **LMDeploy** 进行高性能推理：\n```python\nfrom lmdeploy import pipeline\n\npipe = pipeline(\".\u002Fmerged_model\")\nresponse = pipe(\"你好，请介绍一下你自己。\")\nprint(response)\n```\n\n> **注意**：XTuner V1 已原生支持多模态预训练及 GRPO 强化学习算法，具体配置请参考官方配置文件目录中的高级示例。","某大型人工智能实验室的研究团队正致力于预训练一个参数量达 600B 的超大规模混合专家（MoE）模型，以突破现有大语言模型在复杂推理任务上的瓶颈。\n\n### 没有 xtuner 时\n- **硬件门槛极高**：传统 3D 并行架构要求跨节点进行复杂的专家并行，导致必须动用数千张顶级显卡才能启动训练，资源成本难以承受。\n- **长序列训练崩溃**：在处理 64k 超长上下文时，显存优化不足极易引发内存溢出（OOM），迫使团队不得不切割数据或降低序列长度，牺牲模型能力。\n- **训练效率低下**：当专家负载出现不均衡时，传统方案吞吐量急剧下降，且无法在国产昇腾集群上发挥硬件峰值性能，训练周期被无限拉长。\n- **工程复杂度爆炸**：为了维持训练稳定性，工程师需花费大量时间手动调试并行策略和容错机制，严重拖慢了算法迭代速度。\n\n### 使用 xtuner 后\n- **大幅降低资源需求**：凭借无丢失（Dropless）训练技术，仅需节点内专家并行即可支撑 600B 模型运行，显著减少了对跨节点通信和显卡数量的依赖。\n- **轻松驾驭长文本**：通过先进的显存优化，直接在单节点内稳定训练 64k 序列长度，无需序列并行即可完整保留长上下文信息，且支持线性扩展。\n- **极致训练效能**：在 200B 以上规模场景中，其 FSDP 训练吞吐量首次超越传统 3D 方案，并在昇腾 A3 超级节点上实现了优于 NVIDIA H800 的计算效率。\n- **专注算法创新**：内置的自动化并行策略与鲁棒性设计消除了繁琐的工程调优，让研究人员能将精力完全集中在模型架构与数据策略上。\n\nxtuner 通过重构超大规模 MoE 模型的训练底层逻辑，让千亿级参数模型的训练从“昂贵的资源堆砌”转变为“高效可控的工程实践”。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FInternLM_xtuner_7c2753bb.png","InternLM","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FInternLM_bc4eb14c.png","",null,"internlm@pjlab.org.cn","intern_lm","https:\u002F\u002Fchat.intern-ai.org.cn\u002F","https:\u002F\u002Fgithub.com\u002FInternLM",[84,88,92],{"name":85,"color":86,"percentage":87},"Python","#3572A5",99.8,{"name":89,"color":90,"percentage":91},"Dockerfile","#384d54",0.1,{"name":93,"color":94,"percentage":91},"Shell","#89e051",5111,413,"2026-04-05T03:37:55","Apache-2.0",4,"Linux","必需。支持 NVIDIA GPU (FP8\u002FBF16) 和 Ascend NPU (BF16)。针对超大规模 MoE 模型优化，具体显存需求取决于模型规模（如 200B+ 模型需多卡集群），支持 Ascend A3 Supernode 及 NVIDIA H800 等高端硬件。","未说明（取决于模型规模，超大规模训练需海量内存）",{"notes":104,"python":105,"dependencies":106},"XTuner V1 是专为超大规模混合专家模型 (MoE) 设计的下一代训练引擎。重点优化了 Ascend NPU 环境。支持无 Drop 训练、长序列训练（64k+）及多种强化学习算法（如 GRPO）。目前推理引擎仅集成 LMDeploy，vLLM 和 SGLang 尚在规划中。部分模型在 NPU 上的支持仍在开发中（标记为🚧）。","未说明",[107,108,109,110,111],"PyTorch (原生支持)","DeepSpeed","MindSpeed (Ascend 专用)","Torchtitan","LMDeploy (推理集成)",[15,13,62,26],[114,115,116,117,118,119,120,121,122,123,124],"llm","agent","deepseek-v3","gpt-oss","internvl","kimi-k2","multimodal","qwen3-moe","reinforcement-learning","intern-s1","qwen3-vl","2026-03-27T02:49:30.150509","2026-04-06T11:55:18.350817",[128,133,138,143,148,152],{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},18934,"XTuner 微调 InternLM2-7b-chat 模型后，使用 xtuner chat 对话时出现无限循环并输出 [UNUSED_TOKEN] 怎么办？","这是由于生成参数设置不当导致的。在使用 `xtuner chat` 命令时，需要添加重复惩罚（repetition-penalty）等参数来抑制重复生成。推荐的命令格式如下：\nxtuner chat .\u002Fmerged --temperature 0.8 --top-p 0.8 --repetition-penalty 1.002 --prompt-template internlm2_chat\n其中 `--repetition-penalty 1.002` 是解决无限循环的关键参数。","https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fissues\u002F343",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},18935,"如何准备用于 XTuner 微调的自定义数据集格式？多轮对话中的 loss 是如何计算的？","1. 建议将数据集处理为 OpenAI SFT 数据集格式（JSONL 格式，包含 conversations 列表）。\n2. 在训练时，默认情况下每个 assistant（助手）回复的部分都会计算 loss，而 user（用户）和 system（系统）部分通常不计算 loss。\n3. 对于多轮对话数据，既可以保留为一个包含多个 system\u002Fuser\u002Fassistant 的长对话样本，也可以将其拆分为多个单轮对话样本，具体哪种效果更好需要根据实际训练结果测试。","https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fissues\u002F466",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},18936,"使用 DeepSpeed Zero3 Offload 结合序列并行（Sequence Parallel）训练大模型（如 Yi-34B）时报错，是什么原因？","这通常是 DeepSpeed 特定版本的 Bug 导致的。已知 DeepSpeed 0.14.1 版本在使用 offload 功能时存在缺陷，会导致训练报错。解决方案包括：\n1. 降级 DeepSpeed 版本至 0.14.0 或更早的稳定版本（如 0.12.3）。\n2. 如果不需要全量微调，可以改用 LoRA 微调方式，这也能降低显存占用并规避该问题。","https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fissues\u002F589",{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},18937,"多卡训练时报错 'ModuleNotFoundError: No module named mmengine'，但单卡运行正常，如何解决？","该问题通常是因为多卡训练（使用 torchrun 或 deepspeed）启动的子进程无法找到当前环境中安装的 `mmengine` 模块。这往往是由于 Python 环境路径不一致导致的。\n解决方法：\n1. 确保在多卡启动命令中使用正确的 Python 解释器路径，或者激活相同的 conda 虚拟环境。\n2. 检查 `torchrun` 或 `deepspeed` 命令是否调用了系统默认的 python 而不是虚拟环境中的 python。\n3. 尝试在当前环境中重新安装 mmengine：`pip install mmengine`。","https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fissues\u002F324",{"id":149,"question_zh":150,"answer_zh":151,"source_url":137},18938,"如何在 XTuner 中配置和使用 DeepSpeed ZeRO-2 或 ZeRO-3 进行分布式训练？","在运行 `xtuner train` 命令时，通过 `--deepspeed` 参数指定配置文件即可。例如：\n- 使用 ZeRO-2：`xtuner train \u003Cconfig_file> --deepspeed deepspeed_zero2`\n- 使用 ZeRO-3：`xtuner train \u003Cconfig_file> --deepspeed deepspeed_zero3`\n同时需要配合 `NPROC_PER_NODE` 环境变量设置显卡数量，例如：`NPROC_PER_NODE=8 xtuner train ...`。确保已正确安装 deepspeed 库。",{"id":153,"question_zh":154,"answer_zh":155,"source_url":132},18939,"微调后的模型合并（merge）步骤是怎样的？如何将 LoRA 权重合并到基座模型中？","合并 LoRA 权重到基座模型通常分两步：\n1. 首先将训练得到的 pth 文件转换为 HuggingFace 格式：\n   `xtuner convert pth_to_hf \u003Cconfig_file> \u003Cpth_path> \u003Coutput_dir>`\n2. 然后将转换后的权重合并到基座模型：\n   `xtuner convert merge \u003Cbase_model_path> \u003Clora_weight_path> \u003Cmerged_output_path> --max-shard-size 2GB`\n   其中 `--max-shard-size` 用于控制输出模型文件的大小分片。",[157,161,166,171,176,181,186,191,196,201,206,211,216,221,226,231,236,241,246,251],{"id":158,"version":159,"summary_zh":78,"released_at":160},113489,"v1.0.0rc0","2025-11-18T10:16:19",{"id":162,"version":163,"summary_zh":164,"released_at":165},113490,"v0.2.0","## 变更内容\n* 增加对预训练奖励模型的支持，由 @RowitZou 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F1038 中实现\n* 修复导入奖励模型客户端时的 bug，由 @RowitZou 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F1039 中修复\n* 版本升级至 v0.2.0，由 @pppppM 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F1040 中完成\n\n## 新贡献者\n* @RowitZou 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F1038 中完成了首次贡献\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fcompare\u002Fv0.2.0rc0...v0.2.0","2025-07-11T05:43:37",{"id":167,"version":168,"summary_zh":169,"released_at":170},113491,"v0.2.0rc0","## 变更内容\n* 支持 FSDP2\n* 支持 RLHF 的连续批处理\n* 在 README 中增加了对 MiniCPM 的支持，由 @LDLINGLINGLING 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F869 中完成\n* [Bug] 修复 dsv2 注意力调度（softmax_scale），由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F873 中完成\n* [Bug] 修复 openai_map_fn 的错误，由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F885 中完成\n* 支持 transformers >= 4.43，由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F878 中完成\n* 添加 internlm2 5 的配置文件，由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F872 中完成\n* [Bug] 修复 qlora 转换中的错误，由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F930 中完成\n* 对 Minicpm3 进行了支持，由 @LDLINGLINGLING 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F954 中完成\n* 增加从 HuggingFace 以外的源下载模型的功能，由 @starmountain1997 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F946 中完成\n* 新增 Ascend NPU 作为后端，由 @Tonyztj 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F983 中完成\n* 支持 4 48，由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F985 中完成\n* [功能] 不同设备的自动补丁，由 @pppppM 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F986 中完成\n* [修复] MLU 设备网格，由 @pppppM 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F987 中完成\n* 版本升级至 v0.2.0rc0，由 @pppppM 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F990 中完成\n\n## 新贡献者\n* @starmountain1997 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F946 中完成了首次贡献\n* @Tonyztj 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F983 中完成了首次贡献\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fcompare\u002Fv0.1.23...v0.2.0rc0","2025-02-21T15:19:54",{"id":172,"version":173,"summary_zh":174,"released_at":175},113492,"v0.1.23","## 变更内容\n* 支持由 @hhaAndroid 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F737 中实现的 InternVL 1.5\u002F2.0 微调\n* [Bug] 由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F859 中修复的 preference_collate_fn 中的 attn_mask 问题\n* 由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F862 中将版本号提升至 0.1.23\n\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fcompare\u002Fv0.1.22...v0.1.23","2024-07-22T12:19:23",{"id":177,"version":178,"summary_zh":179,"released_at":180},113493,"v0.1.22","## 变更内容\n* [重构] 由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F779 中修复 internlm2 的调度问题\n* 由 @Johnson-Wang 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F781 中修复 DPO 的 zero3 兼容性问题\n* [修复] 由 @fanqiNO1 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F785 中修复 custom_dataset\u002Fsft 中的 map_fn 问题\n* [修复] 由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F783 中修复配置文件\n* [文档] 由 @RangiLyu 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F751 中更新 DPO 和奖励模型的相关文档\n* 由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F803 中支持 internlm2.5\n* [Bug] 由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F802 中修复当模型不在 LOWEST_TRANSFORMERS_VERSION 时的调度错误\n* [文档] 由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F801 中修复基准测试表格\n* [功能] 由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F816 中支持在 openai_map_fn 中不输出损失的功能\n* [文档] 由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F821 中修正 sp 文档中的错别字\n* [功能] 由 @xu-song 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F787 中支持 DPO 训练的 DatasetInfoHook\n* [增强] 由 @RangiLyu 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F830 中解决 DPO 和 ORPO 中的序列并行内存瓶颈问题\n* [修复] 由 @bychen7 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F795 中修正错别字\n* [修复] 由 @xu-song 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F778 中修复使用 zero-3 进行全参数 DPO 训练时 ref_llm 的初始化问题\n* [Bug] 由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F852 中修复注意力掩码问题\n* 由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F854 中修复代码风格问题\n* [Bug] 由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F829 中修复注意力调度错误\n* [文档] 由 @RangiLyu 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F853 中更新 README 和 DPO 英文文档\n* 由 @LDLINGLINGLING 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F847 中添加 minicpm 配置文件，以支持 sft、qlora、lora 和 dpo\n* 由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F856 中修复代码风格问题\n* 由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F855 中将版本号升级至 0.1.22\n\n## 新贡献者\n* @Johnson-Wang 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F781 中完成了首次贡献\n* @xu-song 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F787 中完成了首次贡献\n* @bychen7 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F795 中完成了首次贡献\n* @LDLINGLINGLING 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F847 中完成了首次贡献\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fcompare\u002Fv0.1.21...v0.1.22","2024-07-19T09:57:08",{"id":182,"version":183,"summary_zh":184,"released_at":185},113494,"v0.1.21","## 变更内容\n* [功能] 支持 DPO、ORPO 和奖励模型，由 @RangiLyu 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F743 中实现\n* [Bug] 修复调度相关问题，由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F775 中完成\n* [Bug] 修复在使用 deepseekv2 和 mixtral 进行训练时 HFCheckpointHook 的问题…，由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F774 中完成\n* [功能] 支持 sp 大小不能被注意力头数整除的情况，由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F769 中实现\n* 版本升级至 0.1.21，由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F776 中完成\n\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fcompare\u002Fv0.1.20...v0.1.21","2024-06-17T08:29:20",{"id":187,"version":188,"summary_zh":189,"released_at":190},113495,"v0.1.20","## 变更内容\n* [增强] 由 @pppppM 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F582 中优化 ZeRO 检查点转换过程中的内存使用\n* [修复] ZeRO2 检查点转换错误，由 @pppppM 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F684 中修复\n* [新功能] 支持自动保存分词器，由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F696 中实现\n* [Bug] 修复 internlm2 的 flash 注意力问题，由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F693 中完成\n* [Bug] LoRA 模型在 `pth_to_hf` 阶段会出现 `meta-tensor`，由 @pppppM 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F697 中修复\n* [Bug] 修复配置检查问题，由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F729 中完成\n* [Bug] 修复在未使用 DeepSpeed 时，序列并行导致的若干问题，由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F752 中解决\n* [修复] 避免在使用 `--launcher slurm` 时错误调用 `torchrun`，由 @LZHgrla 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F728 中修复\n* [修复] 修复多节点预训练时保存评估结果失败的问题，由 @HoBeedzc 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F678 中完成\n* [改进] 支持通过 `pth_to_hf` 导出多种 LLaVA 格式，由 @LZHgrla 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F708 中实现\n* [重构] 重构 `dispatch_modules` 函数，由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F731 中完成\n* [文档] Readthedocs 中文版，由 @pppppM 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F553 中添加\n* [新功能] 支持微调 Deepseek v2，由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F663 中实现\n* 版本升级至 0.1.20，由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F766 中完成\n\n## 新贡献者\n* @HoBeedzc 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F678 中完成了首次贡献\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fcompare\u002Fv0.1.19...v0.1.20","2024-06-13T07:46:54",{"id":192,"version":193,"summary_zh":194,"released_at":195},113496,"v0.1.19","## 变更内容\n* [修复] 由 @LZHgrla 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F594 中修复了 LLaVA-v1.5 的官方设置\n* [特性] 由 @LZHgrla 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F595 中发布了 LLaVA-Llama-3-8B 模型\n* [改进] 由 @LZHgrla 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F596 中为 LLaVA-Llama-3-8B 添加了单卡配置\n* [文档] 由 @LZHgrla 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F597 中添加了 wisemodel 标识\n* [特性] 由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F610 中支持使用 `json.load` 加载 JSON 文件\n* [特性] 由 @pppppM 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F603 中支持 Microsoft Phi3 4K 和 128K 指令模型\n* [修复] 由 @LZHgrla 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F611 中将 LLaVA 训练的 `dataloader_num_workers` 设置为 4\n* [修复] 如果用户已经在 XTuner 配置中设置了 `attn_implementation`，则不再将其重置为 `flash_attention_2` 或 `sdpa`。由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F609 中完成\n* [发布] 由 @LZHgrla 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F615 中发布了 LLaVA-Phi-3-mini 模型\n* 由 @eltociear 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F608 中更新了 README.md\n* [特性] 由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F619 中优化了 SP API\n* [特性] 由 @LZHgrla 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F618 中添加了 LLaVA-Llama-3-8B 的转换脚本\n* [修复] 仅在日志记录时将 NaN 转换为 0，由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F625 中完成\n* [文档] 由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F617 中删除了 Colab 示例，并添加了速度基准测试\n* [特性] 由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F600 中支持 dsz3+qlora\n* [特性] 由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F632 中添加了 Qwen1.5 110B 的配置文件\n* 由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F672 中增加了在调度前检查 Transformers 版本的逻辑\n* [修复] 由 @LZHgrla 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F661 中实现了冻结 ViT 的 `convert_xtuner_weights_to_hf` 功能\n* [修复] 由 @LZHgrla 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F598 中修正了单卡 LLaVA-Llama-3-8B 配置中的批量大小设置\n* [特性] 由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F621 中添加了 HFCheckpointHook，用于在整个训练阶段结束后自动保存 Hugging Face 模型\n* 由 @hhaAndroid 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F622 中移除了 DatasetInfoHook 中的测试信息\n* [改进] 由 @LZHgrla 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F648 中支持使用 `safe_serialization` 进行保存\n* 由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F675 中将版本号升级至 0.1.19\n\n## 新贡献者\n* @eltociear 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F608 中完成了首次贡献\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fcompare\u002Fv0.1.18...v0.1.19","2024-05-11T09:50:14",{"id":197,"version":198,"summary_zh":199,"released_at":200},113497,"v0.1.18","## 变更内容\n* 由 @LZHgrla 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F537 中设置开发版本\n* [修复] 由 @KooSung 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F547 中修复拼写错误\n* [功能] 由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F564 中支持 Mixtral 的变长注意力机制\n* [功能] 由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F565 中支持 Qwen 的稀疏专家模型及变长注意力机制\n* [修复] 由 @pppppM 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F567 中修复 `default_collate_fn` 中的注意力掩码\n* 接受 PyTorch 2.2 版本，因为 Triton 2.2 中的 bug 已由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F548 中修复\n* [功能] 由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F555 中优化序列并行 API\n* [修复] 由 @LZHgrla 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F568 中增强 `split_list` 功能，使其支持在开头添加 `value`\n* [功能] 由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F569 中支持 Cohere 模型\n* [修复] 由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F574 中修复 Qwen 变长注意力机制中的旋转位置编码长度问题\n* [文档] 由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F578 中向 README 添加与序列并行相关的说明\n* [Bug] SUPPORT_FLASH1 = digit_version(torch.__version__) >= digit_version('2… 由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F587 中实现\n* [功能] 由 @LZHgrla 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F585 中支持 Llama 3 模型\n* [文档] 由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F588 中添加 Llama 3 8B 的 README 说明\n* [Bug] 由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F577 中检查在 sft.py 中选择 torch_dtype 时 CUDA 是否可用\n* [Bug] 由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F581 中修复 tokenize_ftdp_datasets 函数中的 bug\n* [功能] 由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F579 中支持 Qwen 的 Moe 模型\n* [文档] 由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F583 中在案例 2 的 SFT 配置中添加分词器\n* 由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F590 中将版本号升级至 0.1.18\n\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fcompare\u002Fv0.1.17...v0.1.18","2024-04-19T11:21:40",{"id":202,"version":203,"summary_zh":204,"released_at":205},113498,"v0.1.17","## 变更内容\n* [修复] 由 @LZHgrla 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F540 中修复 PyPI 包问题\n* [改进] 由 @LZHgrla 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F536 中添加 LLaVA-v1.5 的 LoRA 微调配置\n* [配置] 由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F538 中向配置中添加 sequence_parallel_size 和 SequenceParallelSampler\n* 由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F543 中实现注意力前向传播时检查 attn_mask 的形状\n* 由 @LZHgrla 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F542 中将版本号提升至 v0.1.17\n\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fcompare\u002Fv0.1.16...v0.1.17","2024-04-03T05:49:31",{"id":207,"version":208,"summary_zh":209,"released_at":210},113499,"v0.1.16","## 变更内容\n* 由 @LZHgrla 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F487 中设置开发版本\n* 由 @hhaAndroid 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F496 中修复视觉编码器非 CLIP 时的类型错误\n* 【功能】支持序列并行，由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F456 中实现\n* 【Bug】修复 flash_attn1_pytorch 中的 bug，由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F513 中完成\n* 【修复】删除变长注意力中的 cat 操作，由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F508 中完成\n* 由 @HIT-cwh 将版本号升级至 0.1.16，见 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F520\n* 【改进】为 `EvaluateChatHook` 添加 `generation_kwargs`，由 @LZHgrla 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F501 中实现\n* 【Bug】修复在非分布式环境下训练时的 bug，由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F522 中完成\n* 【修复】支持 transformers>=4.38，并要求 transformers>=4.36.0，由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F494 中完成\n* 【修复】修复吞吐量钩子，由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F527 中完成\n* 由 @JianxinDong 更新 README.md，见 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F528\n* 【修复】调度 internlm 路由，由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F530 中完成\n* 限制 transformers 不等于 4.38，由 @HIT-cwh 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F531 中完成\n\n## 新贡献者\n* @hhaAndroid 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F496 中完成了首次贡献\n* @JianxinDong 在 https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F528 中完成了首次贡献\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fcompare\u002Fv0.1.15...v0.1.16","2024-03-29T10:32:38",{"id":212,"version":213,"summary_zh":214,"released_at":215},113500,"v0.1.15","## What's Changed\r\n* set dev version by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F437\r\n* [Bugs] Fix bugs when using EpochBasedRunner by @HIT-cwh in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F439\r\n* [Feature] Support processing ftdp dataset and custom dataset offline by @HIT-cwh in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F410\r\n* Update prompt_template.md by @aJupyter in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F441\r\n* [Doc] Split finetune_custom_dataset.md to 6 parts by @HIT-cwh in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F445\r\n* [Improve] Add notes for demo_data examples by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F458\r\n* [Fix] Gemma prompt_template by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F454\r\n* [Feature] Add LLaVA-InternLM2-1.8B by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F449\r\n* show more info about datasets by @amulil in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F464\r\n* [Fix] write text with `encoding='utf-8'` by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F477\r\n* support offline process llava data by @HIT-cwh in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F448\r\n* [Fix] `msagent_react_map_fn` error by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F470\r\n* [Improve] Reorg `xtuner\u002Fconfigs\u002Fllava\u002F` configs by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F483\r\n* limit pytorch version \u003C= 2.1.2 as there may be some bugs in  triton2… by @HIT-cwh in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F452\r\n* [Fix] fix batch sampler bs by @HIT-cwh in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F468\r\n* bump version to v0.1.15 by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F486\r\n\r\n## New Contributors\r\n* @aJupyter made their first contribution in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F441\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fcompare\u002Fv0.1.14...v0.1.15","2024-03-18T09:42:44",{"id":217,"version":218,"summary_zh":219,"released_at":220},113501,"v0.1.14","## What's Changed\r\n* set dev version by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F341\r\n* [Feature] More flexible `TrainLoop` by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F348\r\n* [Feature]Support CEPH by @pppppM in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F266\r\n* [Improve] Add `--repetition-penalty` for `xtuner chat` by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F351\r\n* [Feature] Support MMBench DDP Evaluate by @pppppM in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F300\r\n* [Fix] `KeyError` of `encode_fn` by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F361\r\n* [Fix] Fix `batch_size` of full fine-tuing LLaVA-InternLM2 by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F360\r\n* [Fix] Remove `system` for `alpaca_map_fn` by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F363\r\n* [Fix] Use `DEFAULT_IMAGE_TOKEN` instead of `'\u003Cimage>'` by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F353\r\n* [Feature] Support internlm sft by @HIT-cwh in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F302\r\n* [Fix] Add `attention_mask` for `default_collate_fn` by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F371\r\n* [Fix] Update requirements by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F369\r\n* [Fix] Fix rotary_base, add `colors_map_fn` to `DATASET_FORMAT_MAPPING` and rename 'internlm_repo' to 'intern_repo' by @HIT-cwh in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F372\r\n* update by @HIT-cwh in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F377\r\n* Delete useless codes and refactor process_untokenized_datasets by @HIT-cwh in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F379\r\n* [Feature] support flash attn 2 in internlm1, internlm2 and llama by @HIT-cwh in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F381\r\n* [Fix] Fix installation docs of mmengine in `intern_repo_dataset.md` by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F384\r\n* [Fix] Update InternLM2 `apply_rotary_pos_emb` by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F383\r\n* [Feature] support saving eval output before save checkpoint by @HIT-cwh in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F385\r\n* fix lr scheduler setting by @gzlong96 in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F394\r\n* [Fix] Remove pre-defined `system` of `alpaca_zh_map_fn` by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F395\r\n* [Feature] Support `Qwen1.5` by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F407\r\n* [Fix] Fix no space in chat output using InternLM2. (#357) by @KooSung in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F404\r\n* [Fix] typo: `--system-prompt` to `--system-template` by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F406\r\n* [Improve] Add `output_with_loss` for dataset process by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F408\r\n* [Fix] Fix dispatch to support transformers>=4.36 & Add USE_TRITON_KERNEL environment variable by @HIT-cwh in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F411\r\n* [Feature]Add InternLM2-Chat-1_8b full config by @KMnO4-zx in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F396\r\n* [Fix] Fix extract_json_objects by @fanqiNO1 in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F419\r\n* [Fix] Fix pth_to_hf error by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F426\r\n* [Feature] Support `Gemma` by @PommesPeter in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F429\r\n* add refcoco to llava by @LKJacky in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F425\r\n* [Fix] Inconsistent BatchSize of `LengthGroupedSampler` by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F436\r\n* bump version to v0.1.14 by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F431\r\n\r\n## New Contributors\r\n* @gzlong96 made their first contribution in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F394\r\n* @KooSung made their first contribution in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F404\r\n* @KMnO4-zx made their first contribution in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F396\r\n* @fanqiNO1 made their first contribution in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F419\r\n* @PommesPeter made their first contribution in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F429\r\n* @LKJacky made their first contribution in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F425\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fcompare\u002Fv0.1.13...v0.1.14","2024-02-28T08:47:19",{"id":222,"version":223,"summary_zh":224,"released_at":225},113502,"v0.1.13","## What's Changed\r\n* set dev version by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F329\r\n* [Docs] Add LLaVA-InternLM2 results by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F332\r\n* Update internlm2_chat template by @RangiLyu in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F339\r\n* [Fix] Fix examples demo_data configs by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F334\r\n* bump version to v0.1.13 by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F340\r\n\r\n## New Contributors\r\n* @RangiLyu made their first contribution in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F339\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fcompare\u002Fv0.1.12...v0.1.13","2024-01-19T10:33:52",{"id":227,"version":228,"summary_zh":229,"released_at":230},113503,"v0.1.12","## What's Changed\r\n* set dev version by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F281\r\n* [Fix] Update LLaVA results by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F283\r\n* [Fix] Update LLaVA results (based on VLMEvalKit) by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F285\r\n* [Fix] Fix filter bug for test data by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F293\r\n* [Fix] Fix `ConcatDataset` by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F298\r\n* [Improve] Redesign the `prompt_template` by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F294\r\n* [Fix] Fix errors about `stop_words`  by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F313\r\n* [Fix] Fix Mixtral LoRA setting by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F312\r\n* [Feature] Support DeepSeek-MoE by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F311\r\n* [Fix] Set `torch.optim.AdamW` as the default optimizer by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F318\r\n* [FIx] Fix `pth_to_hf` for LLaVA model by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F316\r\n* [Improve] Add `demo_data` examples by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F278\r\n* [Feature] Support InternLM2 by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F321\r\n* [Fix] Fix the resume of seed by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F309\r\n* [Feature] Accelerate `xtuner xxx`  by @pppppM in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F307\r\n* [Fix] Fix InternLM2 url by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F325\r\n* [Fix] Limit the version of python, `>=3.8, \u003C3.11` by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F327\r\n* [Fix] Add `trust_remote_code=True` for AutoModel  by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F328\r\n* [Docs] Improve README  by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F326\r\n* bump verion to v0.1.12 by @pppppM in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F323\r\n\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fcompare\u002Fv0.1.11...v0.1.12","2024-01-17T02:51:37",{"id":232,"version":233,"summary_zh":234,"released_at":235},113504,"v0.1.11","## What's Changed\r\n* [Docs] Update Mixtral 8x7b docs by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F265\r\n* [Bug] Fix bugs when chat with --lagent by @ooooo-create in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F269\r\n* [Feature] Support setting the random seed for `xtuner train` by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F272\r\n* [Fix] Update Mixtral-8x7b repo_id; Add mixtral template by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F275\r\n* [Feature] Add Qwen 72b config by @xiaohangguo in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F254\r\n* [Improve] Add notes for requirements; Improve badges by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F277\r\n* [Feature] Support LLaVA by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F196\r\n* [Feature] Add `warmup` for all configs by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F274\r\n* bump version to v0.1.11 by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F280\r\n\r\n## New Contributors\r\n* @ooooo-create made their first contribution in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F269\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fcompare\u002Fv0.1.10...v0.1.11","2023-12-26T09:57:16",{"id":237,"version":238,"summary_zh":239,"released_at":240},113505,"v0.1.10","## What's Changed\r\n* [Feature] Support for full-scale fine-tuning of large language models such as Llama2 70B. by @HIT-cwh in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F231\r\n* [Feature] Support to process internlm-style datasets by @HIT-cwh in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F232\r\n* [Fix] Fix bugs of llama dispatch by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F229\r\n* [Bug] Resolve the bug introduced by higher versions of DeepSpeed. by @HIT-cwh in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F240\r\n* [Doc] Add internlm dataset doc by @HIT-cwh in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F242\r\n* add `wizardcoder` template by @xiaohangguo in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F243\r\n* [Feature] Filter negative labels by @xiaohangguo in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F244\r\n* [Bug] Support auto detect torch_dtype in chat.py by @HIT-cwh in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F250\r\n* [Feature] Add Qwen 1.8b config by @xiaohangguo in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F252\r\n* [Feature]Add Deepseekcoder config by @xiaohangguo in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F253\r\n* [Bug] Fix bugs when grad clip == 0 by @HIT-cwh in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F262\r\n* [Feature] Support Mixtral 8x7b by @pppppM in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F263\r\n* bump version to v0.1.10 by @pppppM in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F264\r\n\r\n## New Contributors\r\n* @xiaohangguo made their first contribution in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F243\r\n* @pppppM made their first contribution in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F263\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fcompare\u002Fv0.1.9...v0.1.10","2023-12-11T09:43:08",{"id":242,"version":243,"summary_zh":244,"released_at":245},113506,"v0.1.9","## What's Changed\r\n* [Improve] Add ZeRO-1 cfg & Update README   by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F226\r\n* [Fix] Fix ChatGLM3 template by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F225\r\n* bump version to 0.1.9 by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F227\r\n\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fcompare\u002Fv0.1.8...v0.1.9","2023-11-16T05:59:35",{"id":247,"version":248,"summary_zh":249,"released_at":250},113507,"v0.1.8","## What's Changed\r\n* [Feature] Add mistral pretrain by @DumoeDss in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F204\r\n* [Feature] add yi-6b and yi-34b sft script by @amulil in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F216\r\n* [Docs] Add Introduction docs for config by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F212\r\n* [Fix] Fix MMLU evaluation by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F208\r\n* [Feature] Support ChatGLM3-6B by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F222\r\n* [Fix] Set default `eta_min` to 0. by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F223\r\n* bump version to 0.1.8 by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F224\r\n\r\n## New Contributors\r\n* @DumoeDss made their first contribution in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F204\r\n* @amulil made their first contribution in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F216\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fcompare\u002Fv0.1.7...v0.1.8","2023-11-15T10:37:36",{"id":252,"version":253,"summary_zh":254,"released_at":255},113508,"v0.1.7","## What's Changed\r\n* add zephyr config by @maxchiron in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F188\r\n* [Feature] Support \"auto\" fp16\u002Fbf16 for DeepSpeed by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F195\r\n* [Fix] Temporarily limit the version of `transformers` by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F200\r\n* bump version to 0.1.7 by @LZHgrla in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F201\r\n\r\n## New Contributors\r\n* @maxchiron made their first contribution in https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fpull\u002F188\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002FInternLM\u002Fxtuner\u002Fcompare\u002Fv0.1.6...v0.1.7","2023-11-03T08:01:17"]