[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-OpenBMB--CPM-Live":3,"tool-OpenBMB--CPM-Live":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",153609,2,"2026-04-13T11:34:59",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":72,"owner_avatar_url":73,"owner_bio":74,"owner_company":75,"owner_location":75,"owner_email":76,"owner_twitter":72,"owner_website":77,"owner_url":78,"languages":79,"stars":88,"forks":89,"last_commit_at":90,"license":75,"difficulty_score":91,"env_os":92,"env_gpu":93,"env_ram":93,"env_deps":94,"category_tags":97,"github_topics":98,"view_count":32,"oss_zip_url":75,"oss_zip_packed_at":75,"status":17,"created_at":107,"updated_at":108,"faqs":109,"releases":138},7162,"OpenBMB\u002FCPM-Live","CPM-Live","Live Training for Open-source Big Models","CPM-Live 是一个开创性的开源大模型训练项目，旨在通过“实时直播”的方式，让全球开发者共同见证并参与百亿参数级模型的成长过程。它解决了传统大模型训练黑盒化、社区参与度低以及资源门槛高的问题，将原本封闭的训练流程转变为透明、互动的公共实验。\n\n该项目非常适合 AI 研究人员、开发者以及对大模型技术充满热情的爱好者使用。研究人员可以获取每日更新的训练日志和中间检查点（Checkpoints），深入分析模型演化规律；开发者不仅能免费下载支持商用的模型权重，还能在训练过程中提交架构优化建议或基于模型开发应用原型，优秀方案甚至会被直接采纳进后续训练中。\n\nCPM-Live 的核心亮点在于其独特的“持续进化”机制与极高的透明度。项目不仅实时展示训练指标，还建立了开放的反馈闭环，允许社区成员在模型尚未训练完成时就介入干预，真正实现了“众人共建大模型”。从早期的 CPM-Ant 到后来的双语模型 CPM-Ant+ 及 CPM-Bee，该项目已成功验证了开源协作在大规模预训练领域的可行性，让用户即便在个人电脑上也能体验到大模型的强大能力。","\u003Cdiv align=\"center\">\n\n\u003Ch1>CPM-Live\u003C\u002Fh1>\n\n**Live Training for Open-source Big Models**\n\n\u003Cp align=\"center\">\n   \u003Ca href=\"https:\u002F\u002Flive.openbmb.org\u002F\" target=\"_blank\">Website\u003C\u002Fa> • \u003Ca href=\".\u002Fplans\u002FCPM-Live训练计划书.md\" target=\"_blank\">Plan\u003C\u002Fa> • \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FCPM-Live\u002Fdiscussions\">Discussion\u003C\u002Fa> • \u003Ca href=\".\u002FREADME-ZH.md\" target=\"_blank\">简体中文\u003C\u002Fa>\n\u003Cbr>\n\u003Cbr>\n\u003C\u002Fp>\n\n\u003C\u002Fdiv>\n\n## What's New\n- 2023\u002F05\u002F27 [CPM-Bee](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FCPM-Bee) is released!\n- 2023\u002F04\u002F12 CPM-Ant has been integrated into [HuggingFace Transformers](https:\u002F\u002Fhuggingface.co\u002Fopenbmb\u002Fcpm-ant-10b)!\n- 2022\u002F10\u002F12 [CPM-Ant+](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FCPM-Live\u002Ftree\u002Fcpm-ant-plus\u002Fcpm-live), a bilingual model, is released! In addition to generating Chinese\u002FEnglish text, you can now use our model for QA, summarization and translation tasks!\n- 2022\u002F09\u002F16 [CPM-Ant](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FCPM-Live\u002Ftree\u002Fcpm-ant\u002Fcpm-live) is released!\n- 2022\u002F05\u002F29 The training of CPM-Live has launched today! See [training dynamics](https:\u002F\u002Flive.openbmb.org\u002Fhome).\n- 2022\u002F05\u002F25 The [training plan](.\u002Fplans\u002FCPM-Live训练计划书.md) for CPM-Live is now published. Look forward to the training! \n\n## Milestones\n\n- **CPM-Bee** (2022\u002F10\u002F13-2023\u002F05\u002F27) [[Code](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FCPM-Bee)][[Model](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FCPM-Bee#%E6%A8%A1%E5%9E%8B)][[Plan](.\u002Fplans\u002FCPM-Bee训练计划书.md)]\n- **CPM-Ant+** (2022\u002F08\u002F05-2022\u002F10\u002F12) [[Code](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FCPM-Live\u002Ftree\u002Fcpm-ant-plus\u002Fcpm-live)][[Model](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FCPM-Live\u002Ftree\u002Fcpm-ant-plus\u002Fcpm-live#model-checkpoints)]\n- **CPM-Ant** (2022\u002F05\u002F29-2022\u002F08\u002F05) [[Code](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FCPM-Live\u002Ftree\u002Fcpm-ant\u002Fcpm-live)][[Model](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FCPM-Live\u002Ftree\u002Fcpm-ant\u002Fcpm-live#model-checkpoints)][[Website](https:\u002F\u002Flive.openbmb.org\u002Fant)][[Blog](https:\u002F\u002Fwww.openbmb.org\u002Fen\u002Fcommunity\u002Fblogs\u002Fblogpage?id=98afef2ce45f4fe9a4bc15a66d7ccb92)][[Plan](.\u002Fplans\u002FCPM-Ant训练计划书.md)]\n\n## Training Plan\nConsidering the scale of data and computing resources, CPM-Live will start with a 10B model training.\n\n### During training we will do:\n\n- **Real-time**: Display model training metrics\n- **Every day**: Release the model training log\n- **Every week**: Deal with discussions and feedback from the community\n- **Irregularly**: Release checkpoints during model training which everyone can download\n\n\n### During training you can:\n\n- **Raise your model proposal**: Have better ideas on model architecture, training methods, or data sources? You can put forward your model proposal in the community. If the proposal receives more support and is practically feasible, we will add it to the model we are training, so that CPM-Live can learn continuously and progress with the help of everyone.\n\n- **Develop your application**: You can submit your initial ideas, prototypes, development code, or finished apps, which are based on CPM-Live, to the community. We will exhibit the most popular apps on the website.\n\n- **Chat on the forum**: You can talk about anything related to big models in our forums, such as academic research, engineering implementation, tool use, application design, etc. No matter whether you are experienced or not, we believe everyone can benefit from positive and open discussions.\n\n- **Download the resource**: Once the model training is complete, you are free to download the model parameters under an open use license. CPM-Live uses an open license that includes permission for commercialization. With model compression and inference acceleration tools, you can experience the power of big models on your own PC!\n\n## Community\n\n[Our community](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FCPM-Live\u002Fdiscussions) is based on GitHub Discussions. \n\nRead the [first post](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FCPM-Live\u002Fdiscussions\u002F1) and start your exploration on CPM-Live!\n","\u003Cdiv align=\"center\">\n\n\u003Ch1>CPM-Live\u003C\u002Fh1>\n\n**开源大模型直播训练项目**\n\n\u003Cp align=\"center\">\n   \u003Ca href=\"https:\u002F\u002Flive.openbmb.org\u002F\" target=\"_blank\">官网\u003C\u002Fa> • \u003Ca href=\".\u002Fplans\u002FCPM-Live训练计划书.md\" target=\"_blank\">计划\u003C\u002Fa> • \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FCPM-Live\u002Fdiscussions\">讨论区\u003C\u002Fa> • \u003Ca href=\".\u002FREADME-ZH.md\" target=\"_blank\">简体中文\u003C\u002Fa>\n\u003Cbr>\n\u003Cbr>\n\u003C\u002Fp>\n\n\u003C\u002Fdiv>\n\n## 最新动态\n- 2023年5月27日 [CPM-Bee](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FCPM-Bee) 正式发布！\n- 2023年4月12日 CPM-Ant 已集成至 [HuggingFace Transformers](https:\u002F\u002Fhuggingface.co\u002Fopenbmb\u002Fcpm-ant-10b)！\n- 2022年10月12日 双语模型 [CPM-Ant+](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FCPM-Live\u002Ftree\u002Fcpm-ant-plus\u002Fcpm-live) 正式发布！除了生成中英文文本外，现在还可用于问答、摘要和翻译等任务！\n- 2022年9月16日 [CPM-Ant](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FCPM-Live\u002Ftree\u002Fcpm-ant\u002Fcpm-live) 正式发布！\n- 2022年5月29日 CPM-Live 训练今日正式启动！请查看 [训练动态](https:\u002F\u002Flive.openbmb.org\u002Fhome)。\n- 2022年5月25日 CPM-Live 的 [训练计划](.\u002Fplans\u002FCPM-Live训练计划书.md) 已正式公布。让我们共同期待这次训练！\n\n## 阶段性成果\n\n- **CPM-Bee**（2022年10月13日—2023年5月27日）[[代码](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FCPM-Bee)][[模型](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FCPM-Bee#%E6%A8%A1%E5%9E%8B)][[计划](.\u002Fplans\u002FCPM-Bee训练计划书.md)]\n- **CPM-Ant+**（2022年8月5日—2022年10月12日）[[代码](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FCPM-Live\u002Ftree\u002Fcpm-ant-plus\u002Fcpm-live)][[模型](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FCPM-Live\u002Ftree\u002Fcpm-ant-plus\u002Fcpm-live#model-checkpoints)]\n- **CPM-Ant**（2022年5月29日—2022年8月5日）[[代码](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FCPM-Live\u002Ftree\u002Fcpm-ant\u002Fcpm-live)][[模型](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FCPM-Live\u002Ftree\u002Fcpm-ant\u002Fcpm-live#model-checkpoints)][[官网](https:\u002F\u002Flive.openbmb.org\u002Fant)][[博客](https:\u002F\u002Fwww.openbmb.org\u002Fen\u002Fcommunity\u002Fblogs\u002Fblogpage?id=98afef2ce45f4fe9a4bc15a66d7ccb92)][[计划](.\u002Fplans\u002FCPM-Ant训练计划书.md)]\n\n## 训练计划\n考虑到数据规模和计算资源的限制，CPM-Live 将从 100亿参数的模型开始训练。\n\n### 训练期间我们将：\n\n- **实时展示**：模型训练指标\n- **每日更新**：发布模型训练日志\n- **每周处理**：收集并回应社区的讨论与反馈\n- **不定期发布**：在训练过程中发布可下载的检查点文件\n\n### 训练期间您可以：\n\n- **提出模型方案**：如果您对模型架构、训练方法或数据源有更优的想法，欢迎在社区中提交您的方案。若该方案获得广泛支持且具备可行性，我们将将其纳入当前的训练计划中，使 CPM-Live 能够不断学习进步，受益于大家的智慧。\n  \n- **开发应用**：您可以将基于 CPM-Live 的初步想法、原型、开发代码或已完成的应用提交至社区。我们将在官网上展示最受欢迎的应用。\n\n- **参与论坛交流**：您可以在我们的论坛中畅谈与大模型相关的任何话题，例如学术研究、工程实现、工具使用、应用设计等。无论您是经验丰富的专家还是初学者，我们都相信通过积极开放的讨论，每个人都能有所收获。\n\n- **下载资源**：当模型训练完成后，您可根据开放使用许可自由下载模型参数。CPM-Live 采用开放许可协议，允许商业用途。结合模型压缩和推理加速工具，您便可在个人电脑上体验大模型的强大能力！\n\n## 社区\n\n我们的社区基于 GitHub Discussions 构建。\n\n请阅读 [第一篇帖子](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FCPM-Live\u002Fdiscussions\u002F1)，开启您对 CPM-Live 的探索之旅吧！","# CPM-Live 快速上手指南\n\nCPM-Live 是一个开源的大模型实时训练项目，旨在通过社区协作持续迭代模型。本项目已发布多个版本（如 CPM-Ant、CPM-Ant+、CPM-Bee），支持中文\u002F英文文本生成、问答、摘要及翻译等任务。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 18.04+) 或 macOS。\n*   **Python**: 3.8 或更高版本。\n*   **GPU**: 推荐使用 NVIDIA GPU，并安装对应的 CUDA 驱动。\n*   **前置依赖**:\n    *   PyTorch (建议 1.10+)\n    *   Git\n\n> **提示**：国内开发者建议使用清华源或阿里源加速 Python 包的安装。\n\n## 安装步骤\n\n由于 CPM-Live 的不同阶段模型（如 CPM-Ant, CPM-Bee）位于不同的分支或独立仓库中，请根据您想使用的具体模型选择安装方式。以下以集成到 HuggingFace 的 **CPM-Ant** 为例，这是最便捷的上手方式。\n\n### 1. 安装基础依赖\n\n```bash\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\npip install transformers sentencepiece accelerate\n```\n\n*(注：若需从源码运行特定训练代码，请克隆对应分支)*\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FCPM-Live.git\ncd CPM-Live\n# 根据需求切换分支，例如 cpm-ant 或 cpm-ant-plus\ngit checkout cpm-ant \npip install -r requirements.txt\n```\n\n### 2. 获取模型\n\n如果您使用 HuggingFace Transformers 接口，无需手动下载，代码会自动拉取模型。若需手动下载或使用国内镜像，可配置 `HF_ENDPOINT`：\n\n```bash\nexport HF_ENDPOINT=https:\u002F\u002Fhf-mirror.com\n```\n\n## 基本使用\n\n以下示例展示如何使用 **CPM-Ant-10B** 进行简单的中文文本生成。该模型已原生支持中文，无需额外分词配置即可流畅运行。\n\n```python\nfrom transformers import AutoTokenizer, AutoModelForCausalLM\nimport torch\n\n# 加载分词器和模型\nmodel_name = \"openbmb\u002Fcpm-ant-10b\"\ntokenizer = AutoTokenizer.from_pretrained(model_name)\nmodel = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16, device_map=\"auto\")\n\n# 准备输入文本\ninput_text = \"中国的首都是\"\ninputs = tokenizer(input_text, return_tensors=\"pt\").to(model.device)\n\n# 生成文本\noutputs = model.generate(\n    inputs.input_ids, \n    max_new_tokens=50, \n    do_sample=True, \n    temperature=0.7, \n    top_p=0.9\n)\n\n# 解码并输出结果\nresult = tokenizer.decode(outputs[0], skip_special_tokens=True)\nprint(result)\n```\n\n**运行结果示例：**\n> 中国的首都是北京，位于华北平原北部，背靠燕山，毗邻天津市和河北省。北京是全球首个“双奥之城”……\n\n---\n*更多模型版本（如双语模型 CPM-Ant+ 或最新 CPM-Bee）的使用方法及完整训练计划，请访问 [GitHub 讨论区](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FCPM-Live\u002Fdiscussions) 或查看各分支下的详细文档。*","某初创科技团队希望构建一款支持中英双语的智能客服系统，但受限于算力资源和数据积累，难以独立训练高质量的大模型。\n\n### 没有 CPM-Live 时\n- 团队需从零开始收集海量双语语料并清洗，耗时数月且数据质量难以保证。\n- 缺乏足够算力训练十亿级参数模型，只能使用性能较弱的旧模型，导致回答生硬、语境理解差。\n- 模型迭代周期长，无法根据用户反馈快速调整架构或融入新数据，错失市场窗口期。\n- 商业授权费用高昂，初创公司难以承担闭源大模型的 API 调用成本或私有化部署许可费。\n- 社区支持匮乏，遇到训练崩溃或效果不佳时，只能独自排查问题，研发风险极高。\n\n### 使用 CPM-Live 后\n- 直接下载 CPM-Ant+ 等已预训练的双语模型检查点，立即获得强大的语言理解与生成能力。\n- 利用开放的商业化许可协议，零成本将模型部署至自有服务器，大幅降低运营开支。\n- 通过社区提出的架构优化建议微调模型，仅用数天即可完成针对客服场景的专项增强。\n- 实时参考官方发布的训练动态和日志，快速定位推理延迟问题并进行压缩加速优化。\n- 在论坛中与全球开发者交流应用案例，复用他人成熟的代码原型，将开发效率提升三倍。\n\nCPM-Live 通过开源共享与社区共创模式，让资源有限的团队也能低成本拥有世界级的双语大模型能力。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenBMB_CPM-Live_79c34ea8.png","OpenBMB","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FOpenBMB_02e4bd39.png","OpenBMB (Open Lab for Big Model Base) aims to build foundation models and systems towards AGI.",null,"openbmb@gmail.com","https:\u002F\u002Fwww.openbmb.cn","https:\u002F\u002Fgithub.com\u002FOpenBMB",[80,84],{"name":81,"color":82,"percentage":83},"Python","#3572A5",99.3,{"name":85,"color":86,"percentage":87},"Shell","#89e051",0.7,504,40,"2026-04-11T02:02:30",4,"","未说明",{"notes":95,"python":93,"dependencies":96},"README 主要介绍 CPM-Live 项目的训练计划、里程碑及社区互动方式，未提供具体的代码运行环境配置（如操作系统、GPU、内存、Python 版本及依赖库）。文中提到模型训练始于 10B 参数规模，并提供了不同阶段模型（CPM-Ant, CPM-Ant+, CPM-Bee）的代码链接，但未在当前文档中列出安装或运行这些模型的具体硬件和软件要求。用户需访问提供的子项目链接或网站获取详细技术文档。",[],[35,14],[99,100,101,102,103,104,105,106],"deep-learning","multi-task-learning","natural-language-generation","natural-language-understanding","nlp","parameter-efficient-learning","pretrained-language-model","natural-language-processing","2026-03-27T02:49:30.150509","2026-04-13T23:53:18.647753",[110,115,120,125,130,134],{"id":111,"question_zh":112,"answer_zh":113,"source_url":114},32162,"CPM-Ant++ 微调训练后推理结果异常（全是英文或乱码符号），可能是什么原因？","这通常是因为未正确升级 bmtrain 版本导致的。在升级到 0.1.8.post1 之前，代码实际执行的是全参数微调而非 Delta Tuning，导致训练表现与预期不符。此外，请检查推理脚本（如 infer_cpm_ant.py）中是否错误地保留了 LoRA 相关代码而未注释掉（如果是全参数微调场景）。超参数（batch size, lr）也需根据数据量和资源自行调整，没有固定标准。","https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FCPM-Live\u002Fissues\u002F254",{"id":116,"question_zh":117,"answer_zh":118,"source_url":119},32163,"如何基于任务 1 训练好的 best.pt  checkpoint 继续训练任务 2（多任务连续微调）？","如果加载 checkpoint 时报错 'Unexpected key(s) in state_dict' 且涉及 'lora' 参数，这是因为 BMTrain 原生只加载 'checkpoint block' 中的参数，而 OpenDelta 注入的 LoRA 参数无法被自动加载。解决方法是升级 BMTrain 以包含针对此问题的修复（PR #77），该修复增加了对后续插入参数（如包含 'lora' 的参数名）的特殊处理逻辑。如果仍不生效，可手动检查 BMTrain 源码中相关加载逻辑是否被触发。","https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FCPM-Live\u002Fissues\u002F400",{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},32164,"运行 CCPM_ddp.sh 进行分布式微调时报错或效果不佳，常见配置错误有哪些？","常见错误包括：1. 在微调脚本中错误注释掉了加载预训练模型或最佳检查点（best.pt）的代码行（例如第 26 行），导致模型未正确初始化；2. 混淆了 LoRA 微调与全参数微调的配置，若采用全参数更新，需确保推理脚本中的 LoRA 部分已被注释掉。请仔细检查脚本中模型加载路径及 LoRA 相关开关设置。","https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FCPM-Live\u002Fissues\u002F352",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},32165,"CPM-Ant 模型在推理阶段的 Mask 操作逻辑是什么？为什么有时会出现左填充（left padding）问题？","推理时的 Mask 逻辑用于处理注意力机制，确保模型只关注有效上下文。代码中的 `directional_mask_2d` 和 `span` 判断是为了构建正确的注意力掩码。已知 CPM-Ant 存在与 prompt tokens 相关的 Bug，特别是在处理左填充（left padding）时，不同 batch size 下结果可能不一致。该问题已在 CPM-Ant+ 版本中通过统一 prompt 和 input embeddings 得到修复，建议迁移至 CPM-Ant+ 使用。","https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FCPM-Live\u002Fissues\u002F259",{"id":131,"question_zh":132,"answer_zh":133,"source_url":114},32166,"微调过程中学习率（lr）先升后降以及 Loss 下降缓慢是否正常？","这是正常现象。学习率先升后降是因为使用了学习率调度器（lr scheduler），通常会经历 warmup 阶段后衰减。Loss 下降速度受多种因素影响，包括数据量、计算资源、batch size 和学习率设置。如果在升级 bmtrain 到 0.1.8.post1 后出现训练变慢，可能是因为之前误跑了全参数微调（速度快但非预期），现在运行的是正确的 Delta Tuning。具体超参数需根据验证集 Loss 自行调整。",{"id":135,"question_zh":136,"answer_zh":137,"source_url":124},32167,"LoRA 方式微调效果尚可，但全参数微调效果很差，可能是什么原因？","这通常是由于配置不一致导致的。请重点检查推理阶段（infer）的代码：如果你使用的是全参数微调，必须确保推理脚本（如 infer_cpm_ant.py）中关于 LoRA 的部分已经被完全注释掉，否则模型结构不匹配会导致推理结果错误。反之，如果是 LoRA 微调，则需保留相应代码并加载对应的适配器权重。",[]]