[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-wdndev--tiny-llm-zh":3,"tool-wdndev--tiny-llm-zh":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",140436,2,"2026-04-05T23:32:43",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":80,"owner_email":80,"owner_twitter":80,"owner_website":80,"owner_url":81,"languages":82,"stars":91,"forks":92,"last_commit_at":93,"license":80,"difficulty_score":23,"env_os":94,"env_gpu":95,"env_ram":96,"env_deps":97,"category_tags":107,"github_topics":80,"view_count":23,"oss_zip_url":80,"oss_zip_packed_at":80,"status":16,"created_at":108,"updated_at":109,"faqs":110,"releases":141},3750,"wdndev\u002Ftiny-llm-zh","tiny-llm-zh","从零实现一个小参数量中文大语言模型。","tiny-llm-zh 是一个专为中文大语言模型初学者打造的开源教育项目。它从零开始，完整复现了一个小参数量中文大模型的构建全过程，旨在降低大模型技术的学习门槛，帮助开发者快速理解从数据准备到模型部署的核心原理。\n\n该项目主要解决了大模型领域“黑盒化”严重、入门资料分散且缺乏全流程实战代码的痛点。通过公开全部训练数据、分词器代码及训练脚本，tiny-llm-zh 清晰展示了分词、预训练、指令微调、人类对齐（RLHF\u002FDPO）、评测及量化部署的完整链路。用户不仅可以下载现成模型进行体验，更能深入源码，亲手复现一个拥有 420 亿预训练 Token 和数百万条指令数据的模型训练过程。\n\ntiny-llm-zh 特别适合希望深入理解大模型底层机制的开发者、研究人员以及高校学生。对于想要尝试大模型应用但受限于算力资源的团队，其提供的 16M 至 440M 等多种轻量级模型架构也是理想的实验对象。\n\n在技术亮点上，项目基于主流 Transformer 架构，支持 RMSNorm、RoPE 等先进技术，并兼容 DeepSpeed 多机多卡训练、MoE（混合专家）架构以及 vLLM、llama.cp","tiny-llm-zh 是一个专为中文大语言模型初学者打造的开源教育项目。它从零开始，完整复现了一个小参数量中文大模型的构建全过程，旨在降低大模型技术的学习门槛，帮助开发者快速理解从数据准备到模型部署的核心原理。\n\n该项目主要解决了大模型领域“黑盒化”严重、入门资料分散且缺乏全流程实战代码的痛点。通过公开全部训练数据、分词器代码及训练脚本，tiny-llm-zh 清晰展示了分词、预训练、指令微调、人类对齐（RLHF\u002FDPO）、评测及量化部署的完整链路。用户不仅可以下载现成模型进行体验，更能深入源码，亲手复现一个拥有 420 亿预训练 Token 和数百万条指令数据的模型训练过程。\n\ntiny-llm-zh 特别适合希望深入理解大模型底层机制的开发者、研究人员以及高校学生。对于想要尝试大模型应用但受限于算力资源的团队，其提供的 16M 至 440M 等多种轻量级模型架构也是理想的实验对象。\n\n在技术亮点上，项目基于主流 Transformer 架构，支持 RMSNorm、RoPE 等先进技术，并兼容 DeepSpeed 多机多卡训练、MoE（混合专家）架构以及 vLLM、llama.cpp 等高效推理框架。虽然受资源限制，其生成效果尚未达到商用级别，但作为一本“可运行的教科书”，它为中文大模型的学习与研究提供了极具价值的实践范本。","# Tiny LLM zh\n\n## 1.简介\n\n本项目旨在构建一个小参数量的中文语言大模型，用于快速入门学习大模型相关知识，如果此项目对你有用，可以点一下start，谢谢！\n\n模型架构：整体模型架构采用开源通用架构，包括：RMSNorm，RoPE，MHA等\n\n实现细节：实现大模型两阶段训练及后续人类对齐，即：分词(Tokenizer) -> 预训练(PTM) -> 指令微调(SFT) -> 人类对齐(RLHF, DPO) -> 测评 -> 量化 -> 部署。\n\n项目已部署，可以在如下网站上体验。\n\n- [ModeScope Tiny LLM](https:\u002F\u002Fwww.modelscope.cn\u002Fstudios\u002Fwdndev\u002Ftiny_llm_92m_demo\u002Fsummary)\n\n项目特点：\n\n- 公开全部数据及代码，包括预训练数据，tokenizer等；（[Tiny LLM Datasets](doc\u002Fdatasets_download.md)）\n- 走通大模型整个流程：分词(Tokenizer) -> 预训练(PTM) -> 指令微调(SFT) -> 人类对齐(RLHF, DPO) -> 测评 -> 部署；\n- 公开预训练token 42B，SFT数据400w条，RL数据 17w条；\n- 训练 Tokenizer：10G 中文百科文本训练 20K 中文词表，与 Llama2 词表合并，构建Tiny LLM词表；\n- 使用 Transformers deepspeed 进行训练，支持多机多卡，支持 Zero 等优化技术；\n- 所有代码 `Bash` 脚本启动，支持不同大小的模型，如16m, 42m, 92m, 210m, 440m等；\n- 支持 MoE 架构，在 [tiny_llm_moe](https:\u002F\u002Fgithub.com\u002Fwdndev\u002Ftiny-llm-zh\u002Ftree\u002Ftiny_llm_moe) 支持最新共享专家，平衡专家等技术；\n- 支持 vLLM 推理框架；\n- 支持 llama.cpp 推理框架；\n\n\n本项目主要有三个分支，推荐学习 主分支，具体区别如下：\n\n- [llama2_torch](https:\u002F\u002Fgithub.com\u002Fwdndev\u002Ftiny-llm-zh\u002Ftree\u002Fllama2_torch) ： 模型架构采用原版 Llama2 架构，只是将部分的输入输出修改为适合训练的格式；\n- `main`   `tiny_llm` ： 对齐开源社区模型，使用Transformers库构建底层模型，也使用Transformers库进行多卡多机训练；\n- [tiny_llm_moe](https:\u002F\u002Fgithub.com\u002Fwdndev\u002Ftiny-llm-zh\u002Ftree\u002Ftiny_llm_moe) ： 在`tiny_llm`的基础上，修改 `MLP`层为MoE模型，使用Transformers库进行多卡多机训练。\n\n注意：\n\n1. 因资源限制，本项目的第一要务是走通大模型整个流程，而不是调教比较好的效果，故评测结果分数较低，部分生成错误。\n2. 详细的数据处理，训练过程见 `doc` 文件夹（正在整理。。。）\n\n\n## 2.快速开始\n\n模型已托管在 [Huggingface](https:\u002F\u002Fhuggingface.co\u002Fwdndev\u002Ftiny_llm_sft_92m) 和 [ModeScope](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002Fwdndev\u002Ftiny_llm_sft_92m) 中，可运行代码自动下载。\n\n建议使用 Huggingface 在线加载模型，如果运行不了，在试 ModeScope ；如果需要本地运行，修改`model_id`中的路径为本地目录，即可运行。\n\n#### 依赖安装\n\n- python 3.8 and above\n- pytorch 2.0 and above\n- transformers 4.37.2 and above\n- CUDA 11.4 and above are recommended. (if training)\n\n```bash\npip install -r requirements.txt \n```\n\n\n#### 🤗 HuggingFace\n\n```python\nfrom transformers import AutoTokenizer, AutoModelForCausalLM\nfrom transformers.generation import GenerationConfig\n\nmodel_id = \"wdndev\u002Ftiny_llm_sft_92m\"\n\ntokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)\nmodel = AutoModelForCausalLM.from_pretrained(model_id, device_map=\"auto\", trust_remote_code=True)\ngeneration_config = GenerationConfig.from_pretrained(model_id, trust_remote_code=True)\nsys_text = \"你是由wdndev开发的个人助手。\"\n# user_text = \"世界上最大的动物是什么？\"\n# user_text = \"介绍一下刘德华。\"\nuser_text = \"介绍一下中国。\"\ninput_txt = \"\\n\".join([\"\u003C|system|>\", sys_text.strip(), \n                        \"\u003C|user|>\", user_text.strip(), \n                        \"\u003C|assistant|>\"]).strip() + \"\\n\"\n\ngeneration_config.max_new_tokens = 200\nmodel_inputs = tokenizer(input_txt, return_tensors=\"pt\").to(model.device)\ngenerated_ids = model.generate(model_inputs.input_ids, generation_config=generation_config)\ngenerated_ids = [\n    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)\n]\nresponse = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]\nprint(response)\n```\n\n#### 🤖 ModeScope\n\n```python\nfrom modelscope import AutoModelForCausalLM, AutoTokenizer\n\nmodel_id = \"wdndev\u002Ftiny_llm_sft_92m\"\n\ntokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)\nmodel = AutoModelForCausalLM.from_pretrained(model_id, device_map=\"auto\", trust_remote_code=True)\n\nsys_text = \"你是由wdndev开发的个人助手。\"\n# user_text = \"世界上最大的动物是什么？\"\n# user_text = \"介绍一下刘德华。\"\nuser_text = \"介绍一下中国。\"\ninput_txt = \"\\n\".join([\"\u003C|system|>\", sys_text.strip(), \n                        \"\u003C|user|>\", user_text.strip(), \n                        \"\u003C|assistant|>\"]).strip() + \"\\n\"\n\nmodel_inputs = tokenizer(input_txt, return_tensors=\"pt\").to(model.device)\ngenerated_ids = model.generate(model_inputs.input_ids, max_new_tokens=200)\ngenerated_ids = [\n    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)\n]\nresponse = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]\nprint(response)\n```\n\n\n生成效果\n```bash\n问：世界上最大的动物是什么？\n答：目前已知最大的动物是蓝鲸（Balaenoptera musculus），这是一个庞大的哺乳动物，属于须鲸亚目、须鲸科中的最大物种。蓝鲸的身长可达30米以上，体重可达175吨。它们在海洋中生活，主要以浮游生物为食，如甲壳类动物和小型鱼类等。由于其巨大的体型和复杂的生态群落，蓝鲸成为海洋旅游的热门景点之一。\n\n问：介绍一下刘德华。\n答：刘德华是一位香港流行歌手、演员和导演，他在音乐界的贡献非常巨大。他是华语乐坛历史上最伟大的艺人之一，代表作品包括《爱我身体》和《肥皂泡》。他也经常参演电影和电视剧，并在电视上受到好评。\n\n问：介绍一下中国。\n答：中国是位于东亚的大陆，被欧洲以及亚洲和其他大陆所包围。它是中国第二大文明和世界上最大的经济体之一。中国的历史可以追溯到公元前5000年左右，从古至今都有其独特的文化和语言传承者。\n\n```\n\n## 3.模型\n\n### 3.1 Tokenizer\n\nLLM分词器的构建方式有两种：一种是自己构造词表，训练一个分词器；另一种是选择开源模型训练好的分词器。\n\n本项目为了方便，从优秀的开源项目中选择词表，考虑到训练的模型较小，且词表大小影响模型大小，故优先选择词表较小的开源项目；经过比较，最终选择 [ChatGLM3](https:\u002F\u002Fhuggingface.co\u002FTHUDM\u002Fchatglm3-6b) 的词表，该词表大小为 64798 。\n\n自己构造词表方式见 [tokenizer](tokenizer\u002F)，扩充 LLaMA2的32K词表为50K，增加20K中文词表，详细扩充方式见[文档](.\u002Fdoc\u002F)或[tokenizer\u002FREADME.md](.\u002Ftokenizer\u002FREADME.md).\n\n注意：本项目使用的ChatGLM3的词表。\n\n### 3.2 模型结构\n\n模型结构采用类Llama2的结构，具体包括：RMSNorm，RoPE，MHA等；\n\n\n### 3.3 模型尺寸\n\n具体参数细节如下所示：\n\n| model            | hidden size | intermediate size | n_layers | n_heads | max context length | params | vocab size |\n| ---------------- | ----------- | ----------------- | -------- | ------- | ------------------ | ------ | ---------- |\n| tiny-llm-16m     | 120   | 384        | 6       | 6          | 512                | 16M     | 64798      |\n| tiny-llm-42m     | 288   | 768        | 6       | 6          | 512                | 42M     | 64798      |\n| tiny-llm-92m     | 512   | 1024       | 8       | 8          | 1024               | 92M     | 64798      |\n| tiny-llm-210m    | 768   | 2048       | 16      | 12         | 1024               | 210M    | 64798      |\n| tiny-llm-440m    | 1024  | 2816       | 24      | 16         | 1024               | 440M    | 64798      |\n| tiny-llm-1_5b    | 2048  | 5504       | 24      | 16         | 1024               | 1.5B    | 64798      |\n\n\n### 3.4 模型评估\n\n因训练数据和微调数据，大部分都是中文数据，所以在`C-Eval`和`CMMLU`这两个数据集上进行模型的评估；使用[OpenCompass](https:\u002F\u002Fgithub.com\u002Fopen-compass\u002Fopencompass)工具，进行模型评估，评估分数如下所示：\n\n| model            | Type  | C-Eval  |  CMMLU  |\n| ---------------- | ----- | ------- | ------- |\n| tiny-llm-92m     | Base   | 23.48  | 25.02   |\n| tiny-llm-92m     | Chat   | 26.79  | 26.59   |\n\nBase模型，采用评测方式 ppl 方式进行评测；Chat模型，采用 gen 方式评测。具体区别如下图所示：\n\n![ppl gen](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwdndev_tiny-llm-zh_readme_8e2ff6c5f61c.png)\n\n> 来源：[ppl和gen模式有什么区别](https:\u002F\u002Fgithub.com\u002Fopen-compass\u002Fopencompass\u002Fdiscussions\u002F597)\n\n注意：只对常用的两个模型进行了评测，分数较低，其余模型评测意义不大。\n\n\n## 4.模型部署\n\n### 4.1 网页Demo\n\n网页Demo已部署，可以在如下网站上体验：[ModeScope Tiny LLM](https:\u002F\u002Fwww.modelscope.cn\u002Fstudios\u002Fwdndev\u002Ftiny_llm_92m_demo\u002Fsummary)\n\n如果想在本地运行网页Demo，注意修改 `web_demo.py` 文件中模型的路径`model_id`，输入如下命令即可运行：\n\n```shell\nstreamlit run web_demo.py\n```\n\n![web demo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwdndev_tiny-llm-zh_readme_0dccce33776c.png)\n\n### 4.2 Transformers\n\nTransfomers 框架部署，位于 `demo\u002Finfer_chat.py` 和 `demo\u002Finfer_func.py` 文件中，和其他LLM运行无太大区别，注意输入的拼接即可。\n\n\n### 4.3 FastAPI\n\n\n\n### 4.4 vllm\n\n详细vllm部署见 [vllm](vllm\u002FREADME.md)\n\n如果使用**CUDA 12 以上和PyTorch 2.1 以上**，可以直接使用以下命令安装vLLM。\n\n```shell\npip install vllm==0.4.0\n```\n\n否则请参考vLLM官方的[安装说明](https:\u002F\u002Fdocs.vllm.ai\u002Fen\u002Flatest\u002Fgetting_started\u002Finstallation.html)。\n\n安装完成后，还需要以下操作~\n\n1. 把 `vllm\u002Ftinyllm.py` 文件复制到env环境对应的 `vllm\u002Fmodel_executor\u002Fmodels` 目录下。\n2. 然后在vllm\u002Fmodel_executor\u002Fmodels\u002F\\_\\_init\\_\\_.py文件增加一行代码\n\n```shell\n\"TinyllmForCausalLM\": (\"tinyllm\", \"TinyllmForCausalLM\"),\n```\n\n> 由于模型结构是自己定义的，vllm官方未实现，需要自己手动加入\n\n### 4.5 llama.cpp\n\n详细 llama.cpp 部署见 [llama.cpp](llama.cpp\u002FREADME.md)\n\nTiny LLM 92M 模型已支持 llama.cpp C++ 推理框架，建议在 linux 环境下测试，windows效果不好；\n\n所支持 llama.cpp 为自己修改的版本，仓库链接为： [llama.cpp.tinyllm](https:\u002F\u002Fgithub.com\u002Fwdndev\u002Fllama.cpp.tinyllm)\n","# 微小LLM zh\n\n## 1.简介\n\n本项目旨在构建一个小参数量的中文语言大模型，用于快速入门学习大模型相关知识，如果此项目对你有用，可以点一下start，谢谢！\n\n模型架构：整体模型架构采用开源通用架构，包括：RMSNorm，RoPE，MHA等\n\n实现细节：实现大模型两阶段训练及后续人类对齐，即：分词(Tokenizer) -> 预训练(PTM) -> 指令微调(SFT) -> 人类对齐(RLHF, DPO) -> 测评 -> 量化 -> 部署。\n\n项目已部署，可以在如下网站上体验。\n\n- [ModeScope Tiny LLM](https:\u002F\u002Fwww.modelscope.cn\u002Fstudios\u002Fwdndev\u002Ftiny_llm_92m_demo\u002Fsummary)\n\n项目特点：\n\n- 公开全部数据及代码，包括预训练数据，tokenizer等；（[Tiny LLM Datasets](doc\u002Fdatasets_download.md)）\n- 走通大模型整个流程：分词(Tokenizer) -> 预训练(PTM) -> 指令微调(SFT) -> 人类对齐(RLHF, DPO) -> 测评 -> 部署；\n- 公开预训练token 42B，SFT数据400w条，RL数据 17w条；\n- 训练 Tokenizer：10G 中文百科文本训练 20K 中文词表，与 Llama2 词表合并，构建Tiny LLM词表；\n- 使用 Transformers deepspeed 进行训练，支持多机多卡，支持 Zero 等优化技术；\n- 所有代码 `Bash` 脚本启动，支持不同大小的模型，如16m, 42m, 92m, 210m, 440m等；\n- 支持 MoE 架构，在 [tiny_llm_moe](https:\u002F\u002Fgithub.com\u002Fwdndev\u002Ftiny-llm-zh\u002Ftree\u002Ftiny_llm_moe) 支持最新共享专家，平衡专家等技术；\n- 支持 vLLM 推理框架；\n- 支持 llama.cpp 推理框架；\n\n\n本项目主要有三个分支，推荐学习 主分支，具体区别如下：\n\n- [llama2_torch](https:\u002F\u002Fgithub.com\u002Fwdndev\u002Ftiny-llm-zh\u002Ftree\u002Fllama2_torch) ： 模型架构采用原版 Llama2 架构，只是将部分的输入输出修改为适合训练的格式；\n- `main`   `tiny_llm` ： 对齐开源社区模型，使用Transformers库构建底层模型，也使用Transformers库进行多卡多机训练；\n- [tiny_llm_moe](https:\u002F\u002Fgithub.com\u002Fwdndev\u002Ftiny-llm-zh\u002Ftree\u002Ftiny_llm_moe) ： 在`tiny_llm`的基础上，修改 `MLP`层为MoE模型，使用Transformers库进行多卡多机训练。\n\n注意：\n\n1. 因资源限制，本项目的第一要务是走通大模型整个流程，而不是调教比较好的效果，故评测结果分数较低，部分生成错误。\n2. 详细的数据处理，训练过程见 `doc` 文件夹（正在整理。。。）\n\n\n## 2.快速开始\n\n模型已托管在 [Huggingface](https:\u002F\u002Fhuggingface.co\u002Fwdndev\u002Ftiny_llm_sft_92m) 和 [ModeScope](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002Fwdndev\u002Ftiny_llm_sft_92m) 中，可运行代码自动下载。\n\n建议使用 Huggingface 在线加载模型，如果运行不了，在试 ModeScope ；如果需要本地运行，修改`model_id`中的路径为本地目录，即可运行。\n\n#### 依赖安装\n\n- python 3.8 and above\n- pytorch 2.0 and above\n- transformers 4.37.2 and above\n- CUDA 11.4 and above are recommended. (if training)\n\n```bash\npip install -r requirements.txt \n```\n\n\n#### 🤗 HuggingFace\n\n```python\nfrom transformers import AutoTokenizer, AutoModelForCausalLM\nfrom transformers.generation import GenerationConfig\n\nmodel_id = \"wdndev\u002Ftiny_llm_sft_92m\"\n\ntokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)\nmodel = AutoModelForCausalLM.from_pretrained(model_id, device_map=\"auto\", trust_remote_code=True)\ngeneration_config = GenerationConfig.from_pretrained(model_id, trust_remote_code=True)\nsys_text = \"你是由wdndev开发的个人助手。\"\n# user_text = \"世界上最大的动物是什么？\"\n# user_text = \"介绍一下刘德华。\"\nuser_text = \"介绍一下中国。\"\ninput_txt = \"\\n\".join([\"\u003C|system|>\", sys_text.strip(), \n                        \"\u003C|user|>\", user_text.strip(), \n                        \"\u003C|assistant|>\"]).strip() + \"\\n\"\n\ngeneration_config.max_new_tokens = 200\nmodel_inputs = tokenizer(input_txt, return_tensors=\"pt\").to(model.device)\ngenerated_ids = model.generate(model_inputs.input_ids, generation_config=generation_config)\ngenerated_ids = [\n    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)\n]\nresponse = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]\nprint(response)\n```\n\n#### 🤖 ModeScope\n\n```python\nfrom modelscope import AutoModelForCausalLM, AutoTokenizer\n\nmodel_id = \"wdndev\u002Ftiny_llm_sft_92m\"\n\ntokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)\nmodel = AutoModelForCausalLM.from_pretrained(model_id, device_map=\"auto\", trust_remote_code=True)\n\nsys_text = \"你是由wdndev开发的个人助手。\"\n# user_text = \"世界上最大的动物是什么？\"\n# user_text = \"介绍一下刘德华。\"\nuser_text = \"介绍一下中国。\"\ninput_txt = \"\\n\".join([\"\u003C|system|>\", sys_text.strip(), \n                        \"\u003C|user|>\", user_text.strip(), \n                        \"\u003C|assistant|>\"]).strip() + \"\\n\"\n\nmodel_inputs = tokenizer(input_txt, return_tensors=\"pt\").to(model.device)\ngenerated_ids = model.generate(model_inputs.input_ids, max_new_tokens=200)\ngenerated_ids = [\n    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)\n]\nresponse = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]\nprint(response)\n```\n\n\n生成效果\n```bash\n问：世界上最大的动物是什么？\n答：目前已知最大的动物是蓝鲸（Balaenoptera musculus），这是一个庞大的哺乳动物，属于须鲸亚目、须鲸科中的最大物种。蓝鲸的身长可达30米以上，体重可达175吨。它们在海洋中生活，主要以浮游生物为食，如甲壳类动物和小型鱼类等。由于其巨大的体型和复杂的生态群落，蓝鲸成为海洋旅游的热门景点之一。\n\n问：介绍一下刘德华。\n答：刘德华是一位香港流行歌手、演员和导演，他在音乐界的贡献非常巨大。他是华语乐坛历史上最伟大的艺人之一，代表作品包括《爱我身体》和《肥皂泡》。他也经常参演电影和电视剧，并在电视上受到好评。\n\n问：介绍一下中国。\n答：中国是位于东亚的大陆，被欧洲以及亚洲和其他大陆所包围。它是中国第二大文明和世界上最大的经济体之一。中国的历史可以追溯到公元前5000年左右，从古至今都有其独特的文化和语言传承者。\n\n```\n\n## 3.模型\n\n### 3.1 Tokenizer\n\nLLM分词器的构建方式有两种：一种是自己构造词表，训练一个分词器；另一种是选择开源模型训练好的分词器。\n\n本项目为了方便，从优秀的开源项目中选择词表，考虑到训练的模型较小，且词表大小影响模型大小，故优先选择词表较小的开源项目；经过比较，最终选择 [ChatGLM3](https:\u002F\u002Fhuggingface.co\u002FTHUDM\u002Fchatglm3-6b) 的词表，该词表大小为 64798 。\n\n自己构造词表方式见 [tokenizer](tokenizer\u002F)，扩充 LLaMA2的32K词表为50K，增加20K中文词表，详细扩充方式见[文档](.\u002Fdoc\u002F)或[tokenizer\u002FREADME.md](.\u002Ftokenizer\u002FREADME.md).\n\n注意：本项目使用的ChatGLM3的词表。\n\n### 3.2 模型结构\n\n模型结构采用类Llama2的结构，具体包括：RMSNorm，RoPE，MHA等；\n\n\n### 3.3 模型尺寸\n\n具体参数细节如下所示：\n\n| model            | hidden size | intermediate size | n_layers | n_heads | max context length | params | vocab size |\n| ---------------- | ----------- | ----------------- | -------- | ------- | ------------------ | ------ | ---------- |\n| tiny-llm-16m     | 120   | 384        | 6       | 6          | 512                | 16M     | 64798      |\n| tiny-llm-42m     | 288   | 768        | 6       | 6          | 512                | 42M     | 64798      |\n| tiny-llm-92m     | 512   | 1024       | 8       | 8          | 1024               | 92M     | 64798      |\n| tiny-llm-210m    | 768   | 2048       | 16      | 12         | 1024               | 210M    | 64798      |\n| tiny-llm-440m    | 1024  | 2816       | 24      | 16         | 1024               | 440M    | 64798      |\n| tiny-llm-1_5b    | 2048  | 5504       | 24      | 16         | 1024               | 1.5B    | 64798      |\n\n\n### 3.4 模型评估\n\n因训练数据和微调数据，大部分都是中文数据，所以在`C-Eval`和`CMMLU`这两个数据集上进行模型的评估；使用[OpenCompass](https:\u002F\u002Fgithub.com\u002Fopen-compass\u002Fopencompass)工具，进行模型评估，评估分数如下所示：\n\n| model            | Type  | C-Eval  |  CMMLU  |\n| ---------------- | ----- | ------- | ------- |\n| tiny-llm-92m     | Base   | 23.48  | 25.02   |\n| tiny-llm-92m     | Chat   | 26.79  | 26.59   |\n\nBase模型，采用评测方式 ppl 方式进行评测；Chat模型，采用 gen 方式评测。具体区别如下图所示：\n\n![ppl gen](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwdndev_tiny-llm-zh_readme_8e2ff6c5f61c.png)\n\n> 来源：[ppl和gen模式有什么区别](https:\u002F\u002Fgithub.com\u002Fopen-compass\u002Fopencompass\u002Fdiscussions\u002F597)\n\n注意：只对常用的两个模型进行了评测，分数较低，其余模型评测意义不大。\n\n\n## 4.模型部署\n\n### 4.1 网页Demo\n\n网页Demo已部署，可以在如下网站上体验：[ModeScope Tiny LLM](https:\u002F\u002Fwww.modelscope.cn\u002Fstudios\u002Fwdndev\u002Ftiny_llm_92m_demo\u002Fsummary)\n\n如果想在本地运行网页Demo，注意修改 `web_demo.py` 文件中模型的路径`model_id`，输入如下命令即可运行：\n\n```shell\nstreamlit run web_demo.py\n```\n\n![web demo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwdndev_tiny-llm-zh_readme_0dccce33776c.png)\n\n### 4.2 Transformers\n\nTransfomers 框架部署，位于 `demo\u002Finfer_chat.py` 和 `demo\u002Finfer_func.py` 文件中，和其他LLM运行无太大区别，注意输入的拼接即可。\n\n\n### 4.3 FastAPI\n\n### 4.4 vllm\n\nvllm 的详细部署请参见 [vllm](vllm\u002FREADME.md)。\n\n如果使用 **CUDA 12 及以上版本和 PyTorch 2.1 及以上版本**，可以直接运行以下命令安装 vLLM：\n\n```shell\npip install vllm==0.4.0\n```\n\n否则，请参考 vLLM 官方的 [安装说明](https:\u002F\u002Fdocs.vllm.ai\u002Fen\u002Flatest\u002Fgetting_started\u002Finstallation.html)。\n\n安装完成后，还需要进行以下操作：\n\n1. 将 `vllm\u002Ftinyllm.py` 文件复制到与当前环境对应的 `vllm\u002Fmodel_executor\u002Fmodels` 目录下。\n2. 然后在 `vllm\u002Fmodel_executor\u002Fmodels\u002F__init__.py` 文件中添加一行代码：\n\n```shell\n\"TinyllmForCausalLM\": (\"tinyllm\", \"TinyllmForCausalLM\"),\n```\n\n> 由于模型结构是自定义的，vLLM 官方尚未实现，因此需要手动添加。\n\n### 4.5 llama.cpp\n\nllama.cpp 的详细部署请参见 [llama.cpp](llama.cpp\u002FREADME.md)。\n\nTiny LLM 92M 模型已支持 llama.cpp C++ 推理框架，建议在 Linux 环境下测试，Windows 上的效果不佳。\n\n目前支持的 llama.cpp 是经过修改的版本，仓库链接为： [llama.cpp.tinyllm](https:\u002F\u002Fgithub.com\u002Fwdndev\u002Fllama.cpp.tinyllm)。","# Tiny LLM zh 快速上手指南\n\nTiny LLM zh 是一个小参数量的中文语言大模型项目，旨在帮助开发者快速入门大模型全流程（分词、预训练、微调、对齐、部署）。本项目公开了全部代码与数据，支持从 16M 到 1.5B 多种模型尺寸。\n\n## 1. 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux 或 Windows (推荐 Linux)\n*   **Python**: 3.8 及以上版本\n*   **PyTorch**: 2.0 及以上版本\n*   **Transformers**: 4.37.2 及以上版本\n*   **CUDA**: 11.4 及以上版本（如需进行训练或使用 GPU 推理）\n\n## 2. 安装步骤\n\n### 2.1 安装依赖\n\n克隆项目或直接使用 pip 安装所需依赖库：\n\n```bash\npip install -r requirements.txt\n```\n\n> **提示**：如果下载速度较慢，建议使用国内镜像源加速安装，例如：\n> `pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`\n\n### 2.2 模型获取\n\n模型已托管在 **ModelScope (魔搭)** 和 **HuggingFace**。鉴于网络环境，**强烈推荐使用 ModelScope** 自动下载模型。\n\n*   **ModelScope 模型 ID**: `wdndev\u002Ftiny_llm_sft_92m`\n*   **HuggingFace 模型 ID**: `wdndev\u002Ftiny_llm_sft_92m`\n\n代码运行时会自动下载模型权重，无需手动解压。如需本地离线运行，可先下载模型文件至本地目录，并在代码中修改 `model_id` 为本地路径。\n\n## 3. 基本使用\n\n以下提供两种最简单的调用方式，分别基于 ModelScope 和 HuggingFace。\n\n### 方式一：使用 ModelScope (推荐)\n\n```python\nfrom modelscope import AutoModelForCausalLM, AutoTokenizer\n\n# 指定模型 ID，支持自动下载\nmodel_id = \"wdndev\u002Ftiny_llm_sft_92m\"\n\n# 加载分词器和模型\ntokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)\nmodel = AutoModelForCausalLM.from_pretrained(model_id, device_map=\"auto\", trust_remote_code=True)\n\n# 构建输入提示词 (Prompt)\nsys_text = \"你是由 wdndev 开发的个人助手。\"\nuser_text = \"介绍一下中国。\"\n\n# 按照项目定义的格式拼接输入\ninput_txt = \"\\n\".join([\"\u003C|system|>\", sys_text.strip(), \n                        \"\u003C|user|>\", user_text.strip(), \n                        \"\u003C|assistant|>\"]).strip() + \"\\n\"\n\n# 推理生成\nmodel_inputs = tokenizer(input_txt, return_tensors=\"pt\").to(model.device)\ngenerated_ids = model.generate(model_inputs.input_ids, max_new_tokens=200)\n\n# 解码输出\ngenerated_ids = [\n    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)\n]\nresponse = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]\n\nprint(response)\n```\n\n### 方式二：使用 HuggingFace Transformers\n\n```python\nfrom transformers import AutoTokenizer, AutoModelForCausalLM\nfrom transformers.generation import GenerationConfig\n\n# 指定模型 ID\nmodel_id = \"wdndev\u002Ftiny_llm_sft_92m\"\n\n# 加载组件\ntokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)\nmodel = AutoModelForCausalLM.from_pretrained(model_id, device_map=\"auto\", trust_remote_code=True)\ngeneration_config = GenerationConfig.from_pretrained(model_id, trust_remote_code=True)\n\n# 构建输入\nsys_text = \"你是由 wdndev 开发的个人助手。\"\nuser_text = \"介绍一下中国。\"\n\ninput_txt = \"\\n\".join([\"\u003C|system|>\", sys_text.strip(), \n                        \"\u003C|user|>\", user_text.strip(), \n                        \"\u003C|assistant|>\"]).strip() + \"\\n\"\n\n# 设置生成长度并推理\ngeneration_config.max_new_tokens = 200\nmodel_inputs = tokenizer(input_txt, return_tensors=\"pt\").to(model.device)\ngenerated_ids = model.generate(model_inputs.input_ids, generation_config=generation_config)\n\n# 解码输出\ngenerated_ids = [\n    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)\n]\nresponse = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]\n\nprint(response)\n```\n\n### 预期输出示例\n\n运行上述代码后，您将看到类似以下的中文回复：\n\n```text\n中国是位于东亚的大陆，被欧洲以及亚洲和其他大陆所包围。它是中国第二大文明和世界上最大的经济体之一。中国的历史可以追溯到公元前 5000 年左右，从古至今都有其独特的文化和语言传承者。\n```\n\n> **注意**：由于本项目定位为学习与流程演示，且模型参数量较小（92M），生成内容可能存在事实性错误或逻辑不严密的情况，评测分数相对较低，但这不影响其作为学习大模型全链路技术的价值。","某高校人工智能实验室的研究生团队希望从零开始掌握大语言模型的全流程开发，但受限于昂贵的算力资源和复杂的技术门槛，难以开展实质性训练。\n\n### 没有 tiny-llm-zh 时\n- **学习曲线陡峭**：初学者面对庞大的开源代码库（如 Llama2 原版）往往无从下手，难以理解分词、预训练到人类对齐的完整链路。\n- **算力成本高昂**：训练一个具备中文能力的模型通常需要数十亿参数和海量数据，普通实验室的单卡或双卡环境根本无法承载。\n- **数据准备困难**：缺乏高质量的中文预训练语料和对齐数据集，自行清洗和构建 42B token 级别的数据集耗时耗力。\n- **流程割裂**：网上教程多只关注单一环节（如仅微调），缺乏从 Tokenizer 训练到最终量化部署的端到端实战案例。\n\n### 使用 tiny-llm-zh 后\n- **全流程打通**：团队直接利用其公开的脚本，在本地显卡上完整跑通了“分词->预训练->指令微调->人类对齐->部署”的闭环，直观理解每个阶段的作用。\n- **低资源启动**：借助 92M 等小参数量架构，仅需消费级显卡即可在数小时内完成训练实验，极大降低了试错成本。\n- **数据开箱即用**：直接复用项目公开的 10G 中文百科文本及数百万条指令\u002F奖励数据，省去了数月数据清洗工作，立即进入模型调优阶段。\n- **架构灵活扩展**：基于 Transformers 和 DeepSpeed 的标准化实现，让团队成员能轻松尝试修改 MLP 层为 MoE 架构，深入探索前沿技术细节。\n\ntiny-llm-zh 将大模型研发从“仰望星空”变为“脚踏实地”，成为中文社区入门大模型全栈开发的最佳实践教材。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwdndev_tiny-llm-zh_0dccce33.png","wdndev","Firefly","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fwdndev_f68fc2f3.jpg","A firefly flying freely in the AI domain.",null,"https:\u002F\u002Fgithub.com\u002Fwdndev",[83,87],{"name":84,"color":85,"percentage":86},"Python","#3572A5",88,{"name":88,"color":89,"percentage":90},"Shell","#89e051",12,992,111,"2026-04-04T13:56:37","Linux, macOS, Windows","训练必需：NVIDIA GPU，支持多机多卡，推荐 CUDA 11.4+（vLLM 部署需 CUDA 12+）；推理可选 CPU 或 GPU。显存大小未明确说明，取决于模型尺寸（92M-1.5B）。","未说明",{"notes":98,"python":99,"dependencies":100},"1. 项目支持多种模型尺寸（16M 至 1.5B），资源需求随模型增大而增加。2. vLLM 和 llama.cpp 部署需要手动修改源码以适配自定义模型结构。3. llama.cpp 建议在 Linux 环境下测试，Windows 效果不佳。4. 若无法连接 HuggingFace，可改用 ModelScope 下载模型。5. 训练支持 Zero 优化技术及 MoE 架构。","3.8+",[101,102,103,104,105,106],"torch>=2.0","transformers>=4.37.2","deepspeed","vllm==0.4.0 (可选)","streamlit (Web Demo)","modelscope (可选)",[26,13],"2026-03-27T02:49:30.150509","2026-04-06T09:46:06.500635",[111,116,121,126,131,136],{"id":112,"question_zh":113,"answer_zh":114,"source_url":115},17168,"为什么模型的 vocab_size 设置为 64798，而 GLM3 的 tokenizer 长度是 64796？","设置为 64796 也是可以的，您可以尝试修改。关于具体差异原因，可以参考 ChatGLM3 官方 Issue 中的讨论：https:\u002F\u002Fgithub.com\u002FTHUDM\u002FChatGLM3\u002Fissues\u002F634。通常多出的 token 可能是为了特殊用途或对齐，但不影响使用。","https:\u002F\u002Fgithub.com\u002Fwdndev\u002Ftiny-llm-zh\u002Fissues\u002F11",{"id":117,"question_zh":118,"answer_zh":119,"source_url":120},17169,"项目中是否包含 PPO（近端策略优化）的训练代码？","本项目目前没有提供 PPO 的具体实现代码。建议参考这篇博客进行学习及实现：https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F677607581，其中包含了详细的 PPO 算法解析和代码示例。","https:\u002F\u002Fgithub.com\u002Fwdndev\u002Ftiny-llm-zh\u002Fissues\u002F17",{"id":122,"question_zh":123,"answer_zh":124,"source_url":125},17170,"SFT（监督微调）后模型无法停止生成，一直输出直到达到 max_new_tokens 限制怎么办？","这主要是因为模型参数量较小，可能没有充分学习到停止符（eos_token_id）。虽然这是小模型的常见现象，但可以检查训练数据中是否包含了正确的结束标记，并确保 tokenizer.eos_token_id 在数据处理时被正确识别和使用。","https:\u002F\u002Fgithub.com\u002Fwdndev\u002Ftiny-llm-zh\u002Fissues\u002F14",{"id":127,"question_zh":128,"answer_zh":129,"source_url":130},17171,"预训练时报错 AttributeError: 'TinyllmConfig' object has no attribute 'sliding_window' 如何解决？","请检查 modeling_tinyllm.py 文件：\n1. 确认第 496 行的条件判断是否为 True。\n2. 删除或注释掉第 616 行涉及 sliding_window 的代码即可解决该报错。","https:\u002F\u002Fgithub.com\u002Fwdndev\u002Ftiny-llm-zh\u002Fissues\u002F4",{"id":132,"question_zh":133,"answer_zh":134,"source_url":135},17172,"如何让模型在回答中知道并声明自己是特定作者创造的？","需要在 SFT（监督微调）阶段加入“身份认知”数据集。构造类似 {\"question\": \"你是谁？\", \"answer\": \"我是 xxx 创造的...\"} 的数据对，大约准备 40-50 条此类常见问答数据加入训练集，模型即可学会并在相关提问中回复身份信息。","https:\u002F\u002Fgithub.com\u002Fwdndev\u002Ftiny-llm-zh\u002Fissues\u002F13",{"id":137,"question_zh":138,"answer_zh":139,"source_url":140},17173,"SFT 数据集中 labels 的处理逻辑是什么？为什么与预训练不同？","这是训练策略的差异：\n1. 预训练时：使用所有 token 计算损失，即用前 max_len-1 个 token 预测第 max_len 个。\n2. SFT 时：只计算回答部分（assistant 部分）的损失，问题部分（prompt\u002Fuser）的 label 会被掩码（通常设为 -100），不参与梯度更新。代码中表现为 instruction 部分的 label 被替换为 pad_token_id 后再转为 -100。","https:\u002F\u002Fgithub.com\u002Fwdndev\u002Ftiny-llm-zh\u002Fissues\u002F9",[]]