[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-baichuan-inc--Baichuan-7B":3,"tool-baichuan-inc--Baichuan-7B":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":79,"owner_email":80,"owner_twitter":79,"owner_website":79,"owner_url":81,"languages":82,"stars":91,"forks":92,"last_commit_at":93,"license":94,"difficulty_score":95,"env_os":78,"env_gpu":96,"env_ram":96,"env_deps":97,"category_tags":99,"github_topics":100,"view_count":111,"oss_zip_url":79,"oss_zip_packed_at":79,"status":16,"created_at":112,"updated_at":113,"faqs":114,"releases":145},229,"baichuan-inc\u002FBaichuan-7B","Baichuan-7B","A large-scale 7B pretraining language model developed by BaiChuan-Inc.","Baichuan-7B 是由百川智能推出的开源大语言模型，参数规模为 70 亿，专为中英文双语场景设计。它在约 1.2 万亿 tokens 的语料上训练而成，支持长达 4096 的上下文窗口，适合处理需要长文本理解的任务。在多个中文权威评测（如 C-Eval、高考题、AGIEval）中，Baichuan-7B 在同尺寸模型中表现领先，尤其在中文理解和推理能力上优势明显。\n\n它主要解决的是中小团队或个人开发者难以获取高性能、可商用中文大模型的问题。相比闭源商业模型，Baichuan-7B 允许自由下载、研究和商用部署，降低了技术门槛。适合 AI 研究人员、NLP 工程师、初创公司开发者使用，可用于构建对话系统、内容生成、教育辅助等应用。\n\n技术亮点包括：基于标准 Transformer 架构优化，兼顾效率与效果；训练数据覆盖广泛领域，强化中文语义理解；支持 Hugging Face 和 ModelScope 双平台快速调用。虽然官方已推出更强的 Baichuan 2 系列，但 Baichuan-7B 仍是一个轻量高效、适合本地部署和教学研究的优质选择。","\u003C!-- markdownlint-disable first-line-h1 -->\n\u003C!-- markdownlint-disable html -->\n\n\u003Cdiv align=\"center\">\n\u003Ch1>\n  Baichuan-7B\n\u003C\u002Fh1>\n\u003C\u002Fdiv>\n\n\u003Cp align=\"center\">\n🤗 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fbaichuan-inc\u002FBaichuan-7B\" target=\"_blank\">Hugging Face\u003C\u002Fa> • 🤖 \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Forganization\u002Fbaichuan-inc\" target=\"_blank\">ModelScope\u003C\u002Fa> • 💬 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fbaichuan-inc\u002FBaichuan-7B\u002Fblob\u002Fmain\u002Fmedia\u002Fwechat.jpeg?raw=true\" target=\"_blank\">WeChat\u003C\u002Fa>\n\u003C\u002Fp>\n\n\u003Cdiv align=\"center\">\n\n[![license](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fmodelscope\u002Fmodelscope.svg)](https:\u002F\u002Fgithub.com\u002Fbaichuan-inc\u002FBaichuan-7B\u002Fblob\u002Fmain\u002FLICENSE)\n\u003Ch4 align=\"center\">\n    \u003Cp>\n        \u003Cb>中文\u003C\u002Fb> |\n        \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fbaichuan-inc\u002FBaichuan-7B\u002Fblob\u002Fmain\u002FREADME_EN.md\">English\u003C\u002Fa>\n    \u003Cp>\n\u003C\u002Fh4>\n\u003C\u002Fdiv>\n\n# 更新信息\n- [2023.09.06] 我们发布了新一代开源模型 [Baichuan 2](https:\u002F\u002Fgithub.com\u002Fbaichuan-inc\u002FBaichuan2)，包含 7B、13B 尺寸 🔥🔥🔥\n\n# 介绍\n\nBaichuan-7B 是由百川智能开发的一个开源可商用的大规模预训练语言模型。基于 Transformer 结构，在大约 1.2 万亿 tokens 上训练的 70 亿参数模型，支持中英双语，上下文窗口长度为 4096。在标准的中文和英文 benchmark（C-Eval\u002FMMLU）上均取得同尺寸最好的效果。\n\n# 公开benchmark榜单\n\n## 中文评测\n\n### C-Eval\n\n[C-Eval 数据集](https:\u002F\u002Fcevalbenchmark.com\u002Findex.html)是一个全面的中文基础模型评测数据集，涵盖了 52 个学科和四个难度的级别。我们使用该数据集的 dev 集作为 few-shot 的来源，在 test 集上进行了 `5-shot` 测试。通过执行执行下面的命令：\n\n```bash\ncd evaluation\npython evaluate_zh.py --model_name_or_path 'your\u002Fmodel\u002Fpath'\n```\n\n### 结果\n\n|        Model 5-shot         | Average | Avg(Hard) | STEM  | Social Sciences | Humanities | Others |\n| :-------------------------: | :-----: | :-------: | :---: | :-------------: | :--------: | :----: |\n|            GPT-4            |  68.7   |   54.9    | 67.1  |      77.6       |    64.5    |  67.8  |\n|           ChatGPT           |  54.4   |   41.4    | 52.9  |      61.8       |    50.9    |  53.6  |\n|         Claude-v1.3         |  54.2   |   39.0    | 51.9  |      61.7       |    52.1    |  53.7  |\n|     Claude-instant-v1.0     |  45.9   |   35.5    | 43.1  |      53.8       |    44.2    |  45.4  |\n|          BLOOMZ-7B          |  35.7   |   25.8    | 31.3  |      43.5       |    36.6    |  35.6  |\n|         ChatGLM-6B          |  34.5   |   23.1    | 30.4  |      39.6       |    37.4    |  34.5  |\n|   Ziya-LLaMA-13B-pretrain   |  30.2   |   22.7    | 27.7  |      34.4       |    32.0    |  28.9  |\n|  moss-moon-003-base (16B)   |  27.4   |   24.5    | 27.0  |      29.1       |    27.2    |  26.9  |\n|         LLaMA-7B-hf         |  27.1   |   25.9    | 27.1  |      26.8       |    27.9    |  26.3  |\n|          Falcon-7B          |  25.8   |   24.3    | 25.8  |      26.0       |    25.8    |  25.6  |\n|      TigerBot-7B-base       |  25.7   |   27.0    | 27.3  |      24.7       |    23.4    |  26.1  |\n|    Aquila-7B\u003Csup>*\u003C\u002Fsup>    |  25.5   |   25.2    | 25.6  |      24.6       |    25.2    |  26.6  |\n| Open-LLaMA-v2-pretrain (7B) |  24.0   |   22.5    | 23.1  |      25.3       |    25.2    |  23.2  |\n|          BLOOM-7B           |  22.8   |   20.2    | 21.8  |      23.3       |    23.9    |  23.3  |\n|       **Baichuan-7B**       |  42.8   |   31.5    | 38.2  |      52.0       |    46.2    |  39.3  |\n\n### Gaokao\n\n[Gaokao](https:\u002F\u002Fgithub.com\u002FOpenLMLab\u002FGAOKAO-Bench) 是一个以中国高考题作为评测大语言模型能力的数据集，用以评估模型的语言能力和逻辑推理能力。\n我们只保留了其中的单项选择题，随机划分后对所有模型进行统一 `5-shot` 测试。\n\n### 结果\n\n以下是测试的结果。\n\n|          Model          |  Average  |\n| :---------------------: | :-------: |\n|        BLOOMZ-7B        |   28.72   |\n|        LLaMA-7B         |   27.81   |\n|        BLOOM-7B         |   26.96   |\n|    TigerBot-7B-base     |   25.94   |\n|        Falcon-7B        |   23.98   |\n| Ziya-LLaMA-13B-pretrain |   23.17   |\n|       ChatGLM-6B        |   21.41   |\n| Open-LLaMA-v2-pretrain  |   21.41   |\n|  Aquila-7B\u003Csup>*\u003C\u002Fsup>  |   24.39   |\n|     **Baichuan-7B**     | **36.24** |\n\n### AGIEval\n\n[AGIEval](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FAGIEval) 旨在评估模型的认知和解决问题相关的任务中的一般能力。\n我们只保留了其中的四选一单项选择题，随机划分后对所有模型进行了统一 `5-shot` 测试。\n\n### 结果\n\n|          Model          |  Average  |\n| :---------------------: | :-------: |\n|        BLOOMZ-7B        |   30.27   |\n|        LLaMA-7B         |   28.17   |\n| Ziya-LLaMA-13B-pretrain |   27.64   |\n|        Falcon-7B        |   27.18   |\n|        BLOOM-7B         |   26.55   |\n|  Aquila-7B\u003Csup>*\u003C\u002Fsup>  |   25.58   |\n|    TigerBot-7B-base     |   25.19   |\n|       ChatGLM-6B        |   23.49   |\n| Open-LLaMA-v2-pretrain  |   23.49   |\n|     **Baichuan-7B**     | **34.44** |\n\n\u003Csup>*\u003C\u002Fsup>其中 Aquila 模型来源于智源官方网站(\u003Chttps:\u002F\u002Fmodel.baai.ac.cn\u002Fmodel-detail\u002F100098>) 仅做参考\n\n## 英文榜单\n\n除了中文之外，Baichuan-7B也测试了模型在英文上的效果，[MMLU](https:\u002F\u002Farxiv.org\u002Fabs\u002F2009.03300) 是包含 57 个多选任务的英文评测数据集，涵盖了初等数学、美国历史、计算机科学、法律等，难度覆盖高中水平到专家水平，是目前主流的LLM评测数据集。我们采用了[开源](https:\u002F\u002Fgithub.com\u002Fhendrycks\u002Ftest) 的评测方案，最终 `5-shot` 结果如下所示：\n\n### 结果\n\n|                Model                 | Humanities | Social Sciences |   STEM   |  Other   | Average  |\n| :----------------------------------: | :--------: | :-------------: | :------: | :------: | :------: |\n|        ChatGLM-6B\u003Csup>0\u003C\u002Fsup>        |    35.4    |      41.0       |   31.3   |   40.5   |   36.9   |\n|        BLOOMZ-7B\u003Csup>0\u003C\u002Fsup>         |    31.3    |      42.1       |   34.4   |   39.0   |   36.1   |\n|          mpt-7B\u003Csup>1\u003C\u002Fsup>          |     -      |        -        |    -     |    -     |   35.6   |\n|         LLaMA-7B\u003Csup>2\u003C\u002Fsup>         |    34.0    |      38.3       |   30.5   |   38.1   |   35.1   |\n|        Falcon-7B\u003Csup>1\u003C\u002Fsup>         |     -      |        -        |    -     |    -     |   35.0   |\n| moss-moon-003-sft (16B)\u003Csup>0\u003C\u002Fsup>  |    30.5    |      33.8       |   29.3   |   34.4   |   31.9   |\n|         BLOOM-7B\u003Csup>0\u003C\u002Fsup>         |    25.0    |      24.4       |   26.5   |   26.4   |   25.5   |\n| moss-moon-003-base (16B)\u003Csup>0\u003C\u002Fsup> |    24.2    |      22.8       |   22.4   |   24.4   |   23.6   |\n|     **Baichuan-7B\u003Csup>0\u003C\u002Fsup>**      |  **38.4**  |    **48.9**     | **35.6** | **48.1** | **42.3** |\n\n\u003Csup>0: 重新复现\u003C\u002Fsup>\u003Cbr\u002F>\n\u003Csup>1: https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FHuggingFaceH4\u002Fopen_llm_leaderboard\u003C\u002Fsup>\u003Cbr\u002F>\n\u003Csup>2: https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Fmulti-task-language-understanding-on-mmlu\u003C\u002Fsup>\u003Cbr\u002F>\n\n### 复现方法\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fhendrycks\u002Ftest\ncd test\nwget https:\u002F\u002Fpeople.eecs.berkeley.edu\u002F~hendrycks\u002Fdata.tar\ntar xf data.tar\nmkdir results\ncp ..\u002Fevaluate_mmlu.py .\npython evaluate_mmlu.py -m \u002Fpath\u002Fto\u002FBaichuan-7B\n```\n\n其中在 MMLU 上57个任务的具体细指标如下图：\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbaichuan-inc_Baichuan-7B_readme_59d06ae4788a.png\" width=\"90%\"\u002F>\n\u003C\u002Fp>\n\n其中各个学科的指标如下图：\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbaichuan-inc_Baichuan-7B_readme_34715dfe9128.png\" width=\"90%\"\u002F>\n\u003C\u002Fp>\n\n# 推理方法\n\n推理代码已经在[官方 Huggingface 库](https:\u002F\u002Fhuggingface.co\u002Fbaichuan-inc\u002FBaichuan-7B)\n\n```python\nfrom transformers import AutoModelForCausalLM, AutoTokenizer\n\ntokenizer = AutoTokenizer.from_pretrained(\"baichuan-inc\u002FBaichuan-7B\", trust_remote_code=True)\nmodel = AutoModelForCausalLM.from_pretrained(\"baichuan-inc\u002FBaichuan-7B\", device_map=\"auto\", trust_remote_code=True)\ninputs = tokenizer('登鹳雀楼->王之涣\\n夜雨寄北->', return_tensors='pt')\ninputs = inputs.to('cuda:0')\npred = model.generate(**inputs, max_new_tokens=64,repetition_penalty=1.1)\nprint(tokenizer.decode(pred.cpu()[0], skip_special_tokens=True))\n\n```\n\n# 数据\n\n* 原始数据包括开源的中英文数据和自行抓取的中文互联网数据，以及部分高质量知识性数据。\n* 参考相关数据工作，频率和质量是数据处理环节重点考虑的两个维度。 我们基于启发式规则和质量模型打分，对原始数据集进行篇章和句子粒度的过滤。在全量数据上，利用局部敏感哈希方法，对篇章和句子粒度做滤重。\n\n整体流程如下所示：\n\u003Cp align=\"center\">\n    \u003Cbr>\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbaichuan-inc_Baichuan-7B_readme_e4807a13a76e.png\" width=\"90%\"\u002F>\n    \u003Cbr>\n\u003C\u002Fp>\n\n* 经过不断的调整和多轮测试，最终确认了一个在下游任务上表现最好的中英文配比。\n* 我们使用了一个基于自动学习的数据权重策略，对不同类别的数据进行配比。\n\n# 分词\n\n我们参考学术界方案使用 SentencePiece 中的 Byte-Pair Encoding (BPE) 作为分词算法，并且进行了以下的优化：\n\n1. 目前大部分开源模型主要基于英文优化，因此对中文语料存在效率较低的问题。我们使用 2000 万条以中英为主的多语言语料训练分词模型，显著提升对于中文的压缩率。\n2. 对于数学领域，我们参考了 LLaMA 和 Galactica 中的方案，对数字的每一位单独分开，避免出现数字不一致的问题，对于提升数学能力有重要帮助。\n3. 对于罕见字词（如特殊符号等），支持 UTF-8 characters 的 byte 编码，因此做到未知字词的全覆盖。\n4. 我们分析了不同分词器对语料的压缩率，如下表，可见我们的分词器明显优于 LLaMA, Falcon 等开源模型，并且对比其他中文分词器在压缩率相当的情况下，训练和推理效率更高。\n\n|     Model     | Baichuan-7B | LLaMA  | Falcon | mpt-7B | ChatGLM | moss-moon-003 |\n| :-----------: | :---------: | :----: | :----: | :----: | :-----: | :-----------: |\n| Compress Rate |    0.737    | 1.312  | 1.049  | 1.206  |  0.631  |     0.659     |\n|  Vocab Size   |   64,000    | 32,000 | 65,024 | 50,254 | 130,344 |    106,029    |\n\n# 模型结构\n\n整体模型基于标准的 Transformer 结构，我们采用了和 LLaMA 一样的模型设计\n\n* 位置编码：[rotary-embedding](https:\u002F\u002Farxiv.org\u002Fabs\u002F2104.09864) 是现阶段被大多模型采用的位置编码方案，具有更好的外延效果。虽然训练过程中最大长度为4096，但是实际测试中模型可以很好的扩展到 5000 tokens 以上，如下图：\n\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbaichuan-inc_Baichuan-7B_readme_c0480c941856.png\" width=\"90%\"\u002F>\n\u003C\u002Fp>\n\n* 激活层：SwiGLU, Feedforward 变化为 8\u002F3 倍的隐含层大小，即 11,008\n* Layer-Normalization: 基于 [RMSNorm](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.07467) 的 Pre-Normalization\n\n# 训练稳定性和吞吐\n\n我们在原本的 LLaMA 框架上进行诸多修改以提升训练时的吞吐，具体包括：\n\n1. 算子优化技术：采用更高效算子，如 Flash-Attention，NVIDIA apex 的 RMSNorm 等。\n2. 算子切分技术：将部分计算算子进行切分，减小内存峰值。\n3. 混合精度技术：降低在不损失模型精度的情况下加速计算过程。\n4. 训练容灾技术：训练平台和训练框架联合优化，IaaS + PaaS 实现分钟级的故障定位和任务恢复。\n5. 通信优化技术，具体包括：\n   1. 采用拓扑感知的集合通信算法，避免网络拥塞问题，提高通信效率。\n   2. 根据卡数自适应设置 bucket size，提高带宽利用率。\n   3. 根据模型和集群环境，调优通信原语的触发时机，从而将计算和通信重叠。\n\n基于上述的几个优化技术，我们在千卡 A800 显卡上达到了 7B 模型 182 TFLOPS 的吞吐，GPU 峰值算力利用率高达 58.3%。\n\n最终的loss如下图：\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbaichuan-inc_Baichuan-7B_readme_48158bc48aa3.png\" width=\"90%\"\u002F>\n\u003C\u002Fp>\n\n# 训练方法\n\n## 安装依赖\n\n```bash\npip install -r requirements.txt\n```\n\n## 准备数据\n\n用户将训练语料按总rank数的倍数均匀切分成多个 UTF-8 文本文件，放置在语料目录（默认为 `data_dir` ）下。各个rank进程将会读取语料目录下的不同文件，全部加载到内存后，开始后续训练过程。以上是简化的示范流程，建议用户在正式训练任务中，根据需求调整数据生产逻辑。\n\n## 下载 tokenizer 模型\n\n下载 tokenizer 模型文件 [tokenizer.model](https:\u002F\u002Fhuggingface.co\u002Fbaichuan-inc\u002FBaichuan-7B\u002Fblob\u002Fmain\u002Ftokenizer.model) ，放置在项目目录下。\n\n## 配置 DeepSpeed\n\n本示范代码采用 DeepSpeed 框架进行训练。用户需根据集群情况，修改 `config\u002Fhostfile` ，如果是多机多卡，需要修改 ssh 中各个节点的 IP 配置。具体可以参见 DeepSpeed [官方说明](https:\u002F\u002Fwww.deepspeed.ai\u002F) 。\n\n## 执行训练\n\n```python\nscripts\u002Ftrain.sh\n```\n\n# 协议\n\n对本仓库源码的使用遵循开源许可协议 [Apache 2.0](https:\u002F\u002Fgithub.com\u002Fbaichuan-inc\u002FBaichuan-7B\u002Fblob\u002Fmain\u002FLICENSE)。\n\nBaichuan-7B 支持商用。如果将 Baichuan-7B 模型或其衍生品用作商业用途，请您按照如下方式联系许可方，以进行登记并向许可方申请书面授权：联系邮箱：\u003Copensource@baichuan-inc.com>， 具体许可协议可见[《Baichuan-7B 模型许可协议》](https:\u002F\u002Fhuggingface.co\u002Fbaichuan-inc\u002FBaichuan-7B\u002Fresolve\u002Fmain\u002Fbaichuan-7B%20%E6%A8%A1%E5%9E%8B%E8%AE%B8%E5%8F%AF%E5%8D%8F%E8%AE%AE.pdf)。\n\n# Third-Party Resources\n\n1. [LLaMA Efficient Tuning](https:\u002F\u002Fgithub.com\u002Fhiyouga\u002FLLaMA-Efficient-Tuning) 支持Baichuan-7B使用Qlora进行Finetune，支持RLHF，支持WebDemo。使用经过sft的模型见 [hiyouga\u002Fbaichuan-7b-sft](https:\u002F\u002Fhuggingface.co\u002Fhiyouga\u002Fbaichuan-7b-sft)。\n2. [fireballoon\u002Fbaichuan-vicuna-chinese-7b](https:\u002F\u002Fhuggingface.co\u002Ffireballoon\u002Fbaichuan-vicuna-chinese-7b) 使用 ShareGPT, ShareGPT-ZH, COT & COT-ZH, Leetcode, dummy等包含中英文的数据Finetune后的模型，训练代码参考FastChat。\n3. [fireballoon\u002Fbaichuan-vicuna-7b](https:\u002F\u002Fhuggingface.co\u002Ffireballoon\u002Fbaichuan-vicuna-7b) 使用ShareGPT, COT 和 Leetcode等数据混合Finetune后的模型，训练代码参考FastChat。\n4. [Efficient-Tuning-LLMs](https:\u002F\u002Fgithub.com\u002Fjianzhnie\u002FEfficient-Tuning-LLMs) 支持Baichuan-7B使用Qlora进行Finetune和4bit inference。\n5. [fastllm](https:\u002F\u002Fgithub.com\u002Fztxz16\u002Ffastllm) fastllm是纯c++实现，无第三方依赖的大模型库，支持Baichuan-7B在手机端运行。\n6. [TheBloke\u002Fbaichuan-7B-GPTQ](https:\u002F\u002Fhuggingface.co\u002FTheBloke\u002Fbaichuan-7B-GPTQ) 对Baichuan-7B的GPTQ 4bit量化。\n\n# Star History\n\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbaichuan-inc_Baichuan-7B_readme_b543fa890ab9.png)](https:\u002F\u002Fstar-history.com\u002F#baichuan-inc\u002FBaichuan-7B&Date)\n","\u003C!-- markdownlint-disable first-line-h1 -->\n\u003C!-- markdownlint-disable html -->\n\n\u003Cdiv align=\"center\">\n\u003Ch1>\n  Baichuan-7B\n\u003C\u002Fh1>\n\u003C\u002Fdiv>\n\n\u003Cp align=\"center\">\n🤗 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fbaichuan-inc\u002FBaichuan-7B\" target=\"_blank\">Hugging Face\u003C\u002Fa> • 🤖 \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Forganization\u002Fbaichuan-inc\" target=\"_blank\">ModelScope\u003C\u002Fa> • 💬 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fbaichuan-inc\u002FBaichuan-7B\u002Fblob\u002Fmain\u002Fmedia\u002Fwechat.jpeg?raw=true\" target=\"_blank\">微信\u003C\u002Fa>\n\u003C\u002Fp>\n\n\u003Cdiv align=\"center\">\n\n[![license](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fmodelscope\u002Fmodelscope.svg)](https:\u002F\u002Fgithub.com\u002Fbaichuan-inc\u002FBaichuan-7B\u002Fblob\u002Fmain\u002FLICENSE)\n\u003Ch4 align=\"center\">\n    \u003Cp>\n        \u003Cb>中文\u003C\u002Fb> |\n        \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fbaichuan-inc\u002FBaichuan-7B\u002Fblob\u002Fmain\u002FREADME_EN.md\">English\u003C\u002Fa>\n    \u003Cp>\n\u003C\u002Fh4>\n\u003C\u002Fdiv>\n\n# 更新信息\n- [2023.09.06] 我们发布了新一代开源模型 [Baichuan 2](https:\u002F\u002Fgithub.com\u002Fbaichuan-inc\u002FBaichuan2)，包含 7B、13B 尺寸 🔥🔥🔥\n\n# 介绍\n\nBaichuan-7B 是由百川智能开发的一个开源可商用的大规模预训练语言模型（Large Language Model, LLM）。基于 Transformer 结构，在大约 1.2 万亿 tokens 上训练的 70 亿参数模型，支持中英双语，上下文窗口长度为 4096。在标准的中文和英文 benchmark（C-Eval\u002FMMLU）上均取得同尺寸最好的效果。\n\n# 公开benchmark榜单\n\n## 中文评测\n\n### C-Eval\n\n[C-Eval 数据集](https:\u002F\u002Fcevalbenchmark.com\u002Findex.html)是一个全面的中文基础模型评测数据集，涵盖了 52 个学科和四个难度的级别。我们使用该数据集的 dev 集作为 few-shot 的来源，在 test 集上进行了 `5-shot` 测试。通过执行执行下面的命令：\n\n```bash\ncd evaluation\npython evaluate_zh.py --model_name_or_path 'your\u002Fmodel\u002Fpath'\n```\n\n### 结果\n\n|        Model 5-shot         | Average | Avg(Hard) | STEM  | Social Sciences | Humanities | Others |\n| :-------------------------: | :-----: | :-------: | :---: | :-------------: | :--------: | :----: |\n|            GPT-4            |  68.7   |   54.9    | 67.1  |      77.6       |    64.5    |  67.8  |\n|           ChatGPT           |  54.4   |   41.4    | 52.9  |      61.8       |    50.9    |  53.6  |\n|         Claude-v1.3         |  54.2   |   39.0    | 51.9  |      61.7       |    52.1    |  53.7  |\n|     Claude-instant-v1.0     |  45.9   |   35.5    | 43.1  |      53.8       |    44.2    |  45.4  |\n|          BLOOMZ-7B          |  35.7   |   25.8    | 31.3  |      43.5       |    36.6    |  35.6  |\n|         ChatGLM-6B          |  34.5   |   23.1    | 30.4  |      39.6       |    37.4    |  34.5  |\n|   Ziya-LLaMA-13B-pretrain   |  30.2   |   22.7    | 27.7  |      34.4       |    32.0    |  28.9  |\n|  moss-moon-003-base (16B)   |  27.4   |   24.5    | 27.0  |      29.1       |    27.2    |  26.9  |\n|         LLaMA-7B-hf         |  27.1   |   25.9    | 27.1  |      26.8       |    27.9    |  26.3  |\n|          Falcon-7B          |  25.8   |   24.3    | 25.8  |      26.0       |    25.8    |  25.6  |\n|      TigerBot-7B-base       |  25.7   |   27.0    | 27.3  |      24.7       |    23.4    |  26.1  |\n|    Aquila-7B\u003Csup>*\u003C\u002Fsup>    |  25.5   |   25.2    | 25.6  |      24.6       |    25.2    |  26.6  |\n| Open-LLaMA-v2-pretrain (7B) |  24.0   |   22.5    | 23.1  |      25.3       |    25.2    |  23.2  |\n|          BLOOM-7B           |  22.8   |   20.2    | 21.8  |      23.3       |    23.9    |  23.3  |\n|       **Baichuan-7B**       |  42.8   |   31.5    | 38.2  |      52.0       |    46.2    |  39.3  |\n\n### Gaokao\n\n[Gaokao](https:\u002F\u002Fgithub.com\u002FOpenLMLab\u002FGAOKAO-Bench) 是一个以中国高考题作为评测大语言模型能力的数据集，用以评估模型的语言能力和逻辑推理能力。\n我们只保留了其中的单项选择题，随机划分后对所有模型进行统一 `5-shot` 测试。\n\n### 结果\n\n以下是测试的结果。\n\n|          Model          |  Average  |\n| :---------------------: | :-------: |\n|        BLOOMZ-7B        |   28.72   |\n|        LLaMA-7B         |   27.81   |\n|        BLOOM-7B         |   26.96   |\n|    TigerBot-7B-base     |   25.94   |\n|        Falcon-7B        |   23.98   |\n| Ziya-LLaMA-13B-pretrain |   23.17   |\n|       ChatGLM-6B        |   21.41   |\n| Open-LLaMA-v2-pretrain  |   21.41   |\n|  Aquila-7B\u003Csup>*\u003C\u002Fsup>  |   24.39   |\n|     **Baichuan-7B**     | **36.24** |\n\n### AGIEval\n\n[AGIEval](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FAGIEval) 旨在评估模型的认知和解决问题相关的任务中的一般能力。\n我们只保留了其中的四选一单项选择题，随机划分后对所有模型进行了统一 `5-shot` 测试。\n\n### 结果\n\n|          Model          |  Average  |\n| :---------------------: | :-------: |\n|        BLOOMZ-7B        |   30.27   |\n|        LLaMA-7B         |   28.17   |\n| Ziya-LLaMA-13B-pretrain |   27.64   |\n|        Falcon-7B        |   27.18   |\n|        BLOOM-7B         |   26.55   |\n|  Aquila-7B\u003Csup>*\u003C\u002Fsup>  |   25.58   |\n|    TigerBot-7B-base     |   25.19   |\n|       ChatGLM-6B        |   23.49   |\n| Open-LLaMA-v2-pretrain  |   23.49   |\n|     **Baichuan-7B**     | **34.44** |\n\n\u003Csup>*\u003C\u002Fsup>其中 Aquila 模型来源于智源官方网站(\u003Chttps:\u002F\u002Fmodel.baai.ac.cn\u002Fmodel-detail\u002F100098>) 仅做参考\n\n## 英文榜单\n\n除了中文之外，Baichuan-7B也测试了模型在英文上的效果，[MMLU](https:\u002F\u002Farxiv.org\u002Fabs\u002F2009.03300) 是包含 57 个多选任务的英文评测数据集，涵盖了初等数学、美国历史、计算机科学、法律等，难度覆盖高中水平到专家水平，是目前主流的LLM评测数据集。我们采用了[开源](https:\u002F\u002Fgithub.com\u002Fhendrycks\u002Ftest) 的评测方案，最终 `5-shot` 结果如下所示：\n\n### 结果\n\n|                Model                 | Humanities | Social Sciences |   STEM   |  Other   | Average  |\n| :----------------------------------: | :--------: | :-------------: | :------: | :------: | :------: |\n|        ChatGLM-6B\u003Csup>0\u003C\u002Fsup>        |    35.4    |      41.0       |   31.3   |   40.5   |   36.9   |\n|        BLOOMZ-7B\u003Csup>0\u003C\u002Fsup>         |    31.3    |      42.1       |   34.4   |   39.0   |   36.1   |\n|          mpt-7B\u003Csup>1\u003C\u002Fsup>          |     -      |        -        |    -     |    -     |   35.6   |\n|         LLaMA-7B\u003Csup>2\u003C\u002Fsup>         |    34.0    |      38.3       |   30.5   |   38.1   |   35.1   |\n|        Falcon-7B\u003Csup>1\u003C\u002Fsup>         |     -      |        -        |    -     |    -     |   35.0   |\n| moss-moon-003-sft (16B)\u003Csup>0\u003C\u002Fsup>  |    30.5    |      33.8       |   29.3   |   34.4   |   31.9   |\n|         BLOOM-7B\u003Csup>0\u003C\u002Fsup>         |    25.0    |      24.4       |   26.5   |   26.4   |   25.5   |\n| moss-moon-003-base (16B)\u003Csup>0\u003C\u002Fsup> |    24.2    |      22.8       |   22.4   |   24.4   |   23.6   |\n|     **Baichuan-7B\u003Csup>0\u003C\u002Fsup>**      |  **38.4**  |    **48.9**     | **35.6** | **48.1** | **42.3** |\n\n\u003Csup>0: 重新复现\u003C\u002Fsup>\u003Cbr\u002F>\n\u003Csup>1: https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FHuggingFaceH4\u002Fopen_llm_leaderboard\u003C\u002Fsup>\u003Cbr\u002F>\n\u003Csup>2: https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Fmulti-task-language-understanding-on-mmlu\u003C\u002Fsup>\u003Cbr\u002F>\n\n### 复现方法\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fhendrycks\u002Ftest\ncd test\nwget https:\u002F\u002Fpeople.eecs.berkeley.edu\u002F~hendrycks\u002Fdata.tar\ntar xf data.tar\nmkdir results\ncp ..\u002Fevaluate_mmlu.py .\npython evaluate_mmlu.py -m \u002Fpath\u002Fto\u002FBaichuan-7B\n```\n\n其中在 MMLU 上57个任务的具体细指标如下图：\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbaichuan-inc_Baichuan-7B_readme_59d06ae4788a.png\" width=\"90%\"\u002F>\n\u003C\u002Fp>\n\n其中各个学科的指标如下图：\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbaichuan-inc_Baichuan-7B_readme_34715dfe9128.png\" width=\"90%\"\u002F>\n\u003C\u002Fp>\n\n# 推理方法\n\n推理代码已在[官方 Huggingface 库](https:\u002F\u002Fhuggingface.co\u002Fbaichuan-inc\u002FBaichuan-7B)中提供：\n\n```python\nfrom transformers import AutoModelForCausalLM, AutoTokenizer\n\ntokenizer = AutoTokenizer.from_pretrained(\"baichuan-inc\u002FBaichuan-7B\", trust_remote_code=True)\nmodel = AutoModelForCausalLM.from_pretrained(\"baichuan-inc\u002FBaichuan-7B\", device_map=\"auto\", trust_remote_code=True)\ninputs = tokenizer('登鹳雀楼->王之涣\\n夜雨寄北->', return_tensors='pt')\ninputs = inputs.to('cuda:0')\npred = model.generate(**inputs, max_new_tokens=64,repetition_penalty=1.1)\nprint(tokenizer.decode(pred.cpu()[0], skip_special_tokens=True))\n\n```\n\n# 数据\n\n* 原始数据包括开源的中英文数据、自行抓取的中文互联网数据，以及部分高质量知识性数据。\n* 参考相关数据工作，频率和质量是数据处理环节重点考虑的两个维度。我们基于启发式规则和质量模型打分，对原始数据集进行篇章级和句子级的过滤。在全量数据上，利用局部敏感哈希（Locality-Sensitive Hashing, LSH）方法，在篇章和句子粒度上进行去重。\n\n整体流程如下所示：\n\u003Cp align=\"center\">\n    \u003Cbr>\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbaichuan-inc_Baichuan-7B_readme_e4807a13a76e.png\" width=\"90%\"\u002F>\n    \u003Cbr>\n\u003C\u002Fp>\n\n* 经过多轮调整和测试，最终确认了一个在下游任务上表现最优的中英文数据配比。\n* 我们采用了一种基于自动学习的数据权重策略，对不同类别的数据进行动态配比。\n\n# 分词\n\n我们参考学术界方案，使用 SentencePiece 中的 Byte-Pair Encoding (BPE, 字节对编码) 作为分词算法，并进行了以下优化：\n\n1. 当前多数开源模型主要针对英文优化，导致对中文语料压缩效率较低。我们使用 2000 万条以中英为主的多语言语料训练分词模型，显著提升了中文的压缩率。\n2. 针对数学领域，我们参考了 LLaMA 和 Galactica 的方案，将每个数字位单独拆分，避免数字表达不一致的问题，这对提升数学能力有重要帮助。\n3. 对于罕见字词（如特殊符号等），支持 UTF-8 字符的字节级编码，从而实现对未知字词的全覆盖。\n4. 我们分析了不同分词器对语料的压缩率，如下表所示。可见我们的分词器明显优于 LLaMA、Falcon 等开源模型；与其他中文分词器相比，在压缩率相当的情况下，训练和推理效率更高。\n\n|     Model     | Baichuan-7B | LLaMA  | Falcon | mpt-7B | ChatGLM | moss-moon-003 |\n| :-----------: | :---------: | :----: | :----: | :----: | :-----: | :-----------: |\n| Compress Rate |    0.737    | 1.312  | 1.049  | 1.206  |  0.631  |     0.659     |\n|  Vocab Size   |   64,000    | 32,000 | 65,024 | 50,254 | 130,344 |    106,029    |\n\n# 模型结构\n\n整体模型基于标准的 Transformer 结构，我们采用了与 LLaMA 相同的模型设计：\n\n* 位置编码：[rotary-embedding](https:\u002F\u002Farxiv.org\u002Fabs\u002F2104.09864) 是当前主流模型广泛采用的位置编码方案，具有更好的外推性能。虽然训练过程中最大长度为 4096，但在实际测试中，模型可良好扩展至 5000 tokens 以上，如下图所示：\n\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbaichuan-inc_Baichuan-7B_readme_c0480c941856.png\" width=\"90%\"\u002F>\n\u003C\u002Fp>\n\n* 激活层：SwiGLU，Feedforward 层维度扩大为隐含层大小的 8\u002F3 倍，即 11,008。\n* Layer-Normalization：采用 [RMSNorm](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.07467) 的 Pre-Normalization 结构。\n\n# 训练稳定性和吞吐\n\n我们在原 LLaMA 框架基础上进行了多项修改，以提升训练吞吐，具体包括：\n\n1. 算子优化技术：采用更高效算子，如 Flash-Attention、NVIDIA apex 的 RMSNorm 等。\n2. 算子切分技术：将部分计算算子进行切分，降低内存峰值占用。\n3. 混合精度技术：在不损失模型精度的前提下加速计算过程。\n4. 训练容灾技术：训练平台与框架联合优化，通过 IaaS + PaaS 实现分钟级故障定位与任务恢复。\n5. 通信优化技术，具体包括：\n   1. 采用拓扑感知的集合通信算法，避免网络拥塞，提高通信效率。\n   2. 根据 GPU 卡数自适应设置 bucket size，提高带宽利用率。\n   3. 根据模型和集群环境，调优通信原语触发时机，实现计算与通信重叠。\n\n基于上述优化技术，我们在千卡 A800 显卡集群上实现了 7B 模型 182 TFLOPS 的吞吐，GPU 峰值算力利用率达 58.3%。\n\n最终 loss 曲线如下图所示：\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbaichuan-inc_Baichuan-7B_readme_48158bc48aa3.png\" width=\"90%\"\u002F>\n\u003C\u002Fp>\n\n# 训练方法\n\n## 安装依赖\n\n```bash\npip install -r requirements.txt\n```\n\n## 准备数据\n\n用户需将训练语料按总 rank 数的倍数均匀切分为多个 UTF-8 文本文件，放置于语料目录（默认为 `data_dir`）下。各 rank 进程将读取不同文件，全部加载到内存后开始训练。以上为简化示范流程，建议用户在正式训练任务中根据需求调整数据生产逻辑。\n\n## 下载 tokenizer 模型\n\n下载 tokenizer 模型文件 [tokenizer.model](https:\u002F\u002Fhuggingface.co\u002Fbaichuan-inc\u002FBaichuan-7B\u002Fblob\u002Fmain\u002Ftokenizer.model)，并放置于项目根目录下。\n\n## 配置 DeepSpeed\n\n本示例代码采用 DeepSpeed 框架进行训练。用户需根据集群情况修改 `config\u002Fhostfile`；若为多机多卡环境，需配置 ssh 中各节点的 IP 地址。详情请参见 DeepSpeed [官方文档](https:\u002F\u002Fwww.deepspeed.ai\u002F)。\n\n## 执行训练\n\n```python\nscripts\u002Ftrain.sh\n```\n\n# 协议\n\n本仓库源码遵循开源许可协议 [Apache 2.0](https:\u002F\u002Fgithub.com\u002Fbaichuan-inc\u002FBaichuan-7B\u002Fblob\u002Fmain\u002FLICENSE)。\n\nBaichuan-7B 支持商用用途。如您计划将 Baichuan-7B 模型或其衍生品用于商业目的，请通过以下方式联系许可方进行登记并申请书面授权：联系邮箱：\u003Copensource@baichuan-inc.com>，具体许可协议详见[《Baichuan-7B 模型许可协议》](https:\u002F\u002Fhuggingface.co\u002Fbaichuan-inc\u002FBaichuan-7B\u002Fresolve\u002Fmain\u002Fbaichuan-7B%20%E6%A8%A1%E5%9E%8B%E8%AE%B8%E5%8F%AF%E5%8D%8F%E8%AE%AE.pdf)。\n\n# 第三方资源\n\n1. [LLaMA Efficient Tuning](https:\u002F\u002Fgithub.com\u002Fhiyouga\u002FLLaMA-Efficient-Tuning) 支持 Baichuan-7B 使用 Qlora 进行 Finetune，支持 RLHF 与 WebDemo。使用经过 sft 微调的模型见 [hiyouga\u002Fbaichuan-7b-sft](https:\u002F\u002Fhuggingface.co\u002Fhiyouga\u002Fbaichuan-7b-sft)。\n2. [fireballoon\u002Fbaichuan-vicuna-chinese-7b](https:\u002F\u002Fhuggingface.co\u002Ffireballoon\u002Fbaichuan-vicuna-chinese-7b) 使用 ShareGPT、ShareGPT-ZH、COT & COT-ZH、Leetcode、dummy 等中英文混合数据微调后的模型，训练代码参考 FastChat。\n3. [fireballoon\u002Fbaichuan-vicuna-7b](https:\u002F\u002Fhuggingface.co\u002Ffireballoon\u002Fbaichuan-vicuna-7b) 使用 ShareGPT、COT 和 Leetcode 等数据混合微调后的模型，训练代码参考 FastChat。\n4. [Efficient-Tuning-LLMs](https:\u002F\u002Fgithub.com\u002Fjianzhnie\u002FEfficient-Tuning-LLMs) 支持 Baichuan-7B 使用 Qlora 进行 Finetune 和 4bit 推理。\n5. [fastllm](https:\u002F\u002Fgithub.com\u002Fztxz16\u002Ffastllm) fastllm 是纯 C++ 实现、无第三方依赖的大模型库，支持 Baichuan-7B 在手机端运行。\n6. [TheBloke\u002Fbaichuan-7B-GPTQ](https:\u002F\u002Fhuggingface.co\u002FTheBloke\u002Fbaichuan-7B-GPTQ) 对 Baichuan-7B 进行 GPTQ 4bit 量化版本。\n\n# Star History\n\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbaichuan-inc_Baichuan-7B_readme_b543fa890ab9.png)](https:\u002F\u002Fstar-history.com\u002F#baichuan-inc\u002FBaichuan-7B&Date)","# Baichuan-7B 快速上手指南\n\n## 环境准备\n\n**系统要求：**\n- Linux 系统（推荐 Ubuntu 20.04+）\n- Python 3.8+\n- GPU 支持（推荐 NVIDIA A100\u002FA800 或 V100，显存 ≥ 16GB）\n- CUDA 11.8+ \u002F cuDNN 8.6+\n\n**前置依赖：**\n```bash\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\npip install transformers accelerate sentencepiece\n```\n\n> 国内用户建议使用清华源加速：\n```bash\npip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple torch torchvision torchaudio transformers accelerate sentencepiece\n```\n\n## 安装步骤\n\n1. **克隆官方仓库（可选）**\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fbaichuan-inc\u002FBaichuan-7B.git\ncd Baichuan-7B\npip install -r requirements.txt\n```\n\n2. **直接通过 Hugging Face 加载模型（推荐）**\n无需本地安装仓库，直接在代码中调用即可。\n\n## 基本使用\n\n以下是最简单的文本生成示例：\n\n```python\nfrom transformers import AutoModelForCausalLM, AutoTokenizer\n\n# 加载分词器和模型（首次运行会自动下载）\ntokenizer = AutoTokenizer.from_pretrained(\"baichuan-inc\u002FBaichuan-7B\", trust_remote_code=True)\nmodel = AutoModelForCausalLM.from_pretrained(\"baichuan-inc\u002FBaichuan-7B\", device_map=\"auto\", trust_remote_code=True)\n\n# 输入提示\ninputs = tokenizer('登鹳雀楼->王之涣\\n夜雨寄北->', return_tensors='pt')\ninputs = inputs.to('cuda:0')\n\n# 生成结果\npred = model.generate(**inputs, max_new_tokens=64, repetition_penalty=1.1)\n\n# 输出结果\nprint(tokenizer.decode(pred.cpu()[0], skip_special_tokens=True))\n```\n\n> ⚠️ 首次运行将自动从 Hugging Face 下载约 13GB 模型文件。国内用户可考虑通过 [ModelScope](https:\u002F\u002Fmodelscope.cn\u002Forganization\u002Fbaichuan-inc) 加速下载。\n\n运行后你将看到类似输出：\n```\n登鹳雀楼->王之涣\n夜雨寄北->李商隐\n```\n\n✅ 至此，你已成功运行 Baichuan-7B 基础推理！\n\n---\n\n📌 **提示**：如需商用，请邮件联系 `opensource@baichuan-inc.com` 获取书面授权。","某在线教育平台的产品经理正在为高中生开发一款“AI智能题库助手”，用于自动解析高考真题、生成讲解和推荐相似题，以提升学生自学效率。\n\n### 没有 Baichuan-7B 时\n- 平台依赖通用英文大模型（如 LLaMA-7B），对中文语境理解差，经常误读文言文或政治题干中的隐含逻辑。\n- 高考题型复杂，模型在单选题上的准确率仅约27%，导致生成的解析错误频出，需人工逐题校对，成本高昂。\n- 无法根据学科特点（如理科重推理、文科重语义）动态调整回答策略，学生体验割裂。\n- 模型上下文窗口短，处理长题干或多段材料题时频繁截断，丢失关键信息。\n- 缺乏中英双语支持，遇到英语阅读题或双语对照内容时直接失效。\n\n### 使用 Baichuan-7B 后\n- Baichuan-7B 在 C-Eval 和 Gaokao 中文评测中表现领先，高考单选题准确率跃升至36.24%，大幅减少人工干预需求。\n- 内置中英双语能力与4096长度上下文窗口，可完整处理英语阅读理解+中文解析的混合题型，支持跨语言题干分析。\n- 针对STEM、人文等不同学科优化过训练数据，在解析物理公式推导或历史事件因果时更贴合教学逻辑。\n- 支持5-shot提示学习，只需提供少量示例即可让模型模仿教师口吻生成结构化讲解，风格统一、易懂。\n- 开源商用许可允许平台自由部署和微调，可针对各省考纲定制模型分支，实现区域化精准辅导。\n\nBaichuan-7B 让教育科技团队用极低成本获得接近人类教师水平的中文题解生成能力，真正实现“千人千面”的智能辅学体验。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbaichuan-inc_Baichuan-7B_59d06ae4.png","baichuan-inc","Baichuan Intelligent Technology","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fbaichuan-inc_0ae0f3f0.png","",null,"opensource@baichuan-inc.com","https:\u002F\u002Fgithub.com\u002Fbaichuan-inc",[83,87],{"name":84,"color":85,"percentage":86},"Python","#3572A5",99.7,{"name":88,"color":89,"percentage":90},"Shell","#89e051",0.3,5675,506,"2026-04-05T00:13:25","Apache-2.0",4,"未说明",{"notes":96,"python":96,"dependencies":98},[],[26,14,13,54],[101,102,103,104,105,106,107,108,109,110],"artificial-intelligence","ceval","large-language-models","natural-language-processing","mmlu","chatgpt","gpt-4","huggingface","llama","chinese",10,"2026-03-27T02:49:30.150509","2026-04-06T07:22:58.061056",[115,120,125,130,135,140],{"id":116,"question_zh":117,"answer_zh":118,"source_url":119},663,"Baichuan-7B 模型是否经过指令微调（SFT）？","当前开源的 Baichuan-7B 是预训练后未做其他训练的基础模型（base model），不包含指令微调或对话优化版本。官方表示后续有计划陆续公布 Chat 版本，请持续关注。","https:\u002F\u002Fgithub.com\u002Fbaichuan-inc\u002FBaichuan-7B\u002Fissues\u002F4",{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},664,"为什么模型在简单问题如“你好”上回答异常？","因为当前模型是基础预训练模型，未经过指令微调（SFT），对问答或对话任务没有专门优化。其输出依赖于预训练数据分布，可能在某些输入下表现不稳定。若需稳定对话能力，需自行进行指令微调。","https:\u002F\u002Fgithub.com\u002Fbaichuan-inc\u002FBaichuan-7B\u002Fissues\u002F58",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},665,"如何提升 Baichuan-7B 在 RTX 4090 上的推理速度？","可尝试以下配置优化：1) 使用 torch.float16 精度加载模型；2) 设置 low_cpu_mem_usage=True；3) 启用 torch.autocast(\"cuda\")；4) 确保 PyTorch 版本为 2.0.1 并搭配 CUDA 11.8。参考代码示例见评论区。","https:\u002F\u002Fgithub.com\u002Fbaichuan-inc\u002FBaichuan-7B\u002Fissues\u002F11",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},666,"评测中模型疑似数据泄漏，官方如何回应？","官方声明未针对榜单做任何优化，模型预训练数据包含互联网公开内容（如考试题库），因此可能生成类似CEval的题目和答案属正常现象。强调开源初衷是促进中文大模型研究，并欢迎社区真实反馈。","https:\u002F\u002Fgithub.com\u002Fbaichuan-inc\u002FBaichuan-7B\u002Fissues\u002F21",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},667,"如何设置推理参数以获得最佳效果？","该模型为基础预训练模型，直接用于对话或指令任务效果不佳。若需信息提取等特定功能，必须进行指令微调（Instruction Fine-Tuning）。可参考 Issue #23 获取相关训练方法。","https:\u002F\u002Fgithub.com\u002Fbaichuan-inc\u002FBaichuan-7B\u002Fissues\u002F5",{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},668,"官方示例“登鹳雀楼->王之涣\\n夜雨寄北->”的输出是否符合预期？","部分输出符合预期，但模型会过度续写。建议在输入结尾避免使用“\\n”，并可通过限制 max_new_tokens 或调整采样参数控制输出长度，防止模型自由发挥导致冗余内容。","https:\u002F\u002Fgithub.com\u002Fbaichuan-inc\u002FBaichuan-7B\u002Fissues\u002F24",[]]