[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-wangzhaode--mnn-llm":3,"tool-wangzhaode--mnn-llm":65},[4,17,27,35,48,57],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",156804,2,"2026-04-15T11:34:33",[13,14,15],"开发框架","Agent","语言模型","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,3,"2026-04-06T11:19:32",[15,26,14,13],"图像",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":10,"last_commit_at":33,"category_tags":34,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":10,"last_commit_at":41,"category_tags":42,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85092,"2026-04-10T11:13:16",[26,43,44,45,14,46,15,13,47],"数据工具","视频","插件","其他","音频",{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":54,"last_commit_at":55,"category_tags":56,"status":16},5784,"funNLP","fighting41love\u002FfunNLP","funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为\"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。\n\n面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。\n\n无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。",79857,1,"2026-04-08T20:11:31",[15,43,46],{"id":58,"name":59,"github_repo":60,"description_zh":61,"stars":62,"difficulty_score":54,"last_commit_at":63,"category_tags":64,"status":16},6590,"gpt4all","nomic-ai\u002Fgpt4all","GPT4All 是一款让普通电脑也能轻松运行大型语言模型（LLM）的开源工具。它的核心目标是打破算力壁垒，让用户无需依赖昂贵的显卡（GPU）或云端 API，即可在普通的笔记本电脑和台式机上私密、离线地部署和使用大模型。\n\n对于担心数据隐私、希望完全掌控本地数据的企业用户、研究人员以及技术爱好者来说，GPT4All 提供了理想的解决方案。它解决了传统大模型必须联网调用或需要高端硬件才能运行的痛点，让日常设备也能成为强大的 AI 助手。无论是希望构建本地知识库的开发者，还是单纯想体验私有化 AI 聊天的普通用户，都能从中受益。\n\n技术上，GPT4All 基于高效的 `llama.cpp` 后端，支持多种主流模型架构（包括最新的 DeepSeek R1 蒸馏模型），并采用 GGUF 格式优化推理速度。它不仅提供界面友好的桌面客户端，支持 Windows、macOS 和 Linux 等多平台一键安装，还为开发者提供了便捷的 Python 库，可轻松集成到 LangChain 等生态中。通过简单的下载和配置，用户即可立即开始探索本地大模型的无限可能。",77307,"2026-04-11T06:52:37",[15,13],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":81,"owner_email":82,"owner_twitter":82,"owner_website":82,"owner_url":83,"languages":84,"stars":124,"forks":125,"last_commit_at":126,"license":127,"difficulty_score":128,"env_os":129,"env_gpu":130,"env_ram":131,"env_deps":132,"category_tags":139,"github_topics":140,"view_count":10,"oss_zip_url":82,"oss_zip_packed_at":82,"status":16,"created_at":150,"updated_at":151,"faqs":152,"releases":183},7767,"wangzhaode\u002Fmnn-llm","mnn-llm","llm deploy project based mnn. This project has merged into MNN.","mnn-llm 是一个基于阿里巴巴 MNN 深度学习框架的大语言模型（LLM）部署项目，旨在让大模型在各类设备上高效运行。值得注意的是，该项目的核心代码已正式合并至 MNN 官方仓库，成为其生态的一部分。\n\n它主要解决了大模型在资源受限的边缘设备（如手机、平板）及不同操作系统上部署难、推理慢的问题。通过提供从命令行、Web 界面到 Android 和 iOS 原生应用的全套示例工程，mnn-llm 极大地降低了将大模型集成到实际产品中的技术门槛。项目支持多种后端加速（如 CUDA、OpenCL、Metal），并具备视觉处理能力，同时提供了便捷的 Python 封装，方便开发者快速调用。\n\n这款工具非常适合移动端开发者、嵌入式工程师以及希望将大模型落地到本地设备的 AI 研究人员使用。无论是想在安卓或苹果手机上运行私有化大模型，还是希望探索端侧 AI 应用的创新者，都能通过 mnn-llm 获得开箱即用的编译脚本和完整的演示代码，轻松实现跨平台的高效模型推理。","![mnn-llm](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwangzhaode_mnn-llm_readme_988475e9f3ae.png)\n\n# mnn-llm\n[![License](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fwangzhaode\u002Fmnn-llm)](LICENSE.txt)\n[![Download](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fdownloads\u002Fwangzhaode\u002Fmnn-llm\u002Ftotal)](https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fmnn-llm\u002Freleases)\n[![Documentation Status](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwangzhaode_mnn-llm_readme_13d664e1afd7.png)](https:\u002F\u002Fmnn-llm.readthedocs.io\u002Fen\u002Flatest\u002F?badge=latest)\n\n\n[English](.\u002FREADME_en.md)\n\n**该项目代码已经Merge到[MNN](https:\u002F\u002Fgithub.com\u002Falibaba\u002FMNN\u002Ftree\u002Fmaster\u002Ftransformers\u002Fllm).**\n\n## 示例工程\n\n- [cli](.\u002Fdemo\u002Fcli_demo.cpp): 使用命令行编译，android编译参考[android_build.sh](.\u002Fscript\u002Fandroid_build.sh)\n- [web](.\u002Fdemo\u002Fweb_demo.cpp): 使用命令行编译，运行时需要指定[web资源](.\u002Fweb)\n- [android](.\u002Fandroid\u002F): 使用Android Studio打开编译；\n- [ios](.\u002Fios\u002FREADME.md): 使用Xcode打开编译；🚀🚀🚀**该示例代码100%由ChatGPT生成**🚀🚀🚀\n- [python](.\u002Fpython\u002FREADME.md): 对mnn-llm的python封装`mnnllm`；\n- [other](.\u002Fdemo): 新增文本embedding；\n\n## 模型导出与下载\n\nllm模型导出`onnx`和`mnn`模型请使用[llm-export](https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fllm-export)\n\n[模型下载](.\u002Fdocs\u002Fdownload.md)\n\n\n## 构建\n\nCI构建状态：\n\n[![Build Status][pass-linux]][ci-linux]\n[![Build Status][pass-macos]][ci-macos]\n[![Build Status][pass-windows]][ci-windows]\n[![Build Status][pass-android]][ci-android]\n[![Build Status][pass-ios]][ci-ios]\n[![Build Status][pass-python]][ci-python]\n\n[pass-linux]: https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fmnn-llm\u002Factions\u002Fworkflows\u002Flinux.yml\u002Fbadge.svg\n[pass-macos]: https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fmnn-llm\u002Factions\u002Fworkflows\u002Fmacos.yml\u002Fbadge.svg\n[pass-windows]: https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fmnn-llm\u002Factions\u002Fworkflows\u002Fwindows.yml\u002Fbadge.svg\n[pass-android]: https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fmnn-llm\u002Factions\u002Fworkflows\u002Fandroid.yml\u002Fbadge.svg\n[pass-ios]: https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fmnn-llm\u002Factions\u002Fworkflows\u002Fios.yml\u002Fbadge.svg\n[pass-python]: https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fmnn-llm\u002Factions\u002Fworkflows\u002Fpython.yml\u002Fbadge.svg\n[ci-linux]: https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fmnn-llm\u002Factions\u002Fworkflows\u002Flinux.yml\n[ci-macos]: https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fmnn-llm\u002Factions\u002Fworkflows\u002Fmacos.yml\n[ci-windows]: https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fmnn-llm\u002Factions\u002Fworkflows\u002Fwindows.yml\n[ci-android]: https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fmnn-llm\u002Factions\u002Fworkflows\u002Fandroid.yml\n[ci-ios]: https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fmnn-llm\u002Factions\u002Fworkflows\u002Fios.yml\n[ci-python]: https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fmnn-llm\u002Factions\u002Fworkflows\u002Fpython.yml\n\n### 本地编译\n```\n# clone\ngit clone --recurse-submodules https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fmnn-llm.git\ncd mnn-llm\n\n# linux\n.\u002Fscript\u002Fbuild.sh\n\n# macos\n.\u002Fscript\u002Fbuild.sh\n\n# windows msvc\n.\u002Fscript\u002Fbuild.ps1\n\n# python wheel\n.\u002Fscript\u002Fpy_build.sh\n\n# android\n.\u002Fscript\u002Fandroid_build.sh\n\n# android apk\n.\u002Fscript\u002Fandroid_app_build.sh\n\n# ios\n.\u002Fscript\u002Fios_build.sh\n```\n\n一些编译宏：\n- `BUILD_FOR_ANDROID`: 编译到Android设备；\n- `LLM_SUPPORT_VISION`: 是否支持视觉处理能力；\n- `DUMP_PROFILE_INFO`: 每次对话后dump出性能数据到命令行中；\n\n默认使用`CPU`，如果使用其他后端或能力，可以在编译MNN时添加`MNN`编译宏\n- cuda: `-DMNN_CUDA=ON`\n- opencl: `-DMNN_OPENCL=ON`\n- metal: `-DMNN_METAL=ON`\n\n### 4. 执行\n\n```bash\n# linux\u002Fmacos\n.\u002Fcli_demo .\u002FQwen2-1.5B-Instruct-MNN\u002Fconfig.json # cli demo\n.\u002Fweb_demo .\u002FQwen2-1.5B-Instruct-MNN\u002Fconfig.json ..\u002Fweb # web ui demo\n\n# windows\n.\\Debug\\cli_demo.exe .\u002FQwen2-1.5B-Instruct-MNN\u002Fconfig.json\n.\\Debug\\web_demo.exe .\u002FQwen2-1.5B-Instruct-MNN\u002Fconfig.json ..\u002Fweb\n\n# android\nadb push android_build\u002FMNN\u002FOFF\u002Farm64-v8a\u002FlibMNN.so \u002Fdata\u002Flocal\u002Ftmp\nadb push android_build\u002FMNN\u002Fexpress\u002FOFF\u002Farm64-v8a\u002FlibMNN_Express.so \u002Fdata\u002Flocal\u002Ftmp\nadb push android_build\u002Flibllm.so android_build\u002Fcli_demo \u002Fdata\u002Flocal\u002Ftmp\nadb push Qwen2-1.5B-Instruct-MNN \u002Fdata\u002Flocal\u002Ftmp\nadb shell \"cd \u002Fdata\u002Flocal\u002Ftmp && export LD_LIBRARY_PATH=. && .\u002Fcli_demo .\u002FQwen2-1.5B-Instruct-MNN\u002Fconfig.json\"\n```\n\n\n## Reference\n\u003Cdetails>\n  \u003Csummary>reference\u003C\u002Fsummary>\n\n- [cpp-httplib](https:\u002F\u002Fgithub.com\u002Fyhirose\u002Fcpp-httplib)\n- [chatgpt-web](https:\u002F\u002Fgithub.com\u002Fxqdoo00o\u002Fchatgpt-web)\n- [ChatViewDemo](https:\u002F\u002Fgithub.com\u002FBrettFX\u002FChatViewDemo)\n- [nlohmann\u002Fjson](https:\u002F\u002Fgithub.com\u002Fnlohmann\u002Fjson)\n- [Qwen-1.8B-Chat](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen-1_8B-Chat\u002Fsummary)\n- [Qwen-7B-Chat](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen-7B-Chat\u002Fsummary)\n- [Qwen-VL-Chat](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen-VL-Chat\u002Fsummary)\n- [Qwen1.5-0.5B-Chat](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen1.5-0.5B-Chat\u002Fsummary)\n- [Qwen1.5-1.8B-Chat](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen1.5-1.8B-Chat\u002Fsummary)\n- [Qwen1.5-4B-Chat](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen1.5-4B-Chat\u002Fsummary)\n- [Qwen1.5-7B-Chat](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen1.5-7B-Chat\u002Fsummary)\n- [Qwen2-0.5B-Instruct](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen2-0.5B-Instruct\u002Fsummary)\n- [Qwen2-1.5B-Instruct](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen2-1.5B-Instruct\u002Fsummary)\n- [Qwen2-7B-Instruct](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen2-7B-Instruct\u002Fsummary)\n- [Qwen2-VL-2B-Instruct](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen2-VL-2B-Instruct\u002Fsummary)\n- [Qwen2-VL-7B-Instruct](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen2-VL-7B-Instruct\u002Fsummary)\n- [Qwen2.5-0.5B-Instruct](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen2.5-0.5B-Instruct\u002Fsummary)\n- [Qwen2.5-1.5B-Instruct](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen2.5-1.5B-Instruct\u002Fsummary)\n- [Qwen2.5-3B-Instruct](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen2.5-3B-Instruct\u002Fsummary)\n- [Qwen2.5-7B-Instruct](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen2.5-7B-Instruct\u002Fsummary)\n- [Qwen2.5-Coder-1.5B-Instruct](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen2.5-Coder-1.5B-Instruct\u002Fsummary)\n- [Qwen2.5-Coder-7B-Instruct](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen2.5-Coder-7B-Instruct\u002Fsummary)\n- [Qwen2.5-Math-1.5B-Instruct](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen2.5-Math-1.5B-Instruct\u002Fsummary)\n- [Qwen2.5-Math-7B-Instruct](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen2.5-Math-7B-Instruct\u002Fsummary)\n- [chatglm-6b](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002Fchatglm-6b\u002Fsummary)\n- [chatglm2-6b](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002Fchatglm2-6b\u002Fsummary)\n- [codegeex2-6b](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002Fcodegeex2-6b\u002Fsummary)\n- [chatglm3-6b](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002Fchatglm3-6b\u002Fsummary)\n- [glm4-9b-chat](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002Fglm-4-9b-chat\u002Fsummary)\n- [Llama-2-7b-chat-ms](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fmodelscope\u002FLlama-2-7b-chat-ms\u002Fsummary)\n- [Llama-3-8B-Instruct](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fmodelscope\u002FMeta-Llama-3-8B-Instruct\u002Fsummary)\n- [Llama-3.2-1B-Instruct](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FLLM-Research\u002FLlama-3.2-1B-Instruct\u002Fsummary)\n- [Llama-3.2-3B-Instruct](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FLLM-Research\u002FLlama-3.2-3B-Instruct\u002Fsummary)\n- [Baichuan2-7B-Chat](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fbaichuan-inc\u002Fbaichuan-7B\u002Fsummary)\n- [internlm-chat-7b](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FShanghai_AI_Laboratory\u002Finternlm-chat-7b\u002Fsummary)\n- [Yi-6B-Chat](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002F01ai\u002FYi-6B-Chat\u002Fsummary)\n- [deepseek-llm-7b-chat](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fdeepseek-ai\u002Fdeepseek-llm-7b-chat\u002Fsummary)\n- [TinyLlama-1.1B-Chat-v0.6](https:\u002F\u002Fhuggingface.co\u002FTinyLlama\u002FTinyLlama-1.1B-Chat-v0.6)\n- [phi-2](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FAI-ModelScope\u002Fphi-2\u002Fsummary)\n- [bge-large-zh](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FAI-ModelScope\u002Fbge-large-zh\u002Fsummary)\n- [gte_sentence-embedding_multilingual-base](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fiic\u002Fgte_sentence-embedding_multilingual-base\u002Fsummary)\n\u003C\u002Fdetails>","![mnn-llm](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwangzhaode_mnn-llm_readme_988475e9f3ae.png)\n\n# mnn-llm\n[![许可证](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fwangzhaode\u002Fmnn-llm)](LICENSE.txt)\n[![下载量](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fdownloads\u002Fwangzhaode\u002Fmnn-llm\u002Ftotal)](https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fmnn-llm\u002Freleases)\n[![文档状态](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwangzhaode_mnn-llm_readme_13d664e1afd7.png)](https:\u002F\u002Fmnn-llm.readthedocs.io\u002Fen\u002Flatest\u002F?badge=latest)\n\n\n[English](.\u002FREADME_en.md)\n\n**该项目代码已经Merge到[MNN](https:\u002F\u002Fgithub.com\u002Falibaba\u002FMNN\u002Ftree\u002Fmaster\u002Ftransformers\u002Fllm).**\n\n## 示例工程\n\n- [cli](.\u002Fdemo\u002Fcli_demo.cpp): 使用命令行编译，android编译参考[android_build.sh](.\u002Fscript\u002Fandroid_build.sh)\n- [web](.\u002Fdemo\u002Fweb_demo.cpp): 使用命令行编译，运行时需要指定[web资源](.\u002Fweb)\n- [android](.\u002Fandroid\u002F): 使用Android Studio打开编译；\n- [ios](.\u002Fios\u002FREADME.md): 使用Xcode打开编译；🚀🚀🚀**该示例代码100%由ChatGPT生成**🚀🚀🚀\n- [python](.\u002Fpython\u002FREADME.md): 对mnn-llm的python封装`mnnllm`；\n- [other](.\u002Fdemo): 新增文本embedding；\n\n## 模型导出与下载\n\nllm模型导出`onnx`和`mnn`模型请使用[llm-export](https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fllm-export)\n\n[模型下载](.\u002Fdocs\u002Fdownload.md)\n\n\n## 构建\n\nCI构建状态：\n\n[![构建状态][pass-linux]][ci-linux]\n[![构建状态][pass-macos]][ci-macos]\n[![构建状态][pass-windows]][ci-windows]\n[![构建状态][pass-android]][ci-android]\n[![构建状态][pass-ios]][ci-ios]\n[![构建状态][pass-python]][ci-python]\n\n[pass-linux]: https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fmnn-llm\u002Factions\u002Fworkflows\u002Flinux.yml\u002Fbadge.svg\n[pass-macos]: https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fmnn-llm\u002Factions\u002Fworkflows\u002Fmacos.yml\u002Fbadge.svg\n[pass-windows]: https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fmnn-llm\u002Factions\u002Fworkflows\u002Fwindows.yml\u002Fbadge.svg\n[pass-android]: https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fmnn-llm\u002Factions\u002Fworkflows\u002Fandroid.yml\u002Fbadge.svg\n[pass-ios]: https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fmnn-llm\u002Factions\u002Fworkflows\u002Fios.yml\u002Fbadge.svg\n[pass-python]: https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fmnn-llm\u002Factions\u002Fworkflows\u002Fpython.yml\u002Fbadge.svg\n[ci-linux]: https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fmnn-llm\u002Factions\u002Fworkflows\u002Flinux.yml\n[ci-macos]: https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fmnn-llm\u002Factions\u002Fworkflows\u002Fmacos.yml\n[ci-windows]: https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fmnn-llm\u002Factions\u002Fworkflows\u002Fwindows.yml\n[ci-android]: https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fmnn-llm\u002Factions\u002Fworkflows\u002Fandroid.yml\n[ci-ios]: https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fmnn-llm\u002Factions\u002Fworkflows\u002Fios.yml\n[ci-python]: https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fmnn-llm\u002Factions\u002Fworkflows\u002Fpython.yml\n\n### 本地编译\n```\n# 克隆\ngit clone --recurse-submodules https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fmnn-llm.git\ncd mnn-llm\n\n# linux\n.\u002Fscript\u002Fbuild.sh\n\n# macos\n.\u002Fscript\u002Fbuild.sh\n\n# windows msvc\n.\u002Fscript\u002Fbuild.ps1\n\n# python wheel\n.\u002Fscript\u002Fpy_build.sh\n\n# android\n.\u002Fscript\u002Fandroid_build.sh\n\n# android apk\n.\u002Fscript\u002Fandroid_app_build.sh\n\n# ios\n.\u002Fscript\u002Fios_build.sh\n```\n\n一些编译宏：\n- `BUILD_FOR_ANDROID`: 编译到Android设备；\n- `LLM_SUPPORT_VISION`: 是否支持视觉处理能力；\n- `DUMP_PROFILE_INFO`: 每次对话后dump出性能数据到命令行中；\n\n默认使用`CPU`，如果使用其他后端或能力，可以在编译MNN时添加`MNN`编译宏\n- cuda: `-DMNN_CUDA=ON`\n- opencl: `-DMNN_OPENCL=ON`\n- metal: `-DMNN_METAL=ON`\n\n### 4. 执行\n\n```bash\n# linux\u002Fmacos\n.\u002Fcli_demo .\u002FQwen2-1.5B-Instruct-MNN\u002Fconfig.json # cli demo\n.\u002Fweb_demo .\u002FQwen2-1.5B-Instruct-MNN\u002Fconfig.json ..\u002Fweb # web ui demo\n\n# windows\n.\\Debug\\cli_demo.exe .\u002FQwen2-1.5B-Instruct-MNN\u002Fconfig.json\n.\\Debug\\web_demo.exe .\u002FQwen2-1.5B-Instruct-MNN\u002Fconfig.json ..\u002Fweb\n\n# android\nadb push android_build\u002FMNN\u002FOFF\u002Farm64-v8a\u002FlibMNN.so \u002Fdata\u002Flocal\u002Ftmp\nadb push android_build\u002FMNN\u002Fexpress\u002FOFF\u002Farm64-v8a\u002FlibMNN_Express.so \u002Fdata\u002Flocaltmp\nadb push android_build\u002Flibllm.so android_build\u002Fcli_demo \u002Fdata\u002Flocaltmp\nadb push Qwen2-1.5B-Instruct-MNN \u002Fdata\u002Flocaltmp\nadb shell \"cd \u002Fdata\u002Flocaltmp && export LD_LIBRARY_PATH=. && .\u002Fcli_demo .\u002FQwen2-1.5B-Instruct-MNN\u002Fconfig.json\"\n```\n\n## 参考\n\u003Cdetails>\n  \u003Csummary>参考\u003C\u002Fsummary>\n\n- [cpp-httplib](https:\u002F\u002Fgithub.com\u002Fyhirose\u002Fcpp-httplib)\n- [chatgpt-web](https:\u002F\u002Fgithub.com\u002Fxqdoo00o\u002Fchatgpt-web)\n- [ChatViewDemo](https:\u002F\u002Fgithub.com\u002FBrettFX\u002FChatViewDemo)\n- [nlohmann\u002Fjson](https:\u002F\u002Fgithub.com\u002Fnlohmann\u002Fjson)\n- [Qwen-1.8B-Chat](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen-1_8B-Chat\u002Fsummary)\n- [Qwen-7B-Chat](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen-7B-Chat\u002Fsummary)\n- [Qwen-VL-Chat](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen-VL-Chat\u002Fsummary)\n- [Qwen1.5-0.5B-Chat](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen1.5-0.5B-Chat\u002Fsummary)\n- [Qwen1.5-1.8B-Chat](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen1.5-1.8B-Chat\u002Fsummary)\n- [Qwen1.5-4B-Chat](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen1.5-4B-Chat\u002Fsummary)\n- [Qwen1.5-7B-Chat](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen1.5-7B-Chat\u002Fsummary)\n- [Qwen2-0.5B-Instruct](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen2-0.5B-Instruct\u002Fsummary)\n- [Qwen2-1.5B-Instruct](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen2-1.5B-Instruct\u002Fsummary)\n- [Qwen2-7B-Instruct](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen2-7B-Instruct\u002Fsummary)\n- [Qwen2-VL-2B-Instruct](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen2-VL-2B-Instruct\u002Fsummary)\n- [Qwen2-VL-7B-Instruct](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen2-VL-7B-Instruct\u002Fsummary)\n- [Qwen2.5-0.5B-Instruct](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen2.5-0.5B-Instruct\u002Fsummary)\n- [Qwen2.5-1.5B-Instruct](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen2.5-1.5B-Instruct\u002Fsummary)\n- [Qwen2.5-3B-Instruct](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen2.5-3B-Instruct\u002Fsummary)\n- [Qwen2.5-7B-Instruct](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen2.5-7B-Instruct\u002Fsummary)\n- [Qwen2.5-Coder-1.5B-Instruct](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen2.5-Coder-1.5B-Instruct\u002Fsummary)\n- [Qwen2.5-Coder-7B-Instruct](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen2.5-Coder-7B-Instruct\u002Fsummary)\n- [Qwen2.5-Math-1.5B-Instruct](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen2.5-Math-1.5B-Instruct\u002Fsummary)\n- [Qwen2.5-Math-7B-Instruct](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fqwen\u002FQwen2.5-Math-7B-Instruct\u002Fsummary)\n- [chatglm-6b](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002Fchatglm-6b\u002Fsummary)\n- [chatglm2-6b](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002Fchatglm2-6b\u002Fsummary)\n- [codegeex2-6b](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002Fcodegeex2-6b\u002Fsummary)\n- [chatglm3-6b](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002Fchatglm3-6b\u002Fsummary)\n- [glm4-9b-chat](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002Fglm-4-9b-chat\u002Fsummary)\n- [Llama-2-7b-chat-ms](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fmodelscope\u002FLlama-2-7b-chat-ms\u002Fsummary)\n- [Llama-3-8B-Instruct](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fmodelscope\u002FMeta-Llama-3-8B-Instruct\u002Fsummary)\n- [Llama-3.2-1B-Instruct](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FLLM-Research\u002FLlama-3.2-1B-Instruct\u002Fsummary)\n- [Llama-3.2-3B-Instruct](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FLLM-Research\u002FLlama-3.2-3B-Instruct\u002Fsummary)\n- [Baichuan2-7B-Chat](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fbaichuan-inc\u002Fbaichuan-7B\u002Fsummary)\n- [internlm-chat-7b](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FShanghai_AI_Laboratory\u002Finternlm-chat-7b\u002Fsummary)\n- [Yi-6B-Chat](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002F01ai\u002FYi-6B-Chat\u002Fsummary)\n- [deepseek-llm-7b-chat](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fdeepseek-ai\u002Fdeepseek-llm-7b-chat\u002Fsummary)\n- [TinyLlama-1.1B-Chat-v0.6](https:\u002F\u002Fhuggingface.co\u002FTinyLlama\u002FTinyLlama-1.1B-Chat-v0.6)\n- [phi-2](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FAI-ModelScope\u002Fphi-2\u002Fsummary)\n- [bge-large-zh](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FAI-ModelScope\u002Fbge-large-zh\u002Fsummary)\n- [gte_sentence-embedding_multilingual-base](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fiic\u002Fgte_sentence-embedding_multilingual-base\u002Fsummary)\n\u003C\u002Fdetails>","# mnn-llm 快速上手指南\n\nmnn-llm 是一个基于 MNN 推理引擎的大语言模型（LLM）部署项目，支持在 Linux、macOS、Windows、Android 和 iOS 等多平台运行。该项目代码已合并至官方 [MNN 仓库](https:\u002F\u002Fgithub.com\u002Falibaba\u002FMNN\u002Ftree\u002Fmaster\u002Ftransformers\u002Fllm)。\n\n## 1. 环境准备\n\n### 系统要求\n- **操作系统**：Linux, macOS, Windows (MSVC), Android, iOS\n- **编译器**：GCC\u002FClang (Linux\u002FmacOS), MSVC (Windows), NDK (Android), Xcode (iOS)\n- **依赖管理**：Git (需支持子模块)\n\n### 前置依赖\n本项目采用子模块方式管理依赖，克隆时需注意参数。若需使用 GPU 加速，请确保已安装对应驱动及开发库：\n- **CUDA**: 需安装 NVIDIA CUDA Toolkit\n- **OpenCL\u002FMetal**: 需对应平台支持\n\n## 2. 安装与构建\n\n### 步骤一：克隆项目\n务必使用 `--recurse-submodules` 参数拉取代码，以获取完整依赖。\n\n```bash\ngit clone --recurse-submodules https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fmnn-llm.git\ncd mnn-llm\n```\n\n> **提示**：国内开发者若遇到拉取速度慢的问题，可配置 Git 代理或使用 Gitee 镜像（如有）。\n\n### 步骤二：编译构建\n根据目标平台执行对应的构建脚本：\n\n**Linux \u002F macOS**\n```bash\n.\u002Fscript\u002Fbuild.sh\n```\n\n**Windows (MSVC)**\n```powershell\n.\u002Fscript\u002Fbuild.ps1\n```\n\n**Python Wheel 包**\n```bash\n.\u002Fscript\u002Fpy_build.sh\n```\n\n**Android (SO 库)**\n```bash\n.\u002Fscript\u002Fandroid_build.sh\n```\n\n**Android (APK)**\n```bash\n.\u002Fscript\u002Fandroid_app_build.sh\n```\n\n**iOS**\n```bash\n.\u002Fscript\u002Fios_build.sh\n```\n\n### 高级编译选项\n默认使用 CPU 后端。如需启用其他后端或功能，可在编译 MNN 时添加以下宏定义：\n\n- **GPU 加速**：\n  - CUDA: `-DMNN_CUDA=ON`\n  - OpenCL: `-DMNN_OPENCL=ON`\n  - Metal: `-DMNN_METAL=ON`\n- **特定功能**：\n  - Android 专用：`-DBUILD_FOR_ANDROID`\n  - 视觉能力：`-DLLM_SUPPORT_VISION`\n  - 性能分析：`-DDUMP_PROFILE_INFO`\n\n## 3. 模型准备\n\n在运行前，需先将大模型转换为 MNN 格式。\n\n1. **导出模型**：使用 [llm-export](https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fllm-export) 工具将 ONNX 或原始模型转换为 MNN 模型。\n2. **下载示例**：可直接下载已转换好的模型配置文件（如 Qwen2 系列），参考 [模型下载文档](.\u002Fdocs\u002Fdownload.md)。\n\n假设已准备好 `Qwen2-1.5B-Instruct-MNN` 文件夹，其中包含 `config.json` 及模型权重文件。\n\n## 4. 基本使用\n\n### 命令行交互 (CLI)\n最基础的文本对话方式。\n\n**Linux \u002F macOS**\n```bash\n.\u002Fcli_demo .\u002FQwen2-1.5B-Instruct-MNN\u002Fconfig.json\n```\n\n**Windows**\n```powershell\n.\\Debug\\cli_demo.exe .\u002FQwen2-1.5B-Instruct-MNN\u002Fconfig.json\n```\n\n### Web 界面交互\n启动本地 Web 服务，通过浏览器进行对话（需指定 web 资源目录）。\n\n**Linux \u002F macOS**\n```bash\n.\u002Fweb_demo .\u002FQwen2-1.5B-Instruct-MNN\u002Fconfig.json ..\u002Fweb\n```\n\n**Windows**\n```powershell\n.\\Debug\\web_demo.exe .\u002FQwen2-1.5B-Instruct-MNN\u002Fconfig.json ..\u002Fweb\n```\n\n### Android 设备运行\n将编译好的库、可执行文件及模型推送到 Android 设备并运行：\n\n```bash\nadb push android_build\u002FMNN\u002FOFF\u002Farm64-v8a\u002FlibMNN.so \u002Fdata\u002Flocal\u002Ftmp\nadb push android_build\u002FMNN\u002Fexpress\u002FOFF\u002Farm64-v8a\u002FlibMNN_Express.so \u002Fdata\u002Flocal\u002Ftmp\nadb push android_build\u002Flibllm.so android_build\u002Fcli_demo \u002Fdata\u002Flocal\u002Ftmp\nadb push Qwen2-1.5B-Instruct-MNN \u002Fdata\u002Flocal\u002Ftmp\n\nadb shell \"cd \u002Fdata\u002Flocal\u002Ftmp && export LD_LIBRARY_PATH=. && .\u002Fcli_demo .\u002FQwen2-1.5B-Instruct-MNN\u002Fconfig.json\"\n```\n\n### Python 调用\n项目提供了 `mnnllm` Python 封装，具体用法请参考 `.\u002Fpython\u002FREADME.md`。","某嵌入式开发团队希望将智能客服大模型部署到离线运行的工业手持终端（Android\u002FiOS）上，以解决现场无网环境下的设备故障问答需求。\n\n### 没有 mnn-llm 时\n- **依赖云端服务**：必须通过网络调用云端 API，一旦工厂车间信号屏蔽或断网，智能助手即刻瘫痪，无法响应工人提问。\n- **硬件门槛极高**：传统推理框架对算力要求苛刻，普通手持终端的 CPU 无法承载，强行运行会导致设备严重发热、卡顿甚至死机。\n- **跨端适配困难**：需要为 Android 和 iOS 分别编写复杂的底层推理代码，维护两套完全不同的技术栈，开发周期长达数月。\n- **模型体积庞大**：未经优化的模型文件动辄数 GB，远超移动设备的存储限额，且加载时间过长影响用户体验。\n\n### 使用 mnn-llm 后\n- **纯本地离线运行**：利用 mnn-llm 将大模型直接部署在设备端，无需网络连接即可实时回答故障处理方案，保障生产连续性。\n- **极致性能优化**：依托 MNN 引擎的深度量化与算子优化，在低功耗 ARM 芯片上也能流畅运行 1.5B 参数量级模型，电量消耗降低 60%。\n- **一套代码多端通用**：通过 mnn-llm 提供的统一接口，同一套 C++ 逻辑可轻松编译至 Android 和 iOS 端，甚至支持 Web 演示，研发效率提升 3 倍。\n- **轻量化部署**：导出的 MNN 模型体积大幅压缩，秒级启动，完美适配存储空间有限的工业手持设备。\n\nmnn-llm 的核心价值在于打破了大模型对云端算力的依赖，让高性能 AI 能够低成本、低延迟地运行在资源受限的边缘设备上。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwangzhaode_mnn-llm_05937148.png","wangzhaode","王召德","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fwangzhaode_8e72aad1.png","MNN developer","Alibaba","Beijing",null,"https:\u002F\u002Fgithub.com\u002Fwangzhaode",[85,89,93,97,101,105,108,112,116,120],{"name":86,"color":87,"percentage":88},"C++","#f34b7d",77,{"name":90,"color":91,"percentage":92},"HTML","#e34c26",7.8,{"name":94,"color":95,"percentage":96},"Java","#b07219",3.8,{"name":98,"color":99,"percentage":100},"Swift","#F05138",3.2,{"name":102,"color":103,"percentage":104},"JavaScript","#f1e05a",2.7,{"name":106,"color":107,"percentage":104},"Python","#3572A5",{"name":109,"color":110,"percentage":111},"Objective-C++","#6866fb",1.5,{"name":113,"color":114,"percentage":115},"CMake","#DA3434",0.9,{"name":117,"color":118,"percentage":119},"Objective-C","#438eff",0.3,{"name":121,"color":122,"percentage":123},"Shell","#89e051",0.2,1614,179,"2026-04-14T09:14:19","Apache-2.0",4,"Linux, macOS, Windows, Android, iOS","非必需（默认使用 CPU）。可选后端：NVIDIA GPU (需编译时开启 -DMNN_CUDA=ON), OpenCL, Apple Metal (需编译时开启 -DMNN_METAL=ON)。具体显存和 CUDA 版本未说明，取决于所选大语言模型的大小。","未说明（取决于运行的具体大语言模型大小，如 Qwen2-1.5B, Llama-3-8B 等）",{"notes":133,"python":134,"dependencies":135},"该项目代码已合并至 MNN 主仓库。支持多平台编译（Linux, macOS, Windows, Android, iOS）。默认使用 CPU 推理，若需使用 GPU 加速，需在编译 MNN 时添加特定宏（如 -DMNN_CUDA=ON）。模型需先通过 llm-export 工具导出为 ONNX 或 MNN 格式方可使用。支持视觉处理能力（需开启 LLM_SUPPORT_VISION 宏）。","未说明（提供 Python 封装 mnnllm，但未指定具体版本要求）",[136,137,138],"MNN","cpp-httplib","nlohmann\u002Fjson",[15],[141,142,143,144,145,146,147,148,149],"chatglm-6b","cpp","cuda","mnn","opencl","chatglm2-6b","qwen-7b","baichuan2-7b","codegeex2-6b","2026-03-27T02:49:30.150509","2026-04-16T01:44:45.926019",[153,158,163,168,173,178],{"id":154,"question_zh":155,"answer_zh":156,"source_url":157},34773,"如何在最新版本的 cli_demo 中指定模型路径？","最新版本已移除 `-d` 参数。请直接使用 `--model_dir` 参数指定模型目录，例如：`.\u002Fcli_demo --model_dir=\"..\u002Fresource\u002Fmodels\u002Fint8\"`。默认路径为 `..\u002Fresource\u002Fmodels`，如果模型在子目录中（如 int8 或 fp16），需要指定到具体的子目录层级。","https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fmnn-llm\u002Fissues\u002F70",{"id":159,"question_zh":160,"answer_zh":161,"source_url":162},34774,"Linux 上运行 int4 模型时报错 'Segmentation fault' 或 'Not Enough Memory' 如何解决？","尝试以下两个步骤修复：\n1. 下载 bf16 的 embedding 权重文件：https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002FChatGLM-MNN\u002Freleases\u002Fdownload\u002Fv0.3\u002Fslim_word_embeddings_bf16.bin\n2. 修改源码 `chat.cpp` 第 281 行，将 `var = _Reshape(var, {1, HIDDEN_SIZE, 1, 1});` 改为 `var = _Reshape(var, {HIDDEN_SIZE, 1});` 然后重新编译。","https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fmnn-llm\u002Fissues\u002F92",{"id":164,"question_zh":165,"answer_zh":166,"source_url":167},34775,"项目中的 ONNX 模型是如何生成的？单个文件约 768MB 代表什么？","项目提供了导出 ONNX 的代码。原始模型被拆分为 embedding、28 个 glm_block 和 lm_head 部分。每个约 768MB 的文件通常对应一个独立的块（block）。用户可以通过修改提供的导出代码，选择将这些部分任意合并后导出为单一的 ONNX 模型。","https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fmnn-llm\u002Fissues\u002F11",{"id":169,"question_zh":170,"answer_zh":171,"source_url":172},34776,"Android 端运行 Qwen2.5 等模型时出现闪退或 'unordered_map::at: key not found' 错误怎么办？","该问题表现为模型加载成功后，一旦开始聊天（输入文本）应用即闪退，日志显示 `std::out_of_range: unordered_map::at: key not found`。这通常发生在特定模型（如 Qwen2.5-1.5B）的 Android 实现中，而 Windows 端正常。建议检查模型文件完整性，或联系开发者（如通过 Issue 中提到的微信 Oliver-DWH）获取针对该特定模型版本的 Android 补丁。","https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fmnn-llm\u002Fissues\u002F237",{"id":174,"question_zh":175,"answer_zh":176,"source_url":177},34777,"为什么运行时显示 'support fp16:0'，如何启用 FP16 加速？","日志显示 `support fp16:0` 表示当前设备或后端未启用半精度浮点运算，这会导致推理速度较慢。目前项目主要致力于解决显存不足的问题，大显存优化和 Batch 支持尚在完善中。请确保使用的是支持 CUDA 的后端，并检查 MNN 版本是否匹配您的 GPU 架构（如 NVIDIA A100）。","https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fmnn-llm\u002Fissues\u002F5",{"id":179,"question_zh":180,"answer_zh":181,"source_url":182},34778,"运行 llama2-7b-chat 或其他模型时报 'Broad cast error' 和 'Segmentation fault' 是什么原因？","报错信息如 `Broad cast error, dim1 = 11, dim2 = 32` 和 `Compute Shape Error` 通常意味着模型维度不匹配或使用了不兼容的 MNN 版本。有用户反馈在使用 MNN 2.5 版本时遇到此问题。建议尝试更新或回退 MNN 库版本，并确保下载的模型权重与代码版本严格对应。","https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fmnn-llm\u002Fissues\u002F96",[184,189,194,199,204,209],{"id":185,"version":186,"summary_zh":187,"released_at":188},272151,"mnn-llm-apk","基于 mnn-llm 构建的 Android APK，其中不包含模型文件。使用方法如下：\n\n1. 下载想要测试的模型文件夹，可参考 README 中的链接进行下载。请注意，文件夹名称需包含模型名称；\n2. 使用 `adb` 将下载好的文件夹推送到 `\u002Fdata\u002Flocal\u002Ftmp\u002Fmnn-llm` 目录下，命令行如下：\n```sh\nadb shell mkdir \u002Fdata\u002Flocal\u002Ftmp\u002Fmnn-llm\nadb push .\u002Fqwen-1.8b-mnn  \u002Fdata\u002Flocal\u002Ftmp\u002Fmnn-llm\n```\n4. 下载并安装 APK，打开后在下拉列表中选择要测试的模型文件目录，点击“加载模型”按钮；\n5. 进入聊天界面，进行聊天测试；","2023-12-25T07:33:13",{"id":190,"version":191,"summary_zh":192,"released_at":193},272152,"qwen-1.8b-apk","基于`mnn-llm`与`qwen-1.8b-int4`模型构建的完全离线的安卓聊天程序。","2023-12-06T08:30:15",{"id":195,"version":196,"summary_zh":197,"released_at":198},272153,"chatglm3-6b-mnn","将 `chatglm3-6b` 导出为 [ONNX](https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fllm-export\u002Freleases\u002Ftag\u002Fchatglm3-6b-onnx) 格式，并转换得到 `int4` 量化版本的 MNN 模型。\n\n模型列表：\n- tokenizer.txt\n- embedding.mnn\n- lm.mnn\n- block_[0-27].mnn","2023-10-27T12:30:04",{"id":200,"version":201,"summary_zh":202,"released_at":203},272154,"chatglm-6b-mnn","将 `chatglm-6b` 导出为 [ONNX](https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fllm-export\u002Freleases\u002Ftag\u002Fchatglm-6b-onnx) 格式，并转换为 `int4` 量化版本的 MNN 模型。\n\n模型列表：\n- tokenizer.txt\n- embedding.mnn\n- lm.mnn\n- block_[0-27].mnn","2023-09-14T13:17:50",{"id":205,"version":206,"summary_zh":207,"released_at":208},272155,"v0.4","ChatGLM-6B 导出的 ONNX 模型，权重采用 FP32 格式保存；模型的计算顺序如下：\n\n`embedding -> block_0 -> ... -> block_27 -> lm_head`\n\n提供 ONNX 格式的模型，便于在其他深度学习框架上进行部署和测试。\n\n该 ONNX 模型已迁移至 https:\u002F\u002Fgithub.com\u002Fwangzhaode\u002Fllm-export 项目中。","2023-03-29T03:17:09",{"id":210,"version":211,"summary_zh":212,"released_at":213},272156,"v0.1","使用fp16权重的ChatGLM-MNN模型。\n\n- 权重采用fp16格式存储，相比fp32格式可将模型大小减半；推理时，若精度设置为Low，则使用fp16；否则使用fp32。\n- fp16权重相较于fp32权重，几乎不会造成性能损失。","2023-03-24T12:23:20"]