[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-andrewkchan--yalm":3,"tool-andrewkchan--yalm":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":79,"owner_location":80,"owner_email":79,"owner_twitter":79,"owner_website":81,"owner_url":82,"languages":83,"stars":100,"forks":101,"last_commit_at":102,"license":79,"difficulty_score":103,"env_os":104,"env_gpu":105,"env_ram":106,"env_deps":107,"category_tags":115,"github_topics":116,"view_count":23,"oss_zip_url":79,"oss_zip_packed_at":79,"status":16,"created_at":126,"updated_at":127,"faqs":128,"releases":156},2170,"andrewkchan\u002Fyalm","yalm","Yet Another Language Model: LLM inference in C++\u002FCUDA, no libraries except for I\u002FO","yalm（Yet Another Language Model）是一个基于 C++ 和 CUDA 编写的大语言模型推理引擎，其最大特点是不依赖任何第三方深度学习库，仅利用基础 I\u002FO 库即可运行。该项目旨在作为一个教育性的性能工程实践，帮助开发者深入理解 LLM 推理的底层原理与优化技巧。\n\nyalm 解决了传统推理框架依赖复杂、黑盒化程度高的问题，通过极简的代码结构和详尽的注释，让用户能够清晰地掌握从权重加载到矩阵运算的全过程。虽然它并非为生产环境设计，但在单张 NVIDIA GPU 上对 Mistral-7B 等模型的推理速度表现优异，吞吐量可媲美成熟的 llama.cpp 和 calm 等项目。\n\n这款工具特别适合希望深入研究大模型底层机制的开发者、研究人员以及高校学生。如果你渴望跳出高级框架的封装，亲手探索注意力机制、前馈网络在硬件层面的实现细节，yalm 是极佳的学习素材。其独特的技术亮点在于完全从零构建推理流程，支持 FP16 精度，并提供了完善的测试套件与内核基准测试工具，方便用户进行性能剖析与实验验证。需要注意的是，目前 yalm 仅支持 NVIDIA 显卡且需整模显存","yalm（Yet Another Language Model）是一个基于 C++ 和 CUDA 编写的大语言模型推理引擎，其最大特点是不依赖任何第三方深度学习库，仅利用基础 I\u002FO 库即可运行。该项目旨在作为一个教育性的性能工程实践，帮助开发者深入理解 LLM 推理的底层原理与优化技巧。\n\nyalm 解决了传统推理框架依赖复杂、黑盒化程度高的问题，通过极简的代码结构和详尽的注释，让用户能够清晰地掌握从权重加载到矩阵运算的全过程。虽然它并非为生产环境设计，但在单张 NVIDIA GPU 上对 Mistral-7B 等模型的推理速度表现优异，吞吐量可媲美成熟的 llama.cpp 和 calm 等项目。\n\n这款工具特别适合希望深入研究大模型底层机制的开发者、研究人员以及高校学生。如果你渴望跳出高级框架的封装，亲手探索注意力机制、前馈网络在硬件层面的实现细节，yalm 是极佳的学习素材。其独特的技术亮点在于完全从零构建推理流程，支持 FP16 精度，并提供了完善的测试套件与内核基准测试工具，方便用户进行性能剖析与实验验证。需要注意的是，目前 yalm 仅支持 NVIDIA 显卡且需整模显存容纳，主要聚焦于文本补全与困惑度计算等基础功能。","yalm (Yet Another Language Model) is an LLM inference implementation in C++\u002FCUDA, using no libraries except to load and save frozen LLM weights.\n- This project is intended as an **educational exercise** in performance engineering and LLM inference implementation. \n- The codebase therefore emphasizes documentation, whether external or in comments, scientific understanding of optimizations, and readability where possible. \n- It is not meant to be run in production. See [limitations](#limitations) section at bottom.\n- See my blog post [Fast LLM Inference From Scratch](https:\u002F\u002Fandrewkchan.dev\u002Fposts\u002Fyalm.html) for more.\n\nLatest benchmarks with Mistral-7B-Instruct-v0.2 in FP16 with 4k context, on RTX 4090 + EPYC 7702P:\n\n| Engine      | Avg. throughput (~120 tokens) tok\u002Fs | Avg. throughput (~4800 tokens) tok\u002Fs |\n| ----------- | ----------- | ----------- |\n| huggingface transformers, GPU | 25.9 | 25.7 |\n| llama.cpp, GPU | 61.0 | 58.8 |\n| calm, GPU | 66.0 | 65.7 |\n| yalm, GPU | 63.8 | 58.7 |\n\n# Instructions\n\nyalm requires a computer with a C++20-compatible compiler and the CUDA toolkit (including `nvcc`) to be installed. You'll also need a directory containing LLM safetensor weights and configuration files in huggingface format, which you'll need to convert into a `.yalm` file. Follow the below to download Mistral-7B-v0.2, build `yalm`, and run it:\n\n```\n# install git LFS\ncurl -s https:\u002F\u002Fpackagecloud.io\u002Finstall\u002Frepositories\u002Fgithub\u002Fgit-lfs\u002Fscript.deb.sh | sudo bash\nsudo apt-get -y install git-lfs\n# download Mistral\ngit clone git@hf.co:mistralai\u002FMistral-7B-Instruct-v0.2\n# clone this repository\ngit clone git@github.com:andrewkchan\u002Fyalm.git\n\ncd yalm\npip install -r requirements.txt\npython convert.py --dtype fp16 mistral-7b-instruct-fp16.yalm ..\u002FMistral-7B-Instruct-v0.2\u002F\nmake && .\u002Fbuild\u002Fmain mistral-7b-instruct-fp16.yalm -i \"What is a large language model?\" -m c\n```\n\n# Usage\n\nSee the CLI help documentation below for `.\u002Fbuild\u002Fmain`:\n\n```\nUsage:   main \u003Ccheckpoint> [options]\nExample: main model.yalm -i \"Q: What is the meaning of life?\" -m c\nOptions:\n  -h Display this help message\n  -d [cpu,cuda] which device to use (default - cuda)\n  -m [completion,passkey,perplexity] which mode to run in (default - completion)\n  -T \u003Cint> sliding window context length (0 - max)\n\nPerplexity mode options:\n  Choose one:\n    -i \u003Cstring> input prompt\n    -f \u003Cfilepath> input file with prompt\nCompletion mode options:\n  -n \u003Cint>    number of steps to run for in completion mode, default 256. 0 = max_seq_len, -1 = infinite\n  -t \u003Cfloat> temperature (default - 1.0)\n  Choose one:\n    -i \u003Cstring> input prompt\n    -f \u003Cfilepath> input file with prompt\nPasskey mode options:\n  -n \u003Cint>    number of junk lines to insert (default - 250)\n  -l \u003Cint>    passkey position (-1 - random)\n```\n\n# Tests and benchmarks\n\nyalm comes with a basic test suite that checks implementations of attention, matrix multiplications, feedforward nets in the CPU and GPU backends. Build and run it like so:\n\n```\nmake test\n.\u002Fbuild\u002Ftest\n```\n\nThe test binary also includes benchmarks for individual kernels (useful for profiling with `ncu`) and broader system tools such as 2 benchmarks to determine main memory bandwidth:\n\n```\n# Memory benchmarks\n.\u002Fbuild\u002Ftest -b\n.\u002Fbuild\u002Ftest -b2\n\n# Kernel benchmarks\n.\u002Fbuild\u002Ftest -k [matmul,mha,ffn]\n```\n\n# Limitations\n\n- Only completions may be performed (in addition to some testing modes like computing perplexity on a prompt or performing a [passkey test](https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fllama.cpp\u002Fpull\u002F3856)). Chat interface has not been implemented.\n- An NVIDIA GPU is required.\n- The GPU backend only works with a single GPU and the entire model must fit into VRAM.\n- As of Dec 31, 2024 only the following models have been tested:\n  - Mistral-v0.2 \n  - Mixtral-v0.1 (CPU only)\n  - Llama-3.2\n\n# Acknowledgements\n\n- [calm](https:\u002F\u002Fgithub.com\u002Fzeux\u002Fcalm) - Much of my implementation is inspired by Arseny Kapoulkine’s inference engine. In a way, this project was kicked off by “understand calm and what makes it so fast.” I’ve tried to keep my code more readable for myself though, and as much as possible scientifically understanding optimizations, which means foregoing some advanced techniques used in calm like dynamic parallelism.\n- [llama2.c](https:\u002F\u002Fgithub.com\u002Fkarpathy\u002Fllama2.c) - Parts of the CPU backend come from Andrej Karpathy’s excellent C implementation of Llama inference.","yalm（另一个语言模型）是一个用 C++\u002FCUDA 实现的大型语言模型推理框架，除了用于加载和保存冻结的 LLM 权重外，不依赖任何其他库。\n- 该项目旨在作为性能工程和 LLM 推理实现方面的**教育性练习**。\n- 因此，代码库强调文档化——无论是外部文档还是注释——以及对优化技术的科学理解，并在可能的情况下保持代码的可读性。\n- 它并不适合用于生产环境。详情请参阅文末的【局限性】部分。\n- 更多信息请参阅我的博客文章《从零开始实现快速 LLM 推理》：https:\u002F\u002Fandrewkchan.dev\u002Fposts\u002Fyalm.html。\n\n使用 RTX 4090 + EPYC 7702P，在 FP16 精度下对 Mistral-7B-Instruct-v0.2 进行 4k 上下文长度的最新基准测试结果如下：\n\n| 引擎      | 平均吞吐量（约120 tokens） tok\u002Fs | 平均吞吐量（约4800 tokens） tok\u002Fs |\n| ----------- | ----------- | ----------- |\n| Hugging Face Transformers, GPU | 25.9 | 25.7 |\n| llama.cpp, GPU | 61.0 | 58.8 |\n| calm, GPU | 66.0 | 65.7 |\n| yalm, GPU | 63.8 | 58.7 |\n\n# 使用说明\n\nyalm 需要一台安装了兼容 C++20 的编译器和 CUDA 工具包（包括 `nvcc`）的计算机。此外，您还需要一个包含以 Hugging Face 格式存储的 LLM safetensor 权重和配置文件的目录，并将其转换为 `.yalm` 文件。按照以下步骤下载 Mistral-7B-v0.2、构建 yalm 并运行它：\n\n```\n# 安装 git LFS\ncurl -s https:\u002F\u002Fpackagecloud.io\u002Finstall\u002Frepositories\u002Fgithub\u002Fgit-lfs\u002Fscript.deb.sh | sudo bash\nsudo apt-get -y install git-lfs\n# 下载 Mistral\ngit clone git@hf.co:mistralai\u002FMistral-7B-Instruct-v0.2\n# 克隆本仓库\ngit clone git@github.com:andrewkchan\u002Fyalm.git\n\ncd yalm\npip install -r requirements.txt\npython convert.py --dtype fp16 mistral-7b-instruct-fp16.yalm ..\u002FMistral-7B-Instruct-v0.2\u002F\nmake && .\u002Fbuild\u002Fmain mistral-7b-instruct-fp16.yalm -i \"什么是大型语言模型？\" -m c\n```\n\n# 使用方法\n\n以下是 `.\u002Fbuild\u002Fmain` 的 CLI 帮助文档：\n\n```\n用法：   main \u003Ccheckpoint> [选项]\n示例： main model.yalm -i \"问：人生的意义是什么？\" -m c\n选项：\n  -h 显示此帮助信息\n  -d [cpu,cuda] 指定使用的设备（默认为 cuda）\n  -m [completion,passkey,perplexity] 指定运行模式（默认为 completion）\n  -T \u003Cint> 滑动窗口上下文长度（0 表示最大长度）\n\n困惑度模式选项：\n  必须选择一项：\n    -i \u003Cstring> 输入提示\n    -f \u003Cfilepath> 包含提示的输入文件\n完成模式选项：\n  -n \u003Cint> 在完成模式下运行的步数，默认为 256。0 表示最大序列长度，-1 表示无限步数。\n  -t \u003Cfloat> 温度参数（默认为 1.0）\n  必须选择一项：\n    -i \u003Cstring> 输入提示\n    -f \u003Cfilepath> 包含提示的输入文件\n密钥模式选项：\n  -n \u003Cint> 插入的垃圾行数（默认为 250）\n  -l \u003Cint> 密钥位置（-1 表示随机）\n```\n\n# 测试与基准测试\n\nyalm 自带一个基础测试套件，用于检查 CPU 和 GPU 后端中注意力机制、矩阵乘法和前馈网络的实现是否正确。构建并运行测试的方法如下：\n\n```\nmake test\n.\u002Fbuild\u002Ftest\n```\n\n测试二进制文件还包含针对单个内核的基准测试（可用于使用 `ncu` 进行性能分析），以及用于测量主内存带宽的两个基准测试：\n\n```\n# 内存基准测试\n.\u002Fbuild\u002Ftest -b\n.\u002Fbuild\u002Ftest -b2\n\n# 内核基准测试\n.\u002Fbuild\u002Ftest -k [matmul,mha,ffn]\n```\n\n# 局限性\n\n- 目前仅支持完成模式（此外还有一些测试模式，例如计算给定提示的困惑度或执行【密钥测试】）。聊天界面尚未实现。\n- 需要 NVIDIA GPU。\n- GPU 后端仅支持单个 GPU，且整个模型必须能够完全放入显存。\n- 截至 2024 年 12 月 31 日，仅测试过以下模型：\n  - Mistral-v0.2\n  - Mixtral-v0.1（仅 CPU）\n  - Llama-3.2\n\n# 致谢\n\n- [calm](https:\u002F\u002Fgithub.com\u002Fzeux\u002Fcalm) - 我的许多实现灵感都来源于 Arseny Kapoulkine 的推理引擎。某种程度上，这个项目正是从“理解 calm 及其为何如此高效”这一想法开始的。不过，我尽量使自己的代码更易读，并尽可能从科学角度理解优化技术，因此放弃了一些 calm 中使用的高级技术，比如动态并行性。\n- [llama2.c](https:\u002F\u002Fgithub.com\u002Fkarpathy\u002Fllama2.c) - CPU 后端的部分代码源自 Andrej Karpathy 出色的 C 语言 Llama 推理实现。","# yalm 快速上手指南\n\nyalm (Yet Another Language Model) 是一个基于 C++\u002FCUDA 编写的大语言模型（LLM）推理实现项目。该项目主要作为性能工程和 LLM 推理实现的**教学练习**，代码注重文档化、优化原理的科学解释以及可读性，**不适用于生产环境**。\n\n## 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n\n*   **操作系统**：Linux（推荐，基于提供的安装命令）\n*   **编译器**：支持 C++20 标准的编译器\n*   **GPU 驱动与工具包**：必须安装 NVIDIA CUDA Toolkit（包含 `nvcc` 编译器）\n*   **硬件要求**：需要 NVIDIA GPU，且显存足以容纳整个模型（目前仅支持单卡）\n*   **其他依赖**：\n    *   `git` 和 `git-lfs`（用于下载大模型文件）\n    *   `python3` 及 `pip`（用于模型格式转换）\n    *   Hugging Face 格式的模型权重目录（需转换为 `.yalm` 格式）\n\n> **注意**：本项目目前仅在以下模型上经过测试：Mistral-v0.2、Mixtral-v0.1（仅 CPU）、Llama-3.2。\n\n## 安装步骤\n\n以下以在 Linux 环境下部署 **Mistral-7B-Instruct-v0.2** 为例：\n\n### 1. 安装 Git LFS 并下载模型\n首先安装 Git LFS 插件，然后克隆模型仓库。\n\n```bash\n# 安装 git LFS\ncurl -s https:\u002F\u002Fpackagecloud.io\u002Finstall\u002Frepositories\u002Fgithub\u002Fgit-lfs\u002Fscript.deb.sh | sudo bash\nsudo apt-get -y install git-lfs\n\n# 下载 Mistral 模型 (确保已配置 HF token 或使用镜像源加速)\ngit clone git@hf.co:mistralai\u002FMistral-7B-Instruct-v0.2\n```\n\n### 2. 克隆 yalm 项目并安装 Python 依赖\n```bash\n# 克隆 yalm 仓库\ngit clone git@github.com:andrewkchan\u002Fyalm.git\n\ncd yalm\n\n# 安装必要的 Python 库用于格式转换\npip install -r requirements.txt\n```\n\n### 3. 转换模型格式\n将 Hugging Face 格式的模型权重转换为 yalm 专用的 `.yalm` 二进制文件。\n\n```bash\n# 将模型转换为 FP16 格式的 .yalm 文件\npython convert.py --dtype fp16 mistral-7b-instruct-fp16.yalm ..\u002FMistral-7B-Instruct-v0.2\u002F\n```\n\n### 4. 编译项目\n使用 `make` 编译 C++\u002FCUDA 源代码。\n\n```bash\nmake\n```\n\n## 基本使用\n\n编译完成后，可执行文件位于 `.\u002Fbuild\u002Fmain`。以下是最简单的运行示例，使用 GPU 对给定提示词进行文本补全。\n\n### 运行示例\n```bash\n.\u002Fbuild\u002Fmain mistral-7b-instruct-fp16.yalm -i \"What is a large language model?\" -m c\n```\n\n### 参数说明\n*   `\u003Ccheckpoint>`: 转换后的 `.yalm` 模型文件路径。\n*   `-i \u003Cstring>`: 输入提示词（prompt）。\n*   `-m c`: 运行模式，`c` 代表 completion（文本补全模式）。\n*   `-d [cpu,cuda]`: 指定设备，默认为 `cuda`。\n*   `-n \u003Cint>`: 生成的最大步数（token 数），默认为 256。\n\n### 其他常用模式\n*   **困惑度评估 (Perplexity)**:\n    ```bash\n    .\u002Fbuild\u002Fmain model.yalm -i \"Your text here\" -m perplexity\n    ```\n*   **Passkey 测试**:\n    ```bash\n    .\u002Fbuild\u002Fmain model.yalm -m passkey -n 250\n    ```\n\n如需查看完整帮助文档，请运行：\n```bash\n.\u002Fbuild\u002Fmain -h\n```","某高校高性能计算实验室的研究员正在开展大模型推理底层优化教学，需要向学生展示从权重加载到 CUDA 核函数执行的完整流程。\n\n### 没有 yalm 时\n- **黑盒教学困境**：主流框架（如 Hugging Face）封装过深，学生无法直观看到注意力机制和矩阵乘法的具体实现细节。\n- **依赖环境复杂**：配置生产级推理引擎需安装大量第三方库，环境冲突频发，挤占了原本用于理解算法原理的时间。\n- **性能对比困难**：缺乏轻量级基准代码，难以让学生手动修改算子并立即观测到对吞吐量（tok\u002Fs）的具体影响。\n- **硬件门槛模糊**：现有工具多屏蔽了显存管理细节，学生难以理解“模型必须完全装入 VRAM\"等硬性约束的实际含义。\n\n### 使用 yalm 后\n- **代码即教材**：yalm 仅依赖 C++\u002FCUDA 标准库，其高度注释的源码让学生能逐行追踪从权重加载到 Token 生成的每一步逻辑。\n- **极简构建体验**：只需编译器与 CUDA Toolkit 即可运行，研究员可快速引导学生将 Mistral-7B 权重转换为 `.yalm` 格式并启动推理。\n- **透明性能调优**：内置的核函数基准测试（如 `matmul`, `mha`）允许学生单独剖析算子性能，直观验证优化策略对 RTX 4090 吞吐率的提升。\n- **直面硬件限制**：yaml 强制要求单卡容纳全量模型，迫使学生深入理解显存带宽与模型规模的关系，强化工程边界意识。\n\nyalm 通过剥离所有非必要的抽象层，将大模型推理从“调用 API\"还原为纯粹的“性能工程实践”，成为连接理论与底层实现的理想桥梁。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fandrewkchan_yalm_1246c6d6.png","andrewkchan","Andrew Chan","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fandrewkchan_9d040fa3.jpg",null,"San Francisco","https:\u002F\u002Fandrewkchan.dev\u002F","https:\u002F\u002Fgithub.com\u002Fandrewkchan",[84,88,92,96],{"name":85,"color":86,"percentage":87},"C++","#f34b7d",62.9,{"name":89,"color":90,"percentage":91},"Cuda","#3A4E3A",28,{"name":93,"color":94,"percentage":95},"Python","#3572A5",7.6,{"name":97,"color":98,"percentage":99},"Makefile","#427819",1.6,571,59,"2026-04-04T03:22:32",4,"Linux","必需 NVIDIA GPU，仅支持单卡，整个模型必须能放入显存（VRAM），需安装 CUDA Toolkit (含 nvcc)","未说明",{"notes":108,"python":109,"dependencies":110},"该项目主要用于教育目的，非生产环境使用。需要将 Huggingface 格式的 safetensor 权重转换为 .yalm 格式。目前仅测试支持 Mistral-v0.2、Mixtral-v0.1 (仅 CPU) 和 Llama-3.2 模型。不支持聊天界面，仅支持文本补全、困惑度计算和 Passkey 测试模式。","未说明 (需支持 pip 和 requirements.txt)",[111,112,113,114],"C++20 兼容编译器","CUDA Toolkit","git-lfs","Python packages (见 requirements.txt)",[26,13],[117,118,119,120,121,122,123,124,125],"cpp","cuda","inference-engine","llama","llamacpp","llm","llm-inference","machine-learning","mistral","2026-03-27T02:49:30.150509","2026-04-06T07:12:54.236797",[129,134,138,143,148,152],{"id":130,"question_zh":131,"answer_zh":132,"source_url":133},10008,"运行 Llama-3.2 模型时出现 'stoi' 错误或生成乱码怎么办？","Llama-3.2 使用了略微不同的 RoPE（旋转位置编码）函数，且 Instruct 版本使用三个不同的结束符（eos tokens），导致旧版代码无法正确处理。解决方案是应用以下修复提交：\n1. 修复 RoPE 问题：https:\u002F\u002Fgithub.com\u002Fandrewkchan\u002Fyalm\u002Fcommit\u002Fc337e453544cf2fa50fb97c667242d9cdacc68aa\n2. 支持 Instruct 版本的多个 eos tokens：https:\u002F\u002Fgithub.com\u002Fandrewkchan\u002Fyalm\u002Fcommit\u002F8d310df77485a8432df19c014ee65bab4a0dbd64\n此外，如果不需要 Instruct 版本，可以尝试使用非 Instruct 版本的模型（如 `Llama-3.2-3B`），其 `eos_token_id` 为单个值，兼容性更好。","https:\u002F\u002Fgithub.com\u002Fandrewkchan\u002Fyalm\u002Fissues\u002F10",{"id":135,"question_zh":136,"answer_zh":137,"source_url":133},10009,"如何为 yalm 项目启用 INT8 量化支持？","INT8 支持已通过特定提交加入，该功能使用分组缩放（grouped scaling）。要使用此功能：\n1. 应用此提交以启用 INT8 支持：https:\u002F\u002Fgithub.com\u002Fandrewkchan\u002Fyalm\u002Fcommit\u002F6d58c766ee480fa20a47288e62362a87fc2053e1\n2. 必须使用更新后的 `convert.py` 脚本将模型转换为量化格式（存储为 yalm 格式）。\n3. 生成的量化模型可由 yalm 二进制文件直接加载运行。",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},10010,"使用小滑动窗口长度（如 -T 10）运行时程序崩溃，报错 'invalid argument' 怎么办？","这是由于 `rotate_sink_tokens` 内核未正确添加到 CUDA Graph 中导致的。当上下文窗口较小时，KV cache 旋转逻辑会尝试更新一个不存在的节点从而引发崩溃。维护者已修复此问题，方法是无条件地将该内核添加到图中。请应用以下修复提交：https:\u002F\u002Fgithub.com\u002Fandrewkchan\u002Fyalm\u002Fcommit\u002F6cd1ef6e7d6b9f724b6d98a63b273f903928ad2f。修复后，即使使用 `-T 10` 等小上下文参数也能正常运行（尽管模型表现可能因上下文过短而变差）。","https:\u002F\u002Fgithub.com\u002Fandrewkchan\u002Fyalm\u002Fissues\u002F9",{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},10011,"在 CPU 模式下进行推理时遇到崩溃或初始化错误如何解决？","这是一个已知 Bug，原因是对于非 MoE（混合专家）模型，`InferenceState` 类没有正确初始化 `_active_experts` 和 `_active_experts_weights` 变量。维护者已在代码中修复了此初始化遗漏问题。请拉取最新代码或应用以下修复提交：https:\u002F\u002Fgithub.com\u002Fandrewkchan\u002Fyalm\u002Fcommit\u002F61068a87bc3bf73c64e7a85e1d009ead6a7b1cb9。","https:\u002F\u002Fgithub.com\u002Fandrewkchan\u002Fyalm\u002Fissues\u002F7",{"id":149,"question_zh":150,"answer_zh":151,"source_url":133},10012,"为什么我的 Llama-3.2 模型能运行但输出全是乱码？","这通常是因为模型架构中的 RoPE（旋转位置编码）实现与 Llama-3.2 的新特性不匹配。虽然代码可能成功加载模型并启动推理，但由于位置编码计算错误，生成的 token 序列是无意义的乱码。请务必应用针对 Llama-3.2 RoPE 修正的提交：https:\u002F\u002Fgithub.com\u002Fandrewkchan\u002Fyalm\u002Fcommit\u002Fc337e453544cf2fa50fb97c667242d9cdacc68aa。应用该补丁后重新编译并运行模型即可解决乱码问题。",{"id":153,"question_zh":154,"answer_zh":155,"source_url":133},10013,"如何处理 Llama-3.2 Instruct 模型中 eos_token_id 是数组而不是整数的问题？","Llama-3.2 Instruct 变体使用三个不同的结束符（eos tokens），因此其 `eos_token_id` 是一个列表而非单个整数，旧版代码解析时会报错。解决方法是应用支持读取 eos token 数组的提交：https:\u002F\u002Fgithub.com\u002Fandrewkchan\u002Fyalm\u002Fcommit\u002F8d310df77485a8432df19c014ee65bab4a0dbd64。该更新允许系统正确读取并处理包含多个 end-of-sequence token 的配置。",[]]