[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-feifeibear--LLMSpeculativeSampling":3,"tool-feifeibear--LLMSpeculativeSampling":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",143909,2,"2026-04-07T11:33:18",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":77,"owner_email":78,"owner_twitter":79,"owner_website":80,"owner_url":81,"languages":82,"stars":87,"forks":88,"last_commit_at":89,"license":90,"difficulty_score":10,"env_os":91,"env_gpu":92,"env_ram":93,"env_deps":94,"category_tags":98,"github_topics":79,"view_count":32,"oss_zip_url":79,"oss_zip_packed_at":79,"status":17,"created_at":99,"updated_at":100,"faqs":101,"releases":131},5149,"feifeibear\u002FLLMSpeculativeSampling","LLMSpeculativeSampling","Fast inference from large lauguage models via speculative decoding","LLMSpeculativeSampling 是一个旨在加速大型语言模型推理的开源项目，核心采用了“投机采样”（Speculative Decoding）技术。它巧妙地将一个小模型（近似模型）和一个大模型（目标模型）结合使用：由小模型快速生成候选词，大模型并行验证并修正这些猜测。这种机制有效解决了传统大模型逐字生成速度慢、计算资源消耗高的问题，在保持输出质量的同时显著提升了推理效率。\n\n该项目同时实现了 Google 和 DeepMind 提出的两种略有不同的投机采样算法，并支持 KV Cache 优化及服务化部署功能。虽然目前主要面向单批次请求且侧重于算法演示，但它为探索模型协同推理提供了宝贵的参考实现。LLMSpeculativeSampling 特别适合 AI 研究人员、开发者以及对大模型推理优化感兴趣的技术人员使用。通过合理搭配大小模型（如 Llama2-7B 与 70B），用户可以在实际场景中观察到明显的速度提升，是深入理解前沿推理加速技术的理想工具。","# Fast inference from transformers via speculative decoding\n\nThis repository implements speculative sampling for large language model (LLM) decoding. It utilizes two models during the decoding process: a target model and an approximation model. The approximation model is a smaller model, while the target model is a larger one. The approximation model generates token guesses, and the target model corrects these guesses. This approach allows for decoding by running the target model in parallel on the outputs of the approximation models, resulting in improved efficiency compared to decoding with the target model alone.\n\nThe speculative sampling is proposed by Google and Deepmind independently. So I implement two slightly different versions of speculative sampling: [Google's](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.17192) and [Deepmind's](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.01318).\n\n## Update Logs\n\n- 2023.09.21: Add serving features. Support more models, i.e. llama-7B and llama-1B.\n\n- 2023.09.19: Add KV Cache Optimization to the Google's version.\n\n- 2023.08.16: First release, implement the paper's algorithm. Support Bloom-560M and Bloomz-7B1.\n\n## Usage\n### Inference\nYou need prepare a pair of models using the same embedding and vocabulary. The approximation model should be smaller than the target model. Here are some\ntested model pairs.\n\n\n\u003C\u002Fcenter>\n\nIn the sample, we demostrate [bloomz-7b1](https:\u002F\u002Fhuggingface.co\u002Fbigscience\u002Fbloomz-7b1\u002Ftree\u002Fmain) as the target model, [bloom-560m](https:\u002F\u002Fhuggingface.co\u002Fbigscience\u002Fbloom-560m\u002Ftree\u002Fmain) as the approximation model. \n\n```bash\npython main.py \\\n    --input \"The quick brown fox jumps over the lazy \" \\\n    --target_model_name bigscience\u002Fbloomz-7b1 \\\n    --approx_model_name bigscience\u002Fbloom-560m\n```\n\nYou can also use `-v` args to see a token is generated by which model.\n\n![example image](.\u002Fimgs\u002Fsps.jpg \"console output\")\n\nI recommand you to use llama2-7B and llama2-70B as the approximation and target model respectively. I did observe speedup on this case as shown in the following.\nNote the choice of approx model and target model are essential for the speedup. The speedup will not be observed in the following cases:\nIf the models are both small ones, the speedup will not be observed since the speed differences are not significant.\nIf the model size difference is too large, more rejection and resampling will occure.\nAlso the sampling logic is not efficient enough. I noticed substantial overhead is on Softmax and Layernorm. I will try to optimize it in the future.\nDo not histant to open an idea on performance improvements.\n\n|    | llama2-7b | llama2-70b | Speculative |\n|--------------|:--------------:|:--------------:|:--------------:|\n| speed(tokens\u002Fsec) | 1084.86 | 329.83 | 427.02 |\n\n### Serving\nStart an inference server.\n```bash\npython serving.py\n```\n\nTest the serving with curl:\n```bash\ncurl -X POST -H \"Content-Type: application\u002Fjson\" -d '{\"prompt\": \"Who is the president of the USA\"}' http:\u002F\u002F127.0.0.1:5000\u002Fpredict\n```\n## References\n```\n@inproceedings{leviathan2023fast,\n  title={Fast inference from transformers via speculative decoding},\n  author={Leviathan, Yaniv and Kalman, Matan and Matias, Yossi},\n  booktitle={International Conference on Machine Learning},\n  pages={19274--19286},\n  year={2023},\n  organization={PMLR}\n}\n\n@article{chen2023accelerating,\n  title={Accelerating large language model decoding with speculative sampling},\n  author={Chen, Charlie and Borgeaud, Sebastian and Irving, Geoffrey and Lespiau, Jean-Baptiste and Sifre, Laurent and Jumper, John},\n  journal={arXiv preprint arXiv:2302.01318},\n  year={2023}\n}\n```\n\n## Limitations\nCurrently, I only support request of batch size as 1.\nSince this repo is built for demostration purpose, other optimizations, such as batching and parallelism, are not included which are essential for efficiency.","# 通过推测解码实现 Transformer 的快速推理\n\n本仓库实现了用于大型语言模型（LLM）解码的推测采样方法。在解码过程中，该方法会同时使用两个模型：目标模型和近似模型。其中，近似模型通常较小，而目标模型则较大。近似模型负责生成候选 token，目标模型则对这些候选进行校验和修正。通过让目标模型并行处理近似模型的输出，这种方法能够显著提升解码效率，相比仅使用目标模型单独解码更为高效。\n\n推测采样由 Google 和 DeepMind 分别独立提出。因此，我实现了两种略有不同的推测采样版本：[Google 的](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.17192) 和 [DeepMind 的](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.01318)。\n\n## 更新日志\n\n- 2023年9月21日：添加服务端功能，支持更多模型，如 llama-7B 和 llama-1B。\n- 2023年9月19日：为 Google 版本添加 KV 缓存优化。\n- 2023年8月16日：首次发布，实现论文中的算法，支持 Bloom-560M 和 Bloomz-7B1。\n\n## 使用方法\n### 推理\n你需要准备一对具有相同嵌入层和词汇表的模型，其中近似模型应小于目标模型。以下是一些经过测试的模型组合。\n\n\u003C\u002Fcenter>\n\n在示例中，我们以 [bloomz-7b1](https:\u002F\u002Fhuggingface.co\u002Fbigscience\u002Fbloomz-7b1\u002Ftree\u002Fmain) 作为目标模型，[bloom-560m](https:\u002F\u002Fhuggingface.co\u002Fbigscience\u002Fbloom-560m\u002Ftree\u002Fmain) 作为近似模型。\n\n```bash\npython main.py \\\n    --input \"The quick brown fox jumps over the lazy \" \\\n    --target_model_name bigscience\u002Fbloomz-7b1 \\\n    --approx_model_name bigscience\u002Fbloom-560m\n```\n\n你还可以使用 `-v` 参数查看每个 token 是由哪个模型生成的。\n\n![示例图片](.\u002Fimgs\u002Fsps.jpg \"控制台输出\")\n\n我建议将 llama2-7B 和 llama2-70B 分别用作近似模型和目标模型。在这种情况下，我确实观察到了速度提升，如下所示。需要注意的是，近似模型和目标模型的选择对加速效果至关重要。如果两个模型都较小，则由于速度差异不明显，可能无法观察到加速；而如果模型规模差距过大，则会导致更多的拒绝和重采样操作。此外，当前的采样逻辑还不够高效，我发现 Softmax 和 LayerNorm 操作带来了较大的开销，未来我会尝试进一步优化。欢迎提出性能改进的建议。\n\n|    | llama2-7b | llama2-70b | 推测采样 |\n|--------------|:--------------:|:--------------:|:--------------:|\n| 速度（tokens\u002F秒） | 1084.86 | 329.83 | 427.02 |\n\n### 服务端\n启动推理服务器：\n```bash\npython serving.py\n```\n\n使用 curl 测试服务端：\n```bash\ncurl -X POST -H \"Content-Type: application\u002Fjson\" -d '{\"prompt\": \"Who is the president of the USA\"}' http:\u002F\u002F127.0.0.1:5000\u002Fpredict\n```\n\n## 参考文献\n```\n@inproceedings{leviathan2023fast,\n  title={Fast inference from transformers via speculative decoding},\n  author={Leviathan, Yaniv and Kalman, Matan and Matias, Yossi},\n  booktitle={International Conference on Machine Learning},\n  pages={19274--19286},\n  year={2023},\n  organization={PMLR}\n}\n\n@article{chen2023accelerating,\n  title={Accelerating large language model decoding with speculative sampling},\n  author={Chen, Charlie and Borgeaud, Sebastian and Irving, Geoffrey and Lespiau, Jean-Baptiste and Sifre, Laurent and Jumper, John},\n  journal={arXiv preprint arXiv:2302.01318},\n  year={2023}\n}\n```\n\n## 局限性\n目前，我仅支持批量大小为 1 的请求。由于本仓库主要用于演示目的，其他重要的优化措施，例如批处理和并行化，并未包含在内，而这些措施对于提升效率至关重要。","# LLMSpeculativeSampling 快速上手指南\n\nLLMSpeculativeSampling 是一个通过“推测解码”（Speculative Decoding）技术加速大语言模型（LLM）推理的开源工具。它利用一个小模型（近似模型）生成候选 token，再由一个大模型（目标模型）进行并行验证和修正，从而在保持输出质量的同时显著提升推理速度。\n\n## 环境准备\n\n*   **系统要求**：Linux 或 macOS（推荐 Linux），具备 CUDA 支持的 NVIDIA GPU（用于加速推理）。\n*   **前置依赖**：\n    *   Python 3.8+\n    *   PyTorch (支持 CUDA)\n    *   Transformers 库\n    *   Hugging Face Hub 访问权限（需能下载模型权重）\n*   **模型要求**：需要准备一对**词表（Vocabulary）和嵌入层（Embedding）完全一致**的模型。\n    *   **目标模型 (Target Model)**：较大的模型（如 Llama-2-70B, Bloomz-7B1）。\n    *   **近似模型 (Approx Model)**：较小的模型（如 Llama-2-7B, Bloom-560M）。\n    *   *注意：如果两个模型规模差异过大或过小，可能无法观察到明显的加速效果。*\n\n> **国内加速建议**：若下载 Hugging Face 模型受阻，建议配置镜像源或使用国内加速工具（如 `hf-mirror` 或在代码中设置 `HF_ENDPOINT` 环境变量）。\n> ```bash\n> export HF_ENDPOINT=https:\u002F\u002Fhf-mirror.com\n> ```\n\n## 安装步骤\n\n克隆仓库并安装必要的 Python 依赖：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fhemingkx\u002FLLMSpeculativeSampling.git\ncd LLMSpeculativeSampling\npip install -r requirements.txt\n```\n\n*(注：若仓库根目录无 `requirements.txt`，请手动安装核心依赖：`pip install torch transformers accelerate`)*\n\n## 基本使用\n\n### 1. 命令行推理示例\n\n以下示例演示如何使用 `bloomz-7b1` 作为目标模型，`bloom-560m` 作为近似模型进行文本生成。\n\n```bash\npython main.py \\\n    --input \"The quick brown fox jumps over the lazy \" \\\n    --target_model_name bigscience\u002Fbloomz-7b1 \\\n    --approx_model_name bigscience\u002Fbloom-560m\n```\n\n*   **查看详细信息**：添加 `-v` 参数可以查看每个 token 是由哪个模型生成的（有助于调试和分析加速效果）。\n    ```bash\n    python main.py -v --input \"...\" --target_model_name ... --approx_model_name ...\n    ```\n\n*   **推荐组合**：根据作者测试，使用 `llama2-7B` (近似) 和 `llama2-70B` (目标) 能获得较好的加速比。\n\n### 2. 启动推理服务 (Serving)\n\n你可以启动一个本地 HTTP 服务来调用该功能。\n\n**启动服务：**\n```bash\npython serving.py\n```\n\n**发送请求测试：**\n```bash\ncurl -X POST -H \"Content-Type: application\u002Fjson\" -d '{\"prompt\": \"Who is the president of the USA\"}' http:\u002F\u002F127.0.0.1:5000\u002Fpredict\n```\n\n> **当前限制**：目前版本仅支持 batch size 为 1 的请求，尚未包含批处理（batching）等高级优化。","某初创团队正在开发一款基于大模型的实时法律条文检索助手，需要在用户输入问题的瞬间生成精准的法律解读。\n\n### 没有 LLMSpeculativeSampling 时\n- **响应延迟明显**：直接调用 70B 参数量的目标模型进行逐字生成，首字等待时间长，用户感觉系统“卡顿”，体验流畅度低。\n- **算力成本高昂**：为了维持可接受的并发量，不得不部署大量昂贵的 GPU 资源来支撑大模型的串行推理，运营压力巨大。\n- **小模型精度不足**：若为追求速度仅使用 7B 小模型，生成的法律术语不够严谨，经常出现幻觉或逻辑漏洞，无法满足专业场景需求。\n- **资源利用率低**：大模型在生成每个 token 时都在串行等待，GPU 计算单元无法充分并行工作，造成硬件算力的浪费。\n\n### 使用 LLMSpeculativeSampling 后\n- **推理速度显著提升**：利用 7B 小模型快速“猜测”后续多个词，再由 70B 大模型并行验证，实测生成速度从 329 tokens\u002Fsec 提升至 427 tokens\u002Fsec，响应更丝滑。\n- **兼顾速度与质量**：既保留了大模型在法律逻辑上的严谨性，又获得了接近小模型的生成速率，完美平衡了专业度与实时性。\n- **降低单位算力成本**：在相同硬件配置下可支持更多并发请求，减少了为应对延迟而额外扩容的服务器开支。\n- **优化硬件效率**：通过将串行的验证过程转化为并行计算，大幅减少了 Softmax 等操作的等待时间，让昂贵的 GPU 算力跑得更满。\n\nLLMSpeculativeSampling 通过“小模型猜想、大模型验证”的机制，在不牺牲生成质量的前提下，打破了大模型实时应用的性能瓶颈。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffeifeibear_LLMSpeculativeSampling_44b5d615.png","feifeibear","Jiarui Fang（方佳瑞）","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Ffeifeibear_8e536dfd.jpg","Democratizing AGI","ByteDance","Shanghai, China","fangjiarui123@gmail.com",null,"https:\u002F\u002Ffangjiarui.github.io\u002F","https:\u002F\u002Fgithub.com\u002Ffeifeibear",[83],{"name":84,"color":85,"percentage":86},"Python","#3572A5",100,911,96,"2026-04-02T15:04:17","Apache-2.0","","未说明（需运行大型语言模型，通常隐含需要 NVIDIA GPU 及 CUDA 支持）","未说明（运行 llama2-70B 等大模型通常需要大量内存\u002F显存）",{"notes":95,"python":96,"dependencies":97},"README 未明确列出具体的操作系统、Python 版本或依赖库列表。该工具核心逻辑是使用一个小模型（近似模型）和一个大模型（目标模型）进行协同推理，两者必须使用相同的嵌入层和词表（例如 bloomz-7b1 搭配 bloom-560m，或 llama2-7B 搭配 llama2-70B）。目前仅支持批量大小（batch size）为 1 的请求。作者指出若模型过小或大小差异过大可能导致加速效果不明显，且当前实现中 Softmax 和 Layernorm 存在较大开销。","未说明",[],[35,14],"2026-03-27T02:49:30.150509","2026-04-08T00:57:58.865189",[102,107,112,117,122,127],{"id":103,"question_zh":104,"answer_zh":105,"source_url":106},23363,"Speculative Sampling 的输出结果为什么与目标模型（Target Model）的自回归输出不完全一致？","这是正常现象。Speculative Sampling 保证的是采样的概率分布与目标模型完全一致，而不是每一步生成的 token 序列与自回归采样完全相同。只要概率分布等价，最终生成的文本质量和逻辑是一致的，不会造成损失，可以直接用于对话任务（如 ChatGLM）。","https:\u002F\u002Fgithub.com\u002Ffeifeibear\u002FLLMSpeculativeSampling\u002Fissues\u002F1",{"id":108,"question_zh":109,"answer_zh":110,"source_url":111},23364,"如何选择草稿模型（Approx Model）以获得最佳性能？如果草稿模型生成重复词语怎么办？","无论使用何种草稿模型，Speculative Sampling 都能保证生成分布与目标模型一致。但如果草稿模型质量较差（如生成重复词语），会导致拒绝采样率变高，从而降低加速效果。建议选择一个与目标模型架构相似、且使用相同分词器（Tokenizer）的草稿模型。例如，如果目标模型是 Llama-2，尽量寻找基于 Llama-2 架构的小模型，避免混用 Llama-1 架构模型或词表大小不一致的模型。","https:\u002F\u002Fgithub.com\u002Ffeifeibear\u002FLLMSpeculativeSampling\u002Fissues\u002F16",{"id":113,"question_zh":114,"answer_zh":115,"source_url":116},23365,"运行代码时遇到设备不匹配错误（RuntimeError: Expected all tensors to be on the same device），如何解决？","该错误通常是因为模型加载时自动分配了设备，导致张量位于不同的 GPU 上。解决方法是：在加载模型时移除 `device_map=\"auto\"` 参数，并手动将模型移动到指定设备。例如，在代码中添加 `.to(device)` 或 `.to(torch_device)`。注意，这种手动指定设备的方法可能无法直接利用多 GPU 并行推理。","https:\u002F\u002Fgithub.com\u002Ffeifeibear\u002FLLMSpeculativeSampling\u002Fissues\u002F21",{"id":118,"question_zh":119,"answer_zh":120,"source_url":121},23366,"为什么在使用小模型作为草稿模型时，Speculative Sampling 的速度反而比原始目标模型更慢？","Speculative Sampling 的加速核心在于并行计算能力和 KV Cache 的高效利用。如果草稿模型过小或者硬件未能充分利用并行计算优势，加上验证步骤的开销，可能导致总耗时增加。确保草稿模型足够快，且硬件环境支持高效的并行推理是关键。此外，草稿模型与目标模型的相似度越高，接受率越高，加速效果越明显。","https:\u002F\u002Fgithub.com\u002Ffeifeibear\u002FLLMSpeculativeSampling\u002Fissues\u002F2",{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},23367,"Speculative Sampling 算法实现中，目标模型 Logits 的计算方式是否与论文伪代码一致？","代码实现参考了 Hugging Face Transformers 库的标准做法。关于 Attention Mask 的处理，虽然代码中可能显示全 1，但底层调用的 `torch.nn.functional.scaled_dot_product_attention` 函数在 `is_causal=True` 时会自动应用因果掩码（下三角掩码），这与论文逻辑是一致的。对于 Logits 的比较，代码逻辑确保了在给定上下文下的概率分布比对，符合算法原理。","https:\u002F\u002Fgithub.com\u002Ffeifeibear\u002FLLMSpeculativeSampling\u002Fissues\u002F29",{"id":128,"question_zh":129,"answer_zh":130,"source_url":106},23368,"该项目是否支持多 Batch 处理？","截至目前的讨论，多 Batch 支持仍有待研究和完善，官方尚未明确给出稳定的多 Batch 实现方案。建议在使用时先以单 Batch 模式运行以确保稳定性。",[132,137],{"id":133,"version":134,"summary_zh":135,"released_at":136},144877,"0.1.1","添加推理逻辑。你可以将基于Bloom的LLM推测采样作为一个服务端部署并启动。","2023-09-21T03:53:33",{"id":138,"version":139,"summary_zh":140,"released_at":141},144878,"0.1.0","使用 Bloom 560M 和 7B-1 模型演示推测采样。\n支持 KV 缓存优化。\n仅适用于批大小为 1 的情况。","2023-09-19T08:07:13"]