[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-evanmiller--LLM-Reading-List":3,"tool-evanmiller--LLM-Reading-List":64},[4,17,27,35,44,52],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",140436,2,"2026-04-05T23:32:43",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":10,"last_commit_at":41,"category_tags":42,"status":16},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[13,14,15,43],"视频",{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":23,"last_commit_at":50,"category_tags":51,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":53,"name":54,"github_repo":55,"description_zh":56,"stars":57,"difficulty_score":23,"last_commit_at":58,"category_tags":59,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,60,43,61,15,62,26,13,63],"数据工具","插件","其他","音频",{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":80,"owner_email":81,"owner_twitter":82,"owner_website":83,"owner_url":84,"languages":85,"stars":86,"forks":87,"last_commit_at":88,"license":85,"difficulty_score":89,"env_os":90,"env_gpu":91,"env_ram":91,"env_deps":92,"category_tags":95,"github_topics":85,"view_count":23,"oss_zip_url":85,"oss_zip_packed_at":85,"status":16,"created_at":96,"updated_at":97,"faqs":98,"releases":99},4121,"evanmiller\u002FLLM-Reading-List","LLM-Reading-List","LLM papers I'm reading, mostly on inference and model compression","LLM-Reading-List 是一份专注于大语言模型（LLM）推理优化与模型压缩领域的精选论文清单。它旨在解决研究人员和开发者在海量学术文献中难以快速定位核心资料、追踪前沿技术演进的痛点，通过系统化的分类整理，帮助用户高效构建知识体系。\n\n这份清单特别适合 AI 研究人员、算法工程师以及对模型轻量化感兴趣的技术爱好者使用。其独特亮点在于不仅涵盖了从经典的 Transformer 架构到最新的 Mamba 状态空间模型等基础理论，更深度聚焦于提升推理效率的关键技术，如 KV Cache 优化（vLLM、FlashAttention）、激活函数改进、模型剪枝（SparseGPT、Wanda）以及量化策略（LLM.int8()）。无论是想深入了解位置编码的演进，还是寻求在消费级显卡上部署大模型的方案，LLM-Reading-List 都提供了从经典奠基之作到 2023 年最新突破的清晰脉络，是探索高效大模型技术的实用导航。","Just helping myself keep track of LLM papers that I‘m reading, with an emphasis on inference and model compression.\n\nTransformer Architectures\n\n* [Attention Is All You Need](https:\u002F\u002Farxiv.org\u002Fabs\u002F1706.03762)\n* [Fast Transformer Decoding: One Write-Head is All You Need](https:\u002F\u002Farxiv.org\u002Fabs\u002F1911.02150) - Multi-Query Attention\n* [Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context](https:\u002F\u002Farxiv.org\u002Fabs\u002F1901.02860)\n* [Augmenting Self-attention with Persistent Memory](https:\u002F\u002Farxiv.org\u002Fabs\u002F1907.01470) (Meta 2019)\n* [MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.07185) (Meta 2023)\n* [Hyena Hierarchy: Towards Larger Convolutional Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.10866)\n\nFoundation Models\n\n* [LLaMA: Open and Efficient Foundation Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.13971)\n* [PaLM: Scaling Language Modeling with Pathways](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.02311)\n* [GPT-NeoX-20B: An Open-Source Autoregressive Language Model](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.06745)\n* [Language Models are Unsupervised Multitask Learners](https:\u002F\u002Fd4mucfpksywv.cloudfront.net\u002Fbetter-language-models\u002Flanguage_models_are_unsupervised_multitask_learners.pdf) (OpenAI) - GPT-2\n* [BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.13461)\n* [OpenLLaMA: An Open Reproduction of LLaMA](https:\u002F\u002Fgithub.com\u002Fopenlm-research\u002Fopen_llama)\n* [Llama 2: Open Foundation and Fine-Tuned Chat Models](https:\u002F\u002Fai.meta.com\u002Fresearch\u002Fpublications\u002Fllama-2-open-foundation-and-fine-tuned-chat-models\u002F)\n* [DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.01108)\n* [Mamba: Linear-Time Sequence Modeling with Selective State Spaces](https:\u002F\u002Fgithub.com\u002Fstate-spaces\u002Fmamba)\n\nPosition Encoding\n\n* [Self-Attention with Relative Position Representations](https:\u002F\u002Farxiv.org\u002Fabs\u002F1803.02155)\n* [RoFormer: Enhanced Transformer with Rotary Position Embedding](https:\u002F\u002Farxiv.org\u002Fabs\u002F2104.09864) - RoPE\n* [Transformer Language Models without Positional Encodings Still Learn Positional Information](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.16634) - NoPE\n* [Rectified Rotary Position Embeddings](https:\u002F\u002Fgithub.com\u002Fbojone\u002Frerope) - ReRoPE\n\nKV Cache\n\n* [H2O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.14048) (Jun. 2023)\n* [vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention](https:\u002F\u002Fvllm.ai)\n* [FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.14135)\n\nActivation\n\n* [Searching for Activation Functions](https:\u002F\u002Farxiv.org\u002Fabs\u002F1710.05941)\n* [GLU Variants Improve Transformer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2002.05202)\n* [PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU](https:\u002F\u002Fgithub.com\u002FSJTU-IPADS\u002FPowerInfer)\n\nPruning\n\n* [Optimal Brain Damage](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper\u002F1989\u002Fhash\u002F6c9882bbac1c7093bd25041881277658-Abstract.html) (1990)\n* [Optimal Brain Surgeon](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper\u002F1992\u002Ffile\u002F303ed4c69846ab36c2904d3ba8573050-Paper.pdf) (1993)\n* [Optimal Brain Compression: A Framework for Accurate Post-Training Quantization and Pruning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.11580) (Jan. 2023) - Introduces Optimal Brain Quantization based on the Optimal Brain Surgeon\n* [Learning to Prune Deep Neural Networks via Layer-wise Optimal Brain Surgeon](https:\u002F\u002Farxiv.org\u002Fabs\u002F1705.07565)\n* [SparseGPT: Massive Language Models Can Be Accurately Pruned in One-Shot](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.00774)\n* [A Simple and Effective Pruning Approach for Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.11695) - Introduces Wanda (pruning with Weights and Activations)\n\nQuantization\n\n* [LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale](https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.07339) - Quantization with outlier handling. Might be solving the wrong problem - see \"Quantizable Transformers\" below.\n* [SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.10438) - Another approach to quantization with outliers\n* [Up or Down? Adaptive Rounding for Post-Training Quantization](https:\u002F\u002Farxiv.org\u002Fabs\u002F2004.10568) (Qualcomm 2020) - Introduces AdaRound\n* [Understanding and Overcoming the Challenges of Efficient Transformer Quantization](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.12948) (Qualcomm 2021)\n* [QuIP: 2-Bit Quantization of Large Language Models With Guarantees](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.13304) (Cornell Jul. 2023) - Introduces incoherence processing\n* [SqueezeLLM: Dense-and-Sparse Quantization](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.07629) (Berkeley Jun. 2023)\n* [Intriguing Properties of Quantization at Scale](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.19268) (Cohere May 2023)\n* [Pruning vs Quantization: Which is Better?](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.02973) (Qualcomm Jul. 2023)\n\nNormalization\n\n* [Root Mean Square Layer Normalization](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.07467)\n* [Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.12929) - Introduces gated attention and argues that outliers are a consequence of normalization\n\nSparsity and rank compression\n\n* [Compressing Pre-trained Language Models by Decomposition](https:\u002F\u002Faclanthology.org\u002F2020.aacl-main.88\u002F) - vanilla SVD composition to reduce matrix sizes\n* [Language model compression with weighted low-rank factorization](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.00112) - Fisher information-weighted SVD\n* [Numerical Optimizations for Weighted Low-rank Estimation on Language Model](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.09718) - Iterative implementation for the above\n* [Weighted Low-Rank Approximation](https:\u002F\u002Fcdn.aaai.org\u002FICML\u002F2003\u002FICML03-094.pdf) (2003)\n* [Transformers learn through gradual rank increase](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.07042)\n* [Pixelated Butterfly: Simple and Efficient Sparse training for Neural Network Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.00029)\n* [Scatterbrain: Unifying Sparse and Low-rank Attention Approximation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.15343)\n* [LoSparse: Structured Compression of Large Language Models based on Low-Rank and Sparse Approximation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.11222)\n* [LadaBERT: Lightweight Adaptation of BERT through Hybrid Model Compression](https:\u002F\u002Farxiv.org\u002Fabs\u002F2004.04124)\n* [KroneckerBERT: Learning Kronecker Decomposition for Pre-trained Language Models via Knowledge Distillation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.06243)\n* [TRP: Trained Rank Pruning for Efficient Deep Neural Networks](https:\u002F\u002Farxiv.org\u002Fabs\u002F2004.14566) - Introduces energy-pruning ratio\n\nFine-tuning\n\n* [LoRA: Low-Rank Adaptation of Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2106.09685)\n* [QLoRA: Efficient Finetuning of Quantized LLMs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14314)\n* [DyLoRA: Parameter Efficient Tuning of Pre-trained Models using Dynamic Search-Free Low-Rank Adaptation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.07558) - works over a range of ranks\n* [Full Parameter Fine-tuning for Large Language Models with Limited Resources](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.09782)\n\nSampling\n\n* [Mirostat: A Neural Text Decoding Algorithm that Directly Controls Perplexity](https:\u002F\u002Farxiv.org\u002Fabs\u002F2007.14966)\n* [Stay on topic with Classifier-Free Guidance](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.17806)\n\nScaling\n\n* [Efficiently Scaling Transformer Inference](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.05102) (Google Nov. 2022) - Pipeline and tensor parallelization for inference\n* [Megatron-LM](https:\u002F\u002Farxiv.org\u002Fabs\u002F1909.08053) (Nvidia Mar. 2020) - Intra-layer parallelism for training\n\nMixture of Experts\n\n* [Adaptive Mixtures of Local Experts](https:\u002F\u002Fgithub.com\u002Fmtotolo\u002Fnnetworks_HG\u002Fblob\u002Fmaster\u002FAdaptive-mixtures-of-local-experts.pdf) (1991, remastered PDF)\n* [Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer](https:\u002F\u002Farxiv.org\u002Fabs\u002F1701.06538) (Google 2017)\n* [Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity](https:\u002F\u002Farxiv.org\u002Fabs\u002F2101.03961) (Google 2022)\n* [Go Wider Instead of Deeper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2107.11817)\n\nWatermarking\n\n* [A Watermark for Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.10226)\n\n\nMore\n\n* [Efficient Deep Learning Systems: Week 9, Compression](https:\u002F\u002Fgithub.com\u002Fmryab\u002Fefficient-dl-systems\u002Ftree\u002Fmain\u002Fweek09_compression)\n* [The Transformer Family Version 2.0](https:\u002F\u002Flilianweng.github.io\u002Fposts\u002F2023-01-27-the-transformer-family-v2\u002F) (Lilian Weng)\n* [Large Transformer Model Inference Optimization](https:\u002F\u002Flilianweng.github.io\u002Fposts\u002F2023-01-10-inference-optimization\u002F) (Lilian Weng)\n","只是帮助自己记录正在阅读的大型语言模型相关论文，重点关注推理和模型压缩领域。\n\nTransformer 架构\n\n* [Attention Is All You Need](https:\u002F\u002Farxiv.org\u002Fabs\u002F1706.03762)\n* [Fast Transformer Decoding: One Write-Head is All You Need](https:\u002F\u002Farxiv.org\u002Fabs\u002F1911.02150) - 多查询注意力\n* [Transformer-XL: 超越固定长度上下文的注意力语言模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F1901.02860)\n* [通过持久化内存增强自注意力](https:\u002F\u002Farxiv.org\u002Fabs\u002F1907.01470)（Meta 2019）\n* [MEGABYTE：利用多尺度 Transformer 预测百万字节序列](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.07185)（Meta 2023）\n* [Hyena 层次结构：迈向更大的卷积语言模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.10866)\n\n基础模型\n\n* [LLaMA：开放且高效的语言基础模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.13971)\n* [PaLM：通过 Pathways 扩展语言建模规模](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.02311)\n* [GPT-NeoX-20B：开源自回归语言模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.06745)\n* [语言模型是无监督的多任务学习者](https:\u002F\u002Fd4mucfpksywv.cloudfront.net\u002Fbetter-language-models\u002Flanguage_models_are_unsupervised_multitask_learners.pdf)（OpenAI）- GPT-2\n* [BART：用于自然语言生成、翻译和理解的去噪序列到序列预训练](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.13461)\n* [OpenLLaMA：LLaMA 的开源复现](https:\u002F\u002Fgithub.com\u002Fopenlm-research\u002Fopen_llama)\n* [Llama 2：开放的基础模型和微调后的聊天模型](https:\u002F\u002Fai.meta.com\u002Fresearch\u002Fpublications\u002Fllama-2-open-foundation-and-fine-tuned-chat-models\u002F)\n* [DistilBERT：BERT 的蒸馏版本，更小、更快、更便宜、更轻](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.01108)\n* [Mamba：基于选择性状态空间的线性时间序列建模](https:\u002F\u002Fgithub.com\u002Fstate-spaces\u002Fmamba)\n\n位置编码\n\n* [带有相对位置表示的自注意力](https:\u002F\u002Farxiv.org\u002Fabs\u002F1803.02155)\n* [RoFormer：采用旋转位置嵌入的增强型 Transformer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2104.09864) - RoPE\n* [无需位置编码的 Transformer 语言模型仍能学习位置信息](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.16634) - NoPE\n* [修正的旋转位置嵌入](https:\u002F\u002Fgithub.com\u002Fbojone\u002Frerope) - ReRoPE\n\nKV 缓存\n\n* [H2O：高效生成式推理的大语言模型重频词典](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.14048)（2023年6月）\n* [vLLM：使用 PagedAttention 实现简单、快速、廉价的 LLM 服务](https:\u002F\u002Fvllm.ai)\n* [FlashAttention：具有 I\u002FO 感知能力的快速且内存高效的精确注意力计算](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.14135)\n\n激活函数\n\n* [寻找激活函数](https:\u002F\u002Farxiv.org\u002Fabs\u002F1710.05941)\n* [GLU 变体改进 Transformer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2002.05202)\n* [PowerInfer：使用消费级 GPU 快速部署大型语言模型](https:\u002F\u002Fgithub.com\u002FSJTU-IPADS\u002FPowerInfer)\n\n剪枝\n\n* [最优脑损伤](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper\u002F1989\u002Fhash\u002F6c9882bbac1c7093bd25041881277658-Abstract.html)（1990）\n* [最优脑外科医生](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper\u002F1992\u002Ffile\u002F303ed4c69846ab36c2904d3ba8573050-Paper.pdf)（1993）\n* [最优脑压缩：一种用于准确的训练后量化和剪枝的框架](https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.11580)（2023年1月）- 引入了基于最优脑外科医生的最优脑量化\n* [通过逐层最优脑外科医生学习剪枝深度神经网络](https:\u002F\u002Farxiv.org\u002Fabs\u002F1705.07565)\n* [SparseGPT：大规模语言模型可一次性准确剪枝](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.00774)\n* [一种简单有效的大型语言模型剪枝方法](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.11695) - 引入了 Wanda（结合权重和激活值进行剪枝）\n\n量化\n\n* [LLM.int8()：面向大规模 Transformer 的 8 位矩阵乘法](https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.07339) - 带有异常值处理的量化。可能解决的是错误的问题——参见下方的“可量化 Transformer”。\n* [SmoothQuant：面向大型语言模型的准确且高效的训练后量化](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.10438) - 另一种处理异常值的量化方法\n* [向上还是向下？训练后量化的适应性四舍五入](https:\u002F\u002Farxiv.org\u002Fabs\u002F2004.10568)（高通 2020）- 引入 AdaRound\n* [理解和克服高效 Transformer 量化面临的挑战](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.12948)（高通 2021）\n* [QuIP：具有保证的大语言模型 2 位量化](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.13304)（康奈尔大学 2023年7月）- 引入了不连贯性处理\n* [SqueezeLLM：密集与稀疏相结合的量化](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.07629)（伯克利大学 2023年6月）\n* [规模化量化的有趣特性](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.19268)（Cohere 2023年5月）\n* [剪枝与量化：哪个更好？](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.02973)（高通 2023年7月）\n\n归一化\n\n* [均方根层归一化](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.07467)\n* [可量化 Transformer：通过让注意力头什么都不做来消除异常值](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.12929) - 引入门控注意力，并认为异常值是归一化带来的结果\n\n稀疏性和秩压缩\n\n* [通过分解压缩预训练语言模型](https:\u002F\u002Faclanthology.org\u002F2020.aacl-main.88\u002F) - 使用标准 SVD 分解降低矩阵尺寸\n* [基于加权低秩因数分解的语言模型压缩](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.00112) - 使用费希尔信息加权的 SVD\n* [针对语言模型加权低秩估计的数值优化](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.09718) - 上述方法的迭代实现\n* [加权低秩近似](https:\u002F\u002Fcdn.aaai.org\u002FICML\u002F2003\u002FICML03-094.pdf)（2003）\n* [Transformer 通过逐步增加秩来学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.07042)\n* [像素化蝴蝶：简单高效的神经网络模型稀疏训练](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.00029)\n* [散乱大脑：统一稀疏和低秩注意力近似](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.15343)\n* [LoSparse：基于低秩和稀疏近似的大型语言模型结构化压缩](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.11222)\n* [LadaBERT：通过混合模型压缩对 BERT 进行轻量化改造](https:\u002F\u002Farxiv.org\u002Fabs\u002F2004.04124)\n* [KroneckerBERT：通过知识蒸馏学习预训练语言模型的克罗内克分解](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.06243)\n* [TRP：用于高效深度神经网络的训练后秩剪枝](https:\u002F\u002Farxiv.org\u002Fabs\u002F2004.14566) - 引入能量剪枝比例\n\n微调\n\n* [LoRA：大型语言模型的低秩适应](https:\u002F\u002Farxiv.org\u002Fabs\u002F2106.09685)\n* [QLoRA：量化大语言模型的高效微调](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14314)\n* [DyLoRA：基于动态无搜索低秩适应的预训练模型参数高效微调](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.07558) —— 适用于多种秩设置\n* [资源有限条件下大型语言模型的全参数微调](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.09782)\n\n采样\n\n* [Mirostat：一种可直接控制困惑度的神经文本解码算法](https:\u002F\u002Farxiv.org\u002Fabs\u002F2007.14966)\n* [无需分类器指导即可保持主题一致性](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.17806)\n\n扩展性\n\n* [高效扩展Transformer推理](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.05102)（谷歌，2022年11月）—— 推理阶段的流水线并行与张量并行\n* [Megatron-LM](https:\u002F\u002Farxiv.org\u002Fabs\u002F1909.08053)（英伟达，2020年3月）—— 训练阶段的层内并行\n\n专家混合\n\n* [自适应局部专家混合模型](https:\u002F\u002Fgithub.com\u002Fmtotolo\u002Fnnetworks_HG\u002Fblob\u002Fmaster\u002FAdaptive-mixtures-of-local-experts.pdf)（1991年，重制PDF）\n* [超大规模神经网络：稀疏门控专家混合层](https:\u002F\u002Farxiv.org\u002Fabs\u002F1701.06538)（谷歌，2017年）\n* [Switch Transformer：通过简单高效的稀疏化技术扩展至万亿参数模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2101.03961)（谷歌，2022年）\n* [与其加深层数，不如拓宽宽度](https:\u002F\u002Farxiv.org\u002Fabs\u002F2107.11817)\n\n水印技术\n\n* [大型语言模型的水印技术](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.10226)\n\n更多\n\n* [高效深度学习系统：第9周，压缩](https:\u002F\u002Fgithub.com\u002Fmryab\u002Fefficient-dl-systems\u002Ftree\u002Fmain\u002Fweek09_compression)\n* [Transformer家族2.0版](https:\u002F\u002Flilianweng.github.io\u002Fposts\u002F2023-01-27-the-transformer-family-v2\u002F)（Lilian Weng）\n* [大型Transformer模型推理优化](https:\u002F\u002Flilianweng.github.io\u002Fposts\u002F2023-01-10-inference-optimization\u002F)（Lilian Weng）","# LLM-Reading-List 快速上手指南\n\n**项目说明**：\n`LLM-Reading-List` 并非一个可执行的软件工具或代码库，而是一份由社区维护的**大语言模型（LLM）核心论文阅读清单**。该清单重点聚焦于 **推理优化（Inference）** 和 **模型压缩（Model Compression）** 领域，涵盖了从 Transformer 架构基础到量化、剪枝、微调等前沿技术的研究论文。\n\n本指南旨在帮助开发者快速理解如何利用这份清单进行技术调研和学习。\n\n## 1. 环境准备\n\n由于本项目本质上是文档索引，无需特定的运行时环境或复杂的依赖安装。您只需要具备以下条件即可开始：\n\n*   **操作系统**：Windows, macOS, 或 Linux 均可。\n*   **前置依赖**：\n    *   现代网页浏览器（推荐 Chrome, Edge 或 Firefox）。\n    *   （可选）Git：如果您希望将清单克隆到本地进行离线查看或贡献。\n    *   （可选）PDF 阅读器：用于阅读 arXiv 论文。\n*   **网络要求**：\n    *   访问 [arXiv.org](https:\u002F\u002Farxiv.org) 可能需要稳定的网络连接。\n    *   **国内加速建议**：如果直接访问 arXiv 速度较慢，推荐使用国内镜像站 **ArXiv 中文镜像 (arxiv.org.cn)** 或 **CNKI 外文文献总库** 进行论文检索和下载。\n\n## 2. 获取与安装步骤\n\n您可以通过以下两种方式获取该阅读清单：\n\n### 方式一：在线浏览（推荐）\n直接访问项目的 GitHub 仓库页面查看整理好的分类列表：\n1. 打开浏览器访问项目主页（通常在 GitHub 搜索 `LLM-Reading-List`）。\n2. 滚动页面即可查看按主题分类的论文链接。\n\n### 方式二：本地克隆（适合离线整理）\n如果您希望在本地保存或跟踪更新，可以使用 Git 克隆：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002F\u003C作者用户名>\u002FLLM-Reading-List.git\ncd LLM-Reading-List\n```\n*(注：请将 `\u003C作者用户名>` 替换为实际仓库所有者的用户名，若仅为个人笔记仓库，直接在线查看更为便捷)*\n\n## 3. 基本使用指南\n\n本“工具”的核心用法是**按图索骥**，根据您的研发需求查找对应的经典或最新论文。以下是针对中国开发者的使用路径示例：\n\n### 场景 A：研究模型量化（Quantization）以降低显存占用\n如果您正在尝试在消费级显卡上部署大模型，请重点关注清单中的 **Quantization** 部分：\n1. 定位到 `Quantization` 章节。\n2. 阅读 **[LLM.int8()](https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.07339)** 了解异常值处理机制。\n3. 阅读 **[SmoothQuant](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.10438)** 学习更高效的训练后量化方案。\n4. 阅读 **[QuIP](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.13304)** 探索 2-bit 量化的最新进展。\n5. 点击链接跳转至 arXiv（或国内镜像）下载 PDF 深入研读。\n\n### 场景 B：优化推理速度（Inference Speed）\n如果您关注推理延迟和吞吐量，请查阅 **KV Cache** 和 **Activation** 部分：\n1. 定位到 `KV Cache` 章节。\n2. 重点研究 **[vLLM](https:\u002F\u002Fvllm.ai)** (PagedAttention 技术) 和 **[FlashAttention](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.14135)**。\n3. 这些论文通常附带开源代码实现，可直接在 GitHub 搜索对应项目名称进行集成测试。\n\n### 场景 C：高效微调（Fine-tuning）\n如果您资源有限，需要微调大模型：\n1. 定位到 `Fine-tuning` 章节。\n2. 必读 **[LoRA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2106.09685)** 及其变体 **[QLoRA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14314)**。\n3. 这些是目前业界最主流的参数高效微调（PEFT）理论基础。\n\n### 进阶资源\n清单底部的 **More** 部分提供了极佳的综述文章，建议优先阅读：\n*   **The Transformer Family Version 2.0** (Lilian Weng): 全面梳理 Transformer 架构演变。\n*   **Large Transformer Model Inference Optimization**: 专门针对推理优化的系统性总结。\n\n---\n*提示：该清单会随时间更新，建议定期查看最新版本以获取如 Mamba、Hyena 等新兴架构的论文信息。*","某初创公司算法工程师正致力于将开源大模型部署到显存有限的消费级显卡上，急需寻找高效的推理加速与模型压缩方案。\n\n### 没有 LLM-Reading-List 时\n- **文献检索如大海捞针**：在 arXiv 和 GitHub 上盲目搜索\"LLM 量化”或“剪枝”，常被过时或低质量的论文淹没，难以定位像 Wanda 或 SparseGPT 这样的关键成果。\n- **技术脉络支离破碎**：难以理清从早期的 Optimal Brain Damage 到最新的 PowerInfer 之间的技术演进逻辑，导致无法判断哪些旧理论仍适用于当前架构。\n- **复现成本高昂**：花费数天阅读无关论文后，才发现选定的方案缺乏代码实现或不支持主流模型（如 LLaMA），严重拖慢原型验证进度。\n- **关键细节易遗漏**：容易忽略 KV Cache 优化（如 vLLM 的 PagedAttention）或位置编码改进（如 RoPE）等对推理性能至关重要的细分领域研究。\n\n### 使用 LLM-Reading-List 后\n- **精准锁定核心资源**：直接通过分类索引找到\"Quantization\"和\"Pruning\"板块，迅速获取 LLM.int8()、Wanda 等经过筛选的高质量论文链接。\n- **构建清晰知识图谱**：借助从 Transformer 基础架构到 Mamba 等新架构的完整列表，快速理解不同压缩技术适用的模型背景与演进路径。\n- **大幅缩短调研周期**：利用列表中提供的官方代码库链接（如 OpenLLaMA、PowerInfer），当天即可完成技术选型并启动本地复现实验。\n- **覆盖全链路优化点**：顺藤摸瓜发现原本忽视的 H2O 重 hitter 优化与 FlashAttention 显存管理技巧，组合出更极致的端侧部署方案。\n\nLLM-Reading-List 将分散的顶尖研究串联成结构化导航图，让开发者从“找论文”转变为“用论文”，极大提升了大模型落地效率。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fevanmiller_LLM-Reading-List_0b4409da.png","evanmiller","Evan Miller","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fevanmiller_a8df5911.jpg","I like math and stats","Anthropic","New York, NY","emmiller@gmail.com","EvMill","https:\u002F\u002Fwww.evanmiller.org\u002F","https:\u002F\u002Fgithub.com\u002Fevanmiller",null,752,38,"2026-03-22T09:11:40",1,"","未说明",{"notes":93,"python":91,"dependencies":94},"该工具并非一个可执行的软件项目，而是一个大语言模型（LLM）相关论文的阅读清单（Reading List）。README 内容仅包含指向各类学术论文、博客文章和外部代码仓库的链接，涵盖了 Transformer 架构、基础模型、量化、剪枝、微调等主题。因此，该工具本身没有操作系统、GPU、内存、Python 版本或依赖库的安装需求。",[],[26,13],"2026-03-27T02:49:30.150509","2026-04-06T11:57:28.486029",[],[]]