[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-mlabonne--llm-autoeval":3,"tool-mlabonne--llm-autoeval":65},[4,17,25,39,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",140436,2,"2026-04-05T23:32:43",[13,14,15],"开发框架","Agent","语言模型","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":10,"last_commit_at":23,"category_tags":24,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,15],{"id":26,"name":27,"github_repo":28,"description_zh":29,"stars":30,"difficulty_score":10,"last_commit_at":31,"category_tags":32,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[33,34,35,36,14,37,15,13,38],"图像","数据工具","视频","插件","其他","音频",{"id":40,"name":41,"github_repo":42,"description_zh":43,"stars":44,"difficulty_score":45,"last_commit_at":46,"category_tags":47,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,3,"2026-04-04T04:44:48",[14,33,13,15,37],{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":45,"last_commit_at":54,"category_tags":55,"status":16},519,"PaddleOCR","PaddlePaddle\u002FPaddleOCR","PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。\n\n面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。\n\nPaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。",74939,"2026-04-05T23:16:38",[15,33,13,37],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":62,"last_commit_at":63,"category_tags":64,"status":16},3215,"awesome-machine-learning","josephmisiti\u002Fawesome-machine-learning","awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。\n\n它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。\n\n其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。",72149,1,"2026-04-03T21:50:24",[13,37],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":81,"owner_email":82,"owner_twitter":83,"owner_website":84,"owner_url":85,"languages":86,"stars":95,"forks":96,"last_commit_at":97,"license":98,"difficulty_score":10,"env_os":99,"env_gpu":100,"env_ram":101,"env_deps":102,"category_tags":111,"github_topics":82,"view_count":10,"oss_zip_url":82,"oss_zip_packed_at":82,"status":16,"created_at":112,"updated_at":113,"faqs":114,"releases":150},3419,"mlabonne\u002Fllm-autoeval","llm-autoeval","Automatically evaluate your LLMs in Google Colab","llm-autoeval 是一款专为简化大语言模型（LLM）评估流程而设计的开源工具，让用户能在 Google Colab 环境中轻松完成模型性能测试。它主要解决了传统模型评估配置复杂、环境搭建耗时以及硬件门槛高的问题。用户只需输入模型名称、选择基准测试集并指定云端 GPU 配置，点击运行即可自动完成从环境部署到结果生成的全过程。\n\n这款工具非常适合 AI 开发者、研究人员以及希望快速验证模型效果的爱好者使用。其核心亮点在于高度自动化：底层集成 RunPod 云服务自动调配算力，支持 Nous、LightEval 及 Open LLM 等多种主流评测基准，并能将评估报告自动生成摘要上传至 GitHub Gist，便于分享与归档。此外，它还允许用户灵活调整 GPU 型号、磁盘大小等参数，以平衡成本与性能。作为个人主导的早期项目，llm-autoeval 以极简的操作降低了专业评测的技术门槛，是进行模型对比和迭代开发的得力助手。","\u003Cdiv align=\"center\">\n  \u003Ch1>🧐 LLM AutoEval\u003C\u002Fh1>\n  \u003Cp>\n    🐦 \u003Ca href=\"https:\u002F\u002Ftwitter.com\u002Fmaximelabonne\">Follow me on X\u003C\u002Fa> • \n    🤗 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fmlabonne\">Hugging Face\u003C\u002Fa> • \n    💻 \u003Ca href=\"https:\u002F\u002Fmlabonne.github.io\u002Fblog\">Blog\u003C\u002Fa> • \n    📙 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FPacktPublishing\u002FHands-On-Graph-Neural-Networks-Using-Python\">Hands-on GNN\u003C\u002Fa>\n  \u003C\u002Fp>\n   \u003Cp>\u003Cem>Simplify LLM evaluation using a convenient Colab notebook.\u003C\u002Fem>\u003C\u002Fp>\n   \u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1Igs3WZuXAIv9X0vwqiE90QlEPys8e8Oa?usp=sharing\">\u003Cimg src=\"img\u002Fcolab.svg\" alt=\"Open In Colab\">\u003C\u002Fa>\u003C\u002Fcenter>\n\u003C\u002Fdiv>\n\u003Cbr\u002F>\n\n\u003Cp align=\"center\">\n\u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmlabonne_llm-autoeval_readme_11356ab08a71.png'>\n\u003C\u002Fp>\n\n## 🔍 Overview\n\nLLM AutoEval **simplifies the process of evaluating LLMs** using a convenient [Colab notebook](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1Igs3WZuXAIv9X0vwqiE90QlEPys8e8Oa?usp=sharing). You just need to specify the name of your model, a benchmark, a GPU, and press run!\n\n### Key Features\n\n* Automated setup and execution using [RunPod](https:\u002F\u002Frunpod.io?ref=9nvk2srl).\n* Customizable evaluation parameters for tailored benchmarking.\n* Summary generation and upload to [GitHub Gist](https:\u002F\u002Fgist.github.com\u002F) for easy sharing and reference.\n\n[View a sample summary here.](https:\u002F\u002Fgist.github.com\u002Fmlabonne\u002F1d33c86824b3a11d2308e36db1ba41c1)\n\n*Note: This project is in the early stages and primarily designed for personal use. Use it carefully and feel free to contribute.*\n\n## ⚡ Quick Start\n\n### Evaluation\n\n* **`MODEL_ID`**: Enter the model id from Hugging Face.\n* **`BENCHMARK`**: \n    * `nous`: List of tasks: AGIEval, GPT4ALL, TruthfulQA, and Bigbench (popularized by [Teknium](https:\u002F\u002Fgithub.com\u002Fteknium1) and [NousResearch](https:\u002F\u002Fgithub.com\u002FNousResearch)). This is recommended.\n    * `lighteval`: This is a [new library](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Flighteval) from Hugging Face. It allows you to specify your tasks as shown in the readme. Check the list of [recommended tasks](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Flighteval\u002Fblob\u002Fmain\u002Fexamples\u002Ftasks\u002Frecommended_set.txt) to see what you can use (e.g., HELM, PIQA, GSM8K, MATH, etc.)\n    * `openllm`: List of tasks: ARC, HellaSwag, MMLU, Winogrande, GSM8K, and TruthfulQA (like the [Open LLM Leaderboard](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FHuggingFaceH4\u002Fopen_llm_leaderboard)). It uses the [vllm](https:\u002F\u002Fdocs.vllm.ai\u002F) implementation to enhance speed (note that the results will not be identical to those obtained without using vllm). \"mmlu\" is currently missing because of a problem with vllm.\n* **`LIGHTEVAL_TASK`**: You can select one or several tasks as specified in the [readme](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Flighteval?tab=readme-ov-file#usage) or in the list of [recommended tasks](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Flighteval\u002Fblob\u002Fmain\u002Fexamples\u002Ftasks\u002Frecommended_set.txt).\n\n### Cloud GPU\n\n* **`GPU`**: Select the GPU you want for evaluation (see prices [here](https:\u002F\u002Fwww.runpod.io\u002Fconsole\u002Fgpu-cloud)). I recommend using beefy GPUs (RTX 3090 or higher), especially for the Open LLM benchmark suite.\n* **`Number of GPUs`**: Self-explanatory (more cost-efficient than bigger GPUs if you need more VRAM).\n* **`CONTAINER_DISK`**: Size of the disk in GB.\n* **`CLOUD_TYPE`**: RunPod offers a community cloud (cheaper) and a secure cloud (more reliable).\n* **`REPO`**: If you made a fork of this repo, you can specify its URL here (the image only runs `runpod.sh`).\n* **`TRUST_REMOTE_CODE`**: Models like Phi require this flag to run them.\n* **`PRIVATE_GIST`**: (W.I.P.) Make the Gist with the results private (true) or public (false).\n* **`DEBUG`**: The pod will not be destroyed at the end of the run (not recommended).\n\n### Tokens\n\nTokens use Colab's Secrets tab. Create two secrets called \"runpod\" and \"github\" and add the corresponding tokens you can find as follows:\n\n* **`RUNPOD_TOKEN`**: Please consider using my [referral link](https:\u002F\u002Frunpod.io?ref=9nvk2srl) if you don't have an account yet. You can create your token [here](https:\u002F\u002Fwww.runpod.io\u002Fconsole\u002Fuser\u002Fsettings) under \"API keys\" (read & write permission). You'll also need to transfer some money there to start a pod.\n* **`GITHUB_TOKEN`**: You can create your token [here](https:\u002F\u002Fgithub.com\u002Fsettings\u002Ftokens) (read & write, can be restricted to \"gist\" only).\n* **`HF_TOKEN`**: Optional. You can find your Hugging Face token [here](https:\u002F\u002Fhuggingface.co\u002Fsettings\u002Ftokens) if you have an account.\n\n## 📊 Benchmark suites\n\n### Nous\n\nYou can compare your results with:\n* [YALL - Yet Another LLM Leaderboard](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fmlabonne\u002FYet_Another_LLM_Leaderboard), my leaderboard made with the gists produced by LLM AutoEval.\n* Models like [OpenHermes-2.5-Mistral-7B](https:\u002F\u002Fhuggingface.co\u002Fteknium\u002FOpenHermes-2.5-Mistral-7B#benchmark-results), [Nous-Hermes-2-SOLAR-10.7B](https:\u002F\u002Fhuggingface.co\u002FNousResearch\u002FNous-Hermes-2-SOLAR-10.7B), or [Nous-Hermes-2-Yi-34B](https:\u002F\u002Fhuggingface.co\u002FNousResearch\u002FNous-Hermes-2-Yi-34B). \n* Teknium stores his evaluations in his [LLM-Benchmark-Logs](https:\u002F\u002Fgithub.com\u002Fteknium1\u002FLLM-Benchmark-Logs).\n\n### Lighteval\n\nYou can compare your results on a case-by-case basis, depending on the tasks you have selected.\n\n### Open LLM\n\nYou can compare your results with those listed on the [Open LLM Leaderboard](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FHuggingFaceH4\u002Fopen_llm_leaderboard).\n\n## 🏆 Leaderboard\n\nI use the summaries produced by LLM AutoEval to created [YALL - Yet Another LLM Leaderboard](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fmlabonne\u002FYet_Another_LLM_Leaderboard) with plots as follows:\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmlabonne_llm-autoeval_readme_394cc04dc402.png)\n\nLet me know if you're interested in creating your own leaderboard with your gists in one click. This can be easily converted into a small notebook to create this space.\n\n## 🛠️ Troubleshooting\n\n* **\"Error: File does not exist\"**: This task didn't produce the JSON file that is parsed for the summary. Activate debug mode and rerun the evaluation to inspect the issue in the logs.\n* **\"700 Killed\" Error**: The hardware is not powerful enough for the evaluation. This happens when you try to run the Open LLM benchmark suite on an RTX 3070 for example.\n* **Outdated CUDA Drivers**: That's unlucky. You'll need to start a new pod in this case.\n* **\"triu_tril_cuda_template\" not implemented for 'BFloat16'**: Switch the image as explained in [this issue](https:\u002F\u002Fgithub.com\u002Fmlabonne\u002Fllm-autoeval\u002Fissues\u002F22).\n\n## Acknowledgements\n\n\n\nSpecial thanks to [burtenshaw](https:\u002F\u002Fgithub.com\u002Fburtenshaw) for integrating lighteval, EleutherAI for the [lm-evaluation-harness](https:\u002F\u002Fgithub.com\u002FEleutherAI\u002Flm-evaluation-harness), [dmahan93](https:\u002F\u002Fgithub.com\u002Fdmahan93) for his fork that adds agieval to the lm-evaluation-harness, Hugging Face for the [lighteval](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Flighteval) library, [NousResearch](https:\u002F\u002Fgithub.com\u002FNousResearch) and [Teknium](https:\u002F\u002Fgithub.com\u002Fteknium1) for the Nous benchmark suite, and \n[vllm](https:\u002F\u002Fdocs.vllm.ai\u002F) for the additional inference speed. \n","\u003Cdiv align=\"center\">\n  \u003Ch1>🧐 LLM 自动评估\u003C\u002Fh1>\n  \u003Cp>\n    🐦 \u003Ca href=\"https:\u002F\u002Ftwitter.com\u002Fmaximelabonne\">在 X 上关注我\u003C\u002Fa> • \n    🤗 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fmlabonne\">Hugging Face\u003C\u002Fa> • \n    💻 \u003Ca href=\"https:\u002F\u002Fmlabonne.github.io\u002Fblog\">博客\u003C\u002Fa> • \n    📙 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FPacktPublishing\u002FHands-On-Graph-Neural-Networks-Using-Python\">动手实践图神经网络\u003C\u002Fa>\n  \u003C\u002Fp>\n   \u003Cp>\u003Cem>使用便捷的 Colab 笔记本来简化 LLM 的评估流程。\u003C\u002Fem>\u003C\u002Fp>\n   \u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1Igs3WZuXAIv9X0vwqiE90QlEPys8e8Oa?usp=sharing\">\u003Cimg src=\"img\u002Fcolab.svg\" alt=\"在 Colab 中打开\">\u003C\u002Fa>\u003C\u002Fcenter>\n\u003C\u002Fdiv>\n\u003Cbr\u002F>\n\n\u003Cp align=\"center\">\n\u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmlabonne_llm-autoeval_readme_11356ab08a71.png'>\n\u003C\u002Fp>\n\n## 🔍 概述\n\nLLM AutoEval **通过一个便捷的 [Colab 笔记本](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1Igs3WZuXAIv9X0vwqiE90QlEPys8e8Oa?usp=sharing) 简化了 LLM 的评估流程**。你只需指定模型名称、基准测试、GPU 类型，然后点击运行即可！\n\n### 主要特性\n\n* 使用 [RunPod](https:\u002F\u002Frunpod.io?ref=9nvk2srl) 实现自动化设置和执行。\n* 可自定义的评估参数，满足个性化的基准测试需求。\n* 自动生成总结并上传至 [GitHub Gist](https:\u002F\u002Fgist.github.com\u002F)，便于分享和参考。\n\n[查看示例总结。](https:\u002F\u002Fgist.github.com\u002Fmlabonne\u002F1d33c86824b3a11d2308e36db1ba41c1)\n\n*注：该项目尚处于早期阶段，主要面向个人使用。请谨慎使用，并欢迎贡献代码。*\n\n## ⚡ 快速入门\n\n### 评估\n\n* **`MODEL_ID`**: 输入 Hugging Face 上的模型 ID。\n* **`BENCHMARK`**:\n    * `nous`: 包含 AGIEval、GPT4ALL、TruthfulQA 和 Bigbench 等任务（由 [Teknium](https:\u002F\u002Fgithub.com\u002Fteknium1) 和 [NousResearch](https:\u002F\u002Fgithub.com\u002FNousResearch) 推广）。推荐使用此选项。\n    * `lighteval`: 这是 Hugging Face 推出的[新库](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Flighteval)，允许你按照 README 中的说明指定任务。请参阅[推荐任务列表](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Flighteval\u002Fblob\u002Fmain\u002Fexamples\u002Ftasks\u002Frecommended_set.txt)，了解可使用的任务（如 HELM、PIQA、GSM8K、MATH 等）。\n    * `openllm`: 包括 ARC、HellaSwag、MMLU、Winogrande、GSM8K 和 TruthfulQA 等任务（类似于 [Open LLM Leaderboard](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FHuggingFaceH4\u002Fopen_llm_leaderboard)）。该套件采用 [vllm](https:\u002F\u002Fdocs.vllm.ai\u002F) 实现以提升速度（请注意，结果可能与未使用 vllm 时略有不同）。目前 MMLU 尚未包含，因 vllm 存在问题。\n* **`LIGHTEVAL_TASK`**: 可根据 [README](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Flighteval?tab=readme-ov-file#usage) 或[推荐任务列表](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Flighteval\u002Fblob\u002Fmain\u002Fexamples\u002Ftasks\u002Frecommended_set.txt)选择一项或多项任务。\n\n### 云 GPU\n\n* **`GPU`**: 选择用于评估的 GPU（价格见[这里](https:\u002F\u002Fwww.runpod.io\u002Fconsole\u002Fgpu-cloud)）。建议使用高性能 GPU（如 RTX 3090 或更高），尤其是针对 Open LLM 基准测试套件。\n* **`GPU 数量`**: 显而易见（如果需要更多显存，使用多个 GPU 比单个大显存 GPU 更经济）。\n* **`CONTAINER_DISK`**: 容器磁盘大小，单位为 GB。\n* **`CLOUD_TYPE`**: RunPod 提供社区云（更便宜）和安全云（更可靠）两种选择。\n* **`REPO`**: 如果你对本仓库进行了 fork，可以在此处指定其 URL（镜像仅运行 `runpod.sh`）。\n* **`TRUST_REMOTE_CODE`**: 像 Phi 这样的模型需要此标志才能运行。\n* **`PRIVATE_GIST`**: （开发中）将结果 Gist 设置为私有（true）或公开（false）。\n* **`DEBUG`**: 作业结束后不会销毁容器（不推荐）。\n\n### Tokens\n\nTokens 使用 Colab 的 Secrets 功能。创建两个名为 “runpod” 和 “github” 的密钥，并添加相应的 token，获取方式如下：\n\n* **`RUNPOD_TOKEN`**: 如果你还没有账户，请考虑使用我的[推荐链接](https:\u002F\u002Frunpod.io?ref=9nvk2srl)。你可以在 [这里](https:\u002F\u002Fwww.runpod.io\u002Fconsole\u002Fuser\u002Fsettings) 的“API 密钥”部分创建 token（读写权限）。此外，还需向账户充值以启动容器。\n* **`GITHUB_TOKEN`**: 你可以在 [这里](https:\u002F\u002Fgithub.com\u002Fsettings\u002Ftokens) 创建 token（读写权限，也可限制为仅访问 gist）。\n* **`HF_TOKEN`**: 可选。如果你有 Hugging Face 账户，可在 [这里](https:\u002F\u002Fhuggingface.co\u002Fsettings\u002Ftokens) 找到你的 token。\n\n## 📊 基准测试套件\n\n### Nous\n\n你可以将自己的结果与以下内容进行比较：\n* [YALL - 另一个 LLM 排行榜](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fmlabonne\u002FYet_Another_LLM_Leaderboard)，这是我基于 LLM AutoEval 生成的 Gist 制作的排行榜。\n* 像 [OpenHermes-2.5-Mistral-7B](https:\u002F\u002Fhuggingface.co\u002Fteknium\u002FOpenHermes-2.5-Mistral-7B#benchmark-results)、[Nous-Hermes-2-SOLAR-10.7B](https:\u002F\u002Fhuggingface.co\u002FNousResearch\u002FNous-Hermes-2-SOLAR-10.7B) 或 [Nous-Hermes-2-Yi-34B](https:\u002F\u002Fhuggingface.co\u002FNousResearch\u002FNous-Hermes-2-Yi-34B) 等模型。\n* Teknium 将他的评估结果存储在他的 [LLM-Benchmark-Logs](https:\u002F\u002Fgithub.com\u002Fteknium1\u002FLLM-Benchmark-Logs) 中。\n\n### Lighteval\n\n你可以根据所选任务逐项比较自己的结果。\n\n### Open LLM\n\n你可以将自己的结果与 [Open LLM Leaderboard](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FHuggingFaceH4\u002Fopen_llm_leaderboard) 上列出的结果进行比较。\n\n## 🏆 排行榜\n\n我利用 LLM AutoEval 生成的总结，创建了 [YALL - 另一个 LLM 排行榜](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fmlabonne\u002FYet_Another_LLM_Leaderboard)，并绘制了如下图表：\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmlabonne_llm-autoeval_readme_394cc04dc402.png)\n\n如果你有兴趣一键用自己的 Gist 创建排行榜，请告诉我。这可以轻松转化为一个小笔记本，为你打造这样一个空间。\n\n## 🛠️ 故障排除\n\n* **“错误：文件不存在”**: 该任务未生成用于解析总结的 JSON 文件。请启用调试模式并重新运行评估，以检查日志中的问题。\n* **“700 Killed” 错误**: 硬件性能不足以完成评估。例如，在 RTX 3070 上运行 Open LLM 基准测试套件时可能会出现此情况。\n* **CUDA 驱动程序过时**: 这很不幸。在这种情况下，你需要启动一个新的容器。\n* **“triu_tril_cuda_template” 不支持 ‘BFloat16’**: 请按照 [此问题](https:\u002F\u002Fgithub.com\u002Fmlabonne\u002Fllm-autoeval\u002Fissues\u002F22) 中的说明切换镜像。\n\n## 致谢\n\n\n\n特别感谢 [burtenshaw](https:\u002F\u002Fgithub.com\u002Fburtenshaw) 集成 lighteval，感谢 EleutherAI 提供的 [lm-evaluation-harness](https:\u002F\u002Fgithub.com\u002FEleutherAI\u002Flm-evaluation-harness)，感谢 [dmahan93](https:\u002F\u002Fgithub.com\u002Fdmahan93) 基于 lm-evaluation-harness 分支新增 agieval 的工作，感谢 Hugging Face 提供的 [lighteval](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Flighteval) 库，感谢 [NousResearch](https:\u002F\u002Fgithub.com\u002FNousResearch) 和 [Teknium](https:\u002F\u002Fgithub.com\u002Fteknium1) 构建的 Nous 基准测试套件，以及 \n[vllm](https:\u002F\u002Fdocs.vllm.ai\u002F) 带来的额外推理速度提升。","# LLM AutoEval 快速上手指南\n\nLLM AutoEval 是一个基于 Google Colab 的工具，旨在简化大语言模型（LLM）的评估流程。它利用 RunPod 云 GPU 自动执行基准测试，并将结果汇总上传至 GitHub Gist。\n\n## 环境准备\n\n本工具主要运行在 **Google Colab** 环境中，无需本地配置复杂的深度学习环境。您需要准备以下账号和凭证：\n\n1.  **Google 账号**：用于访问 Colab Notebook。\n2.  **RunPod 账号**：\n    *   注册账号并充值少量余额以启动云实例。\n    *   获取 API Token：登录 RunPod 控制台，进入 `User Settings` -> `API Keys`，创建一个具有读写权限的密钥。\n3.  **GitHub 账号**：\n    *   获取 Personal Access Token：进入 `Settings` -> `Developer settings` -> `Personal access tokens`，创建一个具有 `gist` 读写权限的令牌。\n4.  **Hugging Face 账号（可选）**：\n    *   如果您需要评估私有模型或访问受限模型（如 Llama 系列），需获取 HF Token。\n\n## 安装与配置步骤\n\n由于核心逻辑封装在 Colab Notebook 中，无需执行传统的 `pip install` 命令。请按以下步骤配置运行环境：\n\n1.  **打开 Notebook**\n    点击以下链接在 Google Colab 中打开项目：\n    [Open LLM AutoEval in Colab](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1Igs3WZuXAIv9X0vwqiE90QlEPys8e8Oa?usp=sharing)\n\n2.  **配置 Secrets (密钥)**\n    在 Colab 左侧菜单栏中，点击钥匙图标 (**Secrets**)，添加以下三个密钥：\n    *   **Name**: `runpod` | **Value**: 您的 RunPod API Token\n    *   **Name**: `github` | **Value**: 您的 GitHub Personal Access Token\n    *   **Name**: `hf_token` | **Value**: 您的 Hugging Face Token (如需评估受限模型)\n\n3.  **设置评估参数**\n    在 Notebook 的代码单元格中，修改以下变量以定制您的评估任务：\n\n    ```python\n    # 模型配置\n    MODEL_ID = \"HuggingFaceH4\u002Fzephyr-7b-beta\"  # 替换为您要评估的 Hugging Face 模型 ID\n    \n    # 基准测试套件选择\n    # 可选值: \"nous\", \"lighteval\", \"openllm\"\n    BENCHMARK = \"nous\" \n    \n    # Lighteval 特定任务 (仅当 BENCHMARK=\"lighteval\" 时有效)\n    # 例如: [\"hellaswag\", \"gsm8k\"]\n    LIGHTEVAL_TASK = [] \n\n    # 云 GPU 配置\n    GPU = \"RTX 3090\"          # 推荐 RTX 3090 或更高版本\n    NUM_GPUS = 1              # GPU 数量\n    CONTAINER_DISK = 50       # 容器磁盘大小 (GB)\n    CLOUD_TYPE = \"community\"  # \"community\" (便宜) 或 \"secure\" (稳定)\n    \n    # 其他选项\n    TRUST_REMOTE_CODE = False # 如果模型需要 (如 Phi)，设为 True\n    DEBUG = False             # 设为 True 可保留运行后的 Pod 以便排查错误\n    ```\n\n## 基本使用\n\n完成上述配置后，即可开始自动化评估：\n\n1.  **运行单元格**：依次执行 Notebook 中的所有代码单元格。\n2.  **自动执行**：\n    *   脚本将自动调用 RunPod API 启动指定的 GPU 实例。\n    *   在云端拉取模型、安装依赖并运行选定的基准测试（如 AGIEval, TruthfulQA, MMLU 等）。\n3.  **查看结果**：\n    *   评估完成后，实例会自动销毁。\n    *   生成的评估摘要将自动上传到您的 **GitHub Gist**。\n    *   您可以在 Notebook 输出中看到 Gist 链接，点击即可查看详细的分数报告。\n\n**示例结果参考**：\n您可以查看作者生成的样本报告以了解输出格式：[Sample Summary on GitHub Gist](https:\u002F\u002Fgist.github.com\u002Fmlabonne\u002F1d33c86824b3a11d2308e36db1ba41c1)\n\n> **提示**：对于较大的模型或完整的 Open LLM 基准套件，建议使用显存更大的 GPU（如 RTX 3090\u002F4090 或 A100），以避免因显存不足导致评估中断。","某独立开发者正在微调一个垂直领域的医疗问答模型，急需在发布前验证其性能是否优于基线模型。\n\n### 没有 llm-autoeval 时\n- **环境配置繁琐**：需在本地或云端手动安装复杂的依赖库（如 vllm、lighteval），常因版本冲突耗费数小时调试。\n- **硬件门槛高**：运行 MMLU 或 GSM8K 等大型基准测试需要高性能 GPU，个人开发者难以承担长期占用昂贵算力的成本。\n- **流程割裂低效**：从启动测试、监控运行到整理分数，需人工拼接多个脚本，结果分散在不同日志文件中难以对比。\n- **分享协作困难**：生成的评估报告格式不统一，无法一键生成可共享的链接，团队讨论时只能截图或复制粘贴文本。\n\n### 使用 llm-autoeval 后\n- **一键自动部署**：只需在 Colab 中输入模型 ID 和基准名称，llm-autoeval 自动调用 RunPod 配置好所有环境与依赖，即刻开始测试。\n- **弹性算力支持**：按需选择 RTX 3090 等高性能云 GPU，测试结束后自动释放资源，大幅降低单次评估的金钱与时间成本。\n- **全流程自动化**：自动执行测试并生成结构化摘要，无需人工干预即可得到清晰的准确率与损耗数据。\n- **即时共享结果**：测试完成后自动将结果上传至 GitHub Gist，生成永久链接，方便团队成员直接查看和对比不同版本的模型表现。\n\nllm-autoeval 将原本耗时数天的复杂评估工作压缩为几分钟的自动化流程，让开发者能专注于模型优化而非基础设施搭建。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmlabonne_llm-autoeval_87b4b1ed.png","mlabonne","Maxime Labonne","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fmlabonne_a4da2cd9.jpg","Head of Post-Training @ Liquid AI","Liquid AI","London, United Kingdom",null,"maximelabonne","https:\u002F\u002Fmlabonne.github.io\u002Fblog","https:\u002F\u002Fgithub.com\u002Fmlabonne",[87,91],{"name":88,"color":89,"percentage":90},"Python","#3572A5",53.2,{"name":92,"color":93,"percentage":94},"Shell","#89e051",46.8,687,107,"2026-03-15T13:59:16","MIT","Linux (通过 RunPod 云环境)","必需。推荐使用 NVIDIA RTX 3090 或更高型号（如用于 Open LLM 基准测试）。支持多 GPU 配置以扩展显存。具体 CUDA 版本未说明，由云镜像决定。","未说明（取决于所选 GPU 的云实例配置）",{"notes":103,"python":104,"dependencies":105},"该工具主要设计为在 Google Colab 中运行，通过脚本调用 RunPod 云服务进行实际的模型评估，而非在本地直接运行。用户需配置 RunPod API Token、GitHub Token 和可选的 Hugging Face Token。对于大型基准测试（如 Open LLM），低显存显卡（如 RTX 3070）可能导致内存不足错误（'700 Killed'）。部分模型（如 Phi）需要设置 TRUST_REMOTE_CODE 标志。","未说明",[106,107,108,109,110],"lighteval","lm-evaluation-harness","vllm","transformers","torch",[15,37],"2026-03-27T02:49:30.150509","2026-04-06T08:40:08.690924",[115,120,125,130,135,140,145],{"id":116,"question_zh":117,"answer_zh":118,"source_url":119},15694,"遇到 'File does not exist%' 或评估错误时该如何解决？","这通常与 GPU 配置或显存不足有关。建议尝试以下解决方案：\n1. 切换到性能更好的 GPU 实例（例如在 Lightning.ai 中切换到 L4 实例）。\n2. 启用调试模式以查看具体失败位置，设置环境变量 `DEBUG=TRUE`。\n3. 确保使用的是最新的 Colab Notebook 版本。","https:\u002F\u002Fgithub.com\u002Fmlabonne\u002Fllm-autoeval\u002Fissues\u002F32",{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},15695,"运行 RunPod 时提示 'no longer any instance available'（没有可用实例）怎么办？","该错误通常是因为默认的云类型设置导致无法找到匹配规格的实例。请在代码中将 `CLOUD_TYPE` 参数修改为 `'COMMUNITY'` 或 `'SECURE'` 来指定实例类型。示例代码如下：\n```python\nCLOUD_TYPE = 'COMMUNITY' # @param [\"COMMUNITY\", \"SECURE\"]\n```\n修改后重新运行即可解决资源不可用的问题。","https:\u002F\u002Fgithub.com\u002Fmlabonne\u002Fllm-autoeval\u002Fissues\u002F3",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},15696,"评估 BF16 模型时报错 'triu_tril_cuda_template not implemented for BFloat16' 如何解决？","这是由于 PyTorch 版本过旧不支持 BF16 格式导致的。解决方法是升级 RunPod 的 Docker 镜像版本。请将镜像从 `runpod\u002Fpytorch:2.0.1...` 更改为更新的版本，例如：\n`runpod\u002Fpytorch:2.2.0-py3.10-cuda12.1.1-devel-ubuntu22.04`\n升级后即可正常评估 BF16 模型。","https:\u002F\u002Fgithub.com\u002Fmlabonne\u002Fllm-autoeval\u002Fissues\u002F22",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},15697,"为什么 `mmlu` 基准测试在脚本中被注释掉了？","MMLU 基准测试在使用 vllm 后端时存在可靠性问题，这主要是 `lm-evaluation-harness` 库本身的限制。目前的最佳变通方案是不要在该特定配置下使用 vllm。维护者计划将该测试套件重命名为 \"openllm-vllm\" 并创建一个不依赖 vllm 的新版本来解决此问题。","https:\u002F\u002Fgithub.com\u002Fmlabonne\u002Fllm-autoeval\u002Fissues\u002F4",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},15698,"遇到 'assert isinstance(pretrained, str)' 断言错误怎么办？","这通常是因为使用了旧版本的 Colab Notebook，导致环境变量名称不匹配。请确保使用 README 中链接的最新 Notebook。如果是旧版本，请在代码末尾将环境变量键名从 `MODEL` 改为 `MODEL_ID`。\n修改前：\n```python\nenv={\"BENCHMARK\": BENCHMARK, \"MODEL\": MODEL, ...}\n```\n修改后：\n```python\nenv={\"BENCHMARK\": BENCHMARK, \"MODEL_ID\": MODEL, ...}\n```","https:\u002F\u002Fgithub.com\u002Fmlabonne\u002Fllm-autoeval\u002Fissues\u002F17",{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},15699,"如何记录模型评估的运行时间？","该功能已被添加。用户可以在 Colab Notebook 中找到一个可选的复选框来启用运行时间日志记录。如果未看到该选项，请确保已更新到最新版本的 Notebook 代码，或者在调试模式（debug mode）下运行以查看详细日志。","https:\u002F\u002Fgithub.com\u002Fmlabonne\u002Fllm-autoeval\u002Fissues\u002F1",{"id":146,"question_zh":147,"answer_zh":148,"source_url":149},15700,"如何在 RunPod 上使用自定义的 Docker 模板或仓库进行评测？","LLM AutoEval Notebook 已更新以支持自定义仓库。你可以在 Notebook 中指定你的 GitHub 仓库 URL，系统会自动执行 `git clone` 克隆该仓库，并在其中运行 `runpod.sh` 脚本。这使得用户可以轻松集成自定义的基准测试（如德语基准测试）或不同的 Docker 模板。","https:\u002F\u002Fgithub.com\u002Fmlabonne\u002Fllm-autoeval\u002Fissues\u002F5",[]]