[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tool-bin123apple--AutoCoder":3,"similar-bin123apple--AutoCoder":118},{"id":4,"github_repo":5,"name":6,"description_en":7,"description_zh":8,"ai_summary_zh":9,"readme_en":10,"readme_zh":11,"quickstart_zh":12,"use_case_zh":13,"hero_image_url":14,"owner_login":15,"owner_name":16,"owner_avatar_url":17,"owner_bio":18,"owner_company":18,"owner_location":18,"owner_email":19,"owner_twitter":18,"owner_website":18,"owner_url":20,"languages":21,"stars":54,"forks":55,"last_commit_at":56,"license":57,"difficulty_score":58,"env_os":59,"env_gpu":60,"env_ram":61,"env_deps":62,"category_tags":67,"github_topics":71,"view_count":79,"oss_zip_url":18,"oss_zip_packed_at":18,"status":80,"created_at":81,"updated_at":82,"faqs":83,"releases":117},9197,"bin123apple\u002FAutoCoder","AutoCoder","We introduced a new model designed for the Code generation task. Its test accuracy on the HumanEval base dataset surpasses that of GPT-4 Turbo (April 2024) and GPT-4o. ","AutoCoder 是一款专为代码生成任务打造的开源大模型，旨在提升编程效率与准确性。它在权威的 HumanEval 基准测试中取得了 90.9% 的准确率，表现超越了 GPT-4 Turbo 和 GPT-4o。\n\nAutoCoder 核心解决了传统代码助手在执行环节的一大痛点：依赖外部库时往往因环境缺失而运行失败。与其他模型不同，AutoCoder 内置了智能代码解释器，能够在用户需要执行代码时，自动识别并安装所需的第三方依赖包，随后反复尝试运行直至成功。这一特性极大地扩展了代码解释器的适用范围，无需用户手动配置环境即可验证复杂代码。此外，它仅在用户明确需要验证时才调用解释器，既保证了灵活性，又避免了不必要的资源消耗。\n\n这款工具非常适合软件开发者、AI 研究人员以及希望快速原型验证的技术人员使用。无论是进行算法竞赛刷题、自动化脚本编写，还是探索数据科学项目，AutoCoder 都能提供从代码生成到环境部署的一站式支持。目前，社区已提供基于 DeepSeek-Coder 和 CodeQwen 的多个版本（包括 7B、6.7B 及 33B 参数量），用户可根据自身算力条件灵活选择，通过","AutoCoder 是一款专为代码生成任务打造的开源大模型，旨在提升编程效率与准确性。它在权威的 HumanEval 基准测试中取得了 90.9% 的准确率，表现超越了 GPT-4 Turbo 和 GPT-4o。\n\nAutoCoder 核心解决了传统代码助手在执行环节的一大痛点：依赖外部库时往往因环境缺失而运行失败。与其他模型不同，AutoCoder 内置了智能代码解释器，能够在用户需要执行代码时，自动识别并安装所需的第三方依赖包，随后反复尝试运行直至成功。这一特性极大地扩展了代码解释器的适用范围，无需用户手动配置环境即可验证复杂代码。此外，它仅在用户明确需要验证时才调用解释器，既保证了灵活性，又避免了不必要的资源消耗。\n\n这款工具非常适合软件开发者、AI 研究人员以及希望快速原型验证的技术人员使用。无论是进行算法竞赛刷题、自动化脚本编写，还是探索数据科学项目，AutoCoder 都能提供从代码生成到环境部署的一站式支持。目前，社区已提供基于 DeepSeek-Coder 和 CodeQwen 的多个版本（包括 7B、6.7B 及 33B 参数量），用户可根据自身算力条件灵活选择，通过简单的本地部署即可体验强大的自动编码与执行能力。","# AutoCoder\n\n## News :fire: \n\nA new model [AutoCoder_QW_7B](https:\u002F\u002Fhuggingface.co\u002FBin12345\u002FAutoCoder_QW_7B) is uploaded. In this model, We fixed the previous problem that the model will only start the code interpreter when you ask it to *verify* its code. \n\nThe base model of AutoCode_QW_7B is [CodeQwen1.5-7b](https:\u002F\u002Fhuggingface.co\u002FQwen\u002FCodeQwen1.5-7B-Chat).\n\n## Introduction :mega:\nWe introduced a new model designed for the Code generation task. Its test accuracy on the HumanEval base dataset surpasses that of GPT-4 Turbo (April 2024). (**90.9% vs 90.2%**).\n\nAdditionally, compared to previous open-source models, AutoCoder offers a new feature: it can **automatically install the required packages** and attempt to run the code until it deems there are no issues, **whenever the user wishes to execute the code**.\n\n* Difference between the code interpreter of AutoCoder and the GPT-4 Turbo:\n\nBelow are the video demos for the code interpreter comparison between GPT-4 Turbo and AutoCoder: \n\nGPT-4o can not access the external library.\n\n[GPT-4o](https:\u002F\u002Fgithub.com\u002Fbin123apple\u002FAutoCoder\u002Fassets\u002F99925255\u002Fbe47b449-4e8a-4b77-981b-ec79b15970cc)\n\nAutoCoder can automatically install the required packages. This feature expands the scope of code interpreter's application.\n\n[AutoCoder](https:\u002F\u002Fgithub.com\u002Fbin123apple\u002FAutoCoder\u002Fassets\u002F99925255\u002F1893f904-c1f2-4f59-9ec5-45b69efcc26a)\n\n* Difference between the code interpreter of AutoCoder and the current open-source code interpreter [OpenCodeInterpreter](https:\u002F\u002Fopencodeinterpreter.github.io\u002F):\n\nThe code interpreter of AutoCoder, like GPT-4 Turbo, is only called when the user has a need to verify the code, while OpenCodeInterpreter runs all generated python code.\n\n## Model :gift:\nThe Model is avaliable on Huggingface:\n \n[AutoCoder (33B)](https:\u002F\u002Fhuggingface.co\u002FBin12345\u002FAutoCoder)\n[AutoCoder-S (6.7B)](https:\u002F\u002Fhuggingface.co\u002FBin12345\u002FAutoCoder_S_6.7B)\n\nThe base models of AutoCoder (33B) and AutoCoder-S (6.7B) are deepseeker-coder.\n\n[AutoCoder_QW_7B](https:\u002F\u002Fhuggingface.co\u002FBin12345\u002FAutoCoder_QW_7B)\n\nThe base model of AutoCoder_QW_7B is CodeQwen1.5-7b.\n\n## Quick Start :rocket:\n1. Create the conda env\n\n```\nconda create -n AutoCoder python=3.11\nconda activate AutoCoder\npip install -r requirements.txt\n```\n\n2. Test on HumanEval **90.9% on base, 78.0% on base + extra**. (Skip to Step 5, if you don't want to test its performance on benchmarks)\n\n```\ncd Evaluation\npython test_humaneval.py\n```\nYou will receive a file named AutoCoder_HumanEval+.jsonl, which follows the EvalPlus format, after this step.\n\nThen follow the testing framework of the [EvalPlus GitHub](https:\u002F\u002Fgithub.com\u002Fevalplus\u002Fevalplus). You will see the results. \n\n**NOTE**: \n* Don't forget to use evalplus's `evalplus.sanitize` to post-process the code. \n* If you don't use the greedy method (for example set the `do_sample=True`) for the code generation. You will probably see the different results.\n\n3. Test on MBPP **82.5% on base, 70.6% on base + extra**. (Skip to Step 5, if you don't want to test its performance on benchmarks)\n\n```\npython test_humaneval.py\n```\n\nPost-process to delete the nature language for testing\n```\npython postprocess_mbpp.py\n```\nYour will get a AutoCoder_Mbpp+-sanitized.jsonl file after this step, it extracted all the code blocks. \nThen, directly test it by using [EvalPlus GitHub](https:\u002F\u002Fgithub.com\u002Fevalplus\u002Fevalplus) (You don't need to use to use evalplus's `evalplus.sanitize` to post-process the code this time).\n\n4. Test on DS-1000. (Skip to Step 5, if you don't want to test its performance on benchmarks)\n\n```\npython test_ds1000.py\n```\n\nYour will get a jsonl file after this step, it extracted all the code blocks. \nThen, directly test it by using [DS-1000 GitHub](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FDS-1000).\n\n5. Web demo (Include code interpreter)\n\nInstall gradio and Run:\n\n```\npip install gradio==3.48.0\ncd \u002FWeb_demo\npython chatbot.py\n```\n\n## **NOTE** :warning:\n* We suggest to set `do_sample = True` (default setting here) while using the code interpreter.\n\n* It would be preferable to use Linux for deploying everything.\n\n## Contact :email:\nIf you have any inquiries, please feel free to raise an issue or reach out to leib2765@gmail.com.\n\n## Citation :book:\n```\n@misc{lei2024autocoder,\n      title={AutoCoder: Enhancing Code Large Language Model with \\textsc{AIEV-Instruct}}, \n      author={Bin Lei and Yuchen Li and Qiuwu Chen},\n      year={2024},\n      eprint={2405.14906},\n      archivePrefix={arXiv},\n      primaryClass={cs.SE}\n}\n```\n\n## Acknowledgments :pray:\nThanks to Tianyu Zheng, the first author of the [OpenCodeInterpreter](https:\u002F\u002Fopencodeinterpreter.github.io\u002F), for guidance on some technical details.\n\n","# AutoCoder\n\n## 新闻 :fire: \n\n我们上传了一个新模型 [AutoCoder_QW_7B](https:\u002F\u002Fhuggingface.co\u002FBin12345\u002FAutoCoder_QW_7B)。在这个模型中，我们修复了之前的一个问题：模型只有在你要求它*验证*代码时才会启动代码解释器。\n\nAutoCode_QW_7B 的基础模型是 [CodeQwen1.5-7b](https:\u002F\u002Fhuggingface.co\u002FQwen\u002FCodeQwen1.5-7B-Chat)。\n\n## 介绍 :mega:\n我们推出了一款专为代码生成任务设计的新模型。它在 HumanEval 基准数据集上的测试准确率超过了 GPT-4 Turbo（2024年4月）。（**90.9% 对比 90.2%**）。\n\n此外，与之前的开源模型相比，AutoCoder 提供了一项新功能：当用户希望执行代码时，它能够**自动安装所需的包**，并尝试运行代码，直到认为没有问题为止。\n\n* AutoCoder 的代码解释器与 GPT-4 Turbo 的区别：\n\n以下是 GPT-4 Turbo 和 AutoCoder 代码解释器对比的视频演示：\n\nGPT-4o 无法访问外部库。\n\n[GPT-4o](https:\u002F\u002Fgithub.com\u002Fbin123apple\u002FAutoCoder\u002Fassets\u002F99925255\u002Fbe47b449-4e8a-4b77-981b-ec79b15970cc)\n\nAutoCoder 可以自动安装所需的包。这一特性扩展了代码解释器的应用范围。\n\n[AutoCoder](https:\u002F\u002Fgithub.com\u002Fbin123apple\u002FAutoCoder\u002Fassets\u002F99925255\u002F1893f904-c1f2-4f59-9ec5-45b69efcc26a)\n\n* AutoCoder 的代码解释器与当前开源代码解释器 [OpenCodeInterpreter](https:\u002F\u002Fopencodeinterpreter.github.io\u002F) 的区别：\n\nAutoCoder 的代码解释器像 GPT-4 Turbo 一样，仅在用户需要验证代码时才会被调用，而 OpenCodeInterpreter 则会运行所有生成的 Python 代码。\n\n## 模型 :gift:\n该模型已在 Hugging Face 上发布：\n\n[AutoCoder (33B)](https:\u002F\u002Fhuggingface.co\u002FBin12345\u002FAutoCoder)\n[AutoCoder-S (6.7B)](https:\u002F\u002Fhuggingface.co\u002FBin12345\u002FAutoCoder_S_6.7B)\n\nAutoCoder (33B) 和 AutoCoder-S (6.7B) 的基础模型是 deepseeker-coder。\n\n[AutoCoder_QW_7B](https:\u002F\u002Fhuggingface.co\u002FBin12345\u002FAutoCoder_QW_7B)\n\nAutoCoder_QW_7B 的基础模型是 CodeQwen1.5-7b。\n\n## 快速入门 :rocket:\n1. 创建 conda 环境\n\n```\nconda create -n AutoCoder python=3.11\nconda activate AutoCoder\npip install -r requirements.txt\n```\n\n2. 在 HumanEval 上进行测试 **基准测试得分为 90.9%，基准+额外测试得分为 78.0%**。（如果你不想测试其在基准上的表现，可跳至第 5 步）\n\n```\ncd Evaluation\npython test_humaneval.py\n```\n\n完成此步骤后，你会得到一个名为 AutoCoder_HumanEval+.jsonl 的文件，该文件遵循 EvalPlus 格式。\n\n然后按照 [EvalPlus GitHub](https:\u002F\u002Fgithub.com\u002Fevalplus\u002Fevalplus) 的测试框架进行操作，即可查看结果。\n\n**注意**：\n* 不要忘记使用 evalplus 的 `evalplus.sanitize` 对代码进行后处理。\n* 如果你在代码生成时未使用贪婪方法（例如设置了 `do_sample=True`），可能会看到不同的结果。\n\n3. 在 MBPP 上进行测试 **基准测试得分为 82.5%，基准+额外测试得分为 70.6%**。（如果你不想测试其在基准上的表现，可跳至第 5 步）\n\n```\npython test_humaneval.py\n```\n\n进行后处理以删除用于测试的语言描述：\n\n```\npython postprocess_mbpp.py\n```\n\n完成此步骤后，你会得到一个 AutoCoder_Mbpp+-sanitized.jsonl 文件，其中提取了所有的代码块。然后可以直接使用 [EvalPlus GitHub](https:\u002F\u002Fgithub.com\u002Fevalplus\u002Fevalplus) 进行测试（这次无需使用 evalplus 的 `evalplus.sanitize` 对代码进行后处理）。\n\n4. 在 DS-1000 上进行测试。（如果你不想测试其在基准上的表现，可跳至第 5 步）\n\n```\npython test_ds1000.py\n```\n\n完成此步骤后，你会得到一个 jsonl 文件，其中提取了所有的代码块。然后可以直接使用 [DS-1000 GitHub](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FDS-1000) 进行测试。\n\n5. Web 演示（包含代码解释器）\n\n安装 Gradio 并运行：\n\n```\npip install gradio==3.48.0\ncd \u002FWeb_demo\npython chatbot.py\n```\n\n## **注意** :warning:\n* 我们建议在使用代码解释器时将 `do_sample = True`（此处为默认设置）。\n\n* 部署时最好使用 Linux 系统。\n\n## 联系方式 :email:\n如有任何疑问，请随时提交 issue 或发送邮件至 leib2765@gmail.com。\n\n## 引用 :book:\n```\n@misc{lei2024autocoder,\n      title={AutoCoder: Enhancing Code Large Language Model with \\textsc{AIEV-Instruct}}, \n      author={Bin Lei and Yuchen Li and Qiuwu Chen},\n      year={2024},\n      eprint={2405.14906},\n      archivePrefix={arXiv},\n      primaryClass={cs.SE}\n}\n```\n\n## 致谢 :pray:\n感谢 [OpenCodeInterpreter](https:\u002F\u002Fopencodeinterpreter.github.io\u002F) 的第一作者 Tianyu Zheng，在一些技术细节上给予的指导。","# AutoCoder 快速上手指南\n\nAutoCoder 是一款专为代码生成任务设计的开源大模型，其在 HumanEval 基准测试中的准确率超越 GPT-4 Turbo。其核心特色是内置了智能代码解释器，能够**自动安装所需依赖包**并尝试运行代码，直至确认无误，极大提升了代码执行的成功率。\n\n## 环境准备\n\n*   **操作系统**：强烈建议使用 **Linux** 系统进行部署，以获得最佳兼容性。\n*   **Python 版本**：需要 Python 3.11。\n*   **依赖管理**：推荐使用 `conda` 进行环境隔离。\n\n## 安装步骤\n\n1.  **创建并激活 Conda 环境**\n    ```bash\n    conda create -n AutoCoder python=3.11\n    conda activate AutoCoder\n    ```\n\n2.  **安装项目依赖**\n    ```bash\n    pip install -r requirements.txt\n    ```\n    > **提示**：国内用户若下载缓慢，可添加清华或阿里镜像源加速：\n    > `pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`\n\n3.  **安装 Web 演示组件（可选）**\n    如需体验包含代码解释器的网页版交互界面，需单独安装指定版本的 Gradio：\n    ```bash\n    pip install gradio==3.48.0\n    ```\n\n## 基本使用\n\n### 方式一：启动 Web 交互界面（推荐）\n\n这是最简单的使用方式，内置了代码解释器功能，支持自动安装依赖和代码验证。\n\n1.  进入 Web 演示目录：\n    ```bash\n    cd \u002FWeb_demo\n    ```\n\n2.  启动聊天机器人服务：\n    ```bash\n    python chatbot.py\n    ```\n\n3.  在浏览器中打开终端显示的地址（通常为 `http:\u002F\u002Flocalhost:7860`），即可开始对话。\n    *   **使用技巧**：直接让模型生成代码并执行。当需要验证代码时，模型会自动调用解释器安装缺失库并运行，无需手动干预。\n    *   **注意**：在使用代码解释器功能时，建议保持默认设置 `do_sample = True` 以获得更好效果。\n\n### 方式二：基准测试（进阶）\n\n如果您需要评估模型在 HumanEval、MBPP 或 DS-1000 等基准数据集上的性能，可参考以下命令（非必需步骤）：\n\n*   **HumanEval 测试**:\n    ```bash\n    cd Evaluation\n    python test_humaneval.py\n    # 生成的文件需配合 EvalPlus 框架进一步评测\n    ```\n\n*   **MBPP 测试**:\n    ```bash\n    python test_humaneval.py\n    python postprocess_mbpp.py\n    # 生成的 AutoCoder_Mbpp+-sanitized.jsonl 可直接用于 EvalPlus 评测\n    ```\n\n*   **DS-1000 测试**:\n    ```bash\n    python test_ds1000.py\n    # 生成的文件需配合 DS-1000 框架进一步评测\n    ```","数据分析师小林需要快速编写一个包含冷门统计库的 Python 脚本来处理紧急的市场调研数据，并立即验证结果准确性。\n\n### 没有 AutoCoder 时\n- **环境配置耗时**：脚本依赖 `statsmodels` 等非常规库，小林必须手动查找包名、创建虚拟环境并逐一安装，打断编码心流。\n- **调试循环冗长**：代码运行报错后，需人工分析缺失依赖或语法错误，修改代码后再重新执行，反复多次才能跑通。\n- **能力边界受限**：若使用其他开源模型生成的代码涉及外部库，往往因无法自动联网安装而直接失败，只能退回基础库实现。\n- **验证门槛高**：只有在明确指令“验证代码”时模型才尝试运行，日常生成中无法即时发现逻辑漏洞或环境冲突。\n\n### 使用 AutoCoder 后\n- **依赖自动解决**：AutoCoder 识别到代码需要特定库时，会自动执行安装命令，无需小林手动干预环境配置。\n- **自愈式执行**：模型会主动尝试运行代码，若遇报错则自动修正并重装依赖，直到成功输出结果，大幅缩短调试时间。\n- **扩展应用范围**：得益于自动安装能力，AutoCoder 能驾驭各类第三方库，让复杂的数据分析任务不再受限于标准库。\n- **按需智能验证**：仅在用户需要执行时触发解释器，既避免了无效运行，又确保了代码在真实环境中的可用性。\n\nAutoCoder 通过“生成即运行、缺包自动装”的闭环能力，将数据原型的验证周期从小时级压缩至分钟级。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbin123apple_AutoCoder_514bf63c.png","bin123apple","Bin Lei","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fbin123apple_34c3257e.jpg",null,"leib2765@gmail.com","https:\u002F\u002Fgithub.com\u002Fbin123apple",[22,26,30,34,38,42,46,50],{"name":23,"color":24,"percentage":25},"Python","#3572A5",83.6,{"name":27,"color":28,"percentage":29},"C++","#f34b7d",5.9,{"name":31,"color":32,"percentage":33},"Java","#b07219",4.4,{"name":35,"color":36,"percentage":37},"Rust","#dea584",3.3,{"name":39,"color":40,"percentage":41},"Shell","#89e051",1.5,{"name":43,"color":44,"percentage":45},"CMake","#DA3434",0.8,{"name":47,"color":48,"percentage":49},"Makefile","#427819",0.3,{"name":51,"color":52,"percentage":53},"Fortran","#4d41b1",0.1,849,72,"2026-04-11T08:55:32","Apache-2.0",3,"Linux","未说明（需根据模型大小自行推断，33B\u002F7B 模型通常需要高性能 NVIDIA GPU）","未说明",{"notes":63,"python":64,"dependencies":65},"强烈建议使用 Linux 系统进行部署。建议使用 conda 创建虚拟环境。运行代码解释器功能时建议设置 do_sample=True。评测时需使用 evalplus.sanitize 对代码进行后处理。","3.11",[66],"gradio==3.48.0",[68,69,70],"其他","开发框架","语言模型",[72,73,74,75,76,77,78],"code-generation","code-interpreter","humaneval","llm","text-generation","nlp","nlp-machine-learning",2,"ready","2026-03-27T02:49:30.150509","2026-04-19T03:05:03.521577",[84,89,94,99,104,109,113],{"id":85,"question_zh":86,"answer_zh":87,"source_url":88},41296,"model.generate() 的输出为什么是单轮对话而不是多轮对话？推理过程中省略了什么信息？","AIEV-Instruct 数据集支持两种情况：1) 单轮问答（用于 HumanEval+ 等基准测试），微调方式与传统 Q&A 对一致；2) 多轮对话，通过在初始问题后附加类似“请帮我验证代码”的变体，触发模型进入执行反馈和提问循环。虽然单轮推理也有较高正确率，但通过引入代码执行反馈和多轮交互，最终答案的正确率会更高。在 model.generate() 推理时，默认只输出最终结果，不显式展示中间的“生成 - 执行 - 反馈”多轮过程。","https:\u002F\u002Fgithub.com\u002Fbin123apple\u002FAutoCoder\u002Fissues\u002F11",{"id":90,"question_zh":91,"answer_zh":92,"source_url":93},41297,"Windows 环境下运行 AutoCoder 遇到显存溢出或代码解释器无法工作怎么办？","Windows 用户建议添加 torch_dtype=torch.float16 参数加载模型以降低显存占用（例如从 23GB 降至 13GB）。由于代码解释器依赖 Docker 容器隔离执行，纯 Windows 环境通常无法直接运行，建议使用 WSL2 或切换到 Linux 环境。Docker 容器会在每次对话时重新创建并自动删除，以确保安全性和环境隔离。","https:\u002F\u002Fgithub.com\u002Fbin123apple\u002FAutoCoder\u002Fissues\u002F1",{"id":95,"question_zh":96,"answer_zh":97,"source_url":98},41298,"AutoCoder 的训练数据是否会开源？","关于训练数据及数据生成代码的开源计划目前仍在讨论中，尚未正式公布。用户可以关注 Hugging Face 讨论区（https:\u002F\u002Fhuggingface.co\u002FBin12345\u002FAutoCoder\u002Fdiscussions\u002F2）获取最新进展，一旦有消息维护者会及时更新。","https:\u002F\u002Fgithub.com\u002Fbin123apple\u002FAutoCoder\u002Fissues\u002F2",{"id":100,"question_zh":101,"answer_zh":102,"source_url":103},41299,"两阶段数据合成中，教师模型蒸馏数据和自学习数据的比例是多少？迭代多少次停止？","根据论文流程，即使进入自学习阶段，模型仍可能返回教学阶段，因此没有统计确切的“临界点”数据量。据作者回忆，约 1\u002F5 的数据来自自学习阶段。性能评估并非基于固定基准，而是每次使用生成数据的 10% 作为测试集并与 GPT 结果对比，因此很难确定具体的停止迭代次数，因为每次测试集都不同。","https:\u002F\u002Fgithub.com\u002Fbin123apple\u002FAutoCoder\u002Fissues\u002F13",{"id":105,"question_zh":106,"answer_zh":107,"source_url":108},41300,"Docker 容器在对话结束后是否会自动删除？镜像需要手动清理吗？","是的，Docker 容器在每次对话结束后会自动删除。但 Docker 镜像（约 1.02GB）会保留在本地以便重复使用，无需每次重新拉取。如果强制退出进程（Ctrl+C），容器也会自动清理，只需在不再需要时手动删除镜像即可释放空间。","https:\u002F\u002Fgithub.com\u002Fbin123apple\u002FAutoCoder\u002Fissues\u002F3",{"id":110,"question_zh":111,"answer_zh":112,"source_url":88},41301,"为什么 AutoCoder 在 HumanEval 上表现好但在 HumanEval+ 上表现一般？","大多数大型代码数据集难以保证 100% 正确性，通常由 GPT-4 等大模型标注。AIEV-Instruct 通过加入执行反馈和单元测试提高了准确性，但仍无法保证完全正确，因为生成的单元测试可能未覆盖所有测试用例。这是 AutoCoder 在 HumanEval 表现优异但在更严格的 HumanEval+ 上表现稍弱的原因之一。",{"id":114,"question_zh":115,"answer_zh":116,"source_url":108},41302,"如何在 Linux 环境下正确部署 AutoCoder 以避免显卡分配或容器冲突问题？","在 Linux Conda 虚拟环境中，确保 Python 版本和依赖与官方要求一致（如 Python 3.10.13, CUDA 11.8）。若不设置 export CUDA_VISIBLE_DEVICES，多卡环境会自动均分加载模型。如遇 Docker 容器冲突，可尝试强制退出进程（Ctrl+C）让容器自动清理，或联系维护者获取远程协助排查具体配置问题。",[],[119,130,138,146,154,163],{"id":120,"name":121,"github_repo":122,"description_zh":123,"stars":124,"difficulty_score":58,"last_commit_at":125,"category_tags":126,"status":80},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,"2026-04-06T06:32:30",[127,69,128,129],"Agent","图像","数据工具",{"id":131,"name":132,"github_repo":133,"description_zh":134,"stars":135,"difficulty_score":58,"last_commit_at":136,"category_tags":137,"status":80},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[69,128,127],{"id":139,"name":140,"github_repo":141,"description_zh":142,"stars":143,"difficulty_score":79,"last_commit_at":144,"category_tags":145,"status":80},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",160015,"2026-04-18T11:30:52",[69,127,70],{"id":147,"name":148,"github_repo":149,"description_zh":150,"stars":151,"difficulty_score":79,"last_commit_at":152,"category_tags":153,"status":80},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,"2026-04-18T11:18:24",[69,128,127],{"id":155,"name":156,"github_repo":157,"description_zh":158,"stars":159,"difficulty_score":79,"last_commit_at":160,"category_tags":161,"status":80},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[162,127,128,69],"插件",{"id":164,"name":165,"github_repo":166,"description_zh":167,"stars":168,"difficulty_score":79,"last_commit_at":169,"category_tags":170,"status":80},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[162,69]]