[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-CodedotAl--gpt-code-clippy":3,"tool-CodedotAl--gpt-code-clippy":65},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",159636,2,"2026-04-17T23:33:34",[13,14,15],"开发框架","Agent","语言模型","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,3,"2026-04-06T11:19:32",[15,26,14,13],"图像",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":10,"last_commit_at":33,"category_tags":34,"status":16},8553,"spec-kit","github\u002Fspec-kit","Spec Kit 是一款专为提升软件开发效率而设计的开源工具包，旨在帮助团队快速落地“规格驱动开发”（Spec-Driven Development）模式。传统开发中，需求文档往往与代码实现脱节，导致沟通成本高且结果不可控；而 Spec Kit 通过将规格说明书转化为可执行的指令，让 AI 直接依据明确的业务场景生成高质量代码，从而减少从零开始的随意编码，确保产出结果的可预测性。\n\n该工具特别适合希望利用 AI 辅助编程的开发者、技术负责人及初创团队。无论是启动全新项目还是在现有工程中引入规范化流程，用户只需通过简单的命令行操作，即可初始化项目并集成主流的 AI 编程助手。其核心技术亮点在于“规格即代码”的理念，支持社区扩展与预设模板，允许用户根据特定技术栈定制开发流程。此外，Spec Kit 强调官方维护的安全性，提供稳定的版本管理，帮助开发者在享受 AI 红利的同时，依然牢牢掌握架构设计的主动权，真正实现从“凭感觉写代码”到“按规格建系统”的转变。",88749,"2026-04-17T09:48:14",[15,26,14,13],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":10,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,15],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":10,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85092,"2026-04-10T11:13:16",[26,51,52,53,14,54,15,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":62,"last_commit_at":63,"category_tags":64,"status":16},5784,"funNLP","fighting41love\u002FfunNLP","funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为\"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。\n\n面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。\n\n无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。",79857,1,"2026-04-08T20:11:31",[15,51,54],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":71,"readme_en":72,"readme_zh":73,"quickstart_zh":74,"use_case_zh":75,"hero_image_url":76,"owner_login":77,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":80,"owner_email":80,"owner_twitter":81,"owner_website":80,"owner_url":82,"languages":83,"stars":100,"forks":101,"last_commit_at":102,"license":103,"difficulty_score":104,"env_os":79,"env_gpu":105,"env_ram":106,"env_deps":107,"category_tags":113,"github_topics":80,"view_count":10,"oss_zip_url":80,"oss_zip_packed_at":80,"status":16,"created_at":114,"updated_at":115,"faqs":116,"releases":155},8853,"CodedotAl\u002Fgpt-code-clippy","gpt-code-clippy","Full description can be found here: https:\u002F\u002Fdiscuss.huggingface.co\u002Ft\u002Fpretrain-gpt-neo-for-open-source-github-copilot-model\u002F7678?u=ncoop57","GPT-Code-Clippy 是一个旨在打造开源版 GitHub Copilot 的 AI 项目。它基于 GPT-3 架构（具体为 GPT-Neo 和 GPT-2），通过在海量公开 GitHub 代码库上进行微调，具备了理解编程语言并辅助生成代码的能力。\n\n该项目主要解决了开发者对透明、可自由定制的代码辅助工具的需求。不同于闭源的商业竞品，GPT-Code-Clippy 完全开放了从数据构建到模型训练的全过程。其核心亮点在于严谨的数据处理机制：项目团队利用 SEART GitHub Search 筛选出高质量仓库（如拥有超过 10 个星标、具备许可证且非叉子的项目），并结合 The Pile 数据集，通过独特的正则表达式算法去除重复代码文件，从而构建了高质量的训练语料。尽管项目在数据抓取阶段曾发现文件名标注的瑕疵并提出了修复方案，但其探索开源大模型训练路径的努力极具价值。\n\n目前，GPT-Code-Clippy 提供了多个不同参数规模的预训练模型供社区使用。它非常适合人工智能研究人员、希望深入理解代码大模型原理的开发者，以及寻求私有化部署代码助手的企业技术团队。对于普通用户而言，这也","GPT-Code-Clippy 是一个旨在打造开源版 GitHub Copilot 的 AI 项目。它基于 GPT-3 架构（具体为 GPT-Neo 和 GPT-2），通过在海量公开 GitHub 代码库上进行微调，具备了理解编程语言并辅助生成代码的能力。\n\n该项目主要解决了开发者对透明、可自由定制的代码辅助工具的需求。不同于闭源的商业竞品，GPT-Code-Clippy 完全开放了从数据构建到模型训练的全过程。其核心亮点在于严谨的数据处理机制：项目团队利用 SEART GitHub Search 筛选出高质量仓库（如拥有超过 10 个星标、具备许可证且非叉子的项目），并结合 The Pile 数据集，通过独特的正则表达式算法去除重复代码文件，从而构建了高质量的训练语料。尽管项目在数据抓取阶段曾发现文件名标注的瑕疵并提出了修复方案，但其探索开源大模型训练路径的努力极具价值。\n\n目前，GPT-Code-Clippy 提供了多个不同参数规模的预训练模型供社区使用。它非常适合人工智能研究人员、希望深入理解代码大模型原理的开发者，以及寻求私有化部署代码助手的企业技术团队。对于普通用户而言，这也是一个观察和学习开源 AI 如何“学会”写代码的绝佳窗口。","# GPT-Code-Clippy (GPT-CC)\n**Please refer to our new [GitHub Wiki](https:\u002F\u002Fgithub.com\u002Fncoop57\u002Fgpt-code-clippy\u002Fwiki) which documents our efforts in detail in creating the open source version of GitHub  Copilot**\n\n\u003Cp align=\"center\">\n    \u003Cbr>\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FCodedotAl_gpt-code-clippy_readme_46c6a24a579a.jpg\" width=\"256\"\u002F>\n    \u003Cbr>\n    Courtesy of the awesome Aimee Trevett!\n\u003Cp>\n\n## Introduction\n\nGPT-Code-Clippy (GPT-CC) is an open source version of [GitHub Copilot](https:\u002F\u002Fcopilot.github.com\u002F), a language model -- based on [GPT-3](https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.14165), called [GPT-Codex](https:\u002F\u002Farxiv.org\u002Fabs\u002F2107.03374) -- that is fine-tuned on publicly available code from GitHub.\n\n## Datasets\n\nThe dataset used to train GPT-CC is obtained from [SEART GitHub Search](https:\u002F\u002Fseart-ghs.si.usi.ch\u002F) using the following criteria:\n\n- &gt;10 GitHub stars\n- &gt;2 commits\n- Must have a licence\n- Exclude forks\n- Size \u003C 70708 bytes\n\nThese repositories are then combined with all of the GitHub repositories contain in [The Pile](https:\u002F\u002Farxiv.org\u002Fabs\u002F2101.00027).\n\nThe repositories are then filtered for duplicate files. Filtering is performed by regexing each file in each repository to obtain a list of \"variables\" (the tokens which only contain alphanumeric characters) and then filtering out any files which contain the same sequence of \"variables. The deduplication script is available [here](https:\u002F\u002Fgithub.com\u002Fncoop57\u002Fgpt-code-clippy\u002Ftree\u002Fcamera-ready\u002Fdata_processing\u002Fdeduplication).\n\nThe final dataset is available [here](https:\u002F\u002Fthe-eye.eu\u002Fpublic\u002FAI\u002Ftraining_data\u002Fcode_clippy_data\u002Fcode_clippy_dedup_data\u002F). The dataset without the duplicates filtered out is also available [here](https:\u002F\u002Fthe-eye.eu\u002Fpublic\u002FAI\u002Ftraining_data\u002Fcode_clippy_data\u002Fcode_clippy_dedup_data\u002F).\n\nThe datasheet discussing in more detail the construction, usage, and limitation of the dataset can be found [here](https:\u002F\u002Fgithub.com\u002Fncoop57\u002Fdatasets\u002Ftree\u002Fcode-clippy\u002Fdatasets\u002Fcode_clippy). We hope to get it officially into Huggingface's datasets library [soon](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets\u002Fpull\u002F2666)!\n\n## ISSUE : Wrong Filenames in the Dataset\nWe recently came to know about a bug which happened during the scraping of the dataset. We found out that the file names are obsolete\u002Fmisleading.[Refer this [issue](https:\u002F\u002Fgithub.com\u002FCodedotAl\u002Fgpt-code-clippy\u002Fissues\u002F71)] We thank Naman for pointing out the issue.      \n    \nThis might have two implications,    \n- Since the filtering for the training dataset is done using the file extension, we might have had wrong datapoints in the dataset while training and we might have missed a lot of right datapoints that belong to the languages of choice.      \n    \nOne intermittent fix would be to use tools like lib-magic to some extension for the purpose of filtering. More detailed steps can be found [here](https:\u002F\u002Fgithub.com\u002FCodedotAl\u002Fgpt-code-clippy\u002Fissues\u002F71#issuecomment-955613925).\n    \n    \n## Models\n\nThe GPT-CC models are fine-tuned versions of [GPT-2](https:\u002F\u002Fcdn.openai.com\u002Fbetter-language-models\u002Flanguage_models_are_unsupervised_multitask_learners.pdf) and [GPT-Neo](https:\u002F\u002Fgithub.com\u002FEleutherAI\u002Fgpt-neo).\n\nThe available models can be found [here](https:\u002F\u002Fhuggingface.co\u002Fmodels?search=code-clippy)\n\nThe ones that perform relatively well (None improve on the standard GPT-Neo 125M model except for APPs specific models and only for the APPs task):\n- https:\u002F\u002Fhuggingface.co\u002Fflax-community\u002Fgpt-code-clippy-125M-apps-alldata\n- https:\u002F\u002Fhuggingface.co\u002Fflax-community\u002Fgpt-code-clippy-1.3B-apps-alldata-2\n- https:\u002F\u002Fhuggingface.co\u002Fflax-community\u002Fgpt-code-clippy-1.3B-apps-alldata\n- https:\u002F\u002Fhuggingface.co\u002Fflax-community\u002Fgpt-code-clippy-1.3B-apps\n- https:\u002F\u002Fhuggingface.co\u002Fflax-community\u002Fgpt-neo-125M-code-clippy\n- https:\u002F\u002Fhuggingface.co\u002Fflax-community\u002Fgpt-neo-125M-code-clippy-dedup-filtered-no-resize-2048bs\n- https:\u002F\u002Fhuggingface.co\u002Fflax-community\u002Fgpt-neo-125M-code-clippy-dedup-2048\n\nTODO: which is the recommended model?\n\n## Training\n\nTraining is done using the training scripts available [here](https:\u002F\u002Fgithub.com\u002Fncoop57\u002Fgpt-code-clippy\u002Ftree\u002Fcamera-ready\u002Ftraining).\n\nFor fine-tuning GPTNeo-125M on CodeClippy dataset we used AdamW optimizer (beta1=0.9, beta2=0.95) with GPT3-like learning rate schedule (4k warmup steps from 0 to 5e-5 followed by 50k cosine decay steps to 5e-6), weight decay 0.1 and batch size 1024, sequence length 2048. The choice of relatively large batch size and low LR with long warmup are made to avoid agressive updates and preserve the knowledge contained in pretrained GPTNeo weights.\n\nFor fine-tuning GPTNe0-125M on APPS dataset we used AdamW optimizer (beta1=0.9, beta2=0.98) with linear learning rate schedule (800 warmup steps from 0 to peak LR followed by linear decay to 0, a range of value for peak LR was [1e-5; 1e-4]), weight decay 0.1 and batch size 256, sequence length 1024. We trained model for 5 epochs selecting best checkpoint judging by validation loss. The language modelling objective for APPS dataset is modified to backpropagate loss only for the tokens corresponding to code solution (refer to [Hendrycks et al](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2105.09938.pdf) for more details).\n\nFor fine-tuning GPTNe0-1.3B on APPS dataset we used [Adafactor optimizer](https:\u002F\u002Fgithub.com\u002Fdeepmind\u002Foptax\u002Fblob\u002F243ed1991b2793e87ab60387f7c3d49d6ab57710\u002Foptax\u002F_src\u002Falias.py#L74) with linear learning rate schedule (5k warmup steps from 0 to 2e-5 followed by linear decay to 0), weight decay 0.1 and batch size 24, sequence length 1024. The choice of hyperparameters for 1.3B model is in part determined by hardware limitations. We trained model for 5 epochs selecting best checkpoint judging by validation loss.\n\n\nTODO: which is the recommended way to train GPT-CC?\n\n## Evaluation\n\nThe models are also evaluated on the [APPS](https:\u002F\u002Fgithub.com\u002Fhendrycks\u002Fapps) and [HumanEval](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fhuman-eval) datasets.\n\n### Human Eval Results\n\n| Model                             |   pass@1    |   pass@2    |   pass@5    |   pass@10   |\n| --------------------------------- | :---------: | :---------: | :---------: | :---------: |\n| EleutherAI\u002Fgpt-neo                |    0.12%    |    0.24%    |    0.61%    |    1.22%    |\n| gpt-neo-125M-apps                 |    0.06%    |    0.12%    |    0.30%    |    0.61%    |\n| dedup-filtered-no-resize-2048bs   |    0.00%    |    0.00%    |    0.00%    |    0.00%    |\n| 1024-filtered                     |    0.00%    |    0.00%    |    0.00%    |    0.00%    |\n| dedup-2048                        |    0.00%    |    0.00%    |    0.00%    |    0.00%    |\n\n### APPS Eval Results\n\nComing soon...\n\n## Demo\n\nA [Visual Studio Code](https:\u002F\u002Fcode.visualstudio.com\u002F) which uses the [HuggingFace Inference API](https:\u002F\u002Fapi-inference.huggingface.co\u002Fdocs\u002Fpython\u002Fhtml\u002Findex.html) is available and can be found [here](https:\u002F\u002Fgithub.com\u002FCodedotAl\u002Fcode-clippy-vscode).\n\nWe also have [Huggingface's Space demo](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fflax-community\u002Fcode-clippy-problem-solver) where you can specify and problem in the format of a programming competition question.\n\nTODO: more information about this when complete.\n\n## Further Reading\n\nFor more information about GPT-CC, GitHub Copilot, etc, see:\n\n- https:\u002F\u002Fgithub.blog\u002F2021-06-29-introducing-github-copilot-ai-pair-programmer\u002F\n\nTODO: add more further reading.\n\n## Acknowledgements\n\nSpecial thanks to our contributors!!\n- https:\u002F\u002Fgithub.com\u002Farampacha\n- https:\u002F\u002Fgithub.com\u002Fncoop57\n- https:\u002F\u002Fgithub.com\u002Fbentrevett\n- https:\u002F\u002Fgithub.com\u002Farunraja-hub\n- https:\u002F\u002Fgithub.com\u002Freshinthadithyan\n- https:\u002F\u002Fgithub.com\u002Fshpotes\n- https:\u002F\u002Fgithub.com\u002Ftaisazero\n- https:\u002F\u002Fgithub.com\u002Fneubig\n- https:\u002F\u002Fgithub.com\u002FMrinal18\n- and everyone else that helped out the project!\n","# GPT-Code-Clippy (GPT-CC)\n**请参阅我们的新 [GitHub Wiki](https:\u002F\u002Fgithub.com\u002Fncoop57\u002Fgpt-code-clippy\u002Fwiki)，其中详细记录了我们创建 GitHub Copilot 开源版本的努力过程。**\n\n\u003Cp align=\"center\">\n    \u003Cbr>\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FCodedotAl_gpt-code-clippy_readme_46c6a24a579a.jpg\" width=\"256\"\u002F>\n    \u003Cbr>\n    感谢超棒的 Aimee Trevett！\n\u003Cp>\n\n## 简介\n\nGPT-Code-Clippy (GPT-CC) 是 [GitHub Copilot](https:\u002F\u002Fcopilot.github.com\u002F) 的开源版本，它基于 [GPT-3](https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.14165) 构建的语言模型——名为 [GPT-Codex](https:\u002F\u002Farxiv.org\u002Fabs\u002F2107.03374)——并在 GitHub 上公开可用的代码上进行了微调。\n\n## 数据集\n\n用于训练 GPT-CC 的数据集来自 [SEART GitHub Search](https:\u002F\u002Fseart-ghs.si.usi.ch\u002F)，筛选标准如下：\n\n- 超过 10 颗 GitHub 星标\n- 超过 2 次提交\n- 必须有许可证\n- 排除分支\n- 文件大小小于 70708 字节\n\n随后，这些仓库与 [The Pile](https:\u002F\u002Farxiv.org\u002Fabs\u002F2101.00027) 中包含的所有 GitHub 仓库合并在一起。\n\n接着，对仓库中的重复文件进行过滤。过滤方法是通过正则表达式提取每个仓库中每个文件的“变量”列表（仅由字母数字字符组成的标记），然后移除包含相同“变量”序列的文件。去重脚本可在 [这里](https:\u002F\u002Fgithub.com\u002Fncoop57\u002Fgpt-code-clippy\u002Ftree\u002Fcamera-ready\u002Fdata_processing\u002Fdeduplication) 获取。\n\n最终的数据集可在此处获取：[链接](https:\u002F\u002Fthe-eye.eu\u002Fpublic\u002FAI\u002Ftraining_data\u002Fcode_clippy_data\u002Fcode_clippy_dedup_data\u002F)。未经过滤掉重复项的数据集也可在此处获取：[链接](https:\u002F\u002Fthe-eye.eu\u002Fpublic\u002FAI\u002Ftraining_data\u002Fcode_clippy_data\u002Fcode_clippy_dedup_data\u002F)。\n\n有关数据集构建、使用及局限性的更详细说明文档可在 [这里](https:\u002F\u002Fgithub.com\u002Fncoop57\u002Fdatasets\u002Ftree\u002Fcode-clippy\u002Fdatasets\u002Fcode_clippy) 找到。我们希望它能尽快正式加入 Hugging Face 的数据集库 [此处](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdatasets\u002Fpull\u002F2666)！\n\n## 问题：数据集中文件名错误\n我们最近发现了一个在数据集抓取过程中出现的 bug。原来文件名已经过时或具有误导性。[请参阅此问题](https:\u002F\u002Fgithub.com\u002FCodedotAl\u002Fgpt-code-clippy\u002Fissues\u002F71)。感谢 Naman 指出了这个问题。\n\n这可能会带来两个影响：\n- 由于训练数据集的过滤是基于文件扩展名进行的，我们在训练时可能包含了错误的数据点，并且可能遗漏了许多属于目标语言的正确数据点。\n\n一个临时的解决方法是使用 lib-magic 等工具来根据文件内容确定扩展名，从而进行过滤。更详细的步骤可在 [这里](https:\u002F\u002Fgithub.com\u002FCodedotAl\u002Fgpt-code-clippy\u002Fissues\u002F71#issuecomment-955613925) 查看。\n\n## 模型\n\nGPT-CC 模型是 [GPT-2](https:\u002F\u002Fcdn.openai.com\u002Fbetter-language-models\u002Flanguage_models_are_unsupervised_multitask_learners.pdf) 和 [GPT-Neo](https:\u002F\u002Fgithub.com\u002FEleutherAI\u002Fgpt-neo) 的微调版本。\n\n可用的模型可在 [这里](https:\u002F\u002Fhuggingface.co\u002Fmodels?search=code-clippy) 查看。\n\n表现相对较好的模型（除了特定于 APPS 的模型外，其他模型均未优于标准的 GPT-Neo 125M 模型）：\n- https:\u002F\u002Fhuggingface.co\u002Fflax-community\u002Fgpt-code-clippy-125M-apps-alldata\n- https:\u002F\u002Fhuggingface.co\u002Fflax-community\u002Fgpt-code-clippy-1.3B-apps-alldata-2\n- https:\u002F\u002Fhuggingface.co\u002Fflax-community\u002Fgpt-code-clippy-1.3B-apps-alldata\n- https:\u002F\u002Fhuggingface.co\u002Fflax-community\u002Fgpt-code-clippy-1.3B-apps\n- https:\u002F\u002Fhuggingface.co\u002Fflax-community\u002Fgpt-neo-125M-code-clippy\n- https:\u002F\u002Fhuggingface.co\u002Fflax-community\u002Fgpt-neo-125M-code-clippy-dedup-filtered-no-resize-2048bs\n- https:\u002F\u002Fhuggingface.co\u002Fflax-community\u002Fgpt-neo-125M-code-clippy-dedup-2048\n\n待办事项：推荐使用哪个模型？\n\n## 训练\n\n训练使用位于 [这里](https:\u002F\u002Fgithub.com\u002Fncoop57\u002Fgpt-code-clippy\u002Ftree\u002Fcamera-ready\u002Ftraining) 的训练脚本进行。\n\n对于在 CodeClippy 数据集上微调 GPTNeo-125M，我们使用了 AdamW 优化器（beta1=0.9，beta2=0.95），并采用了类似 GPT3 的学习率调度方案（先进行 4000 步的预热，从 0 加速至 5e-5，随后进行 50000 步的余弦退火，降至 5e-6），权重衰减为 0.1，批量大小为 1024，序列长度为 2048。选择较大的批量和较低的学习率以及较长的预热期，是为了避免过于激进的更新，从而保留预训练 GPTNeo 权重中所包含的知识。\n\n对于在 APPS 数据集上微调 GPTNe0-125M，我们使用了 AdamW 优化器（beta1=0.9，beta2=0.98），并采用了线性学习率调度方案（先进行 800 步的预热，从 0 加速至峰值学习率，随后线性下降至 0，峰值学习率范围为 [1e-5; 1e-4]），权重衰减为 0.1，批量大小为 256，序列长度为 1024。我们训练了 5 个 epoch，并根据验证损失选择了最佳检查点。针对 APPS 数据集的语言建模目标被修改为仅对对应于代码解决方案的标记反向传播损失（更多详情请参阅 [Hendrycks 等人](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2105.09938.pdf) 的研究）。\n\n对于在 APPS 数据集上微调 GPTNe0-1.3B，我们使用了 [Adafactor 优化器](https:\u002F\u002Fgithub.com\u002Fdeepmind\u002Foptax\u002Fblob\u002F243ed1991b2793e87ab60387f7c3d49d6ab57710\u002Foptax\u002F_src\u002Falias.py#L74)，并采用了线性学习率调度方案（先进行 5000 步的预热，从 0 加速至 2e-5，随后线性下降至 0），权重衰减为 0.1，批量大小为 24，序列长度为 1024。1.3B 模型的超参数选择部分受到硬件限制的影响。我们同样训练了 5 个 epoch，并根据验证损失选择了最佳检查点。\n\n\n待办事项：推荐的 GPT-CC 训练方式是什么？\n\n## 评估\n\n这些模型也在 [APPS](https:\u002F\u002Fgithub.com\u002Fhendrycks\u002Fapps) 和 [HumanEval](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fhuman-eval) 数据集上进行了评估。\n\n### Human Eval 结果\n\n| 模型                             |   pass@1    |   pass@2    |   pass@5    |   pass@10   |\n| --------------------------------- | :---------: | :---------: | :---------: | :---------: |\n| EleutherAI\u002Fgpt-neo                |    0.12%    |    0.24%    |    0.61%    |    1.22%    |\n| gpt-neo-125M-apps                 |    0.06%    |    0.12%    |    0.30%    |    0.61%    |\n| dedup-filtered-no-resize-2048bs   |    0.00%    |    0.00%    |    0.00%    |    0.00%    |\n| 1024-filtered                     |    0.00%    |    0.00%    |    0.00%    |    0.00%    |\n| dedup-2048                        |    0.00%    |    0.00%    |    0.00%    |    0.00%    |\n\n### APPS 评估结果\n\n即将发布……\n\n## 演示\n\n一个使用 [HuggingFace 推理 API](https:\u002F\u002Fapi-inference.huggingface.co\u002Fdocs\u002Fpython\u002Fhtml\u002Findex.html) 的 [Visual Studio Code](https:\u002F\u002Fcode.visualstudio.com\u002F) 插件已经发布，你可以在这里找到它：[https:\u002F\u002Fgithub.com\u002FCodedotAl\u002Fcode-clippy-vscode](https:\u002F\u002Fgithub.com\u002FCodedotAl\u002Fcode-clippy-vscode)。\n\n我们还有一个 [Huggingface Space 演示](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fflax-community\u002Fcode-clippy-problem-solver)，你可以在其中以编程竞赛题目的格式输入问题。\n\n待办事项：完成后将提供更多相关信息。\n\n## 延伸阅读\n\n如需了解更多关于 GPT-CC、GitHub Copilot 等的信息，请参阅：\n\n- https:\u002F\u002Fgithub.blog\u002F2021-06-29-introducing-github-copilot-ai-pair-programmer\u002F\n\n待办事项：添加更多延伸阅读内容。\n\n## 致谢\n\n特别感谢我们的贡献者！！\n- https:\u002F\u002Fgithub.com\u002Farampacha\n- https:\u002F\u002Fgithub.com\u002Fncoop57\n- https:\u002F\u002Fgithub.com\u002Fbentrevett\n- https:\u002F\u002Fgithub.com\u002Farunraja-hub\n- https:\u002F\u002Fgithub.com\u002Freshinthadithyan\n- https:\u002F\u002Fgithub.com\u002Fshpotes\n- https:\u002F\u002Fgithub.com\u002Ftaisazero\n- https:\u002F\u002Fgithub.com\u002Fneubig\n- https:\u002F\u002Fgithub.com\u002FMrinal18\n- 以及所有为该项目提供帮助的其他朋友！","# GPT-Code-Clippy 快速上手指南\n\nGPT-Code-Clippy (GPT-CC) 是一个开源的 GitHub Copilot 替代方案，基于 GPT-3\u002FGPT-Codex 架构，使用 GitHub 公开代码进行微调，旨在辅助代码生成。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux, macOS 或 Windows (推荐 Linux 以获得最佳兼容性)\n*   **Python**: 版本 3.8 或更高\n*   **依赖库**:\n    *   `transformers` (Hugging Face)\n    *   `torch` (PyTorch)\n    *   `datasets`\n*   **硬件建议**: 运行较大模型（如 1.3B）建议使用 GPU；125M 模型可在 CPU 上运行但速度较慢。\n\n**安装前置依赖：**\n\n```bash\npip install torch transformers datasets accelerate\n```\n\n> **提示**：国内开发者可使用清华源加速安装：\n> `pip install torch transformers datasets accelerate -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`\n\n## 安装步骤\n\nGPT-Code-Clippy 的核心是预训练模型，托管在 Hugging Face Model Hub 上。您可以直接通过代码加载模型，无需克隆整个仓库即可开始使用。\n\n1.  **选择模型**\n    根据性能表现，推荐使用以下经过微调的模型之一：\n    *   **通用推荐 (125M)**: `flax-community\u002Fgpt-neo-125M-code-clippy`\n    *   **算法竞赛专用 (1.3B)**: `flax-community\u002Fgpt-code-clippy-1.3B-apps-alldata`\n\n2.  **验证安装**\n    创建一个 Python 脚本，尝试加载模型以确认环境配置正确。\n\n## 基本使用\n\n以下是最简单的使用示例，展示如何加载模型并生成代码补全建议。\n\n### 代码生成示例\n\n创建一个名为 `quick_start.py` 的文件，填入以下内容：\n\n```python\nfrom transformers import AutoTokenizer, AutoModelForCausalLM\n\n# 1. 指定模型名称 (推荐使用 125M 版本作为起步)\nmodel_name = \"flax-community\u002Fgpt-neo-125M-code-clippy\"\n\n# 2. 加载分词器和模型\ntokenizer = AutoTokenizer.from_pretrained(model_name)\nmodel = AutoModelForCausalLM.from_pretrained(model_name)\n\n# 3. 准备输入提示 (Prompt)\n# 尝试让模型补全一个 Python 函数\nprompt_text = \"def fibonacci(n):\\n    \"\"\"\n\n# 4. 编码输入\ninputs = tokenizer.encode(prompt_text, return_tensors=\"pt\")\n\n# 5. 生成代码\n# max_length: 生成文本的最大长度\n# num_return_sequences: 返回几个不同的生成结果\noutputs = model.generate(\n    inputs, \n    max_length=inputs.shape[1] + 50, \n    num_return_sequences=1,\n    do_sample=True,\n    temperature=0.7,\n    pad_token_id=tokenizer.eos_token_id\n)\n\n# 6. 解码并打印结果\ngenerated_code = tokenizer.decode(outputs[0], skip_special_tokens=True)\nprint(generated_code)\n```\n\n### 运行脚本\n\n在终端执行：\n\n```bash\npython quick_start.py\n```\n\n**预期输出示例：**\n模型将根据提示补全类似以下的代码逻辑：\n```python\ndef fibonacci(n):\n    if n \u003C= 1:\n        return n\n    else:\n        return fibonacci(n-1) + fibonacci(n-2)\n```\n\n### VS Code 插件体验 (可选)\n\n如果您希望在编辑器中直接使用，该项目提供了一个基于 Hugging Face Inference API 的 VS Code 插件：\n\n1.  访问插件仓库：[code-clippy-vscode](https:\u002F\u002Fgithub.com\u002FCodedotAl\u002Fcode-clippy-vscode)\n2.  按照该仓库说明安装 `.vsix` 文件或在 VS Code 中手动加载扩展。\n3.  配置插件指向上述 Hugging Face 模型端点即可享受类似 Copilot 的行内补全体验。","一位初级 Python 开发者正在为一个开源数据清洗项目编写复杂的正则表达式过滤脚本，急需处理大量重复文件逻辑。\n\n### 没有 gpt-code-clippy 时\n- 开发者必须频繁切换窗口，在 Stack Overflow 和官方文档中手动搜索正则语法和去重算法模板，打断编码心流。\n- 面对特定的“变量序列”去重需求，需从零开始编写样板代码，极易因疏忽导致边界条件处理错误。\n- 由于缺乏针对 GitHub 真实代码库的训练，通用的代码补全工具无法理解项目特有的文件结构上下文，推荐内容往往不相关。\n- 调试过程中遇到报错时，只能依靠人工逐行排查，难以快速定位是逻辑漏洞还是语法拼写错误。\n\n### 使用 gpt-code-clippy 后\n- gpt-code-clippy 基于开发者当前输入的代码上下文，实时预测并生成完整的正则匹配逻辑，无需离开编辑器即可获取高质量代码片段。\n- 针对项目中“提取字母数字变量序列”的特定需求，gpt-code-clippy 直接输出经过优化的去重函数框架，显著减少手写样板代码的时间。\n- 得益于在海量 GitHub 公开代码上的微调，gpt-code-clippy 能精准识别项目风格，自动补全符合社区最佳实践的变量命名和异常处理结构。\n- 当代码出现潜在逻辑冲突时，gpt-code-clippy 能提供修正建议，帮助开发者快速规避常见的正则陷阱，提升一次性通过率。\n\ngpt-code-clippy 通过将开源社区的集体智慧转化为实时的编码辅助，让开发者从繁琐的检索与试错中解放，专注于核心业务逻辑的创新。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FCodedotAl_gpt-code-clippy_7ff71a2a.png","CodedotAl","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FCodedotAl_73daa88d.png","",null,"CodeDotAI","https:\u002F\u002Fgithub.com\u002FCodedotAl",[84,88,92,96],{"name":85,"color":86,"percentage":87},"Python","#3572A5",94.7,{"name":89,"color":90,"percentage":91},"Jupyter Notebook","#DA5B0B",5,{"name":93,"color":94,"percentage":95},"Shell","#89e051",0.4,{"name":97,"color":98,"percentage":99},"Dockerfile","#384d54",0,3273,220,"2026-04-16T05:08:59","Apache-2.0",4,"训练 1.3B 模型时提到受硬件限制，具体型号和显存未说明；推理可使用 HuggingFace Inference API，本地运行需求未明确。","未说明",{"notes":108,"python":106,"dependencies":109},"该项目主要提供数据集、训练脚本和预训练模型权重，而非直接可运行的终端工具。用户需自行使用提供的训练脚本在具备相应算力的环境下微调 GPT-Neo 或 GPT-2 模型。训练 1.3B 模型时对硬件有较高要求（文中提及受硬件限制导致 batch size 较小）。若仅需体验功能，可使用其提供的 Visual Studio Code 插件（连接 HuggingFace API）或 HuggingFace Spaces 在线演示，无需本地部署大型环境。注意：数据集中存在文件名错误的问题，可能影响训练数据的语言过滤准确性。",[110,111,112],"transformers (隐含，因使用 HuggingFace 模型)","optax (用于 Adafactor 优化器)","lib-magic (建议用于文件扩展名修复)",[15],"2026-03-27T02:49:30.150509","2026-04-18T14:13:16.901194",[117,122,127,131,136,141,145,150],{"id":118,"question_zh":119,"answer_zh":120,"source_url":121},39719,"普通开发者如何使用 Code Clippy 项目？","如果你想作为开发者使用该项目（目前仅建议出于好奇尝试，因为尚未经过充分测试），可以安装 VS Code 扩展插件。插件地址为：https:\u002F\u002Fgithub.com\u002FCodedotAl\u002Fcode-clippy-vscode","https:\u002F\u002Fgithub.com\u002FCodedotAl\u002Fgpt-code-clippy\u002Fissues\u002F67",{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},39720,"为什么针对代码训练的模型（如 flax-community\u002Fgpt-neo-1.3B-apps-all）表现不如通用模型（如 EleutherAI\u002Fgpt-neo-1.3B）？","这通常是因为语言不匹配。APPS 模型是纯粹使用 Python 数据训练的，如果向其输入 JavaScript 代码，会导致生成结果异常。建议在这种情况下使用 125M 参数的模型，或者暂时使用 EleutherAI 的 1.3B 模型，直到团队完成基于纯 GitHub 数据的微调。此外，也可以尝试拥有 60 亿参数的 EleutherAI GPT-J 模型，它在代码生成方面表现更佳。","https:\u002F\u002Fgithub.com\u002FCodedotAl\u002Fgpt-code-clippy\u002Fissues\u002F61",{"id":128,"question_zh":129,"answer_zh":130,"source_url":126},39721,"如果只使用 GitHub 代码数据训练模型，它如何理解英文注释或上下文？","模型能够理解上下文是因为其基础模型（如 GPT-Neo）在预训练阶段已经见过了大量的自然语言文本以及部分代码（参考 PILE 数据集）。因此，即使后续微调主要使用代码数据，模型依然保留了对自然语言的理解能力。",{"id":132,"question_zh":133,"answer_zh":134,"source_url":135},39722,"如何评估代码生成模型的性能？使用哪些指标？","项目采用了多种外在评估指标（Extrinsic Metrics），包括：1. CodeBLEU；2. 生成代码的可解析性（Parsable Nature）；3. BLEU-4；4. 精确匹配（Exact Match）。此外，还可以参考 OpenAI Copilot 论文中介绍的 HumanEval 基准测试。未来计划加入 CodeBLEU 并进行内在评估以了解模型的学习动态。","https:\u002F\u002Fgithub.com\u002FCodedotAl\u002Fgpt-code-clippy\u002Fissues\u002F1",{"id":137,"question_zh":138,"answer_zh":139,"source_url":140},39723,"如何处理代码数据集中的重复代码问题？","GitHub 上约 70% 的代码是之前创建文件的克隆，重复代码会对机器学习模型产生负面影响。建议使用微软开发的近重复代码检测工具（Near-Duplicate Code Detector）来处理，该工具源自相关研究论文。工具地址：https:\u002F\u002Fgithub.com\u002FMicrosoft\u002Fnear-duplicate-code-detector。相关论文可参考：https:\u002F\u002Farxiv.org\u002Fabs\u002F1812.06469。","https:\u002F\u002Fgithub.com\u002FCodedotAl\u002Fgpt-code-clippy\u002Fissues\u002F2",{"id":142,"question_zh":143,"answer_zh":144,"source_url":140},39724,"如何高效地收集和处理大规模的 GitHub 代码数据集？","可以使用 GHTorrent 项目来高效检索大量 GitHub 仓库的信息。此外，在数据处理过程中需要注意去重，并考虑进行反向搜索以识别衍生软件，避免输出侵犯特定许可证（如 GPL）的代码，从而防止版权侵权和模型过拟合。",{"id":146,"question_zh":147,"answer_zh":148,"source_url":149},39725,"如果我不希望我的仓库被用于训练开源代码模型，该如何退出？","如果你是仓库的所有者或管理员并希望退出（opt-out），需要在指定截止日期前在该通知 Issue 下回复\"yes\"，维护者随后会将你的仓库从训练列表中移除。","https:\u002F\u002Fgithub.com\u002FCodedotAl\u002Fgpt-code-clippy\u002Fissues\u002F17",{"id":151,"question_zh":152,"answer_zh":153,"source_url":154},39726,"为什么小参数模型（如 125M）在 HumanEval 数据集上的 Pass@k 得分较低？","目前推测主要原因是训练脚本尚未优化，导致模型在学习少量知识后便停止学习（无法持续收敛）。团队正在积极改进训练流程，包括扩大规模和优化脚本，以提升模型性能。","https:\u002F\u002Fgithub.com\u002FCodedotAl\u002Fgpt-code-clippy\u002Fissues\u002F68",[]]