[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-apple--corenet":3,"tool-apple--corenet":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",140436,2,"2026-04-05T23:32:43",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":79,"owner_email":79,"owner_twitter":79,"owner_website":80,"owner_url":81,"languages":82,"stars":95,"forks":96,"last_commit_at":97,"license":98,"difficulty_score":10,"env_os":99,"env_gpu":100,"env_ram":101,"env_deps":102,"category_tags":108,"github_topics":79,"view_count":10,"oss_zip_url":79,"oss_zip_packed_at":79,"status":16,"created_at":109,"updated_at":110,"faqs":111,"releases":142},3480,"apple\u002Fcorenet","corenet","CoreNet: A library for training deep neural networks","CoreNet 是由苹果开源的一款深度学习训练库，旨在帮助研究人员和工程师高效构建从轻量级到大规模的各种神经网络模型。它广泛支持基础模型（如 CLIP 和大语言模型）、物体分类、检测及语义分割等多种任务，解决了以往工具在兼顾模型创新性与训练效率方面的痛点，让复现前沿算法变得更加便捷。\n\n这款工具特别适合从事计算机视觉和自然语言处理的研究者，以及需要定制高性能模型的开发者使用。CoreNet 的独特亮点在于其深厚的学术底蕴，苹果内部多项突破性成果均基于此库研发，包括高效的 OpenELM 语言模型家族、加速预训练的 CatLIP 技术，以及专为移动端优化的 MobileViT 和 FastVit 架构。此外，它还引入了 KV 预测等新技术以进一步提升推理速度。无论是希望探索最新模型结构，还是寻求在生产环境中部署高效能 AI 应用，CoreNet 都提供了一个灵活且经过实战验证的强大平台。","# CoreNet: A library for training deep neural networks\n\nCoreNet is a deep neural network toolkit that allows researchers and engineers to train standard and novel small and large-scale models for variety of tasks, including foundation models (e.g., CLIP and LLM), object classification, object detection, and semantic segmentation.\n\n## Table of contents\n\n   * [What's new?](#whats-new)\n   * [Research efforts at Apple using CoreNet](#research-efforts-at-apple-using-corenet)\n   * [Installation](#installation)\n   * [Directory Structure](#directory-structure)\n   * [Maintainers](#maintainers)\n   * [Contributing to CoreNet](#contributing-to-corenet)\n   * [License](#license)\n   * [Relationship with CVNets](#relationship-with-cvnets)\n   * [Citation](#citation)\n\n## What's new?\n\n   * ***October 2024***: Version 0.1.1 of the CoreNet library includes\n      * [KV Prediction](.\u002Fprojects\u002Fkv-prediction\u002F)\n\n## Research efforts at Apple using CoreNet\n\nBelow is the list of publications from Apple that uses CoreNet. Also, training and evaluation recipes, as well as links to pre-trained models, can be found inside the [projects](.\u002Fprojects\u002F) folder. Please refer to it for further details.\n\n   * [KV Prediction for Improved Time to First Token](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.08391)\n   * [OpenELM: An Efficient Language Model Family with Open Training and Inference Framework](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.14619)\n   * [CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster Pre-training on Web-scale Image-Text Data](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.15653)\n   * [Reinforce Data, Multiply Impact: Improved Model Accuracy and Robustness with Dataset Reinforcement](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.08983)\n   * [CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.14108)\n   * [FastVit: A Fast Hybrid Vision Transformer using Structural Reparameterization](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.14189)\n   * [Bytes Are All You Need: Transformers Operating Directly on File Bytes](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.00238)\n   * [MobileOne: An Improved One millisecond Mobile Backbone](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.04040)\n   * [RangeAugment: Efficient Online Augmentation with Range Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10553)\n   * [Separable Self-attention for Mobile Vision Transformers (MobileViTv2)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.02680)\n   * [CVNets: High performance library for Computer Vision, ACM MM'22](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.02002)\n   * [MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer, ICLR'22](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.02178)\n\n## Installation\n\nYou will need Git LFS (instructions below) to run tests and Jupyter notebooks \n([instructions](https:\u002F\u002Fjupyter.org\u002Finstall)) in this repository,\nand to contribute to it so we recommend that you install and activate it first.\n\nOn Linux we recommend to use Python 3.10+ and PyTorch (version >= v2.1.0), on\nmacOS system Python 3.9+ should be sufficient.\n\nNote that the optional dependencies listed below are required if you'd like to\nmake contributions and\u002For run tests.\n\nFor Linux (substitute `apt` for your package manager):\n\n```bash\nsudo apt install git-lfs\n\ngit clone git@github.com:apple\u002Fcorenet.git\ncd corenet\ngit lfs install\ngit lfs pull\n# The following venv command is optional, but recommended. Alternatively, you can create and activate a conda environment.\npython3 -m venv venv && source venv\u002Fbin\u002Factivate\npython3 -m pip install --editable .\n```\n\nTo install optional dependencies for audio and video processing:\n\n```bash\nsudo apt install libsox-dev ffmpeg\n```\n\nFor macOS, assuming you use Homebrew:\n\n```bash\nbrew install git-lfs\n\ngit clone git@github.com:apple\u002Fcorenet.git\ncd corenet\ncd \\$(pwd -P)  # See the note below.\ngit lfs install\ngit lfs pull\n# The following venv command is optional, but recommended. Alternatively, you can create and activate a conda environment.\npython3 -m venv venv && source venv\u002Fbin\u002Factivate\npython3 -m pip install --editable .\n```\n\nTo install optional dependencies for audio and video processing:\n\n```bash\nbrew install sox ffmpeg\n```\n\nNote that on macOS the file system is case insensitive, and case sensitivity\ncan cause issues with Git. You should access the repository on disk as if the\npath were case sensitive, i.e. with the same capitalization as you see when you\nlist the directories `ls`. You can switch to such a path with the `cd $(pwd -P)`\ncommand.\n\n\n## Directory Structure\n\nThis section provides quick access and a brief description for important CoreNet directories.\n\n\u003Ctable>\n\u003Cthead>\n\u003Ctr>\n\u003Cth> Description \u003C\u002Fth>\n\u003Cth> Quick Access \u003C\u002Fth>\n\u003C\u002Ftr>\n\u003C\u002Fthead>\n\u003Ctbody>\n\u003C!-- Row boilerplate (copy-paste the following commented snippet for adding a new row to the table.)\n\u003Ctr> \u003Ctd> \u003Ch3> title \u003C\u002Fh3> \ndescription\n\u003C\u002Ftd> \u003Ctd> \u003Cpre>\nfolders\n\u003C\u002Fpre> \u003C\u002Ftd> \u003C\u002Ftr>\n-->\n\u003Ctr> \u003Ctd> \u003Ch3> Getting Started \u003C\u002Fh3> \nWorking with the examples is an easy way to get started with CoreNet. \n\u003C\u002Ftd> \u003Ctd> \u003Cpre>\n└── tutorials\n    ├── \u003Ca href=\"tutorials\u002Ftrain_a_new_model_on_a_new_dataset_from_scratch.ipynb\">train_a_new_model_on_a_new_dataset_from_scratch.ipynb\u003C\u002Fa>\n    ├── \u003Ca href=\"tutorials\u002Fguide_slurm_and_multi_node_training.md\">guide_slurm_and_multi_node_training.md\u003C\u002Fa>\n    ├── \u003Ca href=\"tutorials\u002Fclip.ipynb\">clip.ipynb\u003C\u002Fa>\n    ├── \u003Ca href=\"tutorials\u002Fsemantic_segmentation.ipynb\">semantic_segmentation.ipynb\u003C\u002Fa>\n    └── \u003Ca href=\"tutorials\u002Fobject_detection.ipynb\">object_detection.ipynb\u003C\u002Fa>\n\u003C\u002Fpre> \u003C\u002Ftd> \u003C\u002Ftr>\n\n\n\u003Ctr> \u003Ctd> \u003Ch3> Training Recipes \u003C\u002Fh3>\nCoreNet provides reproducible training recipes, in addition to the pretrained model \nweights and checkpoints for the publications that are listed in \u003Ccode>projects\u002F\u003C\u002Fcode> directory.\n\nPublication project directories generally contain the following contents:\n\n* `README.md` provides documentation, links to the pretrained weights, and citations.\n* `\u003Ctask_name>\u002F\u003Cmodel_name>.yaml` provides configuration for reproducing the trainings and evaluations.\n\u003C\u002Ftd> \u003Ctd> \u003Cpre>\n└── projects\n    ├── \u003Ca href=\"projects\u002Fkv-prediction\">kv-prediction\u003C\u002Fa> (*)\n    ├── \u003Ca href=\"projects\u002Fbyteformer\">byteformer\u003C\u002Fa>\n    ├── \u003Ca href=\"projects\u002Fcatlip\">catlip\u003C\u002Fa>\n    ├── \u003Ca href=\"projects\u002Fclip\">clip\u003C\u002Fa>\n    ├── \u003Ca href=\"projects\u002Ffastvit\">fastvit\u003C\u002Fa>\n    ├── \u003Ca href=\"projects\u002Fmobilenet_v1\">mobilenet_v1\u003C\u002Fa>\n    ├── \u003Ca href=\"projects\u002Fmobilenet_v2\">mobilenet_v2\u003C\u002Fa>\n    ├── \u003Ca href=\"projects\u002Fmobilenet_v3\">mobilenet_v3\u003C\u002Fa>\n    ├── \u003Ca href=\"projects\u002Fmobileone\">mobileone\u003C\u002Fa>\n    ├── \u003Ca href=\"projects\u002Fmobilevit\">mobilevit\u003C\u002Fa>\n    ├── \u003Ca href=\"projects\u002Fmobilevit_v2\">mobilevit_v2\u003C\u002Fa>\n    ├── \u003Ca href=\"projects\u002Fopenelm\">openelm\u003C\u002Fa>\n    ├── \u003Ca href=\"projects\u002Frange_augment\">range_augment\u003C\u002Fa>\n    ├── \u003Ca href=\"projects\u002Fresnet\">resnet\u003C\u002Fa>\n    └── \u003Ca href=\"projects\u002Fvit\">vit\u003C\u002Fa>\n\u003Cbr>\n(*) Newly released.\n\u003C\u002Fpre> \u003C\u002Ftd> \u003C\u002Ftr>\n\n\n\u003Ctr> \u003Ctd> \u003Ch3> MLX Examples \u003C\u002Fh3>\nMLX examples demonstrate how to run CoreNet models efficiently on Apple Silicon.\nPlease find further information in the \u003Ccode>README.md\u003C\u002Fcode> file within the corresponding example directory.\n\n\u003C\u002Ftd> \u003Ctd> \u003Cpre>\n└──mlx_example\n    ├── \u003Ca href=\"mlx_examples\u002Fclip\">clip\u003C\u002Fa>\n    └── \u003Ca href=\"mlx_examples\u002Fopen_elm\">open_elm\u003C\u002Fa>\n\u003C\u002Fpre> \u003C\u002Ftd> \u003C\u002Ftr>\n\n\n\u003Ctr> \u003Ctd> \u003Ch3> Model Implementations \u003C\u002Fh3> \nModels are organized by tasks (e.g. \"classification\"). You can find all model implementations for each\ntask in the corresponding task folder. \n\nEach model class is decorated by a \n`@MODEL_REGISTRY.register(name=\"\u003Cmodel_name>\", type=\"\u003Ctask_name>\")` decorator. \nTo use a model class in CoreNet training or evaluation,\nassign `models.\u003Ctask_name>.name = \u003Cmodel_name>` in the YAML configuration.\n\n\u003C\u002Ftd> \u003Ctd> \u003Cpre>\n└── corenet\n    └── modeling\n        └── \u003Ca href=\"corenet\u002Fmodeling\u002Fmodels\">models\u003C\u002Fa>\n            ├── \u003Ca href=\"corenet\u002Fmodeling\u002Fmodels\u002Faudio_classification\">audio_classification\u003C\u002Fa>\n            ├── \u003Ca href=\"corenet\u002Fmodeling\u002Fmodels\u002Fclassification\">classification\u003C\u002Fa>\n            ├── \u003Ca href=\"corenet\u002Fmodeling\u002Fmodels\u002Fdetection\">detection\u003C\u002Fa>\n            ├── \u003Ca href=\"corenet\u002Fmodeling\u002Fmodels\u002Flanguage_modeling\">language_modeling\u003C\u002Fa>\n            ├── \u003Ca href=\"corenet\u002Fmodeling\u002Fmodels\u002Fmulti_modal_img_text\">multi_modal_img_text\u003C\u002Fa>\n            └── \u003Ca href=\"corenet\u002Fmodeling\u002Fmodels\u002Fsegmentation\">segmentation\u003C\u002Fa>\n\u003C\u002Fpre> \u003C\u002Ftd> \u003C\u002Ftr>\n\n\n\u003Ctr> \u003Ctd> \u003Ch3> Datasets \u003C\u002Fh3> \nSimilarly to the models, datasets are also categorized by tasks.\n\u003C\u002Ftd> \u003Ctd> \u003Cpre>\n└── corenet\n    └── data\n        └── \u003Ca href=\"corenet\u002Fdata\u002Fdatasets\">datasets\u003C\u002Fa>\n            ├── \u003Ca href=\"corenet\u002Fdata\u002Fdatasets\u002Faudio_classification\">audio_classification\u003C\u002Fa>\n            ├── \u003Ca href=\"corenet\u002Fdata\u002Fdatasets\u002Fclassification\">classification\u003C\u002Fa>\n            ├── \u003Ca href=\"corenet\u002Fdata\u002Fdatasets\u002Fdetection\">detection\u003C\u002Fa>\n            ├── \u003Ca href=\"corenet\u002Fdata\u002Fdatasets\u002Flanguage_modeling\">language_modeling\u003C\u002Fa>\n            ├── \u003Ca href=\"corenet\u002Fdata\u002Fdatasets\u002Fmulti_modal_img_text\">multi_modal_img_text\u003C\u002Fa>\n            └── \u003Ca href=\"corenet\u002Fdata\u002Fdatasets\u002Fsegmentation\">segmentation\u003C\u002Fa>\n\u003C\u002Fpre> \u003C\u002Ftd> \u003C\u002Ftr>\n\n\n\u003Ctr> \u003Ctd> \u003Ch3> Other key directories \u003C\u002Fh3> \nIn this section, we have highlighted the rest of the key directories that implement \nclasses corresponding to the names that are referenced in the YAML configurations.\n\u003C\u002Ftd> \u003Ctd> \u003Cpre>\n└── corenet\n    ├── \u003Ca href=\"corenet\u002Floss_fn\">loss_fn\u003C\u002Fa>\n    ├── \u003Ca href=\"corenet\u002Fmetrics\">metrics\u003C\u002Fa>\n    ├── \u003Ca href=\"corenet\u002Foptims\">optims\u003C\u002Fa>\n    │   └── \u003Ca href=\"corenet\u002Foptims\u002Fscheduler\">scheduler\u003C\u002Fa>\n    ├── \u003Ca href=\"corenet\u002Ftrain_eval_pipelines\">train_eval_pipelines\u003C\u002Fa>\n    ├── \u003Ca href=\"corenet\u002Fdata\">data\u003C\u002Fa>\n    │   ├── \u003Ca href=\"corenet\u002Fdata\u002Fcollate_fns\">collate_fns\u003C\u002Fa>\n    │   ├── \u003Ca href=\"corenet\u002Fdata\u002Fsampler\">sampler\u003C\u002Fa>\n    │   ├── \u003Ca href=\"corenet\u002Fdata\u002Ftext_tokenizer\">text_tokenizer\u003C\u002Fa>\n    │   ├── \u003Ca href=\"corenet\u002Fdata\u002Ftransforms\">transforms\u003C\u002Fa>\n    │   └── \u003Ca href=\"corenet\u002Fdata\u002Fvideo_reader\">video_reader\u003C\u002Fa>\n    └── \u003Ca href=\"corenet\u002Fmodeling\">modeling\u003C\u002Fa>\n        ├── \u003Ca href=\"corenet\u002Fmodeling\u002Flayers\">layers\u003C\u002Fa>\n        ├── \u003Ca href=\"corenet\u002Fmodeling\u002Fmodules\">modules\u003C\u002Fa>\n        ├── \u003Ca href=\"corenet\u002Fmodeling\u002Fneural_augmentor\">neural_augmentor\u003C\u002Fa>\n        └── \u003Ca href=\"corenet\u002Fmodeling\u002Ftext_encoders\">text_encoders\u003C\u002Fa>\n\u003C\u002Fpre> \u003C\u002Ftd> \u003C\u002Ftr>\n\n\u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n## Maintainers\nThis code is developed and maintained by \u003Ca href=\"https:\u002F\u002Fmchorton.com\" target=\"_blank\">Maxwell Horton\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fwww.mohammad.pro\" target=\"_blank\">Mohammad Sekhavat\u003C\u002Fa> Yanzi Jin, and \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fdepthwise\" target=\"_blank\">Dmitry Belenko\u003C\u002Fa>.\n\n### Previous Maintainers\n* \u003Ca href=\"https:\u002F\u002Fsacmehta.github.io\" target=\"_blank\">Sachin Mehta\u003C\u002Fa>\n* \u003Ca href=\"https:\u002F\u002Ffarzadab.github.io\" target=\"_blank\">Farzad Abdolhosseini\u003C\u002Fa>\n\n## Contributing to CoreNet\n\nWe welcome PRs from the community! You can find information about contributing to CoreNet in our [contributing](CONTRIBUTING.md) document. \n\nPlease remember to follow our [Code of Conduct](CODE_OF_CONDUCT.md).\n\n## License\n\nFor license details, see [LICENSE](LICENSE). \n\n## Relationship with CVNets\n\nCoreNet evolved from CVNets, to encompass a broader range of applications beyond computer vision. Its expansion facilitated the training of foundational models, including LLMs.\n\n## Citation\n\nIf you find our work useful, please cite the following paper:\n\n``` \n@inproceedings{mehta2022cvnets, \n     author = {Mehta, Sachin and Abdolhosseini, Farzad and Rastegari, Mohammad}, \n     title = {CVNets: High Performance Library for Computer Vision}, \n     year = {2022}, \n     booktitle = {Proceedings of the 30th ACM International Conference on Multimedia}, \n     series = {MM '22} \n}\n```\n","# CoreNet：用于训练深度神经网络的库\n\nCoreNet 是一个深度神经网络工具包，使研究人员和工程师能够为各种任务训练标准及新型的小型和大型模型，包括基础模型（例如 CLIP 和 LLM）、物体分类、目标检测和语义分割。\n\n## 目录\n\n   * [新增内容](#whats-new)\n   * [苹果公司使用 CoreNet 的研究工作](#research-efforts-at-apple-using-corenet)\n   * [安装](#installation)\n   * [目录结构](#directory-structure)\n   * [维护者](#maintainers)\n   * [贡献 CoreNet](#contributing-to-corenet)\n   * [许可证](#license)\n   * [与 CVNets 的关系](#relationship-with-cvnets)\n   * [引用](#citation)\n\n## 新增内容？\n\n   * ***2024年10月***：CoreNet 库 0.1.1 版本包含\n      * [KV 预测](.\u002Fprojects\u002Fkv-prediction\u002F)\n\n## 苹果公司使用 CoreNet 的研究工作\n\n以下是苹果公司使用 CoreNet 的相关论文列表。此外，训练和评估配方以及预训练模型的链接都可在 [projects](.\u002Fprojects\u002F) 文件夹中找到，请参阅该文件夹以获取更多详细信息。\n\n   * [用于提升首个标记生成时间的 KV 预测](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.08391)\n   * [OpenELM：具有开放训练与推理框架的高效语言模型家族](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.14619)\n   * [CatLIP：在 Web 规模图文数据上实现 2.7 倍更快预训练的同时达到 CLIP 级别的视觉识别准确度](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.15653)\n   * [强化数据，倍增影响：通过数据集强化提升模型准确性和鲁棒性](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.08983)\n   * [CLIP 遇见 Model Zoo 大师：用于视觉增强的伪监督方法](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.14108)\n   * [FastVit：基于结构重参数化的快速混合视觉 Transformer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.14189)\n   * [字节即一切：直接操作文件字节的 Transformer 模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.00238)\n   * [MobileOne：改进版的一毫秒移动骨干网络](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.04040)\n   * [RangeAugment：基于范围学习的高效在线数据增强](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10553)\n   * [适用于移动视觉 Transformer 的可分离自注意力机制（MobileViTv2）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.02680)\n   * [CVNets：面向计算机视觉的高性能库，ACM MM'22](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.02002)\n   * [MobileViT：轻量级、通用且适合移动端的视觉 Transformer，ICLR'22](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.02178)\n\n## 安装\n\n要运行此仓库中的测试和 Jupyter 笔记本（[说明](https:\u002F\u002Fjupyter.org\u002Finstall)），并参与贡献，您需要 Git LFS（说明如下）。因此，我们建议您先安装并激活它。\n\n在 Linux 系统上，我们推荐使用 Python 3.10 及以上版本和 PyTorch（版本 ≥ v2.1.0）；而在 macOS 系统上，Python 3.9 及以上版本即可满足需求。\n\n请注意，如果您希望做出贡献或运行测试，则需要安装以下可选依赖项。\n\n对于 Linux 系统（请将 `apt` 替换为您使用的包管理器）：\n\n```bash\nsudo apt install git-lfs\n\ngit clone git@github.com:apple\u002Fcorenet.git\ncd corenet\ngit lfs install\ngit lfs pull\n# 下面的 venv 命令是可选的，但建议使用。您也可以创建并激活一个 conda 环境。\npython3 -m venv venv && source venv\u002Fbin\u002Factivate\npython3 -m pip install --editable .\n```\n\n若需安装用于音频和视频处理的可选依赖项：\n\n```bash\nsudo apt install libsox-dev ffmpeg\n```\n\n对于 macOS 系统，假设您使用 Homebrew：\n\n```bash\nbrew install git-lfs\n\ngit clone git@github.com:apple\u002Fcorenet.git\ncd corenet\ncd \\$(pwd -P)  # 请参阅下方注释。\ngit lfs install\ngit lfs pull\n# 下面的 venv 命令是可选的，但建议使用。您也可以创建并激活一个 conda 环境。\npython3 -m venv venv && source venv\u002Fbin\u002Factivate\npython3 -m pip install --editable .\n```\n\n若需安装用于音频和视频处理的可选依赖项：\n\n```bash\nbrew install sox ffmpeg\n```\n\n请注意，在 macOS 上，文件系统不区分大小写，而 Git 对大小写敏感可能会导致问题。因此，您应在磁盘上以区分大小写的方式访问仓库路径，即按照 `ls` 列出目录时显示的大小写形式进行操作。您可以通过执行 `cd $(pwd -P)` 命令切换到这种路径。\n\n## 目录结构\n\n本节提供 CoreNet 重要目录的快速访问链接及简要说明。\n\n\u003Ctable>\n\u003Cthead>\n\u003Ctr>\n\u003Cth> 描述 \u003C\u002Fth>\n\u003Cth> 快速访问 \u003C\u002Fth>\n\u003C\u002Ftr>\n\u003C\u002Fthead>\n\u003Ctbody>\n\u003C!-- 行模板（复制粘贴以下注释掉的代码片段即可在表格中添加新行。）\n\u003Ctr> \u003Ctd> \u003Ch3> 标题 \u003C\u002Fh3> \n描述\n\u003C\u002Ftd> \u003Ctd> \u003Cpre>\n文件夹\n\u003C\u002Fpre> \u003C\u002Ftd> \u003C\u002Ftr>\n-->\n\u003Ctr> \u003Ctd> \u003Ch3> 入门指南 \u003C\u002Fh3> \n通过示例进行实践是快速上手 CoreNet 的简便方法。\n\u003C\u002Ftd> \u003Ctd> \u003Cpre>\n└── tutorials\n    ├── \u003Ca href=\"tutorials\u002Ftrain_a_new_model_on_a_new_dataset_from_scratch.ipynb\">train_a_new_model_on_a_new_dataset_from_scratch.ipynb\u003C\u002Fa>\n    ├── \u003Ca href=\"tutorials\u002Fguide_slurm_and_multi_node_training.md\">guide_slurm_and_multi_node_training.md\u003C\u002Fa>\n    ├── \u003Ca href=\"tutorials\u002Fclip.ipynb\">clip.ipynb\u003C\u002Fa>\n    ├── \u003Ca href=\"tutorials\u002Fsemantic_segmentation.ipynb\">semantic_segmentation.ipynb\u003C\u002Fa>\n    └── \u003Ca href=\"tutorials\u002Fobject_detection.ipynb\">object_detection.ipynb\u003C\u002Fa>\n\u003C\u002Fpre> \u003C\u002Ftd> \u003C\u002Ftr>\n\n\n\u003Ctr> \u003Ctd> \u003Ch3> 训练配方 \u003C\u002Fh3>\n除了 `projects\u002F` 目录中列出的论文所使用的预训练模型权重和检查点外，CoreNet 还提供了可复现的训练配方。\n\n论文项目目录通常包含以下内容：\n\n* `README.md` 提供文档、预训练权重链接以及引用信息。\n* `\u003Ctask_name>\u002F\u003Cmodel_name>.yaml` 提供用于复现训练和评估的配置文件。\n\u003C\u002Ftd> \u003Ctd> \u003Cpre>\n└── projects\n    ├── \u003Ca href=\"projects\u002Fkv-prediction\">kv-prediction\u003C\u002Fa> (*)\n    ├── \u003Ca href=\"projects\u002Fbyteformer\">byteformer\u003C\u002Fa>\n    ├── \u003Ca href=\"projects\u002Fcatlip\">catlip\u003C\u002Fa>\n    ├── \u003Ca href=\"projects\u002Fclip\">clip\u003C\u002Fa>\n    ├── \u003Ca href=\"projects\u002Ffastvit\">fastvit\u003C\u002Fa>\n    ├── \u003Ca href=\"projects\u002Fmobilenet_v1\">mobilenet_v1\u003C\u002Fa>\n    ├── \u003Ca href=\"projects\u002Fmobilenet_v2\">mobilenet_v2\u003C\u002Fa>\n    ├── \u003Ca href=\"projects\u002Fmobilenet_v3\">mobilenet_v3\u003C\u002Fa>\n    ├── \u003Ca href=\"projects\u002Fmobileone\">mobileone\u003C\u002Fa>\n    ├── \u003Ca href=\"projects\u002Fmobilevit\">mobilevit\u003C\u002Fa>\n    ├── \u003Ca href=\"projects\u002Fmobilevit_v2\">mobilevit_v2\u003C\u002Fa>\n    ├── \u003Ca href=\"projects\u002Fopenelm\">openelm\u003C\u002Fa>\n    ├── \u003Ca href=\"projects\u002Frange_augment\">range_augment\u003C\u002Fa>\n    ├── \u003Ca href=\"projects\u002Fresnet\">resnet\u003C\u002Fa>\n    └── \u003Ca href=\"projects\u002Fvit\">vit\u003C\u002Fa>\n\u003Cbr>\n(*) 新近发布。\n\u003C\u002Fpre> \u003C\u002Ftd> \u003C\u002Ftr>\n\n\n\u003Ctr> \u003Ctd> \u003Ch3> MLX 示例 \u003C\u002Fh3>\nMLX 示例展示了如何在 Apple Silicon 上高效运行 CoreNet 模型。更多信息请参阅相应示例目录中的 `README.md` 文件。\n\n\u003C\u002Ftd> \u003Ctd> \u003Cpre>\n└──mlx_example\n    ├── \u003Ca href=\"mlx_examples\u002Fclip\">clip\u003C\u002Fa>\n    └── \u003Ca href=\"mlx_examples\u002Fopen_elm\">open_elm\u003C\u002Fa>\n\u003C\u002Fpre> \u003C\u002Ftd> \u003C\u002Ftr>\n\n\n\u003Ctr> \u003Ctd> \u003Ch3> 模型实现 \u003C\u002Fh3> \n模型按任务分类（例如“分类”）。您可以在对应的任务文件夹中找到该任务的所有模型实现。\n\n每个模型类都使用 `@MODEL_REGISTRY.register(name=\"\u003Cmodel_name>\", type=\"\u003Ctask_name>\")` 装饰器进行注册。要在 CoreNet 的训练或评估中使用某个模型类，请在 YAML 配置中指定 `models.\u003Ctask_name>.name = \u003Cmodel_name>`。\n\n\u003C\u002Ftd> \u003Ctd> \u003Cpre>\n└── corenet\n    └── modeling\n        └── \u003Ca href=\"corenet\u002Fmodeling\u002Fmodels\">models\u003C\u002Fa>\n            ├── \u003Ca href=\"corenet\u002Fmodeling\u002Fmodels\u002Faudio_classification\">audio_classification\u003C\u002Fa>\n            ├── \u003Ca href=\"corenet\u002Fmodeling\u002Fmodels\u002Fclassification\">classification\u003C\u002Fa>\n            ├── \u003Ca href=\"corenet\u002Fmodeling\u002Fmodels\u002Fdetection\">detection\u003C\u002Fa>\n            ├── \u003Ca href=\"corenet\u002Fmodeling\u002Fmodels\u002Flanguage_modeling\">language_modeling\u003C\u002Fa>\n            ├── \u003Ca href=\"corenet\u002Fmodeling\u002Fmodels\u002Fmulti_modal_img_text\">multi_modal_img_text\u003C\u002Fa>\n            └── \u003Ca href=\"corenet\u002Fmodeling\u002Fmodels\u002Fsegmentation\">segmentation\u003C\u002Fa>\n\u003C\u002Fpre> \u003C\u002Ftd> \u003C\u002Ftr>\n\n\n\u003Ctr> \u003Ctd> \u003Ch3> 数据集 \u003C\u002Fh3> \n与模型类似，数据集也按任务分类。\n\u003C\u002Ftd> \u003Ctd> \u003Cpre>\n└── corenet\n    └── data\n        └── \u003Ca href=\"corenet\u002Fdata\u002Fdatasets\">datasets\u003C\u002Fa>\n            ├── \u003Ca href=\"corenet\u002Fdata\u002Fdatasets\u002Faudio_classification\">audio_classification\u003C\u002Fa>\n            ├── \u003Ca href=\"corenet\u002Fdata\u002Fdatasets\u002Fclassification\">classification\u003C\u002Fa>\n            ├── \u003Ca href=\"corenet\u002Fdata\u002Fdatasets\u002Fdetection\">detection\u003C\u002Fa>\n            ├── \u003Ca href=\"corenet\u002Fdata\u002Fdatasets\u002Flanguage_modeling\">language_modeling\u003C\u002Fa>\n            ├── \u003Ca href=\"corenet\u002Fdata\u002Fdatasets\u002Fmulti_modal_img_text\">multi_modal_img_text\u003C\u002Fa>\n            └── \u003Ca href=\"corenet\u002Fdata\u002Fdatasets\u002Fsegmentation\">segmentation\u003C\u002Fa>\n\u003C\u002Fpre> \u003C\u002Ftd> \u003C\u002Ftr>\n\n\n\u003Ctr> \u003Ctd> \u003Ch3> 其他关键目录 \u003C\u002Fh3> \n在本节中，我们重点介绍了其余的关键目录，这些目录实现了 YAML 配置中引用的各类名称对应的类。\n\u003C\u002Ftd> \u003Ctd> \u003Cpre>\n└── corenet\n    ├── \u003Ca href=\"corenet\u002Floss_fn\">loss_fn\u003C\u002Fa>\n    ├── \u003Ca href=\"corenet\u002Fmetrics\">metrics\u003C\u002Fa>\n    ├── \u003Ca href=\"corenet\u002Foptims\">optims\u003C\u002Fa>\n    │   └── \u003Ca href=\"corenet\u002Foptims\u002Fscheduler\">scheduler\u003C\u002Fa>\n    ├── \u003Ca href=\"corenet\u002Ftrain_eval_pipelines\">train_eval_pipelines\u003C\u002Fa>\n    ├── \u003Ca href=\"corenet\u002Fdata\">data\u003C\u002Fa>\n    │   ├── \u003Ca href=\"corenet\u002Fdata\u002Fcollate_fns\">collate_fns\u003C\u002Fa>\n    │   ├── \u003Ca href=\"corenet\u002Fdata\u002Fsampler\">sampler\u003C\u002Fa>\n    │   ├── \u003Ca href=\"corenet\u002Fdata\u002Ftext_tokenizer\">text_tokenizer\u003C\u002Fa>\n    │   ├── \u003Ca href=\"corenet\u002Fdata\u002Ftransforms\">transforms\u003C\u002Fa>\n    │   └── \u003Ca href=\"corenet\u002Fdata\u002Fvideo_reader\">video_reader\u003C\u002Fa>\n    └── \u003Ca href=\"corenet\u002Fmodeling\">modeling\u003C\u002Fa>\n        ├── \u003Ca href=\"corenet\u002Fmodeling\u002Flayers\">layers\u003C\u002Fa>\n        ├── \u003Ca href=\"corenet\u002Fmodeling\u002Fmodules\">modules\u003C\u002Fa>\n        ├── \u003Ca href=\"corenet\u002Fmodeling\u002Fneural_augmentor\">neural_augmentor\u003C\u002Fa>\n        └── \u003Ca href=\"corenet\u002Fmodeling\u002Ftext_encoders\">text_encoders\u003C\u002Fa>\n\u003C\u002Fpre> \u003C\u002Ftd> \u003C\u002Ftr>\n\n\u003C\u002Ftbody>\n\u003C\u002Ftable\n\n## 维护者\n此代码由 \u003Ca href=\"https:\u002F\u002Fmchorton.com\" target=\"_blank\">Maxwell Horton\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fwww.mohammad.pro\" target=\"_blank\">Mohammad Sekhavat\u003C\u002Fa>、Yanzi Jin 和 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fdepthwise\" target=\"_blank\">Dmitry Belenko\u003C\u002Fa> 开发并维护。\n\n### 历任维护者\n* \u003Ca href=\"https:\u002F\u002Fsacmehta.github.io\" target=\"_blank\">Sachin Mehta\u003C\u002Fa>\n* \u003Ca href=\"https:\u002F\u002Ffarzadab.github.io\" target=\"_blank\">Farzad Abdolhosseini\u003C\u002Fa>\n\n## 参与 CoreNet 社区贡献\n\n我们欢迎社区提交的 Pull Request！有关如何为 CoreNet 做出贡献的信息，请参阅我们的 [贡献指南](CONTRIBUTING.md) 文档。\n\n请务必遵守我们的 [行为准则](CODE_OF_CONDUCT.md)。\n\n## 许可证\n\n许可详情请参阅 [LICENSE](LICENSE) 文件。\n\n## 与 CVNets 的关系\n\nCoreNet 源自 CVNets，旨在涵盖计算机视觉之外更广泛的应用领域。其扩展促进了包括 LLM 在内的基础模型的训练。\n\n## 引用\n\n如果您觉得我们的工作有用，请引用以下论文：\n\n``` \n@inproceedings{mehta2022cvnets, \n     author = {梅塔，萨钦；阿卜杜勒侯赛尼，法尔扎德；拉斯泰加里，穆罕默德}, \n     title = {CVNets：用于计算机视觉的高性能库}, \n     year = {2022}, \n     booktitle = {第30届ACM国际多媒体会议论文集}, \n     series = {MM '22} \n}\n```","# CoreNet 快速上手指南\n\nCoreNet 是 Apple 开源的深度学习训练工具库，支持从基础模型（如 CLIP、LLM）到目标检测、语义分割等多种任务的大规模模型训练。\n\n## 1. 环境准备\n\n### 系统要求\n- **Linux**: 推荐 Python 3.10+，PyTorch >= v2.1.0\n- **macOS**: 推荐 Python 3.9+，PyTorch >= v2.1.0\n- **Git LFS**: 必须安装，用于拉取大型模型文件和测试数据\n\n### 前置依赖\n在开始之前，请确保系统已安装 Git LFS 以及可选的音视频处理库（如需相关功能）。\n\n**Linux (以 Ubuntu\u002FDebian 为例):**\n```bash\nsudo apt install git-lfs libsox-dev ffmpeg\n```\n\n**macOS (需安装 Homebrew):**\n```bash\nbrew install git-lfs sox ffmpeg\n```\n\n> **注意 (macOS 用户)**: macOS 文件系统默认不区分大小写，可能导致 Git 问题。克隆仓库后，建议使用 `cd $(pwd -P)` 进入目录以确保路径大小写敏感兼容。\n\n## 2. 安装步骤\n\n以下命令将克隆仓库、初始化 Git LFS 并安装 CoreNet 及其依赖。\n\n### Linux 安装\n```bash\ngit clone git@github.com:apple\u002Fcorenet.git\ncd corenet\ngit lfs install\ngit lfs pull\n\n# 创建并激活虚拟环境（推荐）\npython3 -m venv venv && source venv\u002Fbin\u002Factivate\n\n# 安装 CoreNet\npython3 -m pip install --editable .\n```\n\n### macOS 安装\n```bash\ngit clone git@github.com:apple\u002Fcorenet.git\ncd corenet\ncd $(pwd -P)  # 关键步骤：解决大小写敏感问题\ngit lfs install\ngit lfs pull\n\n# 创建并激活虚拟环境（推荐）\npython3 -m venv venv && source venv\u002Fbin\u002Factivate\n\n# 安装 CoreNet\npython3 -m pip install --editable .\n```\n\n> **国内加速建议**: 如果 `pip install` 速度较慢，可添加国内镜像源参数：\n> `python3 -m pip install --editable . -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`\n\n## 3. 基本使用\n\nCoreNet 的核心配置通过 YAML 文件管理，涵盖了模型结构、数据集、优化器等。最简单的上手方式是运行官方提供的教程脚本或复现现有项目。\n\n### 方式一：运行示例教程 (Jupyter Notebook)\n安装 Jupyter 后，可以直接运行 `tutorials` 目录下的笔记来学习如何从头训练模型：\n\n```bash\n# 确保已安装 jupyter\npip install jupyter\n\n# 启动教程（以从头训练新模型为例）\njupyter notebook tutorials\u002Ftrain_a_new_model_on_a_new_dataset_from_scratch.ipynb\n```\n\n其他可用教程包括：\n- `tutorials\u002Fclip.ipynb`: CLIP 模型训练\n- `tutorials\u002Fsemantic_segmentation.ipynb`: 语义分割\n- `tutorials\u002Fobject_detection.ipynb`: 目标检测\n\n### 方式二：使用预置训练配方 (Training Recipes)\nCoreNet 在 `projects\u002F` 目录下提供了大量论文复现的配置（如 MobileViT, OpenELM, FastVit 等）。\n\n1. **查看配置**: 进入对应项目文件夹（例如 `projects\u002Fmobilevit`），找到 `.yaml` 配置文件。\n2. **执行训练**: 使用 CoreNet 命令行工具加载配置进行训练（具体命令取决于入口脚本，通常如下）：\n\n```bash\n# 示例：使用 mobilevit 的配置进行训练\n# 注意：具体入口命令请参考对应 project 目录下的 README.md\npython -m corenet.train_eval_pipelines.train --config projects\u002Fmobilevit\u002Fmobilevit_s.yaml\n```\n\n### 核心目录说明\n- **模型实现**: `corenet\u002Fmodeling\u002Fmodels\u002F` (按任务分类，如 classification, detection)\n- **数据集定义**: `corenet\u002Fdata\u002Fdatasets\u002F`\n- **训练配方与权重**: `projects\u002F` (包含各论文的复现配置和预训练模型链接)\n- **Apple Silicon 优化**: `mlx_examples\u002F` (提供在 Mac M 系列芯片上高效运行的示例)","某初创公司的算法团队正致力于研发一款面向移动端的高效视觉识别模型，需要在有限的算力资源下快速验证 MobileViT 等轻量级架构的性能。\n\n### 没有 corenet 时\n- **重复造轮子耗时严重**：团队需从零搭建训练框架，手动复现 MobileViT 或 FastVit 等复杂结构，耗费数周时间且容易引入代码错误。\n- **超参数调优盲目低效**：缺乏经过大规模数据验证的标准训练配方（Recipe），工程师只能凭经验盲目尝试学习率和增强策略，模型收敛慢且精度不稳定。\n- **多任务扩展困难**：若要同时支持图像分类和语义分割，需分别维护两套独立的代码库，导致实验管理混乱，难以复用预训练权重。\n- **移动端部署门槛高**：自行训练的模型往往未经过结构重参数化优化，在手机上推理延迟高，难以达到“毫秒级”响应要求。\n\n### 使用 corenet 后\n- **开箱即用先进架构**：直接调用 corenet 内置的 MobileOne、FastVit 等苹果官方验证过的模型定义，将环境搭建到首次训练的时间从数周缩短至数小时。\n- **复刻顶级训练策略**：直接加载项目中提供的成熟训练配方（如 RangeAugment 增强策略），无需反复试错即可复现论文级别的高精度与鲁棒性。\n- **统一框架高效迭代**：在一个库内无缝切换分类、检测及分割任务，轻松利用基础模型进行迁移学习，大幅提升了多场景下的实验效率。\n- **原生支持端侧加速**：利用 corenet 特有的结构重参数化技术，训练出的模型天然适配移动端推理，显著降低延迟并提升用户体验。\n\ncorenet 通过提供工业级验证的模型库与训练配方，让研发团队能跳过繁琐的基础设施建设，专注于核心算法创新与业务落地。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fapple_corenet_5b30cea2.png","apple","Apple","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fapple_84e0ff25.jpg","",null,"https:\u002F\u002Fapple.com","https:\u002F\u002Fgithub.com\u002Fapple",[83,87,91],{"name":84,"color":85,"percentage":86},"Jupyter Notebook","#DA5B0B",64.6,{"name":88,"color":89,"percentage":90},"Python","#3572A5",35.3,{"name":92,"color":93,"percentage":94},"Makefile","#427819",0.1,7005,543,"2026-04-04T20:01:20","NOASSERTION","Linux, macOS","未说明（基于 PyTorch，通常训练需要 NVIDIA GPU，但 README 未明确指定型号或显存；支持 Apple Silicon 通过 MLX 运行）","未说明",{"notes":103,"python":104,"dependencies":105},"1. Linux 推荐使用 Python 3.10+，macOS 推荐 Python 3.9+。2. 必须安装并激活 Git LFS 以运行测试和 Jupyter notebooks。3. macOS 文件系统默认不区分大小写，可能导致 Git 问题，建议使用 `cd $(pwd -P)` 访问仓库。4. 可选依赖：音频\u002F视频处理需安装 libsox-dev\u002Fsox 和 ffmpeg。5. 支持使用虚拟环境 (venv) 或 conda 管理环境。6. 提供针对 Apple Silicon 的 MLX 示例以实现高效运行。","Linux: 3.10+, macOS: 3.9+",[106,107],"torch>=2.1.0","git-lfs",[26,14,13],"2026-03-27T02:49:30.150509","2026-04-06T08:36:34.126006",[112,117,122,127,132,137],{"id":113,"question_zh":114,"answer_zh":115,"source_url":116},15954,"安装时遇到 'torchtext==0.17.1' 版本找不到或无法安装的错误怎么办？","该问题通常出现在 Python 3.12 环境下。解决方案是将 Python 版本切换为 3.11。在安装虚拟环境时，请显式指定 Python 3.11：\n\n```bash\npython3.11 -m venv venv && source venv\u002Fbin\u002Factivate\n```\n\n激活环境后重新安装依赖即可。项目维护者已更新依赖以支持 `torchtext==0.17.2`，但使用 Python 3.11 是最稳定的解决方法。","https:\u002F\u002Fgithub.com\u002Fapple\u002Fcorenet\u002Fissues\u002F14",{"id":118,"question_zh":119,"answer_zh":120,"source_url":121},15955,"运行训练命令时提示 'corenet-train: command not found' 如何解决？","这通常是因为未激活项目的虚拟环境。请在运行 `corenet-*` 相关命令前，确保已激活环境：\n\n1. 按照 README.md 完成安装步骤。\n2. 激活虚拟环境：\n   ```bash\n   source venv\u002Fbin\u002Factivate\n   ```\n   （如果您使用的是 conda，请激活对应的 conda 环境）。\n\n激活后再尝试运行训练命令。","https:\u002F\u002Fgithub.com\u002Fapple\u002Fcorenet\u002Fissues\u002F23",{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},15956,"进行 OpenELM 参数高效微调（PEFT）时报错 'NameError: name 'corenet' is not defined' 怎么办？","此错误通常是因为未在正确的虚拟环境中运行代码。请执行以下步骤：\n\n1. 进入 corenet 目录：\n   ```bash\n   cd corenet\n   ```\n2. 激活虚拟环境：\n   ```bash\n   source venv\u002Fbin\u002Factivate\n   ```\n\n激活环境后，Python 即可识别 `corenet` 模块，错误应会消失。","https:\u002F\u002Fgithub.com\u002Fapple\u002Fcorenet\u002Fissues\u002F32",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},15957,"在哪里可以下载 OpenELM 模型的预训练权重（Checkpoints）和训练日志？","OpenELM 的预训练权重、配置和训练日志已公开。您可以访问以下链接获取不同规模模型（270M, 450M, 1.1B, 3B）的资源：\n\n- **总览文档**: https:\u002F\u002Fgithub.com\u002Fapple\u002Fcorenet\u002Fblob\u002Fmain\u002Fprojects\u002Fopenelm\u002FREADME-pretraining.md#model-weight-checkpoints\n- **训练日志示例 (270M)**: https:\u002F\u002Fdocs-assets.developer.apple.com\u002Fml-research\u002Fmodels\u002Fcorenet\u002Fv0.1.0\u002Fopenelm\u002Fpretrained\u002F270M\u002Ftraining_logs.txt\n\n其他规模的日志和权重链接可在上述总览文档中找到。","https:\u002F\u002Fgithub.com\u002Fapple\u002Fcorenet\u002Fissues\u002F31",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},15958,"OpenELM 1.1B 及更大规模的模型在预训练时是如何初始化的？","模型初始化逻辑实现在所有模型类的 `reset_parameters()` 方法中（包括 OpenELM 使用的 GeneralGPT 类）。\n\n您可以查看源代码中的具体实现：\nhttps:\u002F\u002Fgithub.com\u002Fapple\u002Fcorenet\u002Fblob\u002F2261885b6696950aaf481a862e8926921ef1a067\u002Fcorenet\u002Fmodeling\u002Fmodels\u002Flanguage_modeling\u002Fgeneral_gpt.py#L765","https:\u002F\u002Fgithub.com\u002Fapple\u002Fcorenet\u002Fissues\u002F40",{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},15959,"为什么 CoreNet 项目选择使用解释型语言（Python）而不是编译型语言（如 C++）？","CoreNet 主要面向研究和训练场景，这些场景对**灵活性**有极高的要求，而 Python 在此方面具有显著优势。虽然编译型语言在速度上可能更快，但在快速迭代算法和实验的研究阶段，Python 的生态系统和易用性更为重要。如果您需要高性能部署，可以基于研究结果自行使用 C++ 重写关键部分。","https:\u002F\u002Fgithub.com\u002Fapple\u002Fcorenet\u002Fissues\u002F18",[]]