Awesome-Parameter-Efficient-Transfer-Learning

GitHub
591 18 非常简单 1 次阅读 5天前开发框架语言模型图像
AI 解读 由 AI 自动生成,仅供参考

Awesome-Parameter-Efficient-Transfer-Learning 是一个专注于“参数高效迁移学习”的优质资源合集。在大型人工智能模型日益庞大的今天,传统的全量微调方法往往需要巨大的计算资源和显存,这让许多尝试者望而却步。该项目正是为了解决这一痛点而生,它汇集了前沿的论文、代码实现和技术教程,旨在帮助用户仅通过更新极少量的模型参数,就能让强大的预训练模型适应特定的下游任务。

这里不仅系统梳理了以 Adapter Tuning(适配器微调)为代表的各类主流技术路线,还持续追踪该领域的最新研究进展。无论是希望降低实验成本、快速验证想法的 AI 研究人员,还是受限于硬件资源但渴望应用大模型的开发者,都能从中找到极具价值的参考指引。通过借鉴这些高效方案,用户可以显著减少训练时间和算力消耗,同时保持优异的性能表现。如果你正致力于探索如何让大模型更轻量、更经济地落地应用,Awesome-Parameter-Efficient-Transfer-Learning 将是你不可或缺的知识宝库。

使用场景

某初创医疗科技公司的算法团队,正试图将通用的大型语言模型微调为专业的“临床病历辅助生成助手”,但面临算力预算紧张和研发周期短的双重压力。

没有 Awesome-Parameter-Efficient-Transfer-Learning 时

  • 算力成本高昂:团队不得不采用全量参数微调,需要租用多张昂贵的 A100 显卡,导致单次实验成本超出预算 50%。
  • 技术选型迷茫:面对 Adapter、LoRA、Prefix Tuning 等数十种新兴技术,工程师花费两周时间漫无目的地搜索论文和代码库,难以确定最适合医疗文本的方案。
  • 复现难度极大:找到的开源代码风格各异、依赖冲突严重,且缺乏针对特定任务的配置参考,导致环境搭建和调试耗时极长。
  • 迭代速度缓慢:由于训练资源受限且试错成本高,模型一天只能进行一轮验证,严重拖慢了产品上线进度。

使用 Awesome-Parameter-Efficient-Transfer-Learning 后

  • 资源消耗骤降:通过仓库推荐的 LoRA 和 Adapter 方案,团队仅用单张消费级显卡即可完成微调,显存占用减少 80%,直接节省了数万元云租赁费用。
  • 决策路径清晰:利用仓库分类清晰的"Addition-based Tuning"目录和精选论文列表,团队在半天内就锁定了适合少样本医疗数据的最佳算法组合。
  • 落地效率倍增:直接引用仓库中经过验证的高质量实现代码和基准配置,避免了重复造轮子,将原本需要两天的环境部署压缩至两小时。
  • 快速迭代优化:低成本使得团队可以并行尝试多种参数策略,每天完成十轮以上实验,迅速提升了模型在专业术语理解上的准确率。

Awesome-Parameter-Efficient-Transfer-Learning 通过整合前沿资源与最佳实践,让中小团队也能以极低的成本高效驾驭大模型微调技术。

运行环境要求

GPU

未说明

内存

未说明

依赖
notes该项目是一个资源列表(Awesome List),用于收集参数高效迁移学习(Parameter-Efficient Transfer Learning)相关的论文和资源,本身不是一个可执行的软件工具或代码库,因此没有具体的运行环境、依赖库或硬件需求。用户需根据列表中引用的具体论文或子项目去查询相应的环境要求。
python未说明
Awesome-Parameter-Efficient-Transfer-Learning hero image

快速开始

𝓐𝔀𝓮𝓼𝓸𝓶𝓮 𝓟𝓪𝓻𝓪𝓶𝓮𝓽𝓮𝓻-𝓔𝓯𝓯𝓲𝓬𝓲𝓮𝓷𝓽 𝓣𝓻𝓪𝓷𝓼𝓯𝓮𝓻 𝓛𝓮𝓪𝓻𝓷𝓲𝓷𝓰

GitHub 星标 GitHub 分支 GitHub 活动 GitHub 问题

Awesome 维护

关于参数高效迁移学习的资源集合。

📚 目录

📝 简介

  • 参数高效微调(PEFT) 旨在以最少的参数修改,超越全量微调的性能。
  • 本仓库提供了一个全面的综述,并系统性地回顾了最新的进展。它提出了一种分类标准,将现有方法划分为三类:基于添加的微调、基于部分的微调和基于统一的微调
  • 此外,本仓库还介绍了常用的数据集和应用场景。

💬 关键词

该工作的缩写。

该工作主要探索的任务/应用。

该工作其他重要信息。

🐌 论文

基于添加的微调

Adapter 微调

  • [1] AdaptFormer: 用于可扩展视觉识别的视觉 Transformer 自适应模型, NeurIPS 2022。

    陈守法、葛崇健、佟展、王江柳、宋一兵、王珏、罗平。

    [论文][代码]

  • [2] 卷积旁路是更好的视觉 Transformer Adapter, Arxiv 2022。

    Jie, Shibo 和 Deng, Zhi-Hong。

    [论文][代码]

  • [3] ST-Adapter: 参数高效的图像到视频迁移学习, NeurIPS 2022。

    潘俊廷、林子怡、朱夏田、邵静、李洪生。

    [论文][代码]

  • [4] AIM: 用于高效视频动作识别的图像模型自适应, ICLR 2023。

    杨涛建南、朱毅、谢宇升、张阿斯顿、陈晨、李牧。

    [论文][代码]

  • [5] 预训练视觉模型在机器人操作中的无损自适应, ICLR 2023。

    夏尔马、范塔奇、周宇翔、科普拉以及其他研究人员。

    [论文][代码]

  • [6] 1% VS 100%: 用于密集预测的参数高效低秩 Adapter, CVPR 2023。

    尹东硕、杨艺然、王哲超、余洪峰、魏凯文、孙贤。

    [论文][代码]

  • [7] Polyhistor: 用于密集视觉任务的参数高效多任务自适应, NeurIPS 2022。

    刘延成、马志尧、田俊娇、何子健、齐索特·基拉。

    [论文][代码]

  • [8] VMT-Adapter: 用于多任务密集场景理解的参数高效迁移学习, AAAI 2024。

    易欣、杜俊龙、王强、林志文、严科。

    [论文][代码]

  • [9] SCT: 通过显著通道实现参数高效微调的简单基线, IJCV 2023。

    亨利·恒远·赵、皮超·王、宇洋·赵、浩·罗、凡·王、迈克·郑寿。

    [论文][代码]

  • [10] 重要通道微调, Openreview 2023。

    恒远·赵、皮超·王、宇洋·赵、凡·王、迈克·郑寿。

    [论文][代码]

  • [11] 重访参数高效迁移学习:一种两阶段范式, Arxiv 2023。

    赵恒远、罗浩、赵宇洋、王皮超、王凡、郑寿迈克。

    [论文][代码]

  • [12] Compacter: 高效低秩超复数 Adapter 层, NeurIPS 2021。

    卡里米·马哈巴迪、拉比赫、亨德森、詹姆斯、鲁德尔、塞巴斯蒂安。

    [论文][代码]

  • [13] 参数高效且对学生友好的知识蒸馏, NeurIPS 2022。

    饶俊、孟旭、丁亮、齐书涵、陶大成。

    [论文][代码]

  • [14] VL-adapter: 用于视觉-语言任务的参数高效迁移学习, CVPR 2022。

    Sung, Yi-Lin、Cho, Jaemin、Bansal, Mohit。

[论文][代码]

  • [15] UniAdapter: 用于跨模态建模的统一参数高效迁移学习, ICLR 2024。

    陆浩宇、丁明宇、霍宇奇、杨国兴、卢志武、富冢正芳、詹伟。

    [论文][代码]

  • [16] 基于跨块编排的参数高效微调方法应用于 Segment Anything Model, Arxiv 2023。

    彭泽林、徐正钦、曾志林、谢凌熙、田琦、沈伟。

    [论文][代码]

  • [17] Hydra: 用于参数高效微调的多头低秩适配器, Arxiv 2023。

    金相贤、梁贤模、金英贤、洪英俊、朴恩炳。

    [论文][代码]

  • [18] MixPHM: 面向低资源视觉问答任务的冗余感知型参数高效微调方法, CVPR 2023。

    蒋静静、郑南宁。

    [论文][代码]

  • [19] 视觉Transformer是高效的音视频学习模型, CVPR 2023。

    林延博、宋怡琳、雷杰、班萨尔、贝尔塔修斯。

    [论文][代码]

  • [20] SAM-Adapter: 在表现欠佳场景下对 Segment Anything 的适配, ICCVW 2023。

    陈天润、朱兰云、邓超涛、曹润龙、王岩、张尚展、李泽健、孙凌云、臧颖、毛爸爸。

    [论文][代码]

  • [21] T2I-Adapter: 学习适配器以挖掘文本到图像扩散模型的更多可控能力, AAAI 2024。

    牟冲、王新涛、谢良斌、张健、齐中刚等。

    [论文][代码]

  • [22] I2V-Adapter: 一种用于视频扩散模型的通用图像到视频适配器, Arxiv 2023。

    郭勋、郑明武、侯亮、高远、邓宇凡等。

    [论文][代码]

  • [23] AdaptIR: 针对预训练图像修复模型的参数高效多任务适配, Arxiv 2023。

    郭航、戴涛、白元朝、陈彬、夏树涛、朱泽轩。

    [论文][代码]

  • [24] 深入探讨扩散模型中的参数高效微调, Arxiv 2023。

    项晨东、鲍帆、李崇轩、苏航、朱军。

    [论文][代码]

  • [25] CAST: 用于视频动作识别的时空交叉注意力机制, NeurIPS 2023。

    李东浩、李宗瑞、崔振宇。

    [论文][代码]

  • [26] 动态适配器与提示微调结合:用于点云分析的参数高效迁移学习, CVPR 2024。

    周鑫、梁定康、许伟、朱星奎、徐一涵、邹志康、白翔。

    [论文][代码]

  • [27] MoMA: 多模态大语言模型适配器,用于快速个性化图像生成, ArXiv 2024。

    宋鲲鹏、朱义哲、刘冰辰、严青、艾哈迈德·埃尔加马尔、杨晓。

    [论文][代码]

  • [28] 沟通视觉与语言编码器:用于引用式图像分割的参数高效微调, ICCV 2023。

    徐尊楠、陈志宏、张勇、宋一兵、万翔、李冠斌。

    [论文][代码]

  • [29] 通过适配器增强细粒度多模态对齐:用于引用式图像分割的参数高效训练框架, WANT @ ICML 2024。

    徐尊楠、黄佳琪、刘婷、刘勇、韩浩南、袁克洪、李秀。

    [论文][代码]

  • [30] 稀疏微调:通过高效微调和推理适应视觉Transformer模型, ArXiv 2024。

    刘婷、刘旭阳、石亮涛、徐尊南、黄思腾、辛毅、殷全军。

    [论文][代码]

  • [30] PAVE:视频大型语言模型的补丁与适配, CVPR 2025。

    刘卓明、李一泉、阮辉德、钟义武、李音。

    [论文][代码]

提示词微调

  • [1] 视觉提示词微调, ECCV 2022。

    贾梦琳、唐路明、陈博淳、克莱尔·卡迪、塞尔日·贝隆吉、巴拉特·哈里哈兰、林世南。

    [论文][代码]

  • [2] 针对测试时领域适应的视觉提示词微调, Arxiv 2022。

    高云鹤、史兴健、朱毅、王浩、唐志强、周雄等。

    [论文][代码]

  • [3] LPT:用于图像分类的长尾提示词微调, ICLR 2023。

    董博文、周攀、严水成、左望蒙。

    [论文][代码]

  • [4] Pro-tuning:面向视觉任务的统一提示词微调, TCSVT 2023。

    聂星、倪波林、常建龙、孟高锋、霍春雷等。

    [论文][代码]

  • [5] 面向预训练点云模型的实例感知动态提示词微调, ICCV 2023。

    查耀华、王金鹏、戴涛、陈斌、王志、夏树涛。

    [论文][代码]

  • [6] 视觉提示词多模态跟踪, CVPR 2023。

    朱嘉文、赖思淼、陈欣、王东、陆虎川。

    [论文][代码]

  • [7] LION:隐式视觉提示词微调, AAAI 2024。

    王海鑫、常建龙、罗晓、孙济南、林周晨、田琪。

    [论文][代码]

  • [8] 用于鲁棒视觉感知的卷积视觉提示词, NeurIPS 2023。

    蔡韵韵、毛成志、杨俊峰。

    [论文][代码]

  • [9] ProSFDA:基于提示学习的无源域适应方法,用于医学图像分割, Arxiv 2023。

    胡士帅、廖泽辉、夏勇。

    [论文][代码]

  • [10] 针对低级结构分割的显式视觉提示词, CVPR 2023。

    刘伟煌、沈曦、潘志民、存晓东。

    [论文][代码]

  • [11] P2P:利用点到像素提示词微调预训练图像模型以进行点云分析, NeurIPS 2022。

    王子怡、于旭敏、饶永明、周杰、陆继文。

    [论文][代码]

  • [12] 探索用于大规模模型适配的视觉提示词, Arxiv 2022。

    方孝珍、贾哈尼安、桑卡拉纳拉亚南、伊索拉。

    [论文][代码]

  • [13] 在像素级别释放视觉提示词的力量, Arxiv 2023。

    吴俊洋、李贤航、魏辰、王慧宇、尤伊尔、周雨寅、谢慈航。

    [论文][代码]

  • [14] 从标签映射视角理解并改进视觉提示词, CVPR 2023。

    陈奥川、姚玉光、陈品宇、张义华、刘思佳。

    [论文][代码]

  • [15] 学习为视觉-语言模型生成提示词, IJCV 2022。

    周凯阳、杨景康、洛伊陈昌、刘子威。

[论文][代码]

  • [16] Hyperprompt:基于提示的任务条件化变压器模型, ICML 2022。

    何云、郑史蒂文、泰伊、古普塔·贾伊、杜宇、阿里班迪·万西等。

    [论文][代码]

  • [17] MaPLe:多模态提示学习, CVPR 2023。

    哈塔克·穆罕默德·乌宰尔、拉希德·哈努娜、马兹·穆罕默德等。

    [论文][代码]

  • [18] 多任务学习中的层次化提示学习, CVPR 2023。

    刘亚静、陆雨宁、刘浩、安耀祖、徐卓然、姚卓坤等。

    [论文][代码]

  • [19] 自动驾驶中统一感知的视觉示例驱动任务提示, CVPR 2023。

    梁锡文、牛敏哲、韩建华、徐航、徐春景、梁晓丹。

    [论文][代码]

  • [20] 视觉-语言预训练模型的双模态提示调优, TMM 2023。

    邢英辉、吴琪瑞、程德、张世洲、梁国强等。

    [论文][代码]

  • [21] 通过提示实现任何内容的分词, Arxiv 2023。

    潘婷、唐露露、王新龙、单世光。

    [论文][代码]

  • [22] MmAP:跨领域多任务学习的多模态对齐提示, AAAI 2024。

    易欣、杜俊龙、王强、严科、丁守红。

    [论文][代码]

  • [23] 多样性感知的元视觉提示, CVPR 2023。

    黄启东、董晓义、陈冬冬、张伟明、王菲菲、华刚、于能海。

    [论文][代码]

  • [24] 跨模态提示:将大型预训练模型适配到音视频下游任务, NeurIPS 2023。

    段浩毅、夏燕、周明泽、唐莉、朱继明、赵周。

    [论文][代码]

  • [25] Point-PEFT:3D预训练模型的参数高效微调, AAAI 2024。

    唐艺文、张雷、郭佐怡、马贤正、王东、王志刚、赵斌、李雪龙。

    [论文][代码]

  • [26] E2VPT:一种有效且高效的视觉提示调优方法, ICCV 2023。

    程汉、王奇凡、崔一鸣、曹志文、王文冠、戚思源、刘东方

    [论文][代码]

  • [27] DGL:用于文本-视频检索的动态全局-局部提示调优, AAAI 2024。

    杨向鹏、朱林超、王晓涵、杨毅

    [论文] [代码]

前缀调优

  • [1] 前缀调优:优化连续提示以用于生成任务, ACL 2021。

    李翔 Lisa 和 梁 Percy。

    [论文][代码]

  • [2] 向视觉参数高效迁移学习的统一视角迈进, Arxiv 2023。

    Yu, Bruce XB、Chang, Jianlong、Liu, Lingbo、Tian, Qi 和 Chen, Chang Wen。

    [论文][代码]

  • [3] 探索视觉Transformer的高效少样本适应方法, TMLR 2023。

    Xu, Chengming、Yang, Siqian、Wang, Yabiao、Wang, Zhanxiong、Fu, Yanwei 和 Xue, Xiangyang。

    [论文][代码]

  • [4] 视觉查询调优:迈向有效利用中间表示以实现参数与内存高效的迁移学习, CVPR 2023。

    Tu, Cheng-Hao、Mai, Zheda 和 Chao, Wei-Lun。

    [论文][代码]

  • [5] 具有通用参数高效调优的统一持续学习框架, ICCV 2023。

    Tu, Cheng-Hao、Mai, Zheda 和 Chao, Wei-Lun。

    [论文][代码]

基于部分的微调

规范调优

  • [1] 更好的 ImageNet 模型迁移效果更好吗? CVPR 2019。

    Kornblith、Simon 和 Shlens、Jonathon 以及 Le、Quoc V.

    [论文][代码]

  • [2] BitFit:基于 Transformer 的掩码语言模型的简单参数高效微调。 ACL 2022。

    Zaken、Elad Ben 和 Ravfogel、Shauli 以及 Goldberg、Yoav.

    [论文][代码]

  • [3] 基础模型的差分隐私偏置项仅微调, Arxiv 2022。

    Bu、Zhiqi 和 Wang、Yu-Xiang 以及 Zha、Sheng 和 Karypis、George.

    [论文][代码]

  • [4] AdapterBias:用于 NLP 任务中适配器的参数高效、与标记相关的表征迁移, NAACL 2022。

    Fu、Chin-Lun 和 Chen、Zih-Ching 以及 Lee、Yun-Ru 以及 Lee、Hung-yi.

    [论文][代码]

  • [5] 参数高效的少样本微调的强大基线, AAAI 2024。

    Basu、Samyadeep 和 Massiceti、Daniela 以及 Hu、Shell Xu 以及 Feizi、Soheil.

    [论文][代码]

  • [6] DiffFit:通过简单的参数高效微调解锁大型扩散模型的可迁移性, ICCV 2023。

    Enze Xie、Lewei Yao、Han Shi、Zhili Liu、Daquan Zhou、Zhaoqiang Liu、Jiawei Li、Zhenguo Li.

    [论文][代码]

  • [7] 基于梯度的参数选择以实现高效微调, Arxiv 2023。

    Zhi Zhang、Qizhe Zhang、Zijun Gao、Renrui Zhang、Ekaterina Shutova、Shiji Zhou、Shanghang Zhang.

    [论文][代码]

  • [8] 基于敏感性的视觉参数高效微调, ICCV 2023。

    Haoyu He、Jianfei Cai、Jing Zhang、Dacheng Tao、Bohan Zhuang.

    [论文][代码]

  • [9] 基于梯度的参数选择以实现高效微调, CVPR 2024。

    Zhi Zhang、Qizhe Zhang、Zijun Gao、Renrui Zhang、Ekaterina Shutova、Shiji Zhou、Shanghang Zhang.

参数高效微调

  • [1] LoRA:大语言模型的低秩适应。 NeurIPS 2021。

    Hu, Edward J 和 Shen, Yelong 和 Wallis, Phillip 和 Allen-Zhu, Zeyuan 和 Li, Yuanzhi 等。

    [论文][代码]

  • [2] 缩放与偏移你的特征:一种高效的模型微调新基线, NeurIPS 2022。

    Dongze Lian、Daquan Zhou、Jiashi Feng、Xinchao Wang。

    [论文][代码]

  • [3] KronA:基于克罗内克适配器的参数高效微调, Arxiv 2023。

    Ali Edalati、Marzieh Tahaei、Ivan Kobyzev、Vahid Partovi Nia、James J. Clark、Mehdi Rezagholizadeh。

    [论文][代码]

  • [4] FacT:视觉Transformer上的轻量级自适应因子微调, AAAI 2023。

    Jie, Shibo 和 Deng, Zhi-Hong。

    [论文][代码]

  • [5] 聚合、分解与微调:一种简单而有效的视觉Transformer因子微调方法, Arxiv 2023。

    Chen, Dongping。

    [论文][代码]

  • [6] 参数高效少样本微调的强大基线, AAAI 2024。

    Basu, Samyadeep 和 Massiceti, Daniela 和 Hu, Shell Xu 和 Feizi, Soheil。

    [论文][代码]

  • [7] 视觉Transformer的参数高效模型适配, AAAI 2023。

    He, Xuehai 和 Li, Chunyuan 和 Zhang, Pengchuan 和 Yang, Jianwei 和 Wang, Xin Eric。

    [论文][代码]

  • [8] DnA:通过低秩分解与对齐提升少样本迁移学习, ECCV 2022。

    Jiang, Ziyu 和 Chen, Tianlong 和 Chen, Xuxi 和 Cheng, Yu 和 Zhou, Luowei 和 Yuan, Lu 等。

    [论文][代码]

  • [9] 通过结构化重参数化实现高效视觉适配, Arxiv 2023。

    Luo, Gen 和 Huang, Minglang 和 Zhou, Yiyi 和 Sun, Xiaoshuai 和 Jiang, Guannan 和 Wang, Zhiyu 和 Ji, Rongrong。

    [论文][代码]

  • [10]SAM-PARSER:通过参数空间重构高效微调SAM, AAAI 2024。

    Zelin Peng、Zhengqin Xu、Zhilin Zeng、Xiaokang Yang、Wei Shen。

    [论文]代码

  • [10]DiffuseKronA:个性化扩散模型的参数高效微调方法, Arxiv 2023。

    Shyam Marjit、Harshit Singh、Nityanand Mathur、Sayak Paul、Chia-Mu Yu、Pin-Yu Chen。

    [论文][代码]

  • [11] 扩展稀疏微调以降低内存占用, NeurIPS 2024。

    Shufan Shen、Junshu Sun、Xiangyang Ji、Qingming Huang、Shuhui Wang。

    [论文][代码]

  • [12]PointLoRA:面向点云学习的基于标记选择的低秩适应, CVPR 2025。

    Song Wang、Xiaolu Liu、Lingdong Kong、Jianyun Xu、Chunyong Hu、Gongfan Fang、Wentong Li、Jianke Zhu、Xinchao Wang。

    [论文][代码]

统一调优

  • [1] 朝向参数高效迁移学习的统一视角, ICLR 2022。

    Junxian He、Chunting Zhou、Xuezhe Ma、Taylor Berg-Kirkpatrick、Graham Neubig。

    [论文][代码]

  • [2] 朝向视觉领域参数高效迁移学习的统一视角, Arxiv 2023。

    Yu, Bruce XB、Chang, Jianlong、Liu, Lingbo、Tian, Qi、Chen, Chang Wen。

    [论文][代码]

  • [3] 神经提示搜索, Arxiv 2022。

    Zhang, Yuanhan、Zhou, Kaiyang、Liu, Ziwei。

    [论文][代码]

  • [4] 从统一视角重新思考高效调优方法, Arxiv 2023。

    Jiang, Zeyinzi、Mao, Chaojie、Huang, Ziyuan、Lv, Yiliang、Zhao, Deli、Zhou, Jingren。

    [论文][代码]

  • [5] 具有通用参数高效调优的统一持续学习框架, ICCV 2023。

    Gao, Qiankun、Zhao, Chen、Sun, Yifan、Xi, Teng、Zhang, Gang、Ghanem, Bernard、Zhang, Jian。

    [论文][代码]

  • [6] GIST:通过知识交互改进参数高效微调, Arxiv 2023。

    Jiacheng Ruan、Jingsheng Gao、Mingye Xie、Suncheng Xiang、Zefang Yu、Ting Liu、Yuzhuo Fu。

    [论文][代码]

🎯 视觉 PETL 数据集

名称 论文 链接 备注
FGVC 视觉提示调优 链接 FGVC 包含 5 个基准细粒度视觉分类任务。
VTAB-1k 基于视觉任务适应基准的大规模表征学习研究 链接 VTAB-1k 包含 19 个多样化的视觉分类任务。
Kinetics-400 Kinetics 人类动作视频数据集。 链接 视频动作识别
SSv2 “something something” 视频数据库,用于学习和评估视觉常识 链接 视频动作识别
HMDB51 HMDB:大型人体运动数据库 链接 视频动作识别
Diving-48 RESOUND:迈向无表征偏见的动作识别 链接 视频动作识别
UCF-101 UCF101:来自野外视频的 101 类人类动作数据集 链接 视频动作识别
MSCOCO 微软 COCO:上下文中的常见物体 链接 实例分割
ADE20K 通过 ADE20K 数据集实现场景语义理解 链接 语义分割
PASCALVOC 帕斯卡视觉目标类别挑战赛:回顾 链接 语义分割

🧒 贡献

:clap: 感谢以上贡献者们的杰出工作!

引用

如果您觉得我们的综述和仓库对您的研究有所帮助,请在下方引用:


@article{xin2024parameter,
  title={预训练视觉模型的参数高效微调:综述},
  author={Xin, Yi、Luo, Siqi、Zhou, Haodi、Du, Junlong、Liu, Xiaohong、Fan, Yue、Li, Qing、Du, Yuntao},
  journal={arXiv 预印本 arXiv:2402.02242},
  year={2024}
}

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|2天前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|3天前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

144.7k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.9k|★★☆☆☆|2天前
开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|昨天
插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|2天前
语言模型图像Agent