Awesome-Prompting-on-Vision-Language-Model

507 37 非常简单 1 次阅读 1周前其他

AI 解读由 AI 自动生成，仅供参考

Awesome-Prompting-on-Vision-Language-Model 是一个专注于视觉 - 语言模型提示工程（Prompt Engineering）的开源资源库。它系统性地整理了相关前沿论文，旨在帮助研究者快速掌握如何利用提示技术，让大规模预训练模型更好地适应新任务，而无需重新训练整个模型。

该资源库主要解决了在多模态人工智能研究中，如何高效设计和应用提示以激发模型潜力的难题。它将复杂的提示方法归纳为“硬提示”（如任务指令、少样本学习）和“软提示”（如提示微调），并覆盖了三大类主流模型：多模态到文本生成模型（如 Flamingo）、图文匹配模型（如 CLIP）以及文生图模型（如 Stable Diffusion）。

这一工具特别适合人工智能领域的研究人员、算法工程师以及对多模态大模型感兴趣的高级开发者使用。通过查阅其中分类清晰的论文列表和技术综述，用户可以迅速了解不同场景下的最佳实践，避免重复造轮子。其独特的亮点在于提供了一份基于系统性调研的知识地图，不仅区分了不同的融合模块架构，还深入剖析了各类提示策略的适用场景，是探索视觉 - 语言基础模型不可或缺的理论指南与实践手册。

使用场景

某电商公司的算法团队正致力于优化其智能客服系统，希望利用视觉 - 语言模型（VLM）自动识别用户上传的商品破损图片并生成准确的理赔回复。

没有 Awesome-Prompting-on-Vision-Language-Model 时

选型迷茫：面对 Flamingo、CLIP 和 Stable Diffusion 等不同类型的模型，团队难以快速确定哪种架构最适合“图像理解 + 文本生成”的特定任务。
试错成本高：缺乏系统的提示工程（Prompt Engineering）方法论，开发人员只能凭经验盲目尝试硬提示（Hard Prompt）或软提示（Soft Prompt），耗费数周调试效果仍不稳定。
前沿技术缺失：无法及时获取如“思维链（Chain-of-Thought）”或“上下文学习（In-context Learning）”在多模态领域的最新应用案例，导致生成的回复逻辑简单，难以处理复杂破损场景。
资源分散：需要手动在海量论文中筛选相关研究，效率极低且容易遗漏关键的技术实现细节。

使用 Awesome-Prompting-on-Vision-Language-Model 后

精准定位模型：通过仓库清晰的分类导航，团队迅速锁定基于 Flamingo 的多模态生成方案，明确了技术路线。
方法有据可依：参考综述中总结的硬/软提示策略，直接复用成熟的模板设计，将模型适配时间从数周缩短至几天。
能力显著增强：应用文中推荐的“思维链”提示技巧，模型不仅能识别破损，还能逐步推理损坏原因并生成富有同理心的专业回复，准确率大幅提升。
一站式资源获取：直接获取经过筛选的高质量论文列表及对应代码链接，快速复现了业界最先进的提示微调技术。

Awesome-Prompting-on-Vision-Language-Model 将散乱的学术研究转化为可落地的工程指南，帮助开发者以最低成本释放视觉 - 语言模型的最大潜力。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库是一个综述列表（Awesome List），主要整理了关于视觉语言模型提示工程的研究论文、代码链接和分类方法，本身不是一个可直接运行的单一软件工具或框架。因此 README 中未包含具体的操作系统、GPU、内存、Python 版本或依赖库的安装需求。用户若需运行列表中提到的具体模型（如 Flamingo, CLIP, Stable Diffusion 等），需参考各模型对应的独立代码仓库（表中 'Code if available' 列提供的链接）以获取具体的环境配置信息。

python未说明

Awesome-Prompting-on-Vision-Language-Model hero image

快速开始

视觉-语言模型中的优秀提示工程

# :nerd_face: 什么是视觉-语言模型的提示工程？

提示工程是一种技术，通过为大型预训练模型添加特定任务的提示（即“提示词”），使其能够适应新的任务。本仓库旨在提供一份关于三种视觉-语言模型（VLMs）上提示工程前沿研究的全面综述：多模态到文本生成模型（如Flamingo）、图像-文本匹配模型（如CLIP）以及文本到图像生成模型（如Stable Diffusion）（图1）。

图1：本工作聚焦于三大类视觉-语言模型。

参考文献

本仓库列出了我们综述中总结的相关论文：

视觉-语言基础模型上的提示工程系统性综述。 Jindong Gu、Zhen Han、Shuo Chen、Ahmad Beirami、Bailan He、Gengyuan Zhang、Ruotong Liao、Yao Qin、Volker Tresp、Philip Torr。预印本，2023年。[pdf]

如果您觉得我们的论文和仓库对您的研究有所帮助，请引用以下论文：

@article{gu2023survey,
  title={A Systematic Survey of Prompt Engineering on Vision-Language Foundation Models},
  author={Gu, Jindong and Han, Zhen and Chen, Shuo, and Beirami, Ahmad and He, Bailan and Zhang, Gengyuan and Liao, Ruotong and Qin, Yao and Tresp, Volker and Torr, Philip}
  journal={arXiv preprint arXiv:2307.12980},
  year={2023}
}

多模态到文本生成中的提示方法（例如在Flamingo上）

基于视觉和文本模态的融合方式，主要有两种融合模块方法：编码器-解码器作为多模态融合模块和仅解码器作为多模态融合模块。根据模板的可读性，提示方法可分为两大类（图2）：硬提示和软提示。硬提示又细分为四个子类别：任务指令、上下文学习、基于检索的提示以及思维链提示。而软提示则根据是否在模型架构内部添加新标记或仅将其附加到输入中，被划分为提示调优和前缀标记调优两种策略。本研究主要关注那些无需修改基础模型的提示方法。

图2：提示方法分类。

标题	会议	年份	如有代码则提供代码链接	备注
通过文本生成统一视觉-语言任务	ICML	2021	Github	编码器-解码器融合；文本前缀作为提示
SimVLM：基于弱监督的简单视觉语言模型预训练	ICLR	2022	Github	编码器-解码器融合；文本前缀作为提示
OFA：通过简单的序列到序列学习框架统一架构、任务和模态	ICML	2022	Github	编码器-解码器融合；文本前缀作为提示
PaLI：联合扩展的多语言语言-图像模型	ICLR	2023	---	编码器-解码器融合；指令提示
使用冻结语言模型进行多模态少样本学习	NeurIPS	2021	页面	仅解码器融合；图像条件前缀调优
Flamingo：用于少样本学习的视觉语言模型	NeurIPS	2022	Github	仅解码器融合；文本提示；
MAGMA——通过适配器微调增强生成模型的多模态能力	EMNLP	2022	Github	仅解码器融合；图像条件前缀调优
BLIP-2：利用冻结图像编码器和大型语言模型进行语言-图像预训练的自举	ICML	2023	Github	仅解码器融合；图像条件前缀调优
语言模型是无监督的多任务学习者	OpenAI博客	2019	Github	任务指令提示
图灵测试：语言模型能理解指令吗？	arXiv	2020	---	任务指令提示
语言模型是少样本学习者	NeurIPS	2020	---	上下文学习
学习检索用于上下文学习的提示	NAACL-HLT	2022	Github	基于检索的提示
用于上下文学习的统一演示检索器	ACL	2023	Github	基于检索的提示
用于上下文学习的组合示例	ICML	2023	Github	基于检索的提示
思维链提示可激发大型语言模型的推理能力	NeurIPS	2022	---	思维链提示
大型语言模型中的自动思维链提示	ICLR	2023	Github	思维链提示
规模对参数高效提示调优的力量	EMNLP	2021	---	提示调优
学会提问：用软提示混合物查询语言模型	NAACL-HLT	2021	Github	提示调优
前缀调优：优化连续提示以进行生成	ACL	2021	Github	前缀调优
面向生成型多模态预训练模型的提示调优	ACL	2023	Github	OFA上的提示调优
语言并非一切：将感知与语言模型对齐	NeurIPS	2023	Github	文本指令提示
预训练视觉-语言模型上适应方法鲁棒性的基准测试	NeurIPS	2024	页面	VLMs上提示调优的鲁棒性
迈向视觉-语言模型的稳健提示	NextGenAISafety@ICLR	2024	---	VLMs上提示调优的鲁棒性
InstructBLIP：通过指令调优迈向通用视觉-语言模型	NeurIPS	2023	Github	提示调优
视觉指令调优	NeurIPS	2023	Github
Qwen-VL：一款多功能的视觉-语言模型，用于理解、定位、文本阅读等	arXiv	2023	Github	提示调优
Shikra：释放多模态大模型的指代对话魔法	arXiv	2023	Github
MINIGPT-4：利用先进大型语言模型增强视觉-语言理解	ICLR	2023	Github	提示调优

图像-文本匹配中的提示方法（如 CLIP 上）

根据提示的目标不同，现有方法可分为三类：提示文本编码器、提示视觉编码器，或如图 2 所示的联合提示双分支。这些方法旨在提升多模态模型的灵活性和任务特定性能。

图 2：图像-文本匹配多模态模型中提示方法的分类。

标题	会议/期刊	年份	如有代码，提供代码链接	备注
从自然语言监督中学习可迁移的视觉模型	ICML	2021	Github	硬文本提示；用于图像分类
深入探讨 CLIP 的开放性	ACL	2023	Github	用于理解的硬文本提示
视觉-语言模型零样本泛化中的测试时提示调优	NeurIPS	2022	Github	软文本提示
为视觉-语言模型学习提示	IJCV	2022	Github	软文本提示
高效视频理解的视觉-语言模型提示调优	ECCV	2022	Github	软文本提示
多任务视觉-语言提示调优	WACV	2024	Github	软文本提示
视觉-语言模型的条件提示学习	CVPR	2022	Github	软文本提示
视觉提示调优	ECCV	2022	Github	基于视觉补丁的提示
探索用于大规模模型适配的视觉提示	arXiv	2022	Github	基于视觉补丁的提示
多任务视觉-语言提示调优	WACV	2024	Github	基于视觉补丁的提示
释放像素级视觉提示的力量	TMLR	2024	Github	基于视觉补丁的提示
多样性感知的元视觉提示	CVPR	2023	Github	基于视觉补丁的提示
CPT：预训练视觉-语言模型的彩色提示调优	AI open	2024	Github	视觉标注提示
CLIP对红色圆圈了解多少？VLM的视觉提示工程	ICCV	2023	---	视觉标注提示
通过图像修复进行视觉提示	NeurIPS	2022	Github	视觉标注提示
统一的视觉与语言提示学习	arXiv	2023	Github	耦合的统一提示
多任务视觉-语言提示调优	WACV	2024	Github	解耦的统一提示
MaPLe：多模态提示学习	CVPR	2023	Github	解耦的统一提示
理解大规模模型的零样本对抗鲁棒性	ICLR	2023	代码	提示的对抗鲁棒性
用于对抗鲁棒性的视觉提示	ICASSP	2023	Github	提示的对抗鲁棒性
先对齐再融合：基于动量蒸馏的视觉与语言表征学习	NeurIPS	2021	Github	图像-文本匹配模型
视觉-语言模型的无监督提示学习	arXiv	2022	Github	可学习的无监督提示
视觉-语言模型零样本泛化的测试时提示调优	NeurIPS	2022	Github	可学习的提示
面向开放词汇视觉识别的两万多个类别的提示预训练	NeurIPS	2023	Github	提示预训练
视觉-语言模型的一致性引导提示学习	ICLR	2024	---	解耦的统一提示
提升视觉-语言模型高效迁移学习的适应性和泛化能力	arXiv	2023	---	可学习的提示
视觉-语言模型的高效测试时提示调优	arXiv	2024	---	高效的测试时提示调优
基于对比特征重构的渐进式视觉提示学习	IJCV	2024	GitHub	视觉提示调优
AWT：通过增强、加权和运输转移视觉-语言模型	NeurIPS	2024	GitHub	LLM提示生成；最优传输

应用场景与负责任的人工智能

标题	会议/期刊	年份	若有代码，提供代码链接	备注
LMPT：针对长尾多标签视觉识别的类别特定嵌入损失提示调优	ALVR	2024	Github	用于长尾多标签图像分类的提示词
视觉-语言模型零样本泛化中的测试时提示调优	NeurIPS	2022	Github	可学习提示词；用于图像分类的提示词
LPT：面向图像分类的长尾提示调优	ICLR	2023	Github	用于长尾图像分类的提示词
多标签图像识别中以文本作为图像的提示调优	CVPR	2023	Github	用于多标签图像分类与检测的提示词
DualCoOp：在标注数据有限的情况下快速适应多标签识别	NeurIPS	2022	Github	用于多标签图像分类与识别的提示词
少样本文本分类中的视觉提示调优	ICCL	2022	---	用于文本分类的视觉提示词
通过视觉与语言知识蒸馏实现开放词汇目标检测	ICLR	2021	Github	用于目标检测的提示词
利用视觉-语言模型学习提示以进行开放词汇目标检测	CVPR	2022	Github	用于目标检测的提示词
PromptDet：基于未筛选图像实现开放词汇目标检测	ECCV	2022	Github	用于目标检测的提示词
通过前缀调优优化连续提示以进行视觉关系检测	IEEE Access	2022	---	用于视觉关系检测的软提示
基于提示微调实现开放词汇场景图生成	ECCV	2022	---	用于视觉关系检测的软提示
结合运动线索的组合式提示调优用于开放词汇视频关系检测	ICLR	2023	Github	用于视频开放词汇关系检测的关系提示词
DenseCLIP：基于上下文感知提示的语言引导密集预测	CVPR	2022	Github	用于语义分割的类别条件文本提示词
Segment Anything	ICCV	2023	Github	可提示查询的语义分割
通过提示学习进行领域适应	IEEE	2023	Github	领域特定的文本提示词，用于领域适应
测试时领域适应中的视觉提示调优	arXiv	2022	---	用于领域适应的提示词
为持续学习学习提示	CVPR	2022	Github	用于持续学习的提示词
DualPrompt：无回放持续学习的互补提示调优	ECCV	2022	Github	用于持续学习的提示词
用于领域泛化的提示视觉Transformer	arXiv	2022	Github	用于领域泛化的提示词
理解大规模模型的零样本对抗鲁棒性	LCLR	2022	Github	对抗攻击下的视觉提示调优
用于对抗鲁棒性的视觉提示	ICASSP	2023	Github	通过视觉提示提升对抗鲁棒性
探索基于提示的学习范式的通用脆弱性	NAACL	2022	Github	视觉提示的脆弱性
对比学习中的投毒与后门攻击	ICLR	2022	---	对CLIP的后门和投毒攻击
BadEncoder：自监督学习中预训练编码器的后门攻击	IEEE	2022	Github	对CLIP的后门攻击
CleanCLIP：缓解多模态对比学习中的数据投毒攻击	ICLR研讨会	2023	---	防御对CLIP的后门攻击
通过有偏提示去偏视觉-语言模型	arXiv	2023	Github	用于缓解偏见的提示词

文本到图像生成中的提示工程（例如在 Stable Diffusion 上）

标题	会议/期刊	年份	如有代码，提供链接	备注
扩散模型在图像合成上超越 GAN	NeurIPS	2021	Github	扩散模型在图像生成中的应用
扩散模型在图像合成上超越 GAN	NeurIPS	2021	Github	扩散模型在图像生成中的应用
去噪扩散概率模型	NeurIPS	2020	Github	扩散模型在图像生成中的应用
SuS-X：视觉-语言模型的无训练仅名称迁移	ICCV	2023	Github	扩散模型在图像生成中的应用
探索扩散模型中的提示工程	NeurIPS Workshop	2022	---	语义提示设计
DiffuMask：利用扩散模型结合像素级标注进行语义分割图像合成	IEEE/CVF	2023	Github	通过提示实现多样化生成；用于合成数据生成的提示
生成模型生成的合成数据是否已可用于图像识别？	ICLR	2023	Github	通过提示实现多样化生成
一张图胜过千言万语：利用文本反演个性化文本到图像生成	ICLR	2023	Github	通过提示对生成结果进行复杂控制
DreamBooth：针对特定主题的文本到图像扩散模型微调	CVPR	2023	Github	通过提示对生成结果进行复杂控制
文本到图像扩散模型的多概念自定义	CVPR	2023	Github	通过提示对生成结果进行复杂控制
基于交叉注意力控制的提示到提示图像编辑	ICLR	2023	---	通过提示对生成结果进行复杂控制
面向组合式文本到图像合成的无训练结构化扩散引导	ICLR	2023	Github	可控的文本到图像生成
扩散自我引导用于可控图像生成	NeurIPS	2023	页面	可控的文本到图像生成
Imagic：基于文本的扩散模型真实图像编辑	CVPR	2023	Github	可控的文本到图像生成
为文本到图像扩散模型添加条件控制	IEEE/CVF	2023	Github	可控的文本到图像生成
基于交叉注意力控制的提示到提示图像编辑	ICLR	2023	Github	通过提示对生成结果进行复杂控制
ImaginaryNet：无需真实图像和标注即可学习目标检测器	ICLR	2023	Github	用于合成数据生成的提示
生成模型生成的合成数据是否已可用于图像识别？	ICLR	2023	Github	用于合成数据生成的提示
Make-A-Video：无需文本-视频数据的文本到视频生成	ICLR	2023	页面	用于文本到视频生成的提示
Imagen Video：利用扩散模型生成高清视频	arXiv	2022	页面	用于文本到视频生成的提示
FateZero：融合注意力实现零样本基于文本的视频编辑	ICCV	2023	Github	用于文本到视频生成的提示
Tune-A-Video：为文本到视频生成对图像扩散模型进行一次-shot 微调	ICCV	2023	Github	用于文本到视频生成的提示
DiffRF：渲染引导的 3D 辐射场扩散	CVPR	2023	页面	用于文本到 3D 生成的提示
DreamFusion：使用 2D 拓展扩散模型进行文本到 3D 的生成	ICLR 著名前 5%	2023	页面	用于文本到 3D 生成的提示
Dream3D：利用 3D 形状先验和文本到图像扩散模型实现零样本文本到 3D 合成	CVPR	2023	页面	用于文本到 3D 生成的提示
MotionDiffuse：利用扩散模型进行文本驱动的人体运动生成	IEEE	2024	页面	用于文本到运动生成的提示
FLAME：自由形式的语言驱动运动合成与编辑	AAAI	2023	Github	用于文本到运动生成的提示
MDM：人体运动扩散模型	ICLR	2023	Github	用于文本到运动生成的提示
利用扩散模型从纯文本故事中零样本生成连贯的故事书	arXiv	2023	---	用于复杂任务的提示
通过双模态文本-图像提示进行多模态程序化规划	ICLR	2024	Github	用于复杂任务的提示
针对文本到图像生成模型的提示窃取攻击	USENIX 安全研讨会	2023	---	关于负责任 AI 的提示
针对文本到图像生成模型的成员身份推断攻击	ICLR	2023	---	针对文本到图像模型的成员身份攻击
扩散模型是否容易受到成员身份推断攻击？	ICML	2023	Github	针对文本到图像模型的成员身份攻击
可重复地从扩散模型中提取训练图像	arXiv	2023	Github	针对文本到图像模型的成员身份攻击
公平扩散：指导文本到图像生成模型关注公平性	arXiv	2023	Github	关注公平性的文本到图像模型提示
透过文本到图像生成的视角看社会偏见	AAAI/ACM	2023	---	关注偏见的文本到图像模型提示
T2IAT：衡量文本到图像生成中的效价与刻板印象偏见	ACL	2023	---	关注偏见的文本到图像模型提示
稳定偏见：分析扩散模型中的社会表征	NeurIPS	2023	---	关注偏见的文本到图像模型提示
关于 Stable Diffusion 的无查询对抗攻击试点研究	CVPR	2023	---	文本到图像模型的对抗鲁棒性
用于不可察觉且可迁移对抗攻击的扩散模型	ICLR	2024	Github	文本到图像模型的对抗鲁棒性
用于对抗净化的扩散模型	ICML	2022	Github	文本到图像模型的对抗鲁棒性
艺术家的“Rickroll”：向文本编码器注入后门以用于文本到图像合成	ICCV	2023	---	对文本到图像模型的后门攻击
通过多模态数据投毒，文本到图像扩散模型很容易被植入后门	ACM MM	2023	---	对文本到图像模型的后门攻击
个性化作为针对文本到图像扩散模型的少样本后门攻击捷径	AAAI	2024	---	对文本到图像模型的后门攻击

# :mailbox_with_mail: 联系方式

如果您有以下情况，请联系我们（jindong.gu@outlook.com，chenshuo.cs@outlook.com）：

您希望将您的论文添加到本仓库；
您发现本仓库存在任何错误；
您对本仓库有任何建议。

Awesome-Prompting-on-Vision-Language-Model 快速上手指南

本指南旨在帮助开发者快速了解并利用 Awesome-Prompting-on-Vision-Language-Model 资源库。该项目并非一个可直接安装的单一软件包，而是一个系统性的综述资源库，汇集了视觉 - 语言模型（VLM）提示工程领域的前沿论文、代码实现及分类方法。

1. 环境准备

由于本项目是论文与代码的索引集合，运行具体示例需要针对所选论文对应的独立模型环境进行配置。以下是通用的基础环境建议：

操作系统: Linux (推荐 Ubuntu 20.04+), macOS, 或 Windows (WSL2)
Python 版本: 3.8 或更高 (具体取决于所选子项目，如 Flamingo, CLIP, Stable Diffusion 等)
核心依赖:
- PyTorch (建议 1.10+)
- Transformers (Hugging Face)
- CUDA (如需 GPU 加速，建议 11.3+)
前置知识: 了解多模态模型基础概念（如 Encoder-Decoder, Decoder-only, Hard/Soft Prompting）。

注意：请根据您感兴趣的具体论文（如下文表格所示），前往其对应的 GitHub 仓库查看特定的 requirements.txt。

2. 安装步骤

本项目本身无需通过 pip 安装，主要通过克隆仓库获取文献列表和思维导图。

克隆资源库

git clone https://github.com/jindonggu/Awesome-Prompting-on-Vision-Language-Model.git
cd Awesome-Prompting-on-Vision-Language-Model

获取具体模型代码

本仓库整理了三大类模型的提示工程方法。请选择您需要的方向，点击对应论文的 "Code if available" 链接进入子项目进行安装。

示例：以安装 Flamingo (Multimodal-to-Text) 为例

# 进入你选择的子项目目录 (此处以 open_flamingo 为例)
git clone https://github.com/mlfoundations/open_flamingo.git
cd open_flamingo

# 创建虚拟环境并安装依赖
python -m venv venv
source venv/bin/activate  # Windows 使用: venv\Scripts\activate

# 安装依赖 (国内用户推荐使用清华源加速)
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

3. 基本使用

本项目的核心价值在于分类指引。使用者应根据任务类型选择对应的提示策略。

步骤一：确定模型类型与任务

参考仓库中的分类逻辑（见 README 中的 Fig. 1 & Fig. 2）：

多模态转文本生成 (Multimodal-to-Text): 如 Flamingo, BLIP-2。
- 策略: 硬提示 (Hard Prompt, 如指令、上下文学习) 或软提示 (Soft Prompt, 如 Prefix Tuning)。
图文匹配 (Image-Text Matching): 如 CLIP。
- 策略: 提示文本编码器、视觉编码器或两者联合提示。
文生图生成 (Text-to-Image): 如 Stable Diffusion。
- 策略: 优化文本提示词以控制生成内容。

步骤二：应用提示工程 (代码示例)

以下展示如何在典型的 CLIP (图文匹配) 场景中应用硬提示 (Hard Prompt) 技术（基于零样本分类）：

import torch
from PIL import Image
import clip

# 1. 加载模型
device = "cuda" if torch.cuda.is_available() else "cpu"
model, preprocess = clip.load("ViT-B/32", device=device)

# 2. 准备图像
image = preprocess(Image.open("assets/pvlm-mindmap.png")).unsqueeze(0).to(device)

# 3. 构建提示模板 (Hard Prompting 的核心)
# 原始方法可能只用 "a photo of a {}", 这里使用更丰富的模板增强鲁棒性
templates = [
    "a bad photo of a {}.",
    "a photo of a nice {}.",
    "a photo of the large {}.",
    "a photo of the small {}.",
    "a photo of a {}."
]

classes = ["cat", "dog", "bird"]

# 4. 生成所有模板下的文本嵌入并取平均
texts = []
for cls in classes:
    for template in templates:
        texts.append(clip.tokenize(template.format(cls)).to(device))

with torch.no_grad():
    text_features = model.encode_text(torch.cat(texts, dim=0))
    # 重塑并平均每个类别的特征
    text_features = text_features.reshape(len(classes), len(templates), -1).mean(dim=1)
    text_features /= text_features.norm(dim=-1, keepdim=True)

# 5. 推理
with torch.no_grad():
    image_features = model.encode_image(image)
    image_features /= image_features.norm(dim=-1, keepdim=True)
    
    similarity = (100.0 * image_features @ text_features.T).softmax(dim=-1)
    print("预测结果:", classes[similarity.argmax().item()])

步骤三：进阶研究

若需尝试软提示 (Soft Prompt / Prompt Tuning)，请参考仓库中列出的具体论文实现（如 CoOp, Prefix-Tuning），通常涉及在模型冻结参数的情况下，训练少量可学习的连续向量参数。

查阅论文: 在本地 README.md 或 ArXiv 链接中查找 "Prompt Tuning" 相关章节。
复现代码: 直接访问表格中提供的 GitHub 链接（如 OFA, BLIP-2 等项目），运行其官方提供的微调脚本。

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架

awesome-machine-learning

awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。

★ 72.1k|★☆☆☆☆|2天前

开发框架其他

scikit-learn

scikit-learn 是一个基于 Python 构建的开源机器学习库，依托于 SciPy、NumPy 等科学计算生态，旨在让机器学习变得简单高效。它提供了一套统一且简洁的接口，涵盖了从数据预处理、特征工程到模型训练、评估及选择的全流程工具，内置了包括线性回归、支持向量机、随机森林、聚类等在内的丰富经典算法。对于希望快速验证想法或构建原型的数据科学家、研究人员以及 Python 开发者而言，scikit-learn 是不可或缺的基础设施。它有效解决了机器学习入门门槛高、算法实现复杂以及不同模型间调用方式不统一的痛点，让用户无需重复造轮子，只需几行代码即可调用成熟的算法解决分类、回归、聚类等实际问题。其核心技术亮点在于高度一致的 API 设计风格，所有估算器（Estimator）均遵循相同的调用逻辑，极大地降低了学习成本并提升了代码的可读性与可维护性。此外，它还提供了强大的模型选择与评估工具，如交叉验证和网格搜索，帮助用户系统地优化模型性能。作为一个由全球志愿者共同维护的成熟项目，scikit-learn 以其稳定性、详尽的文档和活跃的社区支持，成为连接理论学习与工业级应用的最

★ 65.6k|★☆☆☆☆|今天

开发框架其他数据工具

keras

Keras 是一个专为人类设计的深度学习框架，旨在让构建和训练神经网络变得简单直观。它解决了开发者在不同深度学习后端之间切换困难、模型开发效率低以及难以兼顾调试便捷性与运行性能的痛点。无论是刚入门的学生、专注算法的研究人员，还是需要快速落地产品的工程师，都能通过 Keras 轻松上手。它支持计算机视觉、自然语言处理、音频分析及时间序列预测等多种任务。 Keras 3 的核心亮点在于其独特的“多后端”架构。用户只需编写一套代码，即可灵活选择 TensorFlow、JAX、PyTorch 或 OpenVINO 作为底层运行引擎。这一特性不仅保留了 Keras 一贯的高层易用性，还允许开发者根据需求自由选择：利用 JAX 或 PyTorch 的即时执行模式进行高效调试，或切换至速度最快的后端以获得最高 350% 的性能提升。此外，Keras 具备强大的扩展能力，能无缝从本地笔记本电脑扩展至大规模 GPU 或 TPU 集群，是连接原型开发与生产部署的理想桥梁。

★ 63.9k|★★☆☆☆|昨天

开发框架数据工具其他