Transformer-in-Vision
Transformer-in-Vision 是一个专注于计算机视觉领域的开源资源库,旨在系统梳理和追踪基于 Transformer 架构的最新研究成果与应用案例。随着 Transformer 从自然语言处理领域成功跨界至视觉任务,成为现代 AI 模型的核心组件,该仓库通过汇集论文、代码链接及项目主页,帮助从业者快速掌握技术前沿动态。
它主要解决了视觉领域研究者面对海量新兴文献时难以高效筛选和跟进的痛点。仓库内容覆盖广泛,不仅包含经典的图像生成模型(如 DALL·E 2、Stable Diffusion、Imagen),还涉及视频理解、多模态学习(如 CLIP、LAVIS)以及机器人交互等前沿方向,并特别提供了关于自动驾驶传感器融合等细分领域的综述文章。此外,它还整理了从基础理论"Attention is All You Need"到各类框架实现的实用教程链接。
Transformer-in-Vision 非常适合人工智能研究人员、算法工程师以及对深度学习感兴趣的学生使用。无论是希望寻找灵感的研究者,还是需要复现最新模型的开发者,都能在此找到宝贵的参考资料。其独特的价值在于将分散的高质量资源进行了结构化整理,并持续更新包括大语言模型与视觉结合(LLM-in-Vision)在内的新趋势,是探索视觉 Transformer 技术版图的高效入口。
使用场景
某自动驾驶初创团队正在研发新一代感知系统,急需整合摄像头、激光雷达等多源传感器数据以提升复杂路况下的识别准确率。
没有 Transformer-in-Vision 时
- 技术选型迷茫:面对海量分散的论文与代码库,工程师难以快速定位如 CLIP、DALL·E 2 或专用传感器融合(Sensor Fusion)等前沿模型的最新实现。
- 多模态融合困难:传统 CNN 架构在处理视觉与文本联合学习(如路标识别结合导航指令)时效果受限,缺乏成熟的 Vision-Language 预训练方案参考。
- 复现成本高昂:从零复现 Imagen Video 或 Phenaki 等视频生成模型需耗费数周调试环境,且容易因版本过时而失败。
- 创新方向模糊:团队难以洞察从纯视觉 Transformer 向“大语言模型 + 视觉”(LLM-in-Vision)演进的技术趋势,导致产品规划滞后。
使用 Transformer-in-Vision 后
- 资源一站获取:直接利用整理好的清单,快速访问 LAVIS、Stable Diffusion 及自动驾驶传感器融合的官方代码与论文,将调研时间从数天缩短至几小时。
- 架构升级顺畅:参考列表中成熟的 V-L 联合学习研究(如 METER、Kaleido-BERT),迅速构建出能理解自然语言指令的高精度感知模块。
- 开发效率倍增:基于提供的 Hugging Face 及 PyTorch 教程链接,团队快速搭建了视频预测原型,避免了重复造轮子的底层陷阱。
- 紧跟技术前沿:通过追踪列表中新增的 LLM-in-Vision 方向,及时调整技术路线,确保系统具备接入通用大模型能力的扩展性。
Transformer-in-Vision 通过聚合全球最前沿的视觉 Transformer 资源,帮助研发团队打破信息壁垒,大幅加速了从理论验证到落地部署的全过程。
运行环境要求
未说明
未说明

快速开始
视觉中的Transformer
近期基于Transformer的计算机视觉及相关工作。欢迎评论/贡献!
Transformer如今已成为基础组件,几乎被所有AI模型所采用。保持更新 --> 更新不规律。
新希望:LLM-in-Vision
资源
Gato:一种通用智能体,[论文]
PaLM:通过Pathways扩展语言建模,[论文]
SCENIC:一款用于计算机视觉研究及其他领域的JAX库,[代码]
V-L联合学习研究(附有优秀表格):[METER],[Kaleido-BERT]
“Attention is all you need”,[论文]
调查报告
(arXiv 2023.2) 基于 Transformer 的 传感器融合 在 自动驾驶 中的应用:综述,[论文],[页面]
(arXiv 2023.2) 深度学习在 视频-文本检索 中的应用:综述,[论文]
(arXiv 2023.2) 大规模 多模态预训练模型:全面综述,[论文]
(arXiv 2023.2) 计算机视觉中基于 Transformer 的 生成对抗网络:全面综述,[论文]
(arXiv 2023.2) 视觉 Transformer 中的 知识蒸馏:批判性评论,[论文]
(arXiv 2023.2) Transformer 高效训练方法综述,[论文]
(arXiv 2023.1) ChatGPT 并非万能。关于 大型生成式 AI 模型 的最新进展综述,[论文]
(arXiv 2022.12) Transformer 在 动作识别 中的应用:时间建模综述,[论文]
(arXiv 2022.11) 视觉 Transformer 在 医学影像 中的应用:综述,[论文]
(arXiv 2022.11) 关于 知识 增强的 多模态 学习综述,[论文]
(arXiv 2022.10) 视觉-语言预训练:基础、最新进展及未来趋势,[论文]
(arXiv 2022.10) 计算机视觉中图神经网络与 图 Transformer 的综述:任务导向视角,[论文]
(arXiv 2022.09) 视觉 Transformer 在 动作识别 中的应用:综述,[论文]
(arXiv 2022.08) 自监督学习中用于视觉及其他领域的 掩码自编码器 综述,[论文]
(arXiv 2022.07) 视觉 Transformer:现状与研究挑战,[论文]
(arXiv 2022.07) 自监督 学习在 视频 中的应用:综述,[论文]
(arXiv 2022.06) Transformer 在 多模态 学习中的应用:综述,[论文]
(arXiv 2022.05) 视觉 Transformer:ViT 及其 衍生模型,[论文]
(arXiv 2022.05) Transformer 在 3D 点云 数据中的应用:综述,[论文]
(arXiv 2022.04) 深度学习中 视觉注意力 方法的深入综述,[论文]
(arXiv 2022.04) 视觉-语言 预训练模型综述,[论文]
(arXiv 2022.03) 大模型 发展路线图,[论文]
(arXiv 2022.03) Transformer 与 视觉 学习理解的结合:全面回顾,[[论文]](https://arxiv.org/pdf/2203.12944.pdf)
(arXiv 2022.02) 视觉-语言 预训练模型综述,[论文]
(arXiv 2022.02) VLP:视觉-语言 预训练综述,[论文]
(arXiv 2022.02) 图形 Transformer:从架构角度概述,[论文]
(arXiv 2022.01) 视频 Transformer:综述,[论文]
(arXiv 2021.11) 我们是否已准备好迎接新的范式转变?关于视觉深度 MLP 的综述,[论文]
(arXiv 2021.11) 视觉 Transformer 综述,[论文]
(arXiv 2021.09) 基于 Transformer 的 视频-语言 预训练综述,[论文]
(arXiv 2021.06) Transformer 综述,[论文]
(arXiv 2021.06) 机器视觉中的 注意力 机制与深度学习:现状综述,[论文]
(arXiv 2021.06) 预训练模型:过去、现在与未来,[论文]
(arXiv 2021.05) 注意力机制能否使 MLP 追赶上 CNN?[论文]
(arXiv 2021.03) 关于更 快速 更 轻量 的 Transformer 的实用综述,[论文]
(arXiv 2021.03) 跨模态任务中 语言与视觉 的 Transformer 架构视角与前景,[论文]
(arXiv 2021.01) 视觉 Transformer 综述,[论文]
(arXiv 2020.9) 高效 Transformer:综述,[论文]
(arXiv 2020.1) Transformer 在视觉领域 的应用:综述,[论文]
最新论文
2023.8
2023.5
- (arXiv 2023.5) 利用有效感受野理解视觉 Transformer 的高斯 注意力 偏置,[论文]
2023.3
2023.2
(arXiv 2023.2) 开放域视觉实体识别:迈向识别数百万个维基百科实体,[论文]
(arXiv 2023.2) KS-DETR:用于 检测 Transformer 的注意力学习中的知识共享,[论文],[代码]
(arXiv 2023.2) HUMAN MOTIONFORMER:利用视觉 Transformer 迁移 人体 运动,[论文],[代码]
(arXiv 2023.2) 利用人类反馈对文本到图像模型进行对齐,[论文]
(arXiv 2023.2) 基于扩散先验的可控与条件化文本到图像生成,[论文]
(arXiv 2023.2) 通过语言引导采样学习视觉表征,[论文]
(arXiv 2023.2) VoxFormer:基于稀疏体素的变换器,用于基于摄像头的3D语义场景补全,[论文],[代码]
(arXiv 2023.2) Paparazzi:深入探讨语言与视觉模型在视点描述定位方面的能力,[论文]
(arXiv 2023.2) MaskedKD:使用掩码图像高效蒸馏视觉变换器,[论文]
(arXiv 2023.2) 一种由全局亲和力引导的通用视觉表征框架,用于弱监督显著目标检测,[论文]
(arXiv 2023.2) ViTA:面向边缘应用的视觉变换器推理加速器,[论文]
(arXiv 2023.2) 基于PSO-ConvNet Transformer的动力学协作学习进行视频动作识别,[论文],[代码]
(arXiv 2023.2) ChatGPT和DALL-E 2在决策制定和空间推理方面的试点评估,[论文]
(arXiv 2023.2) StyLIP:基于CLIP的跨域领域泛化的多尺度风格条件提示学习,[论文]
(arXiv 2023.2) 用于跨域少样本学习的元风格对抗训练,[论文]
(arXiv 2023.2) HYNETER:用于物体检测的混合网络变换器,[论文]
(arXiv 2023.2) STOA-VLP:用于视频-语言预训练的物体与动作时空建模,[论文]
(arXiv 2023.2) 部分监督下时间句子定位的约束与联合,[论文]
(arXiv 2023.2) STB-VMM:基于Swin Transformer的视频运动放大,[论文]
(arXiv 2023.2) 基于多粒度对齐的时尚图像检索,[论文]
(arXiv 2023.2) LayoutDiffuse:将基础扩散模型应用于布局到图像生成,[论文]
(arXiv 2023.2) MaskSketch:无配对结构引导的掩码图像生成,[论文]
(arXiv 2023.2) ANSEL Photobot:一款具有语义智能的机器人****活动摄影师,[论文]
(arXiv 2023.2) ForceFormer:探索社会力与变换器在行人轨迹预测中的应用,[论文]
(arXiv 2023.2) 投影潜在空间中的视频概率扩散模型,[论文]
(arXiv 2023.2) 学习如何在食谱中替换食材,[论文]
(arXiv 2023.2) 能量变换器,[论文]
(arXiv 2023.2) Efficiency 360:高效的视觉变换器,[论文]
(arXiv 2023.2) 自助式提示调优(APT):通过可组合的
提示结合不同数据,[论文](arXiv 2023.2) PRedItOR:基于扩散先验的文本引导图像编辑,[论文]
(arXiv 2023.2) TcGAN:语义感知且保持结构的GAN,结合独立视觉Transformer实现快速任意单样本图像生成,[论文]
(arXiv 2023.2) 用于RGB-D显著性目标检测的层次化跨模态Transformer,[论文]
(arXiv 2023.2) MINOTAUR:多任务多模态查询视频定位,[论文]
(arXiv 2023.2) 利用视觉Transformer进行高效的3D物体重建,[论文]
(arXiv 2023.2) 检索增强型图像字幕生成,[论文]
(arXiv 2023.2) 基于Transformer模型的鲁棒人体运动预测,[论文]
(arXiv 2023.2) 对浅层视觉Transformer的理论理解:学习、泛化与样本复杂度,[论文]
(arXiv 2023.2) 一种简单的零样本提示加权技术,用于改进文本-图像模型中的提示集成,[论文]
(arXiv 2023.2) 用于揭秘视觉-语言导航的动作原子概念学习,[论文]
(arXiv 2023.2) CLIP-RR:面向关系导向的跨模态信息检索的改进CLIP网络,[论文]
(arXiv 2023.2) TEAM DETR:在检测Transformer中将引导查询视为专业团队,[论文],[代码]
(arXiv 2023.2) Factify 2中的团队三重检查:用于多模态事实核查的特征表示参数高效大型基础模型,[论文],[代码]
(arXiv 2023.2) PolyFormer:将参考图像分割视为序列多边形生成,[论文]
(arXiv 2023.2) 基于姿态的Transformer结合不确定性引导的精炼,用于2D到3D人体姿态估计,[论文]
(arXiv 2023.2) 不变槽注意力:以槽为中心的参考系进行目标发现,[论文]
(arXiv 2023.2) 多模态视觉监督对语言有益吗?[论文]
(arXiv 2023.2) 基于数据驱动的随机运动评估与优化,结合空间对齐的时间编码图像,[论文]
(arXiv 2023.2) 将视觉Transformer扩展至220亿参数,[论文]
(arXiv 2023.2) 通过权重膨胀将预训练的视觉Transformer从2D适配到3D,可提升医学图像分割性能,[论文],[代码]
(arXiv 2023.2) 通过定向对齐缓解视觉Transformer中的偏差,[论文]
(arXiv 2023.2) IH-ViT:基于视觉Transformer的集成电路外观缺陷检测,[论文]
(arXiv 2023.2) Re-ViLM:检索增强型视觉语言模型,用于零样本和少样本图像字幕生成,[论文]
(arXiv 2023.2) 通过提问学习具身视觉导航与任务完成,[论文]
(arXiv 2023.2) 针对黑盒基础模型的对抗性提示攻击,[论文]
(arXiv 2023.2) 经过训练以识别单词的卷积神经网络,能够很好地解释视觉形式启动效应,[论文]
(arXiv 2023.2) 使用扩散模型从纯文本故事零样本生成连贯的故事书,[论文]
(arXiv 2023.2) OSRT:基于失真感知Transformer的全向图像超分辨率,[论文]
(arXiv 2023.2) 基于多视图的SimCon损失,用于文本监督下的语义分割,[论文]
(arXiv 2023.2) PhysFormer++:基于慢速-快速时序差异Transformer的面部视频生理测量,[论文]
(arXiv 2023.2) 通过多视图注意力学习扩展自监督端到端驾驶,[论文]
(arXiv 2023.2) LAMPP:将语言模型作为概率先验用于感知和行动,[论文]
(arXiv 2023.2) LexLIP:面向大规模图像-文本检索的词典瓶颈型语言-图像预训练,[论文]
(arXiv 2023.2) V1T:使用视觉Transformer进行大规模小鼠V1区反应预测,[论文]
(arXiv 2023.2) 基于预训练模型的语义引导图像增强,[论文]
(arXiv 2023.2) X-ReID:用于身份级行人重识别的跨实例Transformer,[论文]
(arXiv 2023.2) MOMA:从自监督教师那里进行蒸馏,[论文]
(arXiv 2023.2) 学习在视觉注意力上达成一致,用于视觉常识推理,[论文]
(arXiv 2023.2) LipFormer:基于视觉地标Transformer学习对未见过说话者的唇读,[论文]
(arXiv 2023.2) 无振荡的量化方法,适用于低比特视觉Transformer,[论文]
(arXiv 2023.2) Design Booster:一种文本引导的扩散模型,用于在保持空间布局的前提下进行图像翻译,[论文]
(arXiv 2023.2) 学习一种傅里叶变换,用于Transformer中的线性相对位置编码,[论文]
(arXiv 2023.2) CFFT-GAN:用于基于示例的图像翻译的跨域特征融合Transformer,[论文]
(arXiv 2023.2) DEVICE:深度与视觉概念感知Transformer,用于TextCaps,[论文]
(arXiv 2023.2) CVTNet:一种基于LiDAR数据的跨视图Transformer网络,用于场所识别,[论文],[代码]
(arXiv 2023.2) DilateFormer:用于视觉识别的多尺度扩张Transformer,[论文],[代码]
(arXiv 2023.2) HDFormer:用于3D人体姿态估计的高阶有向Transformer,[论文],[代码]
(arXiv 2023.2) 通过显著性提示的无监督预训练提升低数据量实例分割,[论文]
(arXiv 2023.2) QR-CLIP:引入明确的开放世界知识,用于地点和时间推理,[论文]
(arXiv 2023.2) 基于视觉Transformer的特征提取,用于广义零样本学习,[论文]
(arXiv 2023.2) CLIPood:将CLIP推广到分布外场景,[论文]
(arXiv 2023.2) 语言量化自编码器:迈向无监督的文本-图像对齐,[论文]
(arXiv 2023.2) 大型 Transformer 模型的隐藏表示几何结构,[论文]
(arXiv 2023.2) 通过插值权重优化将CLIP转化为开放词汇视频模型,[论文]
2023.1
(arXiv 2022.12) OneFormer: 一个Transformer统治通用图像分割,[Paper],[Code]
(arXiv 2022.12) MMDialog: 面向多模态开放域对话的大规模多轮对话数据集,[Paper],[Project]
(arXiv 2022.12) 为什么Winoground很难?探究视觉语言组合性中的失败,[Paper],[Code]
(arXiv 2022.12) CLIP-FLOW:基于半监督迭代伪标签的对比学习用于光流估计,[Paper]
(arXiv 2022.12) ViTCoD:通过专用算法与加速器协同设计实现视觉Transformer加速,[Paper],[Code]
(arXiv 2022.12) 注意力驱动的掩码CLIP,[Paper]
(arXiv 2022.12) 用视觉Transformer重新思考烹饪状态识别,[Paper]
(arXiv 2022.12) 通过结构化知识和统一的检索-生成机制提升多模态和多跳问答性能,[Paper],[Code]
(arXiv 2022.12) MM-SHAP:一种不依赖于性能的指标,用于衡量视觉与语言模型及任务中的多模态贡献,[Paper],[Code]
(arXiv 2022.12) RepQ-ViT:视觉Transformer训练后量化的尺度重参数化,[Paper]
(arXiv 2022.12) WAVENHANCER:将小波与Transformer统一用于图像增强,[Paper]
(arXiv 2022.12) 自编码器作为跨模态教师:预训练的2D图像Transformer能否帮助3D表征学习?,[Paper],[Code]
(arXiv 2022.12) SceneGATE:基于场景图的协同注意力网络用于文本视觉问答,[Paper]
(arXiv 2022.12) 大型语言模型中的涌现类比推理,[Paper]
(arXiv 2022.12) CLIP是否能绑定概念?探究大型图像模型中的组合性,[Paper]
(arXiv 2022.12) LayoutDETR:检测Transformer是优秀的布局设计师,[Paper],[Code]
(arXiv 2022.12) 走向无监督视觉推理:现成的特征是否懂得如何推理?,[Paper]
(arXiv 2022.12) 跨模态注意力一致性正则化用于视觉-语言****关系对齐,[Paper]
(arXiv 2022.12) 无监督语法归纳需要像素吗?,[Paper]
(arXiv 2022.12) Hi-LASSIE:从稀疏图像集合中高保真地发现可变形形状和骨架,[Paper]
(arXiv 2022.12) MAViC:用于视频字幕的多模态主动学习,[Paper]
(arXiv 2022.12) 什么样的分词器适合视觉Transformer?[Paper]
(arXiv 2022.12) 不只是漂亮的图片:文本到图像生成器能够实现对鲁棒表征的可解释干预,[Paper],[Code]
(arXiv 2022.12) 基于网络爬取的多模态数据预训练的对比型语言-视觉AI模型表现出性对象化的偏见,[论文]
(arXiv 2022.12) Tune-A-Video:用于文本到视频生成的图像扩散模型的一次性微调,[论文],[项目]
(arXiv 2022.12) 不止于SOT:是时候同时跟踪多个通用物体了,[论文]
(arXiv 2022.12) 基于知识的场景先验用于语义视听具身导航,[论文]
(arXiv 2022.12) 使用现成的图像-文本特征进行开放词汇表的时序动作检测,[论文]
(arXiv 2022.12) 用于视频动作预测的归纳式注意力机制,[论文]
(arXiv 2022.12) 用于语义分割中多分辨率Transformer的全上下文注意力机制,[论文]
(arXiv 2022.12) DETR4D:利用稀疏注意力实现直接的多视角3D目标检测,[论文]
(arXiv 2022.12) 文本引导的无遮罩局部图像修饰,[论文]
(arXiv 2022.12) 基于类感知跨域Transformer实现一次性的领域自适应且可泛化的语义分割,[论文]
(arXiv 2022.12) ConQueR:用于3D目标检测的查询对比体素DETR,[论文]
(arXiv 2022.12) 利用解释方法考察Transformer与CNN之间的差异,[论文]
(arXiv 2022.12) 用于群体情感识别的双分支跨补丁注意力学习,[论文]
(arXiv 2022.12) 基于跨模态相似性的课程学习用于图像字幕生成,[论文]
(arXiv 2022.12) NLIP:抗噪声的语言-图像预训练,[论文]
(arXiv 2022.12) CLIPSEP:利用带噪声的未标注视频学习文本查询的声音分离,[论文]
(arXiv 2022.12) 视觉Transformer学到了什么?一次视觉探索,[论文]
(arXiv 2022.12) GPVIT:一种具有群体传播能力的高分辨率非层级视觉Transformer,[论文],[代码]
(arXiv 2022.12) 用于人机交互检测的并行查询,[论文]
(arXiv 2022.12) 基于结构的图像修复,结合图像级和对象级语义判别器,[论文]
(arXiv 2022.12) 用于视觉-语言模型微调的局部潜在更新,[论文]
(arXiv 2022.12) CamoFormer:用于伪装目标检测的掩码可分离注意力机制,[论文]
(arXiv 2022.12) 双重正确的目标识别:为视觉理由提供“为什么”提示,[论文]
(arXiv 2022.12) 第一人称视频任务翻译,[论文]
(arXiv 2022.12) ScanEnts3D:利用短语与3D物体的对应关系提升三维场景中的视觉-语言模型,[论文],[项目]
(arXiv 2022.12) 课程学习邂逅弱监督的模态相关性学习,[论文]
(arXiv 2022.12) IMoS:面向人-物体交互的意图驱动全身运动合成,[论文]
(arXiv 2022.12) MultiAct:基于多个动作标签的长期3D人体运动生成,[论文]
(arXiv 2022.12) 新路径:通过合成指令和模仿学习扩展视觉-语言导航,[论文]
(arXiv 2022.12) ViTPose+:用于通用身体姿态估计的视觉Transformer基础模型,[论文],[代码]
(arXiv 2022.12) 面向计算烹饪的结构化视觉-语言预训练,[论文]
(arXiv 2022.12) 视觉-语言模型中的任务偏差,[论文]
(arXiv 2022.12) 冻结的CLIP模型是高效的点云骨干网络,[论文]
(arXiv 2022.12) 用于视觉Transformer的分组广义均值池化,[论文]
(arXiv 2022.12) 学习视觉-语言模型的领域不变提示,[论文]
(arXiv 2022.12) LLM-Planner:使用大型语言模型为具身智能体提供少样本接地的规划,[论文]
2022年11月
(arXiv 2022.11) 告诉我发生了什么:通过多模态掩码视频生成统一文本引导的视频补全,[论文]
(arXiv 2022.11) InDiReCT:面向图像的零样本深度度量学习,由语言指导,[论文]
(arXiv 2022.11) 用于细粒度图像分类的数据增强视觉Transformer,[论文]
(arXiv 2022.11) Lite-Mono:一种轻量级CNN和Transformer架构,用于自监督的单目深度估计,[论文],[代码]
(arXiv 2022.11) CODA-Prompt:基于持续分解注意力的提示方法,用于无回放的持续学习,[论文]
(arXiv 2022.11) 通过实例模式组合器实现可泛化的隐式神经表示,[论文]
(arXiv 2022.11) 通过融合专家特征提升视觉-文本情感分析,[论文]
(arXiv 2022.11) 基于热方程的自监督学习,[论文]
(arXiv 2022.11) Peekaboo:文本到图像扩散模型可作为零样本分割器,[论文]
(arXiv 2022.11) Conv2Former:一种用于视觉识别的简单Transformer风格卷积神经网络,[论文]
(arXiv 2022.11) 对齐源视觉域与目标语言域,用于无配对的视频字幕生成,[论文]
(arXiv 2022.11) 基于自感应视觉Transformer的可泛化工业视觉异常检测,[论文]
(arXiv 2022.11) Event Transformer+:一种用于高效事件数据处理的多功能解决方案,[论文]
(arXiv 2022.11) 具有级联特征漂移补偿的门控类注意力机制,用于视觉Transformer的无示例持续学习,[论文],[代码]
(arXiv 2022.11) Swin Transformer中的N-gram用于高效的轻量级图像超分辨率,[论文]
(arXiv 2022.11) 使用单塔Transformer统一视觉-语言表示空间,[论文]
(arXiv 2022.11) DeepSolo:让带有显式点的Transformer解码器单独完成文本定位任务,[论文]
(arXiv 2022.11) Castling-ViT:在视觉Transformer推理过程中切换至线性-角度注意力,从而压缩自注意力,[论文]
(arXiv 2022.11) CL-CrossVQA:一个用于跨领域视觉问答的持续学习基准,[论文]
(arXiv 2022.11) Normal Transformer:从结合视觉语义的LiDAR点云中提取表面几何信息,[论文]
(arXiv 2022.11) 一种用于理解视频并嵌入异构知识图谱数据的统一模型,[论文]
(arXiv 2022.11) 通过以运动为中心的标记选择进行掩码视频建模,实现高效的视频表示学习,[论文]
(arXiv 2022.11) DiffStyler:可控的双扩散模型用于文本驱动的图像风格化,[论文]
(arXiv 2022.11) TORE:使用Transformer实现高效人体网格恢复的标记缩减,[论文]
(arXiv 2022.11) 分布外检测方法可靠吗?[论文]
(arXiv 2022.11) GLT-T:用于点云中3D单目标跟踪的全局-局部Transformer投票机制,[论文],[代码]
(arXiv 2022.11) LISA:通过隐式神经表示,利用音频实现本地化的图像风格化,[论文]
(arXiv 2022.11) DreamArtist:通过对比提示调优实现可控的一次性文本到图像生成,[论文]
(arXiv 2022.11) 基于混合Transformer的特征融合用于自监督的单目深度估计,[论文]
(arXiv 2022.11) 瓶中之语:由语言模型引导的概念瓶颈用于可解释的图像分类,[论文]
(arXiv 2022.11) 用于改善视觉-语言导航中视觉表示的结构编码辅助任务,[论文]
(arXiv 2022.11) 多出口策略:动态早期退出以加速统一视觉语言模型,[论文]
(arXiv 2022.11) 超越注意力标记:结合标记重要性和多样性以实现高效的视觉Transformer,[论文]
(arXiv 2022.11) FlowLens:通过流引导的Clip循环Transformer实现超越视场角的观测,[论文],[代码]
(arXiv 2022.11) PS-Transformer:利用自注意力机制学习稀疏光度立体视觉网络,[论文]
(arXiv 2022.11) 关于形状-纹理去偏持续学习的鲁棒性、泛化能力和遗忘现象,[论文]
(arXiv 2022.11) 只检测你指定的内容:基于语言目标的对象检测,[论文]
(arXiv 2022.11) ClipCrop:由视觉-语言模型驱动的条件裁剪,[论文]
(arXiv 2022.11) SMAUG:用于高效视频-语言预训练的稀疏掩码自编码器,[论文]
(arXiv 2022.11) 用于从模糊图像恢复真实世界运动的模糊插值Transformer,[论文]
(arXiv 2022.11) PERCEIVER-VL:通过迭代潜在注意力实现高效的视觉-语言建模,[论文],[代码]
(arXiv 2022.11) 向视觉-语言模型教授结构化视觉与语言概念,[论文]
(arXiv 2022.11) 加权自监督集成学习,[论文]
(arXiv 2022.11) BEVFormer v2:通过透视监督将现代图像骨干网络适配到鸟瞰视角识别,[论文]
(arXiv 2022.11) α DARTS再出发:通过掩码图像建模增强可微架构搜索,[论文]
(arXiv 2022.11) 深入研究用于增量语义分割的Transformer,[论文]
(arXiv 2022.11) DETRDistill:一个适用于DETR系列的通用知识蒸馏框架,[论文]
(arXiv 2022.11) PromptCap:提示引导的任务感知图像字幕生成,[论文]
(arXiv 2022.11) UNIFORMERV2:通过为图像Vision Transformer配备视频Uniformer实现时空学习,[论文],[代码]
(arXiv 2022.11) 基于信息瓶颈原理的掩码重建对比学习,[论文]
(arXiv 2022.11) ConStruct-VL:无数据持续学习结构化视觉-语言概念,[论文]
(arXiv 2022.11) 如何用SGD微调视觉模型,[论文]
(arXiv 2022.11) Uni-Perceiver v2:面向大规模视觉和视觉-语言任务的通才模型,[论文],[代码]
(arXiv 2022.11) D^3ETR:用于检测Transformer的解码器蒸馏,[论文]
(arXiv 2022.11) CAE v2:带有CLIP目标的上下文自编码器,[论文]
(arXiv 2022.11) Token图灵机,[论文]
(arXiv 2022.11) 从语义角度揭秘视觉Transformer中的自注意力:分析与应用,[论文]
(arXiv 2022.11) SATVSR:用于跨场景视频超分辨率的场景适应性Transformer,[论文]
(arXiv 2022.11) TransCC:基于Transformer的多光源颜色恒常性,采用多任务学习,[论文]
(arXiv 2022.11) HeatViT:面向视觉Transformer的硬件高效自适应标记剪枝,[论文]
(arXiv 2022.11) 面向CLIP的跨域联邦自适应提示调优,[论文]
(arXiv 2022.11) YORO——轻量级端到端视觉定位,[论文]
(arXiv 2022.11) 基于一致蒸馏点采样的检测Transformer知识蒸馏,[论文]
(arXiv 2022.11) BiViT:极低压缩比的二值化视觉Transformer,[论文]
(arXiv 2022.11) ContextCLIP:在CLIP视觉表征上对图文对进行上下文对齐,[论文]
(arXiv 2022.11) 基于锚点增强的视觉-语言空间对齐的零样本图像描述生成,[论文]
(arXiv 2022.11) SCOTCH和SODA:一种基于Transformer的视频阴影检测框架,[论文]
(arXiv 2022.11) 面向有偏面部表情识别的AU感知视觉Transformer,[论文]
(arXiv 2022.11) 零样本图像描述生成的大规模双向训练,[论文]
(arXiv 2022.11) 将预训练模型嫁接用于多模态标题生成,[论文]
(arXiv 2022.11) 基于多粒度不确定性正则化的文本反馈组合图像检索,[论文]
(arXiv 2022.11) SSGVS:语义场景图到视频合成,[论文]
(arXiv 2022.11) 针对异构客户端的一次性模型适配:一种客户端内与跨图像注意力设计,[论文]
(arXiv 2022.11) 一种基于Transformer自注意力的改进型端到端多目标跟踪方法,[论文]
(arXiv 2022.11) 双曲余弦Transformer用于LiDAR三维目标检测,[论文]
(arXiv 2022.11) 使用1张GPU在不到24小时内从头开始训练视觉Transformer,[论文],[代码]
(arXiv 2022.11) ViTALiTy:通过线性泰勒注意力统一低秩与稀疏近似以加速视觉Transformer,[论文]
(arXiv 2022.11) ERNIE-UNIX^2:一个用于理解和生成的跨语言跨模态统一框架,[论文]
(arXiv 2022.11) SG-Shuffle:用于场景图生成的多视角洗牌Transformer,[论文]
(arXiv 2022.11) 理解生成场景描述的V&L模型中的跨模态交互,[论文]
(arXiv 2022.11) VieCap4H - VLSP 2021:ObjectAoA——通过注意力上的注意力提升对象关系Transformer在越南语图像描述生成中的性能,[论文]
(arXiv 2022.11) 利用空间感知Transformer实现高效的联合检测和多目标跟踪,[论文]
(arXiv 2022.11) DEPTHFORMER:面向基于Transformer的分割网络的多模态位置编码与跨输入注意力,[论文]
(arXiv 2022.11) 用于端到端人员搜索的序列Transformer,[论文]
(arXiv 2022.11) 引导大型预训练视觉-语言模型进行组合概念学习,[论文]
(arXiv 2022.11) CASA:类别无关的骨骼动物重建,[论文]
(arXiv 2022.11) ViT-CX:视觉Transformer的因果解释,[论文]
(arXiv 2022.11) 解耦内容与运动以实现基于文本的神经网络视频操控,[论文]
(arXiv 2022.11) 高效多阶门控聚合网络,[论文]
(arXiv 2022.11) CLOP:结合知识正则化的视频与语言预训练,[论文]
(arXiv 2022.11) MSMG-Net:多尺度、多粒度监督的网络,用于多任务图像篡改的检测和定位,[论文]
(arXiv 2022.11) 使用现成模型进行零样本视频瞬间检索,[论文]
(arXiv 2022.11) 通过跨模态梯度协调实现多模态预训练的扩展,[论文]
(arXiv 2022.11) 一种用于在线数学表达式手势识别的Transformer架构,[论文]
(arXiv 2022.11) RCDPT:雷达-相机融合密集预测Transformer,[论文]
(arXiv 2022.11) 通过追踪论元的视觉状态进行视频事件提取,[论文]
(arXiv 2022.11) 视觉Transformer的“彩票假说”,[论文]
(arXiv 2022.11) TEXTCRAFT:零样本生成高保真且多样化的文本驱动形状,[论文]
(arXiv 2022.11) PolyBuilding:用于端到端建筑物提取的多边形Transformer,[论文]
(arXiv 2022.11) SAP-DETR:弥合显著点与基于查询的Transformer检测器之间的差距,以实现快速模型收敛,[论文]
(arXiv 2022.11) 巨型预训练图像模型能否提取通用表征?[论文]
(arXiv 2022.11) 化繁为简:无复杂操作的纯窗口式Transformer,[论文]
(arXiv 2022.11) PoET:用于单视角、多目标6D姿态估计的姿态估计Transformer,[论文],[代码]
(arXiv 2022.11) 使用较少的双模态监督训练视觉-语言模型,[论文]
(arXiv 2022.11) 基于注意力的神经元胞自动机,[论文]
(arXiv 2022.11) P^3OVD:细粒度的视觉-文本提示驱动的自训练方法,用于开放词汇目标检测,[论文]
(arXiv 2022.11) tSF:基于Transformer的语义过滤器,用于少样本学习,[论文]
(arXiv 2022.11) Pair DETR:对比学习加速了DETR的训练,[论文]
(arXiv 2022.11) 用于第一人称动作预测的交互视觉Transformer,[论文]
(arXiv 2022.11) 针对少样本动作识别的知识提示,[论文]
(arXiv 2022.11) LVP-M^3:面向多语言多模态机器翻译的语言感知视觉提示,[论文]
(arXiv 2022.11) S2WAT:通过分层视觉Transformer和条带窗口注意力实现图像风格迁移,[论文],[代码]
(arXiv 2022.11) SimpleClick:基于简单视觉Transformer的交互式图像分割,[论文],[代码]
(arXiv 2022.11) 即插即用VQA:无需训练即可通过结合大型预训练模型实现零样本VQA,[论文]
(arXiv 2022.11) 面向视频语料库时刻检索的选择性查询引导去偏方法,[论文]
(arXiv 2022.11) 多尺度小波Transformer用于人脸伪造检测,[论文]
(arXiv 2022.11) CLIP-PAE:投影增强嵌入,用于提取相关特征,实现解耦、可解释且可控的文本引导图像操纵,[论文]
(arXiv 2022.11) 针对测试时域适应的视觉提示微调,[论文]
(arXiv 2022.11) FastCLIPstyler:利用风格表征实现无优化的基于文本的图像风格迁移,[论文]
(arXiv 2022.11) 用于精细化文本到图像生成的渐进式去噪模型,[论文]
(arXiv 2022.11) 用于视觉-语言检索的统一成对相似性优化损失,[论文]
2022年10月
(arXiv 2022.10) DiMBERT:使用解耦多模态注意力学习视觉-语言接地表示,[论文]
(arXiv 2022.10) TFORMER:利用几何引导Transformer在网格扫描中进行3D牙齿分割,[论文]
(arXiv 2022.10) 使用StyleGAN并以CLIP为指导的实时目标检测,[论文]
(arXiv 2022.10) 基于CLIP的无图像领域泛化方法,用于3D手部姿态估计,[论文]
(arXiv 2022.10) 用于骨骼少样本动作识别的时间-视角转换方案,[论文]
(arXiv 2022.10) 一种简单、高效且可扩展的对比掩码自编码器,用于学习视觉表示,[论文]
(arXiv 2022.10) 时间逆向扩散张量Transformer:一种新的少样本目标检测范式,[论文]
(arXiv 2022.10) 基于自监督定位和视觉Transformer的机场路面图像中异物碎片检测,[论文]
(arXiv 2022.10) ViT-LSLA:具有轻量自限制注意力的视觉Transformer,[论文]
(arXiv 2022.10) 用于持续视觉-语言预训练的生成式负文本重播,[论文]
(arXiv 2022.10) PatchRot:一种用于训练视觉Transformer的自监督技术,[论文]
(arXiv 2022.10) 用于音频-视觉同步的多模态Transformer蒸馏,[论文]
(arXiv 2022.10) 用于并行串联变分自编码器的多模态Transformer,[论文]
(arXiv 2022.10) 基于视觉Transformer的差分隐私CutMix用于分割学习,[论文]
(arXiv 2022.10) OHMG:零样本开放词汇人体运动生成,[论文]
(arXiv 2022.10) VLT:用于指代分割的视觉-语言Transformer及查询生成,[论文]
(arXiv 2022.10) PSFORMER:用于3D显著物体检测的点Transformer,[论文]
(arXiv 2022.10) 嫁接视觉Transformer,[论文]
(arXiv 2022.10) 端到端与神经符号型视觉-语言推理系统之间的泛化差异,[论文]
(arXiv 2022.10) FaD-VLP:面向统一检索和字幕生成的时尚领域的视觉与语言预训练,[论文]
(arXiv 2022.10) 基于视频的动作捕捉的变分运动先验学习,[论文]
(arXiv 2022.10) TEXT2MODEL:利用任务描述进行零样本泛化的模型归纳,[论文]
(arXiv 2022.10) 学习人类运动与语言的联合表示,[论文]
(arXiv 2022.10) ERNIE-ViLG 2.0:通过知识增强的去噪专家混合模型改进文本到图像扩散模型,[论文]
(arXiv 2022.10) MSF3DDETR:用于自动驾驶的多传感器融合3D检测Transformer,[论文]
(arXiv 2022.10) Li3DeTr:一种基于LiDAR的3D检测Transformer,[论文]
(arXiv 2022.10) 用于图像异常定位的掩码Transformer,[论文]
(arXiv 2022.10) 发现CAD草图的设计概念,[论文]
(arXiv 2022.10) 针对视觉问答任务压缩和去偏置预训练的视觉-语言模型,[论文]
(arXiv 2022.10) 视频对话的端到端多模态表征学习,[论文]
(arXiv 2022.10) IMU2CLIP:基于第一人称视角视频和文字叙述的IMU运动传感器多模态对比学习,[论文]
(arXiv 2022.10) Transformer注意力分布能否揭示检测与跟踪目标的不确定性?[论文]
(arXiv 2022.10) SemFormer:面向弱监督语义分割的语义引导激活Transformer,[论文],[代码]
(arXiv 2022.10) 基于多查询Transformer的端到端跟踪,[论文]
(arXiv 2022.10) TAMFORMER:具有可学习注意力掩码的多模态Transformer,用于早期意图预测,[论文]
(arXiv 2022.10) 视觉语义解析:从图像到抽象意义表示,[论文]
(arXiv 2022.10) 用于压缩视频质量增强的端到端Transformer,[论文]
(arXiv 2022.10) Strong-TransCenter:基于密集表示的Transformer改进的多目标跟踪,[论文],[代码]
(arXiv 2022.10) GliTr:具有时空一致性的凝视Transformer,用于在线动作预测,[论文]
(arXiv 2022.10) 幻觉式学习:弱监督下的视觉-语言预训练,[论文]
(arXiv 2022.10) 利用视觉Transformer学习显式的以物体为中心的表示,[论文]
(arXiv 2022.10) 演绎式动作推理,[论文]
(arXiv 2022.10) 3DALL-E:将文本到图像AI集成到3D设计工作流中,[论文]
(arXiv 2022.10) 视觉-语言Transformer是否学习了 grounded的谓词-名词依赖关系?[论文]
(arXiv 2022.10) LiteVL:通过增强的时空建模实现高效的视频-语言学习,[论文]
(arXiv 2022.10) 面向弱监督时间语言接地的细粒度语义对齐网络,[论文]
(arXiv 2022.10) CRT-6D:利用级联精炼Transformer实现快速的6D物体位姿估计,[论文],[代码]
(arXiv 2022.10) 在小数据集上,累积的琐碎注意力在视觉Transformer中至关重要,[论文],[代码]
(arXiv 2022.10) 用于高空影像中识别的Transformer:一次现实检验,[论文]
(arXiv 2022.10) UIA-ViT:基于视觉Transformer的无监督不一致性感知方法,用于人脸伪造检测,[论文]
(arXiv 2022.10) LCPFormer:通过Transformer中的局部上下文传播实现高效的3D点云分析,[论文]
(arXiv 2022.10) 利用前景引导与多层特征融合的Transformer无监督目标发现方法,[论文],[代码]
(arXiv 2022.10) 向统一的参考表达生成与理解迈进,[论文]
(arXiv 2022.10) 基于李群的鲁棒自监督学习,[论文]
(arXiv 2022.10) 基于原型的提示学习:在预训练视觉-语言模型上进行原型驱动的提示学习,[论文]
(arXiv 2022.10) 基于Swin Transformer的轻量级网络实现单张图像超分辨率,[论文]
(arXiv 2022.10) MovieCLIP:电影中的场景识别,[论文]
(arXiv 2022.10) 迈向可持续的自监督学习,[论文]
(arXiv 2022.10) 少样本图像分类中的视觉-语义对比对齐,[论文]
(arXiv 2022.10) ECCV 2022挑战赛亚军方案:基于Transformer的手物交互场景下动作识别,[论文]
(arXiv 2022.10) ECCV 2022 HBHA挑战赛冠军方案:基于Transformer的双手操作物体场景下的全局3D手部姿态估计,[论文]
(arXiv 2022.10) DALLE-2“眼花缭乱”:Text2Image模型中词—概念映射的缺陷,[论文]
(arXiv 2022.10) 基于CLIP的细粒度文本-图像人员重识别,[论文]
(arXiv 2022.10) 面向复杂组合推理的密集但高效的VideoQA,[论文]
(arXiv 2022.10) 基于SiameseVisionTransformer的多视角步态识别,[论文]
(arXiv 2022.10) TOIST:面向任务的实例分割Transformer,结合名词-代词蒸馏,[论文],[代码]
(arXiv 2022.10) BOAT:双边局部注意力视觉Transformer,[论文]
(arXiv 2022.10) SWINV2-IMAGEN:用于文本到图像生成的层次化视觉Transformer扩散模型,[论文]
(arXiv 2022.10) 视频分类的迁移学习:多领域上的Video Swin Transformer,[论文]
(arXiv 2022.10) 视觉-语言模型中的知觉分组,[论文]
(arXiv 2022.10) 基于Transformer的降维,[论文]
(arXiv 2022.10) 消除多智能体感知中的领域差距,[论文]
(arXiv 2022.10) TransVisDrone:用于空中视频中基于视觉的无人机间目标检测的时空Transformer,[论文],[代码]
(arXiv 2022.10) 用均匀注意力刮擦视觉Transformer的“后背”,[论文]
(arXiv 2022.10) 从信息论视角提升多模态神经机器翻译中的视觉感知,[论文]
(arXiv 2022.10) 用于电视剧多机位剪辑的时序与上下文Transformer,[论文]
(arXiv 2022.10) SGRAM:通过抽象语义表示改进场景图解析,[论文]
(arXiv 2022.10) 基于知识图谱的对比式语言-图像预训练,[论文]
(arXiv 2022.10) 一种适用于通用目标检测的扫视型视觉Transformer,[论文]
(arXiv 2022.10) 视觉Transformer可证明地学习空间结构,[论文]
(arXiv 2022.10) oViT:视觉Transformer的精确二阶剪枝框架,[论文]
(arXiv 2022.10) 非对比学习遇见语言-图像预训练,[论文]
(arXiv 2022.10) 预训练Transformer并不总是能提高鲁棒性,[论文]
(arXiv 2022.10) 合理未必忠实:探究视觉-语言预训练中的对象幻觉,[论文]
(arXiv 2022.10) 对比式视听掩码自编码器,[论文]
(arXiv 2022.10) SWFormer:用于点云中3D目标检测的稀疏窗口Transformer,[论文]
(arXiv 2022.10) Trailers12k:通过双模态图像和视频Transformer进行多标签电影预告片类型分类,以提升迁移学习效果,[论文]
(arXiv 2022.10) AVLEN:在3D环境中实现的视听语言具身导航,[论文]
(arXiv 2022.10) MOVE:无监督的可移动物体分割与检测,[论文]
(arXiv 2022.10) 朝着基于Transformer的Landsat-8与Sentinel-2卫星影像同质化方向发展,[论文]
(arXiv 2022.10) MCTNET:用于光学遥感图像变化检测的多尺度CNN-Transformer网络,[论文]
(arXiv 2022.10) 视觉Transformer可视化:神经元在说什么?它们的行为又是怎样的?[论文],[代码]
(arXiv 2022.10) TokenMixup:面向Transformer的高效注意力引导型标记级数据增强,[论文],[代码]
(arXiv 2022.10) SQA3D:3D场景中的情境问答,[论文]
(arXiv 2022.10) STAR-Transformer:用于人体动作识别的时空交叉注意力Transformer,[论文]
(arXiv 2022.10) PedFormer:通过跨模态注意力调制与门控多任务学习进行行人行为预测,[论文]
(arXiv 2022.10) 基于内容感知损失和十字交叉Transformer块的场景文本图像超分辨率,[论文]
(arXiv 2022.10) MAPL:用于视觉-语言少样本提示的单模态预训练模型的参数高效适配,[论文]
(arXiv 2022.10) Hate-CLIPper:基于CLIP特征跨模态交互的多模态仇恨表情包分类,[论文],[代码]
(arXiv 2022.10) 大型模型是节俭的学习者:训练后的Transformer中的激活稀疏性,[论文]
(arXiv 2022.10) 视觉Transformer的表示空间弯曲特性,[论文]
(arXiv 2022.10) 场景描述到图像生成任务中的欠定性问题,[论文]
(arXiv 2022.10) SAIT:通过自适应标记剪枝实现稀疏视觉Transformer,[论文]
(arXiv 2022.10) ZITS++:通过改进结构先验上的增量Transformer进行图像修复,[论文]
(arXiv 2022.10) 基于知识的新颖物体识别:通过提问学习,[论文]
(arXiv 2022.10) GGViT:用于Face2Face面部重演检测的多流视觉Transformer网络,[论文]
(arXiv 2022.10) 从语言模型中蒸馏知识用于基于视频的动作预测,[论文]
(arXiv 2022.10) M3VIDEO:用于自监督视频表示学习的掩码运动建模,[论文]
(arXiv 2022.10) Uplift和Upsample:利用提升型Transformer进行高效的3D人体姿态估计,[论文],[代码]
(arXiv 2022.10) FontTransformer:通过堆叠Transformer实现少样本高分辨率中文字形图像合成,[论文]
(arXiv 2022.10) ViewBirdiformer:从单一自我中心视角学习恢复地面平面的人群轨迹和自身运动,[论文]
(arXiv 2022.10) 并不存在“一刀切”!关于视觉编码器在视觉与语言任务中的互补性,[论文]
(arXiv 2022.10) 利用环境感知语言模型生成可执行的动作计划,[论文]
(arXiv 2022.10) AVE-CLIP:基于AudioCLIP的多窗口时序Transformer,用于视听事件定位,[论文]
(arXiv 2022.10) 通过密集负样本对改进密集对比学习,[论文]
(arXiv 2022.10) 需要两者兼备:用于自监督视频Transformer预训练的掩码外观-运动建模,[论文]
(arXiv 2022.10) 基于细粒度帧采样的对比视频-语言学习,[论文]
(arXiv 2022.10) 基于风格引导的Transformer推理用于高分辨率图像合成,[论文]
(arXiv 2022.10) 使用触线Transformer理解具身指代,[论文]
(arXiv 2022.10) 看见、计划、预测:结合视频预测的语言引导认知规划,[论文]
(arXiv 2022.10) 结合外部百科全书知识生成图像标题,[论文]
(arXiv 2022.10) LOCL:利用定位学习对象-属性组合,[论文]
(arXiv 2022.10) ConTra:(Con)文本(Tra)nsformer用于跨模态视频检索,[论文]
(arXiv 2022.10) (Fusionformer): 利用基于Transformer的融合网络挖掘联合运动协同效应,用于3D人体姿态估计,[论文]
(arXiv 2022.10) Fast-ParC: 一种适用于ConvNet和ViT的全局位置感知核,[论文],[代码]
(arXiv 2022.10) 基于最优传输对齐实现语义一致的跨域摘要,[论文]
(arXiv 2022.10) VOLTA:带有弱监督局部特征对齐的视觉-语言Transformer,[论文]
(arXiv 2022.10) MAMO:用于细粒度视觉-语言表征学习的掩码多模态建模,[论文]
(arXiv 2022.10) 利用潜在文本提示学习分解视觉特征,[论文]
(arXiv 2022.10) DCVQE:一种用于视频质量评估的层次化Transformer,[论文]
(arXiv 2022.10) 面向服务机器人的细粒度物体分类,[论文]
(arXiv 2022.10) 用于增量学习的记忆Transformer网络,[论文]
(arXiv 2022.10) 通过潜在对齐连接CLIP和StyleGAN,用于图像编辑,[论文]
(arXiv 2022.10) LMQFormer:一种基于拉普拉斯先验引导的掩码查询Transformer,用于轻量级除雪,[论文]
(arXiv 2022.10) FS-DETR:一种无需重新训练、基于提示的少样本检测Transformer,[论文]
(arXiv 2022.10) 基于Transformer的具身对话定位,结合大规模预训练,[论文]
(arXiv 2022.10) 使用标记丢弃进行加速训练,[论文]
(arXiv 2022.10) Polyhistor:面向密集型视觉任务的参数高效多任务适配,[论文]
(arXiv 2022.10) C2KD:用于多语言文本-视频检索的跨语言跨模态知识蒸馏,[论文]
(arXiv 2022.10) 基于姿态引导的部分解耦GAN用于人物图像合成,[论文]
(arXiv 2022.10) 时空Transformer用于视频全景分割,[论文]
(arXiv 2022.10) clip2latent:使用去噪扩散和CLIP驱动采样预训练的StyleGAN,[论文]
(arXiv 2022.10) 变分提示调优提升视觉-语言模型的泛化能力,[论文]
(arXiv 2022.10) 面向多任务的图像检索中的粒度感知适配,[论文]
(arXiv 2022.10) 何时以及为何视觉-语言模型表现得像词袋?又该如何应对?[论文]
(arXiv 2022.10) 多视角人体体格网格转换器,[论文]
(arXiv 2022.10) 探索均值教师在自监督掩码自编码器中的作用,[论文]
(arXiv 2022.10) 基于位置到结构注意力Transformer的点云识别,[论文]
(arXiv 2022.10) PHENAKI:从开放领域文本描述中生成可变长度视频,[论文]
(arXiv 2022.10) MuRAG:一种多模态检索增强生成器,用于基于图像和文本的开放式问答,[论文]
(arXiv 2022.10) BaseTransformers:基于基础数据点的注意力机制,用于一次-shot学习,[论文],[代码]
(arXiv 2022.10) 面向基于骨骼的动作识别的焦点与全局时空Transformer,[论文]
(arXiv 2022.10) 基于视觉Transformer的模型,用于将一组图像描述为一个故事,[论文]
(arXiv 2022.10) 在低算力网络上无需蒸馏的有效自监督预训练,[论文]
(arXiv 2022.10) CLIP模型是一种高效的持续学习模型,[论文]
(arXiv 2022.10) 针对深度生成模型的内容检索,[论文]
(arXiv 2022.10) 在结构化任务上训练的Transformer中的系统性泛化与涌现结构,[论文]
(arXiv 2022.10) 宽视野注意力是Transformer的发展方向吗?[论文]
(arXiv 2022.10) DARTFORMER:寻找最佳类型的注意力,[论文]
(arXiv 2022.10) MOBILEVITV3:一种轻量级、友好的视觉Transformer,采用简单有效的局部、全局及输入特征融合,[论文],[代码]
(arXiv 2022.10) EAPruning:用于视觉Transformer和CNN的进化式剪枝,[论文]
(arXiv 2022.10) 视频中基于运动的自监督目标发现,[论文]
(arXiv 2022.10) 朝向视觉参数高效****迁移学习的统一视角,[论文]
(arXiv 2022.10) 用于生成式迁移学习的视觉提示调优,[论文]
(arXiv 2022.10) 视觉Transformer中RGB-D融合的强大迁移基线,[论文]
(arXiv 2022.10) LPT:面向图像分类的长尾****提示调优,[论文]
(arXiv 2022.10) 加速大规模视觉Transformer用于密集预测而无需微调,[论文]
(arXiv 2022.10) CLIP2POINT:通过图像-深度预训练将CLIP迁移到点云分类,[论文]
(arXiv 2022.10) Dual-former:用于高效图像修复的混合自注意力Transformer,[论文]
(arXiv 2022.10) 面向视觉与语言基础模型的语言感知软提示,[论文]
(arXiv 2022.10) ASIF:无需训练即可将单模态模型转化为多模态的耦合数据,[论文]
(arXiv 2022.10) ImmFusion:在所有天气条件下进行鲁棒的毫米波-RGB融合,用于三维人体重建,[论文]
(arXiv 2022.10) 使用最优传输进行视觉-语言模型的提示学习,[论文]
(arXiv 2022.10) 用于视觉和点云三维目标检测的桥接Transformer,[论文]
(arXiv 2022.10) 用于单目视觉里程计中尺度估计的密集预测Transformer,[论文]
(arXiv 2022.10) TokenFlow:重新思考视觉-语言检索中的细粒度跨模态对齐,[论文]
(arXiv 2022.10) UniCLIP:对比学习型语言-图像预训练的统一框架,[论文]
(arXiv 2022.10) CrossDTR:用于三维目标检测的跨视图和深度引导的Transformer,[论文],[代码]
(arXiv 2022.10) 多尺度人-物交互检测器,[论文]
(arXiv 2022.10) LGDN:用于视频-语言建模的语言引导去噪网络,[论文]
(arXiv 2022.10) 前缀域Transformer:无需花哨技术的异构人脸识别,[论文]
(arXiv 2022.10) 用于人类视频动作推理的视觉知识图谱,[论文]
(arXiv 2022.10) 用于随机性运动预测的人体关节运动学扩散-精炼,[论文]
(arXiv 2022.10) 系统接下来应该做什么?:用于估计系统行为的操作性动作字幕生成,[论文]
(arXiv 2022.10) DMMGAN:基于注意力机制的生成对抗网络实现的多样化多运动预测,应用于三维人体关节,[论文]
(arXiv 2022.10) PIZZA:一种强大的仅使用图像的零样本零CAD方法,用于6自由度跟踪,[论文],[代码]
2022年9月
(arXiv 2022.09) 用于Transformer进一步预训练的自蒸馏,[论文]
(arXiv 2022.09) 用于大型点云中目标检测的Transformer,[论文]
(arXiv 2022.09) 基于扩散模型的图像翻译,采用解耦的风格与内容表示,[论文]
(arXiv 2022.09) 从自然脚本知识中学习可迁移的时空表示,[论文]
(arXiv 2022.09) SPIKFORMER:当脉冲神经网络遇到Transformer时,[论文]
(arXiv 2022.09) F-VLM:基于冻结视觉和语言模型的开放词汇表目标检测,[论文]
(arXiv 2022.09) 对比语料库归因法用于解释表示,[论文]
(arXiv 2022.09) 对齐引导的时序注意力用于视频动作识别,[论文]
(arXiv 2022.09) SPOTLIGHT:利用聚焦型视觉-语言模型进行移动UI理解,[论文]
(arXiv 2022.09) REST:通过检索与自训练实现生成式动作识别,[论文]
(arXiv 2022.09) 高效视觉Transformer训练:数据驱动视角,[论文]
(arXiv 2022.09) 从因果视角重新审视少样本学习,[论文]
(arXiv 2022.09) 对压缩视觉Transformer的攻击,[论文]
(arXiv 2022.09) 自适应稀疏ViT:通过充分挖掘自注意力机制,实现可学习的自适应标记剪枝,[论文]
(arXiv 2022.09) DeViT:变形视觉Transformer在视频修复中的应用,[论文]
(arXiv 2022.09) Dynamic MDETR:用于视觉定位的动态多模态Transformer解码器,[论文]
(arXiv 2022.09) 无监督图像动画的运动Transformer,[论文]
(arXiv 2022.09) CALIP:无需参数的注意力机制实现的CLIP零样本增强,[论文]
(arXiv 2022.09) 面向任务驱动具身智能体的对话行为,[论文]
(arXiv 2022.09) NEURAL MARIONETTE:基于Transformer的多动作人类运动合成系统,[论文],[代码]
(arXiv 2022.09) 文本自适应的多视觉原型匹配,用于视频-文本检索,[论文]
(arXiv 2022.09) 向参数高效的整合预训练语言模型以用于时间视频定位迈进,[论文]
(arXiv 2022.09) AdaFocusV3:关于统一的时空动态视频识别,[论文]
(arXiv 2022.09) FREESEG:基于可解释的对比语言-图像预训练的免费掩码,用于语义分割,[论文]
(arXiv 2022.09) 向可解释的3D接地视觉问答迈进:一个新的基准和强大的基线,[论文]
(arXiv 2022.09) 利用自监督训练进行无意动作识别,[论文]
(arXiv 2022.09) NeRF-Loc:基于Transformer的物体定位方法,应用于神经辐射场中,[论文]
(arXiv 2022.09) 一切皆有价值:用于基于分数的扩散模型的ViT骨干网络,[论文]
(arXiv 2022.09) 改写就够了:用于新颖物体图像描述的方法,[论文]
(arXiv 2022.09) 预训练模型的协作使少样本学习效果更佳,[论文]
(arXiv 2022.09) 文本到图像模型的最佳提示词及其寻找方法,[论文]
(arXiv 2022.09) Swin2SR:用于压缩图像超分辨率和修复的SwinV2 Transformer,[论文],[代码]
(arXiv 2022.09) 3DPCT:具有双重自注意力机制的3D点云Transformer,[论文]
(arXiv 2022.09) 用于移动设备上人体行为识别的轻量级Transformer,[论文]
(arXiv 2022.09) PACT:用于自回归机器人预训练的感知-动作因果Transformer,[论文]
(arXiv 2022.09) UniColor:一种基于Transformer的多模态彩色化统一框架,[论文],[代码]
(arXiv 2022.09) 基于上下文视觉Transformer的交通事故风险预测,[论文]
(arXiv 2022.09) CONE:一种高效的粗到精对齐框架,用于长视频时间定位,[论文]
(arXiv 2022.09) 从未分割的烹饪视频中生成食谱,[论文]
(arXiv 2022.09) PicT:一种轻量级弱监督视觉Transformer,用于路面病害分类,[论文],[代码]
(arXiv 2022.09) 展示、解释与讲述:维基百科中基于实体感知的上下文化图像描述,[论文]
(arXiv 2022.09) RNGDet++:结合实例分割和多尺度特征增强的Transformer驱动的道路网络图检测,[论文],[代码]
(arXiv 2022.09) 朝着类人型基于文本的视觉问答的3D空间推理迈进,[论文]
(arXiv 2022.09) I2DFormer:用于零样本图像分类的图像到文档注意力学习,[论文]
(arXiv 2022.09) 基于Transformer模型的整数微调,[论文]
(arXiv 2022.09) DetCLIP:面向开放世界检测的字典增强型视觉概念并行预训练,[论文]
(arXiv 2022.09) 用于从第一视角RGB视频中进行3D手部姿态估计和动作识别的层次化时间Transformer,[论文]
(arXiv 2022.09) 用于图像解析的图推理Transformer,[论文]
(arXiv 2022.09) 量子视觉Transformer,[论文]
(arXiv 2022.09) 野外主动视觉搜索,[论文]
(arXiv 2022.09) PPT:用于单目和多视角人体姿态估计的令牌剪枝姿态Transformer,[论文],[代码]
(arXiv 2022.09) 基于树结构的文本-视觉BERT,用于百度视频广告中的视频搜索,[论文]
(arXiv 2022.09) 利用Transformer进行集成特征和代价聚合以实现稠密对应关系,[论文]
(arXiv 2022.09) 用于视觉Transformer中局部-全局交互的轴向扩展窗口,[论文]
(arXiv 2022.09) 适用于无人机平台的目标再识别任务的不确定性感知多任务金字塔视觉Transformer,[论文]
(arXiv 2022.09) TASKED:基于Transformer的对抗性学习方法,通过自我知识蒸馏利用可穿戴传感器进行人类活动识别,[论文]
(arXiv 2022.09) 用于360°视频中显著性检测的全景视觉Transformer,[论文]
(arXiv 2022.09) 有偏见的艺术家:在文本引导的图像生成模型中利用同形异义词来放大文化偏见,[论文]
(arXiv 2022.09) 在自监督Transformer中对提议进行判别采样,用于弱监督物体定位,[论文],[代码]
(arXiv 2022.09) 基于时间平滑Transformer的实时在线视频检测,[论文]
(arXiv 2022.09) ViT-DD:用于半监督驾驶员分心检测的多任务视觉Transformer,[论文],[代码]
(arXiv 2022.09) SQ-Swin:用于生菜褐变预测的预训练暹罗二次Swin Transformer,[论文]
(arXiv 2022.09) 用于高效深度学习的自注意力池化,[论文]
(arXiv 2022.09) 拉近与真实世界以对象为中心的学习的差距,[论文]
(arXiv 2022.09) 提示引导的场景生成用于3D零样本学习,[论文]
(arXiv 2022.09) RE-IMAGEN:检索增强型文本到图像生成器,[论文]
(arXiv 2022.09) 面向条件自然语言生成的分布感知指标,[论文]
(arXiv 2022.09) CLIPping隐私:针对多模态机器学习模型的身份推断攻击,[论文]
(arXiv 2022.09) 利用相关性信息瓶颈微调预训练视觉-语言模型以实现鲁棒的视觉问答,[论文]
(arXiv 2022.09) PriorLane:一种基于Transformer的先验知识增强型车道检测方法,[论文],[代码]
(arXiv 2022.09) 探索对比式语言-图像预训练的视觉可解释性,[论文]
(arXiv 2022.09) OmniVL:一个适用于图像-语言和视频-语言任务的基础模型,[论文]
(arXiv 2022.09) 关于Transformer在低标注数据下的视频识别中出人意料的有效性,[论文]
(arXiv 2022.09) 计算机视觉中注意力头数量与Transformer编码器数量的关系,[论文]
(arXiv 2022.09) 重访语言与视觉领域的神经网络缩放定律,[论文]
(arXiv 2022.09) 小型Transformer可以计算通用度量嵌入,[论文]
(arXiv 2022.09) CRAFT:基于时空上下文融合Transformer的相机-雷达3D目标检测,[论文]
(arXiv 2022.09) Transformers和CNNs在SBIR任务上均胜过人类,[论文]
(arXiv 2022.09) PaLI:一个联合规模化的多语言****语言-图像模型,[论文]
(arXiv 2022.09) 一种基于Transformer的轻量级模型用于鱼类地标检测,[论文]
(arXiv 2022.09) PSAQ-ViT V2:迈向准确且通用的无数据量化视觉Transformer,[论文],[代码]
(arXiv 2022.09) ComplETR:利用视觉Transformer降低密集场景下目标检测的标注成本,[论文]
(arXiv 2022.09) Semantic2Graph:基于图的多模态特征用于视频中的动作分割,[论文]
(arXiv 2022.09) CenterFormer:基于中心点的Transformer用于3D目标检测,[论文],[代码]
(arXiv 2022.09) PreSTU:用于场景文本理解的预训练,[论文]
(arXiv 2022.09) OmDet:具有大规模视觉-语言多数据集预训练的语言感知型目标检测,[论文]
(arXiv 2022.09) DMTNet:基于Transformer的动态多尺度网络,用于双像素图像的散焦去模糊,[论文]
(arXiv 2022.09) SeRP:使用扰动后的点云进行自监督表征学习,[论文]
(arXiv 2022.09) VL-Taboo:分析视觉-语言模型的基于属性的零样本能力,[论文]
(arXiv 2022.09) StoryDALL-E:将预训练的文本到图像Transformer适配用于故事续写,[论文],[代码]
(arXiv 2022.09) 关于自注意力的计算复杂性,[论文]
(arXiv 2022.09) 面向多语言视觉问答,[论文]
(arXiv 2022.09) PERCEIVER-ACTOR:用于机器人操作的多任务Transformer,[论文],[项目]
(arXiv 2022.09) 用于被动活动识别的自监督多模态融合Transformer,[论文]
(arXiv 2022.09) FETA:面向专家任务应用的基础模型专业化,[论文]
(arXiv 2022.09) 自监督视觉Transformer中的先验知识引导注意力机制,[论文]
(arXiv 2022.09) 探索掩码自编码器的目标表示,[论文]
(arXiv 2022.09) ISS:以图像为桥梁实现文本引导的3D形状生成,[论文]
(arXiv 2022.09) 针对开放词汇任务的图像-语言Transformer预训练,[论文]
(arXiv 2022.09) 基于Token-Critic改进的掩码图像生成,[论文]
(arXiv 2022.09) “照我做的做,别照我说的做”:将语言 grounding 到机器人的可操作性上,[论文],[代码]
(arXiv 2022.09) Uformer-ICS:一种用于图像压缩感知的专用U型Transformer,[论文]
(arXiv 2022.09) 带有掩码视觉建模的端到端视频-语言Transformer的实证研究,[论文]
(arXiv 2022.09) MAFormer:一种具有多尺度注意力融合的Transformer网络,用于视觉识别,[论文]
(arXiv 2022.09) SEFormer:用于3D目标检测的结构嵌入Transformer,[论文]
(arXiv 2022.09) ADTR:带有特征重建的异常检测Transformer,[论文]
(arXiv 2022.09) 使用局部线性变换学习无监督形状对应关系的规范嵌入,[论文]
(arXiv 2022.09) Transformer-CNN联合体:结合两种方法优势的半监督语义分割,[论文]
(arXiv 2022.09) PTSEFormer:面向视频目标检测的渐进式时空增强Transformer,[论文],[代码]
(arXiv 2022.09) DPIT:用于人体姿态估计的双流集成Transformer,[论文]
(arXiv 2022.09) SkeletonMAE:用于自监督骨骼动作识别的时空掩码自编码器,[论文]
(arXiv 2022.09) MimCo:使用对比教师进行掩码图像建模预训练,[论文]
(arXiv 2022.09) 多模态对比表征学习用于实体对齐,[论文]
(arXiv 2022.09) 零样本多模态艺术家控制的3D对象集检索与探索,[论文]
(arXiv 2022.09) 几何对齐变分Transformer用于图像条件下的布局生成,[论文]
(arXiv 2022.09) FLAME:基于自由形式语言的运动合成与编辑,[论文]
(arXiv 2022.09) TOKENCUT:利用自监督Transformer和归一化割来分割图像和视频中的物体,[论文],[代码]
(arXiv 2022.09) 通过序列到序列翻译实现统一的完全监督和带时间戳的时序动作分割,[论文]
2022年8月
(arXiv 2022.08) 篮球追踪数据中的群体活动识别——团队运动中的神经嵌入(NETS),[论文]
(arXiv 2022.08) SWIN-TRANSFORMER-YOLOV5用于实时葡萄酒葡萄串检测,[论文]
(arXiv 2022.08) SIM-Trans:用于细粒度视觉分类的结构信息建模Transformer,[论文],[代码]
(arXiv 2022.08) 将图像细节注入CLIP的特征空间,[论文]
(arXiv 2022.08) 用于时序句子定位的层次化局部-全局Transformer,[论文]
(arXiv 2022.08) EViT:基于加密视觉Transformer的云环境下隐私保护的图像检索,[论文]
(arXiv 2022.08) TRUST:一种基于分割的Transformer实现的准确、端到端的表格结构识别器,[论文]
(arXiv 2022.08) ELMformer:一种高效的原始图像修复方法,基于局部乘性Transformer,[论文],[代码]
(arXiv 2022.08) SoMoFormer:基于Transformer的多人姿态预测,[论文]
(arXiv 2022.08) 基于循环窗口的级联Transformer用于在线动作检测,[论文]
(arXiv 2022.08) ASpanFormer:无检测器的自适应跨度Transformer用于图像匹配,[论文]
(arXiv 2022.08) 鲁棒的声音引导图像操纵,[论文]
(arXiv 2022.08) TrojViT:视觉Transformer中的木马植入,[论文]
(arXiv 2022.08) 用户可控的潜在空间Transformer用于StyleGAN的图像布局编辑,[论文]
(arXiv 2022.08) 少样本学习与Transformer结合:用于少样本分类的统一查询-支持Transformer,[论文]
(arXiv 2022.08) JARVIS:面向对话式具身智能体的神经符号常识推理框架,[论文]
(arXiv 2022.08) TFusion:基于Transformer的N对1多模态融合模块,[论文]
(arXiv 2022.08) LOGICRANK:逻辑诱导重排序用于生成式文本到图像系统,[论文]
(arXiv 2022.08) CLUSTR:通过聚类探索视觉Transformer的高效自注意力,[论文]
(arXiv 2022.08) 基于中层语义知识迁移的联邦零样本学习,[论文]
(arXiv 2022.08) 基于软上下文共享的提示调优用于视觉-语言模型,[论文]
(arXiv 2022.08) 开放集半监督目标检测,[论文]
(arXiv 2022.08) gSwin:具有移位窗口层次结构的门控MLP视觉模型,[论文]
(arXiv 2022.08) LaTeRF:基于标签和文本的对象辐射场,[论文]
(arXiv 2022.08) Video Mobile-Former:采用高效全局时空建模的视频识别,[论文]
(arXiv 2022.08) Pix4Point:用于3D点云理解的图像预训练Transformer,[论文],[代码]
(arXiv 2022.08) MaskCLIP:掩码自蒸馏推进对比语言-图像预训练,[论文]
(arXiv 2022.08) CATS:互补的CNN和Transformer编码器用于分割,[论文]
(arXiv 2022.08) 用于多模态摘要的段落级视觉-语言语义对齐建模,[论文]
(arXiv 2022.08) FashionVQA:一个领域特定的视觉问答系统,[论文]
(arXiv 2022.08) K阶图导向Transformer结合GRAATTENTION用于3D姿态和形状估计,[论文]
(arXiv 2022.08) 朝着在基于Transformer的目标检测器中高效利用多尺度特征的方向发展,[论文],[代码]
(arXiv 2022.08) 利用多语言知识迁移改进视频检索,[论文]
(arXiv 2022.08) 高效稀疏激活Transformer,[论文]
(arXiv 2022.08) M2HF:用于文本-视频检索的多层次多模态混合融合,[论文]
(arXiv 2022.08) 一种双模态方法用于(零样本)多标签分类,[论文]
(arXiv 2022.08) 利用对抗学习和Transformer进行离线手写数学识别,[论文]
(arXiv 2022.08) 语义增强的图像聚类,[论文]
(arXiv 2022.08) DPTNet:用于场景文本检测的双路径Transformer架构,[论文]
(arXiv 2022.08) ProtoPFormer:聚焦于视觉Transformer中的原型部件以实现可解释图像识别,[论文],[代码]
(arXiv 2022.08) PoseBERT:用于时序3D人体建模的通用Transformer模块,[论文],[代码]
(arXiv 2022.08) 高效无注意力机制的视频移位Transformer,[论文]
(arXiv 2022.08) 用于命名实体识别的扁平化多模态交互Transformer,[论文]
(arXiv 2022.08) 基于跨模态Transformer的舞蹈风格迁移,[论文]
(arXiv 2022.08) 通过Token融合提升图像分类性能,[论文]
(arXiv 2022.08) VAuLT:通过深层语言表示的传播增强视觉-语言Transformer,[论文],[代码]
(arXiv 2022.08) 文本到图像生成:不让任何语言被落下,[论文]
(arXiv 2022.08) 基于序列式跨模态语义图的方面级情感分类,[论文]
(arXiv 2022.08) 通过自适应时空注意力实现多样化的视频字幕生成,[论文]
(arXiv 2022.08) VLMAE:视觉-语言掩码自编码器,[论文]
(arXiv 2022.08) SoMoFormer:用于多人运动预测的社会感知运动Transformer,[论文]
(arXiv 2022.08) ILLUME:通过与其“闲聊”来解释视觉-语言模型,[论文]
(arXiv 2022.08) ViT-ReT:结合视觉与循环Transformer的神经网络,用于视频中的人类活动识别,[论文]
(arXiv 2022.08) UniLayout:驯服统一的序列到序列Transformer以用于图形布局生成,[论文]
(arXiv 2022.08) InterTrack:用于3D多目标跟踪的交互Transformer,[论文]
(arXiv 2022.08) 理解视觉-语言任务中的注意力机制,[论文]
(arXiv 2022.08) 基于提示微调实现开放词汇场景图生成,[论文]
(arXiv 2022.08) 针对视觉-语言预训练模型的类别感知视觉提示调优,[论文]
(arXiv 2022.08) 基于隐式视觉引导和超网络的文本到图像生成,[论文]
(arXiv 2022.08) 八点算法作为ViTs进行相对位姿预测的归纳偏置,[论文]
(arXiv 2022.08) 使用MaskCLIP实现开放词汇的全景分割,[论文]
(arXiv 2022.08) 用于领域泛化的提示视觉Transformer,[论文]
(arXiv 2022.08) GSRFormer:具有交替语义注意力精炼的接地情境识别Transformer,[论文]
(arXiv 2022.08) CONVIFORMERS:卷积引导的视觉Transformer,[论文]
(arXiv 2022.08) 具有双层特征恢复的高效多模态Transformer,用于鲁棒的多模态情感分析,[论文]
(arXiv 2022.08) LLM.int8():面向大规模Transformer的8位矩阵乘法,[论文]
(arXiv 2022.08) ExpansionNet v2:在快速端到端训练中通过块静态扩展实现图像字幕生成,[论文],[代码]
(arXiv 2022.08) 用于自动驾驶车辆的多模态Transformer路径预测,[论文]
(arXiv 2022.08) 用于深度伪造检测的混合Transformer网络,[论文]
(arXiv 2022.08) 大规模下的半监督视觉Transformer,[论文]
(arXiv 2022.08) 探索基于锚点的检测在 Ego4D 自然语言查询中的应用,[论文]
(arXiv 2022.08) 探索使用Transformer进行3D点云目标跟踪时的点云与BEV融合,[论文],[代码]
(arXiv 2022.08) 基于 CLIP 的神经邻域 风格迁移 用于 3D资产,[论文]
(arXiv 2022.08) 视觉Transformer (VTs) 在非自然图像领域的迁移效果如何?一项涉及 艺术分类 的实证研究,[论文]
(arXiv 2022.08) Transformer之眼:全局-局部相关性在 第一人称视角注视估计 中的应用,[论文],[代码]
(arXiv 2022.08) 通过显式高层语义提升 视频-文本检索,[论文]
(arXiv 2022.08) 基于 CLIP 引导的群体优化实现独特的图像 字幕生成,[论文]
(arXiv 2022.08) 通过学习遮挡不变特征理解 掩码图像建模,[论文]
(arXiv 2022.08) Jointformer:具有误差预测与精修功能的单帧提升Transformer,用于 3D人体姿态估计,[论文]
(arXiv 2022.08) MonoViT:基于视觉Transformer的自监督 单目深度估计,[论文],[代码]
(arXiv 2022.08) HaloAE:基于HaloNet的局部Transformer自编码器,用于 异常检测 和 定位,[论文],[代码]
(arXiv 2022.08) IVT:一种端到端的实例引导型视频Transformer,用于 3D姿态估计,[论文]
(arXiv 2022.08) PointConvFormer: 基于点的卷积 的反击,[论文]
(arXiv 2022.08) ChiQA:一个大规模的基于图像的真实世界 问答数据集,用于多模态理解,[论文]
(arXiv 2022.08) TransMatting:利用Transformer提升 透明物体抠图 效果,[论文],[项目]
(arXiv 2022.08) 字级细粒度 故事可视化,[论文]
(arXiv 2022.08) 细粒度语义对齐的 视觉-语言 预训练,[论文]
(arXiv 2022.08) DropKey,[论文]
(arXiv 2022.08) MVSFormer:结合预训练视觉Transformer和温度引导的深度进行 多视图立体匹配,[论文]
(arXiv 2022.08) 基于CLIP的视频对象 分割,[论文]
(arXiv 2022.08) 结合CNN和Transformer的编码器,用于提升细粒度的人体 动作识别,[论文]
(arXiv 2022.08) TAG:通过文本感知的视觉问答生成提升文本- VQA 性能,[论文]
(arXiv 2022.08) 用于 长视频理解 的双流Transformer架构,[论文]
(arXiv 2022.08) 一种快速的 文本驱动 方法用于 生成艺术内容,[论文]
(arXiv 2022.08) DAHITRA:基于新型层次化Transformer架构的损伤评估,[论文]
(arXiv 2022.08) 针对多模态表征学习的掩码视觉与语言建模,[论文]
(arXiv 2022.08) 基于时空图Transformer的姿态不确定性感知动作同步性估计,[论文]
(arXiv 2022.08) 用于加速和稳定Transformer的统一归一化方法,[论文]
(arXiv 2022.08) 基于交叉注意力控制的提示到提示的图像编辑,[论文]
(arXiv 2022.08) 动量Transformer:缩小自注意力与其线性化之间的性能差距,[论文]
(arXiv 2022.08) 测试文本引导图像生成中的关系理解能力,[论文]
(arXiv 2022.08) UAVM:一种用于视听学习的统一模型,[论文]
(arXiv 2022.08) 面向长期4D点云视频理解的点基元Transformer,[论文]
(arXiv 2022.08) 一招通吃:基于动态推理的单阶段指代表达理解,[论文]
(arXiv 2022.08) 走向理解WordArt:用于场景文字识别的角点引导Transformer,[论文],[代码]
(arXiv 2022.08) 通过学习结合视觉语义的码本来增强视觉语言预训练,[论文]
(arXiv 2022.08) STrajNet:基于多模态Swin Transformer的占用流预测,[论文]
(arXiv 2022.08) SIAMIXFORMER:用于从双时相遥感图像中进行建筑物检测和变化检测的暹罗Transformer网络,[论文]
2022年7月
(arXiv 2022.07) Pro-tuning:面向视觉任务的统一提示调优,[论文]
(arXiv 2022.07) 面向数据高效视觉-语言对齐的课程学习,[论文]
(arXiv 2022.07) DnSwin:通过连续小波滑动Transformer实现真实世界的去噪,[论文]
(arXiv 2022.07) 基于解耦模态的交叉注意力,利用Transformer进行3D人体网格恢复,[论文],[代码]
(arXiv 2022.07) 一种适用于Transformer的变分自编码器,采用非参数化的变分信息瓶颈,[论文]
(arXiv 2022.07) 基于对比学习的视觉Transformer实现在线持续学习,[论文]
(arXiv 2022.07) 用于图像字幕生成的检索增强Transformer,[论文]
(arXiv 2022.07) 卷积嵌入使层次化视觉Transformer更强大,[论文]
(arXiv 2022.07) SiRi:一种用于基于Transformer的视觉定位的简单选择性微调机制,[论文],[代码]
(arXiv 2022.07) 基于自监督预训练特征的深度聚类,[论文]
(arXiv 2022.07) 对比型掩码自编码器是更强大的视觉学习模型,[论文]
(arXiv 2022.07) VICTOR:利用Transformer和时尚领域特定的对比预训练进行视觉不兼容性检测,[论文]
(arXiv 2022.07) 用于自监督视频表征学习的静态与动态概念,[论文]
(arXiv 2022.07) LaKo:通过后期知识到文本注入实现的知识驱动型视觉问答,[论文]
(arXiv 2022.07) TransFiner:一种针对多目标跟踪的全尺度精炼方法,[论文]
(arXiv 2022.07) 使用预训练Transformer进行S-Prompts学习:面向领域增量学习的奥卡姆剃刀原则,[论文]
(arXiv 2022.07) 面向事件级视觉问答的跨模态因果关系推理,[论文]
(arXiv 2022.07) 基于图神经网络和时空Transformer注意力的点云三维视频目标检测,[论文]
(arXiv 2022.07) GROUP DETR:采用解耦的一对多标签分配实现快速训练收敛,[论文]
(arXiv 2022.07) 利用CNN和Vision Transformer改进MRI图像的超分辨率,[论文]
(arXiv 2022.07) Video Swin Transformer在2022年Ego4D挑战赛中用于第一人称视频理解,[论文],[代码]
(arXiv 2022.07) 对CNN与Vision Transformer在鲁棒性方面较量的公正看法,[论文]
(arXiv 2022.07) 生成式工匠:一款语义感知且可控的CLIP风格化工具,[论文]
(arXiv 2022.07) 每个领域背后都存在分布偏移:为全景语义分割适配畸变感知的Vision Transformer,[论文],[代码]
(arXiv 2022.07) JIGSAW-VIT:在Vision Transformer中学习拼图游戏,[论文],[代码]
(arXiv 2022.07) IGFormer:用于基于骨骼的动作的人体交互识别的交互图Transformer,[论文]
(arXiv 2022.07) 在文化遗产领域的视觉问答中,是否只需要GPT-3?[论文]
(arXiv 2022.07) 将时空注意力应用于Vision Transformer以识别分心驾驶和疲劳驾驶,[论文]
(arXiv 2022.07) 使用Transformer进行动作质量评估,[论文]
(arXiv 2022.07) 带有集成量化功能的自回归图像合成,[论文]
(arXiv 2022.07) 使用带有MAE预训练的Vanilla ViT主干进行面部表情识别,[论文]
(arXiv 2022.07) 面向视觉-语言导航的目标驱动结构化Transformer规划器,[论文]
(arXiv 2022.07) 规模定律与模型架构:归纳偏置如何影响扩展规律?[论文]
(arXiv 2022.07) 用于ABAW4挑战赛中面部情感识别的混合CNN-Transformer模型,[论文]
(arXiv 2022.07) MeshMAE:用于3D网格数据分析的掩码自编码器,[论文]
(arXiv 2022.07) SeedFormer:基于补丁种子的上采样Transformer点云补全,[论文],[代码]
(arXiv 2022.07) 一种用于动作检测的高效时空金字塔Transformer,[论文]
(arXiv 2022.07) 向视觉Transformer上的高效对抗训练迈进,[论文]
(arXiv 2022.07) 单帧大气湍流抑制:基准研究及一种受物理启发的新Transformer模型,[论文],[代码]
(arXiv 2022.07) HTNet:基于层次Transformer的无锚点时序动作定位,[论文]
(arXiv 2022.07) GRIT:使用双视觉特征的更快更好的图像字幕生成Transformer,[论文]
(arXiv 2022.07) OTPose:适用于稀疏标注视频的遮挡感知Transformer姿态估计,[论文]
(arXiv 2022.07) FaceFormer:具有尺度感知能力的盲人人脸修复Transformer,[论文]
(arXiv 2022.07) 以物体为中心的视频表示是否有利于迁移学习?[论文]
(arXiv 2022.07) DUQIM-Net:用于多视角操作的概率性物体层级表示,[论文]
(arXiv 2022.07) 用于解释日常任务中可能发生的碰撞的关系型未来字幕生成模型,[论文]
(arXiv 2022.07) 条件式DETR V2:带边界框查询的高效检测Transformer,[论文]
(arXiv 2022.07) 时间即关键:用于视频Transformer的时序自监督,[论文]
(arXiv 2022.07) IDET:用于高质量变化检测的迭代差异增强Transformer,[论文]
(arXiv 2022.07) 不要停止学习:迈向CLIP模型的持续学习,[论文]
(arXiv 2022.07) 带有时序解析Transformer的动作质量评估,[论文]
(arXiv 2022.07) 基于结构先验引导的生成对抗Transformer用于低光照图像增强,[论文]
(arXiv 2022.07) TS2-Net:用于Text-Video检索的令牌转移与选择Transformer,[论文],[代码]
(arXiv 2022.07) SatMAE:用于时序与多光谱卫星影像的Transformer预训练,[论文]
(arXiv 2022.07) 通过对比与聚类视觉-语言嵌入实现开放世界语义分割,[论文]
(arXiv 2022.07) TokenMix:重新思考视觉Transformer中用于数据增强的图像混合方法,[论文],[代码]
(arXiv 2022.07) 探索人类全局上下文:视觉-语言模型真的能像人类一样做出判断吗?[论文]
(arXiv 2022.07) Defect Transformer:一种用于表面缺陷检测的高效混合Transformer架构,[论文]
(arXiv 2022.07) 基于关系推理的语义新奇性检测,[论文]
(arXiv 2022.07) 视觉Transformer中的多流形注意力机制,[论文]
(arXiv 2022.07) UniFormer:用于鸟瞰图中时空表征的统一多视角融合Transformer,[论文]
(arXiv 2022.07) 将位置预测作为有效的预训练策略,[论文]
(arXiv 2022.07) 具有交叉特征注意力的轻量级视觉Transformer,[论文]
(arXiv 2022.07) X-CLIP:用于视频-文本检索的端到端多粒度对比学习,[论文]
(arXiv 2022.07) 学习视差Transformer网络以去除立体图像JPEG伪影,[论文]
(arXiv 2022.07) 一种双掩码自编码器,用于结合时空骨骼令牌补全实现鲁棒运动捕捉,[论文]
(arXiv 2022.07) 一句字幕是否胜过千张图片?一项针对表征学习的对照研究,[论文]
(arXiv 2022.07) 基于预训练视觉和语言模型的多模态开放词汇视频分类,[论文]
(arXiv 2022.07) 用于视频插帧的交叉注意力Transformer,[论文]
(arXiv 2022.07) 向能够生成非通用文本的多模态视觉-语言模型迈进,[论文]
(arXiv 2022.07) Snipper:一种时空Transformer,可在视频片段上同时进行多人3D姿态估计跟踪和预测,[论文],[代码]
(arXiv 2022.07) Transformer中的水平与垂直注意力,[论文]
(arXiv 2022.07) CoMER:基于Transformer的手写数学表达式识别中的覆盖建模,[论文],[代码]
(arXiv 2022.07) DPText-DETR:借助Transformer中的动态点实现更好的场景文本检测,[论文],[代码]
(arXiv 2022.07) DEPTHFORMER:用于单目深度估计的多尺度视觉Transformer,结合全局与局部信息融合,[论文],[代码]
(arXiv 2022.07) LaT:基于循环一致性的潜在翻译技术,用于视频-文本检索,[论文]
(arXiv 2022.07) Wave-ViT:将小波与Transformer统一用于视觉表征学习,[论文],[代码]
(arXiv 2022.07) 利用弱监督检测Transformer扩展新型物体检测能力,[论文]
(arXiv 2022.07) 使用Transformer挖掘群体线索,用于社交群体活动识别,[论文]
(arXiv 2022.07) IDEA:通过在线多标签识别提高文本多样性,用于视觉-语言预训练,[论文]
(arXiv 2022.07) Next-ViT:下一代视觉Transformer,专为现实工业场景中的高效部署而设计,[论文]
(arXiv 2022.07) UniNet:结合卷积、Transformer和MLP的统一架构搜索框架,[论文],[代码]
(arXiv 2022.07) 基于密钥的视觉Transformer图像与模型变换,[论文]
(arXiv 2022.07) eX-ViT:一种新颖的可解释视觉Transformer,用于弱监督语义分割,[论文]
(arXiv 2022.07) 面向少样本动作识别的复合原型匹配,[论文]
(arXiv 2022.07) 从人类情感中的标签关系中学习,[论文]
(arXiv 2022.07) MSP-Former:用于单张图像去雪的多尺度投影Transformer,[论文]
(arXiv 2022.07) 告诉我证据是什么?用于答案定位的双模态视觉-语言交互,[论文]
(arXiv 2022.07) 基于NeRF的、仅需单张输入图像的视图合成用视觉Transformer,[论文],[代码]
(arXiv 2022.07) 超越迁移学习:用于动作定位的协同微调,[论文]
(arXiv 2022.07) RePFormer:用于鲁棒人脸关键点检测的精炼金字塔Transformer,[论文]
(arXiv 2022.07) 利用机器和用户生成的自然语言描述提升少样本图像分类性能,[论文]
(arXiv 2022.07) MaiT:利用注意力掩码使图像Transformer更加高效,[论文]
(arXiv 2022.07) 使用物理感知Transformer进行阵列相机图像融合,[论文]
(arXiv 2022.07) PIC第4次挑战:语义辅助的多特征编码与多头解码用于密集视频字幕生成,[论文]
(arXiv 2022.07) STVGFormer:结合静动态跨模态理解的时空视频定位,[论文]
(arXiv 2022.07) 通过CLIP实现反事实图像操纵的探索,[论文]
(arXiv 2022.07) MatFormer:一种用于程序化材料的生成式模型,[论文]
(arXiv 2022.07) 用于视频摘要的多模态帧评分Transformer,[论文]
(arXiv 2022.07) 基于实例编码Transformer生成3D零件装配,[论文]
(arXiv 2022.07) 场景感知提示用于多模态对话理解和生成,[论文]
(arXiv 2022.07) 通过自适应上下文池化实现高效表征学习,[论文]
(arXiv 2022.07) 用于人类反应生成的交互Transformer,[论文]
(arXiv 2022.07) FishFormer:基于环形切片的Transformer,用于鱼眼校正并探索其适用范围,[论文]
(arXiv 2022.07) 利用层次化层间注意力改进Transformer中的语义分割,[论文]
(arXiv 2022.07) CoBEVT:使用稀疏Transformer进行协作式的鸟瞰语义分割,[论文]
(arXiv 2022.07) 通过以物体为中心的分层表征来分割运动物体,[论文]
(arXiv 2022.07) 对视觉-语言预训练模型中的社会偏见进行反事实测量与消除,[论文]
(arXiv 2022.07) 对比跨模态知识共享预训练用于视觉-语言表征学习与检索,[论文]
(arXiv 2022.07) 基于Transformer学习跨图像对象语义关系以进行少样本细粒度图像分类,[论文],[代码]
(arXiv 2022.07) 基于记忆的标签-文本调优用于少样本类增量****学习,[论文]
(arXiv 2022.07) 只需一个检测器:基于视觉Transformer的不同模态统一目标检测器,[论文],[代码]
(arXiv 2022.07) TANet:基于Transformer的非对称网络用于RGB-D显著性目标检测,[论文],[代码]
(arXiv 2022.07) DUET:用于对比零样本学习的跨模态语义对齐,[论文]
(arXiv 2022.07) R^2-VOS:通过关系循环一致性实现鲁棒的引用式视频目标分割,[论文]
(arXiv 2022.07) CRFormer:一种用于阴影去除的跨区域Transformer,[论文]
(arXiv 2022.07) I-ViT:仅整数量化用于高效视觉Transformer推理,[论文]
(arXiv 2022.07) 重新思考视觉Transformer中的查询-键成对交互,[论文]
(arXiv 2022.07) VL-CheckList:使用物体、属性和关系评估预训练的视觉-语言模型,[论文],[代码]
(arXiv 2022.07) 掩码自编码器用于汽车点云上的自监督学习,[论文]
(arXiv 2022.07) DALG:用于图像检索的深度注意局部与全局建模,[论文]
(arXiv 2022.07) PolarFormer:利用极坐标Transformer进行多摄像头3D目标检测,[论文],[代码]
(arXiv 2022.07) CTrGAN:用于步态迁移的循环Transformer GAN,[论文]
(arXiv 2022.07) LM-Nav:结合大型预训练的语言、视觉和行动模型的机器人导航,[论文]
(arXiv 2022.07) 卷积旁路是更好的视觉Transformer适配器,[论文]
(arXiv 2022.07) 使用像素进行语言建模,[论文]
(arXiv 2022.07) 基于Transformer的上下文压缩以增强目标检测中的特征金字塔,[论文]
(arXiv 2022.07) 使用时空丢弃Transformer进行深度伪造视频检测,[论文]
(arXiv 2022.07) iColoriT:借助视觉Transformer,将局部提示传播到正确区域,以实现交互式上色,[论文]
(arXiv 2022.07) 利用湍流抑制Transformer进行大气中的成像,[论文]
(arXiv 2022.07) 金字塔Transformer用于交通标志检测,[论文]
(arXiv 2022.07) DynaST:用于示例引导的图像生成的动态稀疏Transformer,[论文]
(arXiv 2022.07) Trans4Map:利用视觉Transformer从自我中心图像到客体中心语义的整体自顶向下映射重访,[论文],[代码]
(arXiv 2022.07) 入口翻转Transformer用于参与者行为的推理与预测,[论文]
(arXiv 2022.07) Wayformer:通过简单高效的注意力网络进行运动预测,[论文]
(arXiv 2022.07) 利用关键帧和Transformer控制器进行多样化的舞蹈合成,[论文]
(arXiv 2022.07) 学习估计视频中人体运动的外力,[论文]
(arXiv 2022.07) Pose2Room:从人类活动理解三维场景,[论文]
(arXiv 2022.07) 跨架构知识蒸馏,[论文]
(arXiv 2022.07) 距离在人-物体交互检测中至关重要,[论文]
2022年6月
(arXiv 2022.06) TENET:用于运动预测中有效时序流的Transformer编码网络,[论文]
(arXiv 2022.06) GaitForeMer:通过人类运动预测进行自监督预训练的Transformer,用于少样本步态障碍严重程度估计,[论文],[代码]
(arXiv 2022.06) GSCLIP:一种解释自然语言中分布偏移的框架,[论文]
(arXiv 2022.06) 基于迁移学习的空间Transformer网络,用于小规模细粒度骨骼动作的太极拳动作识别,[论文]
(arXiv 2022.06) 一种统一的端到端检索-阅读框架,用于基于知识的VQA,[论文]
(arXiv 2022.06) 使用Transformer进行持续学习以实现图像分类,[论文]
(arXiv 2022.06) ST-Adapter:参数高效的图像到视频迁移学习,用于动作识别,[论文]
(arXiv 2022.06) 通过测试时类别条件特征对齐,在不从头重新训练的情况下增强视觉Transformer的鲁棒性,[论文],[代码]
(arXiv 2022.06) 利用语言加速工具操作的学习,[论文]
(arXiv 2022.06) RoME:面向角色感知的专家混合Transformer,用于文本到视频检索,[论文]
(arXiv 2022.06) Video2StyleGAN:将视频编码到潜在空间以进行操控,[论文]
(arXiv 2022.06) CMT-DeepLab:用于全景分割的聚类掩码Transformer,[论文]
(arXiv 2022.06) 针对视觉-语言预训练模型的对抗性攻击研究,[论文]
(arXiv 2022.06) VReBERT:一种简单灵活的Transformer,用于视觉关系检测,[论文]
(arXiv 2022.06) 将查询铭记于心:基于查询条件卷积的视觉定位,[论文]
(arXiv 2022.06) DALL-E用于检测:基于语言的上下文图像合成用于目标检测,[论文]
(arXiv 2022.06) SAViR-T:基于Transformer的空间注意力视觉推理,[论文]
(arXiv 2022.06) DualCoOp:通过有限标注快速适应多标签识别,[论文]
(arXiv 2022.06) M&M Mix:一个多模态多视角Transformer集成,[论文]
(arXiv 2022.06) DisCoVQA:用于视频质量评估的时序扭曲内容Transformer,[论文]
(arXiv 2022.06) 通过密度引导的自适应选择CNN和Transformer估算来计数不同密度的人群,[论文]
(arXiv 2022.06) 单阶段动作检测Transformer,[论文]
(arXiv 2022.06) SemMAE:语义引导的掩码用于学习掩码自编码器,[论文]
(arXiv 2022.06) 基于Transformer的多模态提案与重排序,用于维基百科图片字幕匹配,[论文],[代码]
(arXiv 2022.06) EdgeNeXt:用于移动视觉应用的高效融合CNN-Transformer架构,[论文],[代码]
(arXiv 2022.06) 时序一致的语义视频编辑,[论文]
(arXiv 2022.06) VLMbench:面向视觉-语言操控的组合基准测试,[论文]
(arXiv 2022.06) IRISformer:用于室内场景单张图像逆向渲染的密集视觉Transformer,[论文],[代码]
(arXiv 2022.06) 通过视觉显著性纠正ViT的捷径学习,[论文]
(arXiv 2022.06) 利用特权信息进行零样本动作识别的学习,[论文]
(arXiv 2022.06) Bridge-Tower:在视觉-语言表征学习中搭建编码器之间的桥梁,[论文],[代码]
(arXiv 2022.06) CtrlFormer:通过Transformer学习可迁移的视觉控制状态表征,[论文],[项目]
(arXiv 2022.06) SimA:适用于视觉Transformer的简单无Softmax注意力,[论文],[代码]
(arXiv 2022.06) ZJU-Alibaba团队提交至2022年Ego4D自然语言查询挑战赛的ReLER@ZJU-Alibaba方案,[论文]
(arXiv 2022.06) 什么使得领域泛化如此困难?,[论文]
(arXiv 2022.06) 多尺度协作式多模态Transformer用于视频中的情感分析,[论文]
(arXiv 2022.06) 自监督视觉Transformer的patch级别表征学习,[论文]
(arXiv 2022.06) 通过探查注意力条件下的掩码一致性来适应自监督视觉Transformer,[论文],[代码]
(arXiv 2022.06) 多模态事件图:迈向对多模态世界的事件中心理解,[论文]
(arXiv 2022.06) VCT:一种视频压缩Transformer,[论文]
(arXiv 2022.06) 利用Transformer和自监督进行深度和自我运动的预测,[论文]
(arXiv 2022.06) SP-ViT:为视觉Transformer学习2D空间先验,[论文]
(arXiv 2022.06) 可泛化的神经辐射场,用于借助Transformer进行新视角合成,[论文]
(arXiv 2022.06) 一个多模态知识发现与预训练的统一持续学习框架,[论文]
(arXiv 2022.06) 基于图的空间Transformer结合记忆重放技术,用于多未来行人轨迹预测,[论文],[代码]
(arXiv 2022.06) INDIGO:用于领域泛化的内在多模态性,[论文]
(arXiv 2022.06) 基于类别条件对比学习的传导式CLIP,[论文]
(arXiv 2022.06) SILVER-BULLET-3D 在 MANISKILL 2021 上:基于示范学习与启发式规则的方法用于物体操作,[论文],[代码]
(arXiv 2022.06) 用于目标检测的视觉Transformer,[论文]
(arXiv 2022.06) TransVG++:基于语言条件的视觉Transformer实现端到端视觉定位,[论文]
(arXiv 2022.06) MAREO:基于记忆和注意力的视觉推理,[论文]
(arXiv 2022.06) 用于多动作运动合成的递归Transformer变分自编码器,[论文]
(arXiv 2022.06) 物体场景表示Transformer,[论文]
(arXiv 2022.06) 探索使用DINO训练的视觉Transformer中的对抗攻击与防御,[论文]
(arXiv 2022.06) SpA-Former:通过空间注意力进行图像阴影检测与去除的Transformer,[论文],[代码]
(arXiv 2022.06) 视觉Transformer的统一且生物合理的关系图表示,[论文]
(arXiv 2022.06) 基础模型能谈论因果关系吗?[论文]
(arXiv 2022.06) MaskViT:用于视频预测的掩码视觉预训练,[论文]
(arXiv 2022.06) PromptPose:语言提示有助于动物姿态估计,[论文]
(arXiv 2022.06) 视频预训练(VPT):通过观看未标注的在线视频来学习行动,[论文]
(arXiv 2022.06) 构建时空Transformer用于第一人称视角的3D姿态估计,[论文]
(arXiv 2022.06) 位置标签用于自监督视觉Transformer,[论文]
(arXiv 2022.06) 探索特征自相关性以用于自监督Transformer,[论文]
(arXiv 2022.06) VN-Transformer:面向向量神经元的旋转等变注意力,[论文]
(arXiv 2022.06) CLIP-Actor:基于文本驱动的推荐与风格化,用于动画化人体网格,[论文],[代码]
(arXiv 2022.06) OOD 数据增强可能与开放集识别相冲突,[论文]
(arXiv 2022.06) 草稿与修订:利用上下文RQ-Transformer实现高效的图像生成,[论文]
(arXiv 2022.06) cycle text2face:通过Transformer实现文本到人脸GAN的循环,[论文]
(arXiv 2022.06) 通过几何引导的核Transformer实现高效且鲁棒的2D到BEV表示学习,[论文],[代码]
(arXiv 2022.06) 基于Transformer的乌尔都语手写文字光学字符识别器,[论文]
(arXiv 2022.06) 用于视觉Transformer的空间熵正则化,[论文]
(arXiv 2022.06) 关于掩码图像建模中的数据缩放问题,[论文]
(arXiv 2022.06) 极端掩码用于学习实例级和分布式视觉表示,[论文]
(arXiv 2022.06) GateHUB:带有背景抑制功能的门控历史单元,用于在线动作检测,[论文]
(arXiv 2022.06) EAANet:高效注意力增强卷积网络,[论文]
(arXiv 2022.06) 视觉线索:弥合视觉与语言基础,用于图像段落字幕生成,[论文]
(arXiv 2022.06) 重新思考CLIP的开放性,[论文]
(arXiv 2022.06) OrdinalCLIP:为语言引导的序数回归学习排序提示,[论文]
(arXiv 2022.06) 面向多通道视频-语言检索的预训练对比模型快速适应研究,[论文]
(arXiv 2022.06) 用于视频中文本分类的对比图多模态模型,[论文]
(arXiv 2022.06) Mask DINO:迈向统一的基于Transformer的目标检测与分割框架,[论文],[代码]
(arXiv 2022.06) 基于LIMoE的多模态对比学习:语言-图像专家混合模型,[论文]
(arXiv 2022.06) cViL:利用知识蒸馏进行视觉-语言模型的跨语言训练,[论文]
(arXiv 2022.06) DETR++:驯服你的多尺度检测Transformer,[论文]
(arXiv 2022.06) 用于通用事件边界检测的结构化上下文Transformer,[论文]
(arXiv 2022.06) Cerberus Transformer:联合语义、可用性和属性解析,[论文],[代码]
(arXiv 2022.06) 检测中心:通过语言嵌入上的查询适配统一目标检测数据集,[论文]
(CVPR 2022) 关键点Transformer:解决复杂手与物体交互中的关节识别问题,以实现精确的3D姿态估计,[论文]
(arXiv 2022.06) 基于局部掩码式重建的高效自监督视觉预训练,[论文]
(arXiv 2022.06) 面向视频动作预测的统一递归建模,[论文]
(arXiv 2022.06) 前缀条件化统一了语言和标签监督,[论文]
(arXiv 2022.06) EfficientFormer:以MobileNet速度运行的视觉Transformer,[论文],[代码]
(arXiv 2022.06) REVIVE:在基于知识的视觉问答中,区域视觉表征至关重要,[论文]
(arXiv 2022.06) 用于自监督视觉表征学习的暹罗图像建模,[论文]
(CVPR 2022) 基于Oracle查询的蒸馏方法用于基于Transformer的人-物交互检测,[论文],[代码]
(CVPR 2022) 探索基于结构感知的Transformer在交互提案上的应用,用于人-物交互检测,[论文],[代码]
(CVPR 2022) 基于瞬间观测的人类轨迹预测,[论文]
(arXiv 2022.06) 我的邻居在哪里?利用自监督视觉Transformer中的补丁关系,[论文]
(arXiv 2022.06) 通过结构幻觉Transformer级联实现极端的平面图重建,[论文]
(arXiv 2022.06) 跨视角语言建模:迈向统一的跨语言跨模态预训练,[论文]
(arXiv 2022.06) 利用Transformer学习序列上下文以进行3D手部姿态估计,[论文]
(arXiv 2022.06) 基于空间感知与语义感知标记对齐的跨域检测Transformer,[论文]
(arXiv 2022.06) TubeFormer-DeepLab:视频掩码Transformer,[论文]
(arXiv 2022.06) 基于Tubelet标记的视频中人-物体交互检测,[论文]
2022年5月
(arXiv 2022.05) HeatER:基于热图Transformer的高效统一网络,用于人体重建,[论文]
(arXiv 2022.05) 基于Transformer的机器人抓取检测,[论文]
(arXiv 2022.05) 多模态掩码自编码器学习可迁移表征,[论文]
(arXiv 2022.05) 基于CLIP引导学习的多模态假新闻检测,[论文]
(arXiv 2022.05) WT-MVSNet:基于窗口的Transformer用于多视图立体视觉,[论文]
(arXiv 2022.05) 面向快速预训练的对象级掩码自编码器,[论文]
(arXiv 2022.05) 更深入地研究自监督的轻量级视觉Transformer,[论文]
(arXiv 2022.05) 变分Transformer:一种超越准确性和多样性之间权衡的框架,用于图像字幕生成,[论文]
(arXiv 2022.05) 3D-C2FT:用于多视角三维重建的粗到精Transformer,[论文]
(arXiv 2022.05) HiViT:层次化视觉Transformer结合掩码图像建模,[论文]
(arXiv 2022.05) COMPLETEDT:利用密集增强推理Transformer进行点云补全,[论文]
(arXiv 2022.05) 视觉Transformer在密集预测任务中的自监督预训练,[论文]
(arXiv 2022.05) 架构无关的掩码图像建模——从ViT回到CNN,[论文]
(arXiv 2022.05) GIT:一个面向视觉和语言的生成式图像到文本Transformer,[论文]
(arXiv 2022.05) 3DILG:用于3D生成建模的不规则潜在网格,[论文]
(arXiv 2022.05) X-ViT:高性能线性视觉Transformer,无需Softmax,[论文]
(arXiv 2022.05) 通过目标感知Transformer进行知识蒸馏,[论文]
(arXiv 2022.05) 用于快速视觉感知器的动态查询选择,[论文]
(arXiv 2022.05) MonoFormer:利用Transformer实现自监督单目深度估计的泛化,[论文]
(arXiv 2022.05) 使用因果剪枝知识提示支持视觉-语言模型推理,[论文]
(arXiv 2022.05) mPLUG:通过跨模态跳跃连接实现高效且有效的视觉-语言学习,[论文]
(arXiv 2022.05) VQA-GNN:利用多模态语义图进行视觉问答推理,[论文]
(arXiv 2022.05) UMSNet:用于人类活动识别的通用多传感器网络,[论文]
(arXiv 2022.05) 使用视觉Transformer进行隐私保护的图像分类,[论文]
(arXiv 2022.05) HiVLP:用于快速图文检索的层次化视觉-语言预训练,[论文]
(arXiv 2022.05) HDGT:通过场景编码实现多智能体轨迹预测的异构驾驶图Transformer,[论文]
(arXiv 2022.05) 掩码引导的视觉Transformer (MG-ViT) 用于少样本学习,[论文]
(arXiv 2022.05) 面向光谱压缩成像的退化感知展开式半洗牌Transformer,[论文]
(arXiv 2022.05) 统一掩码:为具有局部性的基于金字塔的视觉Transformer提供MAE预训练能力,[论文],[代码]
(arXiv 2022.05) 视觉概念标记化,[论文]
(arXiv 2022.05) MSTRIQ:基于Swin Transformer并采用多阶段融合的无参考图像质量评估,[论文]
(arXiv 2022.05) CogVideo:基于Transformer的大规模文本到视频生成预训练,[论文],[代码]
(arXiv 2022.05) 视觉语义AI中低定序现象的证据,[论文]
(arXiv 2022.05) muNet:将预训练深度神经网络演化为可扩展的自动调优多任务系统,[论文]
(arXiv 2022.05) 大型语言模型是零样本推理者,[论文]
(arXiv 2022.05) AdaptFormer:为可扩展视觉识别而适配视觉Transformer,[论文],[代码]
(arXiv 2022.05) 带有边界感知损失的高效U-Transformer用于动作分割,[论文]
(arXiv 2022.05) 基于提示的学习用于无配对图像字幕生成,[论文]
(arXiv 2022.05) 互信息散度:一种用于多模态生成模型的统一度量,[论文]
(arXiv 2022.05) MoCoViT:移动****卷积视觉Transformer,[论文]
(arXiv 2022.05) AO2-DETR:任意方向物体检测Transformer,[论文]
(arXiv 2022.05) VTP:用于多视角多人3D姿态估计的体积Transformer,[论文]
(arXiv 2022.05) UViM:一种利用学习引导代码进行视觉的统一建模方法,[论文]
(arXiv 2022.05) 用于动作分割的交叉增强Transformer,[论文]
(arXiv 2022.05) TRT-ViT:面向TensorRT的视觉Transformer,[论文]
(arXiv 2022.05) 用于视觉目标检测的积分迁移预训练Transformer编码器-解码器,[论文]
(arXiv 2022.05) 用于全玻片图像分类的图Transformer,[论文]
(arXiv 2022.05) VNT-Net:旋转不变性向量神经元Transformer,[论文]
(arXiv 2022.05) 基于去噪对比的掩码图像建模,[论文]
(arXiv 2022.05) 利用元学习和基于Transformer的关系建模进行跨主体动作单元检测,[论文]
(arXiv 2022.05) 掩码自编码器作为时空学习者,[论文]
(arXiv 2022.05) 通过凸对偶揭示注意力:视觉Transformer的分析与解释,[论文]
(arXiv 2022.05) AvatarCLIP:零样本文本驱动的3D头像生成与动画,[论文]
(arXiv 2022.05) 演示:使用视觉Transformer实现实时语义通信,[论文]
(arXiv 2022.05) 一本关于长视频检索的CLIP搭车指南,[论文]
(arXiv 2022.05) 用于图像去噪的密集残差Transformer,[论文]
(arXiv 2022.05) 使用AV-HuBERT学习基于嘴唇的视听说话人嵌入,[论文]
(arXiv 2022.05) 翻炒烹饪机器人:双臂对半流动物体的非抓取操作,[论文]
(arXiv 2022.05) 面向视频中语言驱动动作定位的实体感知与运动感知Transformer,[论文],[代码]
(arXiv 2022.05) 通过提问学习检索视频,[论文]
(arXiv 2022.05) 一个模型,多种模态:一种针对文本、声音、图像、视频和代码的稀疏激活方法,[论文]
(arXiv 2022.05) AggPose:用于婴儿姿态估计的深度聚合视觉Transformer,[论文],[代码]
(arXiv 2022.05) 关于使用Transformer进行目标检测的自监督学习方法的实证研究,[论文],[DETR代码],[Deform-DETR代码]
(arXiv 2022.05) 基于Transformer的大批量训练跨模态食谱嵌入,[论文]
(arXiv 2022.05) 用于野外动态表情识别的时空Transformer,[论文]
(arXiv 2022.05) EdgeViTs:用视觉Transformer在移动设备上与轻量级CNN竞争,[论文]
(arXiv 2022.05) 视觉Transformer的逐行加速器,[论文]
(arXiv 2022.05) 超越边界框:面向目标检测的多模态知识学习,[论文]
(arXiv 2022.05) 多尺度采样多层次分层网络用于视频问答,[论文]
(arXiv 2022.05) Incremental-DETR:通过自监督学习实现增量式少样本目标检测,[论文]
(arXiv 2022.05) 使用Mixup进行食谱检索的跨语言适应,[论文]
(arXiv 2022.05) Zero和R2D2:大规模中文跨模态基准及视觉-语言框架,[论文]
(arXiv 2022.05) 超越预训练目标检测器:用于图像字幕生成的跨模态文本和视觉上下文,[论文]
(arXiv 2022.05) 提示分布学习,[论文]
(arXiv 2022.05) CLIP-CLOP:CLIP引导的拼贴画和照片蒙太奇,[论文]
(arXiv 2022.05) 用于视频问答的双层解耦Transformer,[论文]
(arXiv 2022.05) P^3IV:利用弱监督从教学视频中进行概率性程序规划,[论文]
(arXiv 2022.05) YOLOPose:基于Transformer的关键点回归多目标6D姿态估计,[论文]
(arXiv 2022.05) i-Code:一个集成且可组合的多模态学习框架,[论文]
(arXiv 2022.05) 双重交叉注意力学习用于细粒度视觉分类和目标再识别,[论文]
(arXiv 2022.05) CoCa:对比型字幕生成器是图文基础模型,[论文]
(arXiv 2022.05) 数据决定对比语言图像预训练(CLIP)中的分布鲁棒性,[论文]
(arXiv 2022.05) 基于均值教师Transformer的跨域目标检测,[论文]
(arXiv 2022.05) 用于水下图像增强的强化Swin-Convs Transformer,[论文]
(arXiv 2022.05) UTC:一种结合任务间对比学习的统一Transformer,用于视觉对话,[论文]
(arXiv 2022.05) Answer-Me:多任务开放词汇视觉问答,[论文]
2022年4月
(arXiv 2022.04) 学习理解视频检索中的否定,[论文]
(arXiv 2022.04) LayoutBERT:用于对象插入的掩码语言布局模型,[论文]
(arXiv 2022.04) 基于双阶段空间-通道Transformer的粗细联合视频去噪,[论文]
(arXiv 2022.04) SideRT:一种用于单张图像深度估计的实时纯Transformer架构,[论文]
(arXiv 2022.04) 这张图片在哪里?基于Transformer的野外地理定位,[论文]
(arXiv 2022.04) 基于简化Transformer的深度估计,[论文]
(arXiv 2022.04) 对DALL-E 2的非常初步分析,[论文]
(arXiv 2022.04) CogView2:通过层次化Transformer实现更快更好的文本到图像生成,[论文],[代码]
(arXiv 2022.04) PyramidCLIP:用于视觉-语言模型预训练的层次化特征对齐,[论文]
(arXiv 2022.04) CapOnImage:基于上下文的图像密集字幕生成,[论文]
(arXiv 2022.04) DearKD:面向视觉Transformer的早期、数据高效的知识蒸馏,[论文]
(arXiv 2022.04) CATrans:用于少样本分割的上下文与亲和力Transformer,[论文]
(arXiv 2022.04) ClothFormer:在所有模块中驾驭视频虚拟试穿,[论文]
(arXiv 2022.04) 关于ViT对常见噪声的鲁棒性的更深入见解,[论文]
(arXiv 2022.04) VITPOSE:用于人体姿态估计的简单视觉Transformer基线,[论文],[代码]
(arXiv 2022.04) MILES:通过注入语言语义进行视觉BERT预训练,用于视频-文本检索,[论文]
(arXiv 2022.04) 面向时序定位的对比语言-动作预训练,[论文]
(arXiv 2022.04) 提升MLP-Mixer的对抗迁移性,[论文]
(arXiv 2022.04) RELVIT:面向视觉关系推理的概念引导型视觉Transformer,[论文]
(arXiv 2022.04) VISTA:由U-Net和图像色彩度滤波增强的视觉Transformer,用于自动零售结账,[论文],[代码]
(arXiv 2022.04) CLIP-DISSECT:深度视觉网络中神经元表征的自动描述,[论文]
(arXiv 2022.04) 基于多视角共同分割与聚类Transformer的无监督层次化语义分割,[论文]
(arXiv 2022.04) SwinFuse:用于红外与可见光图像融合的残差Swin Transformer网络,[论文],[代码]
(arXiv 2022.04) OCFormer:用于单类图像分类的Transformer网络,[论文]
(arXiv 2022.04) ParkPredict+:基于CNN和Transformer的停车场内车辆多模态意图与运动预测,[论文]
(arXiv 2022.04) 多样化实例发现:面向实例感知的多标签图像识别的Vision-Transformer,[论文]
(arXiv 2022.04) DFAM-DETR:基于可变形特征注意力机制的DETR用于细长物体检测,[论文]
(arXiv 2022.04) 通过单帧标注从文本查询中进行视频瞬间检索,[论文]
(arXiv 2022.04) GIMO:上下文中基于注视的人体运动预测,[论文]
(arXiv 2022.04) VQGAN-CLIP:利用自然语言指导的开放域图像生成与编辑,[论文]
(arXiv 2022.04) 连续环境中视觉-语言导航的Sim-2-Sim迁移,[论文]
(arXiv 2022.04) 并非所有Token都相等:基于Token聚类Transformer的人本视觉分析,[论文],[代码]
(arXiv 2022.04) 视觉Transformer的多模态Token融合,[论文]
(arXiv 2022.04) 搜索视觉Transformer的内在维度,[论文]
(arXiv 2022.04) 通过分组变换实现面向视觉-语言任务的轻量化Transformer,[论文]
(arXiv 2022.04) 基于元学习的跨模态提示进行多模态少样本目标检测,[论文]
(arXiv 2022.04) BSRT:利用Swin Transformer和流引导的可变形对齐提升突发序列超分辨率,[论文],[代码]
(arXiv 2022.04) XDBERT:从跨模态系统中将视觉信息蒸馏至BERT以提升语言理解能力,[论文]
(arXiv 2022.04) 通过对比学习提升视觉对话中的跨模态理解,[论文]
(arXiv 2022.04) 使用多模态交叉量化器进行无条件的图像-文本对生成,[论文]
(arXiv 2022.04) 推动简单流水线在少样本学习中的极限:外部数据与微调确实有显著效果,[论文]
(arXiv 2022.04) COTS:用于跨模态检索的协作式双流视觉-语言预训练模型,[论文]
(arXiv 2022.04) 基于对称CNN和递归Transformer的轻量级双模态网络,用于单幅图像超分辨率,[论文],[代码]
(arXiv 2022.04) 保留图文信息:防止对比学习中的捷径效应——用于图文检索,[论文]
(arXiv 2022.04) Flamingo:一种用于少样本学习的视觉语言模型,[论文]
(arXiv 2022.04) RELVIT:面向视觉关系推理的概念引导型视觉Transformer,[论文]
(arXiv 2022.04) 利用时空检测Transformer学习未来物体预测,[论文]
(arXiv 2022.04) Transformer引导的卷积神经网络用于跨视角地理定位,[论文]
(arXiv 2022.04) BTranspose:采用自监督预训练的瓶颈Transformer用于人体姿态估计,[论文]
(arXiv 2022.04) 通过解耦Transformer进行人-物体交互检测,[论文]
(arXiv 2022.04) ELEVATER:用于评估语言增强型视觉模型的基准测试与工具包,[论文]
(arXiv 2022.04) DeiT III:ViT的复仇,[论文]
(arXiv 2022.04) 残差Swin Transformer通道注意力网络用于图像去马赛克,[论文]
(arXiv 2022.04) 一致性驱动的序列Transformer注意力模型用于部分可观测场景,[论文]
(arXiv 2022.04) ReCLIP:指代表达理解的强大零样本基线,[论文]
(arXiv 2022.04) 多模态Transformer对缺失模态是否鲁棒?[论文]
(arXiv 2022.04) TopFormer:用于移动端语义分割的Token金字塔Transformer,[论文],[代码]
(arXiv 2022.04) X-DETR:一种适用于实例级视觉-语言任务的通用架构,[论文]
(arXiv 2022.04) 事件Transformer,[论文]
(arXiv 2022.04) 评估基于像素的深度强化学习中视觉Transformer方法,[论文]
(arXiv 2022.04) ManiTrans:通过Token级语义对齐与生成实现实体级文本引导的图像编辑,[论文],[代码]
(arXiv 2022.04) 基于渐进式自蒸馏的鲁棒跨模态表征学习,[论文]
(arXiv 2022.04) Stripformer:用于快速图像去模糊的条带Transformer,[论文]
(arXiv 2022.04) 不留任何Token:基于可解释性的图像分类与生成,[论文]
(arXiv 2022.04) Fashionformer:一种简单、有效且统一的人体时尚分割与识别基线,[论文],[代码]
(arXiv 2022.04) Panoptic-PartFormer:学习用于全景部件分割的统一模型,[论文],[代码]
(arXiv 2022.04) DILEMMA:利用Transformer进行自监督的形状与纹理学习,[论文]
(arXiv 2022.04) 学习如何推断因果结构,[论文]
(arXiv 2022.04) 通过解码路径增强进行Transformer的一致性学习,用于人-物体交互检测,[论文],[代码]
(arXiv 2022.04) 类别感知Transformer网络用于提升人-物体交互检测性能,[论文]
(arXiv 2022.04) ImageNet上的鲁棒性能否迁移到下游任务?[论文]
(arXiv 2022.04) POSTER:用于面部表情识别的金字塔交叉融合Transformer网络,[论文],[代码]
(arXiv 2022.04) 基于预训练Transformer的水下图像增强,[论文]
(arXiv 2022.04) Event Transformer:一种稀疏感知的高效事件数据处理方案,[论文],[代码]
(arXiv 2022.04) 使用时间无关的VQGAN和时间敏感的Transformer进行长视频生成,[论文],[项目]
(arXiv 2022.04) HunYuan_tvr用于文本-视频检索,[论文]
(arXiv 2022.04) 学习为组合式零样本学习构建软提示,[论文]
(arXiv 2022.04) CM3:一个因果掩码的多模态互联网模型,[论文]
(arXiv 2022.04) “照我所能做,而非照我说的做”:将语言 grounding 到机器人能力中,[论文],[项目]
(arXiv 2022.04) TransGeo:对于跨视角图像地理定位,Transformer 就足够了,[论文],[代码]
(arXiv 2022.04) 带有时间移位交叉注意力的视觉Transformer,用于高效的动作识别,[论文]
(arXiv 2022.04) 从图像字幕中学习音频-视频模态,[论文]
(arXiv 2022.04) 通过重新审视高频成分来改进视觉Transformer,[论文]
(arXiv 2022.04) BatchFormerV2:探索样本关系以进行密集表征学习,[论文]
(arXiv 2022.04) TransRAC:使用Transformer编码多尺度时间相关性,用于重复动作计数,[论文]
(arXiv 2022.04) TALLFormer:带有长记忆Transformer的时间动作定位,[论文],[代码]
(arXiv 2022.04) “这是我的独角兽,Fluffy”:个性化冻结的视觉-语言表征,[论文]
(arXiv 2022.04) SE(3)-等变注意力网络,用于函数空间中的形状重建,[论文]
(arXiv 2022.04) 在面部表情识别任务上配备神经重缩放器的视觉Transformer,[论文]
(arXiv 2022.04) 无检测器的弱监督群体活动识别,[论文]
(arXiv 2022.04) 看什么、看哪里:用于检测人-物体交互的语义和空间细化Transformer,[论文]
(arXiv 2022.04) MaxViT:多轴视觉Transformer,[论文]
2022年3月
(arXiv 2022.03) DeepNet:将Transformer扩展至1,000层,[论文]
(arXiv 2022.03) 用于臂-手动态估计的空间-时间并行Transformer,[论文]
(arXiv 2022.03) ViSTA:用于跨模态检索的视觉与场景文本聚合,[论文]
(arXiv 2022.03) CREATE:中文短视频检索与标题生成的基准测试,[论文]
(arXiv 2022.03) 可变形 视频 Transformer,[论文]
(arXiv 2022.03) 基于占用栅格地图的端到端轨迹分布预测,[论文]
(arXiv 2022.03) VL-InterpreT:解释视觉-语言Transformer的交互式可视化工具,[论文],[应用]
(arXiv 2022.03) TransEditor:基于Transformer的双空间GAN,用于高度可控的面部编辑,[论文],[代码]
(arXiv 2022.03) BEVFormer:通过时空Transformer从多摄像头图像中学习鸟瞰图表示,[论文],[代码]
(arXiv 2022.03) InstaFormer:基于Transformer的实例感知图像到图像翻译,[论文]
(arXiv 2022.03) ITTR:基于Transformer的无配对图像到图像翻译,[论文]
(arXiv 2022.03) 视觉Transformer的参数高效微调,[论文]
(arXiv 2022.03) 探索用于目标检测的纯视觉Transformer骨干网络,[论文]
(arXiv 2022.03) 全交叉Transformer支持的少样本目标检测,[论文]
(arXiv 2022.03) 用于目标跟踪的统一Transformer跟踪器,[论文]
(arXiv 2022.03) 使用可学习记忆微调图像Transformer,[论文]
(arXiv 2022.03) mc-BEiT:用于图像BERT预训练的多选离散化,[论文]
(arXiv 2022.03) 基于Transformer的端到端图像字幕生成模型,[论文]
(arXiv 2022.03) 用于零样本学习的混合路由Transformer,[论文]
(arXiv 2022.03) 用于噪声图像分类的治疗学习Transformer,[论文]
(arXiv 2022.03) 视觉-语言预训练模型是否学习了原始概念?,[论文]
(arXiv 2022.03) Transformer惯性姿态解算器:基于注意力的实时人体运动重建,使用稀疏IMU传感器,[论文]
(arXiv 2022.03) SepViT:可分离视觉Transformer,[论文]
(arXiv 2022.03) MatteFormer:基于Transformer的先验标记进行图像抠像,[论文],[代码]
(arXiv 2022.03) 用于语义图像分割的特征选择Transformer,[论文]
(arXiv 2022.03) 单流多级对齐用于视觉-语言预训练,[论文]
(arXiv 2022.03) 用于目标导向导航的对象记忆Transformer,[论文]
(arXiv 2022.03) 面向视觉Transformer高效训练的自动化渐进式学习,[论文]
(arXiv 2022.03) NOC-REK:利用外部知识库检索词汇进行的新物体字幕生成,[论文]
(arXiv 2022.03) 基于Swin Transformer的面部表情识别,[论文]
(arXiv 2022.03) 给我你的注意力:点积注意力被认为不利于对抗性补丁的鲁棒性,[论文]
(arXiv 2022.03) RayTran:利用光线追踪Transformer从视频中实现多物体的3D姿态估计和形状重建,[论文]
(arXiv 2022.03) 基于Transformer的多模态多标签面部动作单元检测,[论文]
(arXiv 2022.03) MonoDETR:单目3D目标检测中的深度感知Transformer,[论文],[代码]
(arXiv 2022.03) CrossFormer:用于3D人体姿态估计的跨时空Transformer,[论文]
(arXiv 2022.03) FitCLIP:针对零样本视频理解任务,微调大规模预训练的图像-文本模型,[论文],[代码]
(arXiv 2022.03) 基于结构化剪枝与低秩近似的视觉Transformer压缩,[论文]
(arXiv 2022.03) 基于多头融合Transformer的多模态学习用于AU检测,[论文]
(arXiv 2022.03) MSTR:用于端到端人-物交互检测的多尺度Transformer,[论文]
(arXiv 2022.03) 在视觉Transformer中学习补丁到聚类的注意力机制,[论文]
(arXiv 2022.03) 视觉提示调优,[论文]
(arXiv 2022.03) 无需训练的Transformer架构搜索,[论文]
(arXiv 2022.03) 提示数组驱散偏见:通过对抗性学习对视觉-语言模型进行去偏处理,[论文]
(arXiv 2022.03) 使用自然语言指令重塑机器人轨迹:基于Transformer的多模态数据对齐研究,[论文],[项目]
(arXiv 2022.03) 利用可扩展Transformer将物体关联起来以实现视频对象分割,[论文],[[项目]](https://github.com/z-x-yang/AOT0
(arXiv 2022.03) UMT:用于联合视频时刻检索和精彩片段检测的统一多模态Transformer,[论文],[代码]
(arXiv 2022.03) AIMusicGuru:音乐辅助的人体姿态矫正,[论文]
(arXiv 2022.03) 该对学生隐瞒什么:基于注意力的掩码图像建模,[论文]
(arXiv 2022.03) 基于双重可瘦身Transformer,迈向高效且弹性的视觉问答,[论文]
(arXiv 2022.03) ViT-FOD:一种基于视觉Transformer的细粒度物体鉴别器,[论文]
(arXiv 2022.03) Make-A-Scene:基于场景、结合人类先验知识的文本到图像生成,[论文]
(arXiv 2022.03) 自监督的以视频为中心的Transformer用于视频人脸聚类,[论文]
(arXiv 2022.03) 向无范例的视觉Transformer持续学习迈进:关于注意力、功能性和权重正则化的探讨,[论文]
(arXiv 2022.03) QS-Craft:学习量化、拼字游戏与工艺以实现条件化的人体运动动画,[论文]
(arXiv 2022.03) 利用迁移学习和数据增强的视觉Transformer进行口罩使用识别,[论文]
(arXiv 2022.03) Transformer网络在轨迹预测中的内部机制,[论文]
(arXiv 2022.03) 带有条件匹配的开放词汇DETR,[论文]
(arXiv 2022.03) Bailando:带有编舞记忆的演员-评论家GPT实现的3D舞蹈生成,[论文],[代码]
(arXiv 2022.03) 面向多模态文本与图像数据的情感反馈合成,[论文]
(arXiv 2022.03) ViewFormer:利用Transformer从少量图像实现无NeRF的神经渲染,[论文]
(arXiv 2022.03) 轮子上的CLIP:零样本目标导航即目标定位与探索,[论文]
(arXiv 2022.03) 体素集合Transformer:一种基于集合到集合的方法用于从点云中进行3D目标检测,[论文],[代码]
(arXiv 2022.03) HIPA:用于单张图像超分辨率的层次化补丁Transformer,[论文]
(arXiv 2022.03) DirecFormer:一种基于定向注意力的Transformer方法,用于鲁棒动作识别,[论文],[代码]
(arXiv 2022.03) PersFormer:通过透视Transformer和OpenLane基准测试实现3D车道线检测,[论文],[代码]
(arXiv 2022.03) CLIP遇上GamePhysics:利用零样本迁移学习,在游戏视频中实现漏洞识别,[论文],[代码]
(arXiv 2022.03) MonoDTR:具有深度感知的Transformer实现的单目3D目标检测,[论文],[代码]
(arXiv 2022.03) 基于Transformer的HTR用于历史文献,[论文]
(arXiv 2022.03) simCrossTrans:一种简单的跨模态迁移学习方法,用于使用ConvNet或视觉Transformer进行目标检测,[论文],[代码]
(arXiv 2022.03) 使用Transformer实现端到端的人眼注视目标检测,[论文]
(arXiv 2022.03) V2X-ViT:利用视觉Transformer实现车辆到万物的协同感知,[论文]
(arXiv 2022.03) LocATe:使用Transformer在3D空间中实现端到端的动作定位,[论文]
(arXiv 2022.03) AnoViT:基于视觉Transformer的编码器-解码器实现无监督异常检测与定位,[论文]
(arXiv 2022.03) ScalableViT:重新思考视觉Transformer的面向上下文的泛化能力,[论文]
(arXiv 2022.03) Iwin:通过带有不规则窗口的Transformer实现人-物交互检测,[论文]
(arXiv 2022.03) 带有卷积的视觉Transformer架构搜索,[论文]
(arXiv 2022.03) CodedVTR:基于码本的稀疏体素Transformer,带有几何引导,[论文]
(arXiv 2022.03) MatchFormer:用于特征匹配的Transformer交错注意力机制,[论文],[代码]
(arXiv 2022.03) 每个人都应了解的关于视觉Transformer的三件事,[论文]
(arXiv 2022.03) 用于跨视图地理定位的互生式Transformer学习,[论文]
(arXiv 2022.03) DU-VLG:通过双序列到序列预训练统一视觉-语言生成,[论文]
(arXiv 2022.03) 语义对齐融合Transformer用于单样本目标检测,[论文]
(arXiv 2022.03) 仅用一个CLIP实现GAN的单样本适应,[论文]
(arXiv 2022.03) PanoFormer:用于室内360°深度估计的全景Transformer,[论文]
(arXiv 2022.03) PreTR:时空非自回归轨迹预测Transformer,[论文]
(arXiv 2022.03) Transframer:利用生成模型进行任意帧预测,[论文]
(arXiv 2022.03) PATCH-FOOL:视觉Transformer是否始终对对抗性扰动具有鲁棒性?[论文], [代码]
(arXiv 2022.03) WegFormer:用于弱监督语义分割的Transformer,[论文]
(arXiv 2022.03) 向基于视觉Transformer的实用可认证补丁防御迈进,[论文]
(arXiv 2022.03) ActFormer:面向通用动作条件下的3D人体运动生成的GAN Transformer框架,[论文]
(arXiv 2022.03) 用于超分辨率的丰富CNN-Transformer特征聚合网络,[论文]
(arXiv 2022.03) 用于密集场景理解的倒金字塔多任务Transformer,[论文]
(arXiv 2022.03) 多样性原则:训练更强的视觉Transformer需要减少各层次的冗余,[论文], [代码]
(arXiv 2022.03) 通过视觉-语言知识蒸馏在CLIP上实现多模态生成,[论文]
(arXiv 2022.03) 用于鲁棒人脸对齐和关键点内在关系学习的稀疏局部补丁Transformer,[论文], [代码]
(arXiv 2022.03) 通过弱监督学习联合CNN和Transformer网络以实现高效的人群计数,[论文]
(arXiv 2022.03) DFTR:用于显著性目标检测的深度监督分层特征融合Transformer,[论文]
(arXiv 2022.03) DATR:用于多领域地标检测的领域自适应Transformer,[论文]
(arXiv 2022.03) EventFormer:用于面部动作单元事件检测的AU事件Transformer,[论文]
(arXiv 2022.03) CLIP模型是小样本学习者:关于VQA和视觉蕴含的实证研究,[论文]
(arXiv 2022.03) MDMMT-2:用于视频检索的多领域多模态Transformer,向着通用化又迈进了一步,[论文]
(arXiv 2022.03) 用于文本-视频检索的解耦表示学习,[论文]
(arXiv 2022.03) TransCAM:基于Transformer注意力机制的CAM精炼方法,用于弱监督语义分割,[论文],[代码]
(arXiv 2022.03) 可视化与理解视觉Transformer中的补丁交互,[论文]
(arXiv 2022.03) 通过傅里叶域分析在深度视觉Transformer中防止过度平滑:从理论到实践,[论文],[代码]
(arXiv 2022.03) 民主化对比型语言-图像预训练:关于数据、模型和监督的CLIP基准测试,[论文],[代码]
(arXiv 2022.03) 基于Transformer的视频语义嵌入实现零样本动作识别,[论文]
(arXiv 2022.03) TrueType Transformer:轮廓格式下的字符与字体风格识别,[论文]
(arXiv 2022.03) LOOPITR:结合双编码器与交叉编码器架构进行图像-文本检索,[论文]
(arXiv 2022.03) MVP:多模态引导的视觉预训练,[论文]
(arXiv 2022.03) DEER:不依赖检测的端到端场景文本定位识别器,[论文]
(arXiv 2022.03) 多模态Mixup用于鲁棒微调,[论文]
(arXiv 2022.03) AssistQ:以可供性为中心、由问题驱动的任务完成系统,适用于第一人称助手,[论文],[项目]
(arXiv 2022.03) 基于自监督预训练视觉Transformer的单目机器人导航,[论文]
(arXiv 2022.03) WAVEMIX:面向图像的资源高效标记混合方法,[论文]
(arXiv 2022.03) VOVIT:低延迟的基于图的音频-视觉语音分离Transformer,[论文],[代码]
(arXiv 2022.03) 图注意力Transformer网络用于多标签图像分类,[论文]
(arXiv 2022.03) EDGEFORMER:通过向视觉Transformer学习来改进轻量级卷积网络,[论文],[代码]
(arXiv 2022.03) Skating-Mixer:用于花样滑冰评分的多模态MLP,[论文]
(arXiv 2022.03) 动态组Transformer:一种具有动态组注意力的通用视觉Transformer骨干网络,[论文]
(arXiv 2022.03) CP-ViT:通过渐进式稀疏性预测进行级联视觉Transformer剪枝,[论文]
(arXiv 2022.03) 模型无关的多任务微调,用于少样本的视觉-语言****迁移学习,[论文]
(arXiv 2022.03) ChiTransformer:基于线索实现可靠的立体视觉,[论文]
(arXiv 2022.03) 用于基于群体分割的统一Transformer框架:协同分割、协同显著性检测和视频显著目标检测,[论文],[代码]
(arXiv 2022.03) 粗粒度到细粒度的稀疏Transformer用于高光谱图像重建,[论文]
(arXiv 2022.03) CMX:使用Transformer进行RGB-X语义分割的跨模态融合,[论文],[代码]
(arXiv 2022.03) 多尺度Transformer用于高光谱图像分类,[论文]
(arXiv 2022.03) 使用残差量化进行自回归图像生成,[论文]
(arXiv 2022.03) CONTEXTFORMER:一种具有空间-通道注意力的Transformer,用于学习型图像压缩中的上下文建模,[论文]
(arXiv 2022.03) 视觉Transformer的补丁相似性感知无数据量化,[论文]
(arXiv 2022.03) ViT-P:从局部性重新思考数据高效视觉Transformer,[论文]
(arXiv 2022.03) DIT:用于文档图像Transformer的自监督预训练,[论文]
(arXiv 2022.03) 朝着高效且可扩展的锐度感知最小化方向努力,[论文]
(arXiv 2022.03) HyperTransformer:一种纹理与光谱特征融合Transformer,用于全色化,[论文],[代码]
(arXiv 2022.03) UVCGAN:基于UNet和视觉Transformer的循环一致性GAN,用于未配对图像到图像转换,[论文],[代码]
(arXiv 2022.03) 跨语言图像匹配用于弱监督语义分割,[论文]
(arXiv 2022.03) 从注意力中学习亲和力:基于Transformer的端到端弱监督语义分割,[论文],[代码]
(arXiv 2022.03) 基于跨模态注意力与语言的视听广义零样本学习,[论文]
(arXiv 2022.03) 基于Transformer的目标检测知识融合,[论文]
(arXiv 2022.03) 针对模态特异性标注视频的多模态动作识别中的可学习无关模态丢弃,[论文]
(arXiv 2022.03) VITRANSPAD:结合卷积与自注意力的视频Transformer用于人脸呈现攻击检测,[论文]
(arXiv 2022.03) 多尾视觉Transformer用于高效推理,[论文]
(arXiv 2022.03) 视觉Transformer集成作为生态学自动分类的新范式,[论文]
(arXiv 2022.03) LGT-Net:基于几何感知Transformer网络的室内全景房间布局估计,[论文],[代码]
(arXiv 2022.03) LatentFormer:基于多智能体Transformer的交互建模与轨迹预测,[论文]
(arXiv 2022.03) 基于检索的多粒度对齐的无监督视觉-语言预训练,[论文]
(arXiv 2022.03) 时空Transformer注意力网络用于点云中3D体素级别的联合分割与运动预测,[论文]
(arXiv 2022.03) CLIP-GEN:利用CLIP实现无语言训练的文本到图像生成器,[论文]
(arXiv 2022.03) MixSTE:用于视频中3D人体姿态估计的序列到序列混合时空编码器,[论文]
(arXiv 2022.03) X -Trans2Cap:利用Transformer进行跨模态知识迁移以实现3D密集字幕生成,[论文]
(arXiv 2022.03) 3DCTN:用于点云分类的3D卷积-Transformer网络,[论文]
(arXiv 2022.03) DeciWatch:一种用于10倍高效2D和3D姿态估计的简单基线,[论文]
(arXiv 2022.03) D_2ETR:具有计算高效的跨尺度注意力的仅解码器DETR,[论文]
(arXiv 2022.03) 用于深度伪造检测的自监督Transformer,[论文]
(arXiv 2022.03) 聚合金字塔视觉Transformer:无需卷积的图像识别拆分-转换-合并策略,[论文]
(arXiv 2022.03) TransDARC:基于Transformer的驾驶员活动识别,结合潜在空间特征校准,[论文],[代码]
(arXiv 2022.03) 利用身份一致性Transformer保护名人,[论文]
(arXiv 2022.03) 基于多功能AtrousFormer和局部语义引导的车道检测,[论文]
(arXiv 2022.03) DALL-EVAL:探究文本到图像生成式Transformer的推理能力和社会偏见,[论文],[代码]
2022年2月
(arXiv 2022.02) 基于生成流网络的贝叶斯结构学习,[论文]
(arXiv 2022.02) 通过领域Transformer迈向无监督域适应,[论文]
(arXiv 2022.02) 用于人群定位的端到端Transformer模型,[论文]
(arXiv 2022.02) 注意力可实现零近似误差,[论文]
(arXiv 2022.02) 纵观全局,立足局部:用于视觉-语言导航的双尺度图Transformer,[论文],[项目]
(arXiv 2022.02) 学习在视觉Transformer中合并Token,[论文]
(arXiv 2022.02) ProFormer:基于原型特征增强和视觉Transformer学习数据高效的身体运动表征,[论文],[代码]
(arXiv 2022.02) 关注纹理:用于通用纹理合成的多阶段沙漏型视觉Transformer,[论文]
(arXiv 2022.02) CaMEL:基于教师学习的图像字幕生成,[论文]
(arXiv 2022.02) 层次化Perceiver,[论文]
(arXiv 2022.02) Movies2Scenes:利用电影相似性学习场景表征,[论文]
(arXiv 2022.02) GroupViT:由文本监督涌现的语义分割,[论文],[[代码]]
(arXiv 2022.02) 基于Transformer视频表征的视听场景感知对话生成,[论文]
(arXiv 2022.02) ViTAEv2:通过探索归纳偏置提升视觉Transformer在图像识别等任务中的性能,[论文]
(arXiv 2022.02) PMP-Net++:基于Transformer增强的多步点移动路径实现点云补全,[论文],[代码]
(arXiv 2022.02) 关于如何用语言规范引导视觉注意力的研究,[论文]
(arXiv 2022.02) 基于Transformer网络对图像序列进行时空户外照明聚合,[论文]
(arXiv 2022.02) 社交媒体视频帖子中的虚假信息检测,[论文]
(arXiv 2022.02) 深度学习能否应用于基于模型的多目标跟踪?[论文]
(arXiv 2022.02) 并非所有Patch都适用:通过Token重组加速视觉Transformer,[论文],[代码]
(arXiv 2022.02) 循序渐进:基于里程碑的长时程视觉-语言导航,[论文]
(arXiv 2022.02) Transformer的可解释性:通过保守传播获得更好的解释,[论文]
(arXiv 2022.02) MeshLeTemp:利用可学习的顶点间关系,将人体姿态和网格重建推广至野外场景,[论文]
(arXiv 2022.02) ViNTER:带有情感弧感知的Transformer用于图像叙事生成,[论文]
(arXiv 2022.02) 用于场景图生成的超关系学习网络,[论文]
(arXiv 2022.02) CommerceMM:基于全维检索的大规模商业多模态表征学习,[论文]
(arXiv 2022.02) Flowformer:通过保体积流线性化Transformer,[论文]
(arXiv 2022.02) CATs++:结合卷积和Transformer提升代价聚合性能,[论文]
(arXiv 2022.02) I-Tuning:利用图像微调语言模型以生成字幕,[论文]
(arXiv 2022.02) 视觉声学匹配,[论文]
(arXiv 2022.02) LighTN:用于点云下采样时性能与开销权衡的轻量级Transformer网络,[论文]
(arXiv 2022.02) 具有语义增强的任务适应性特征Transformer用于少样本分割,[论文]
(arXiv 2022.02) 通过提示学习进行领域适应,[论文]
(arXiv 2022.02) ACORT:一种用于参数高效图像字幕生成的紧凑型对象关系Transformer,[论文], [代码]
(arXiv 2022.02) 基于多任务Transformer的弱监督文本检测研究,[论文]
(arXiv 2022.02) 使用Transformer进行深度足球比赛解说:数据集、语义相关损失与多层次评估,[论文], [项目]
(arXiv 2022.02) ENTROFORMER:基于Transformer的熵模型,用于学习型图像压缩,[论文], [代码]
(arXiv 2022.02) MaskGIT:掩码式生成式 图像 Transformer,[论文]
(arXiv 2022.02) 对比蒸馏是自监督 点云表征学习的全部需求,[论文]
(arXiv 2022.02) 运动感知Transformer用于遮挡下的人体重识别,[论文]
(arXiv 2022.02) 基于记忆的注视点预测在机器人操作的深度模仿学习中,[论文]
(arXiv 2022.02) 球面Transformer,[论文]
(arXiv 2022.02) OWL(观察、观看、聆听):通过视听时序上下文对第一人称视频中的动作进行定位,[论文]
(arXiv 2022.02) DALL-EVAL:探测文本到图像生成式Transformer的推理能力和社会偏见,[论文], [代码]
(arXiv 2022.02) 预训练语言模型在交互式决策中的应用,[论文]
(arXiv 2022.02) TransFollower:通过Transformer进行长序列车辆跟驰轨迹预测,[论文]
(arXiv 2022.02) 魔鬼藏在标签里:从句子中进行语义分割,[论文]
(arXiv 2022.02) VU-BERT:一个用于视觉对话的统一框架,[论文]
(arXiv 2022.02) 在相机内参未知的情况下,使用自监督单目深度估计中的Transformer,[论文]
(arXiv 2022.02) TRANSDREAMER:基于Transformer世界模型的强化学习,[论文]
(arXiv 2022.02) 针对自监督视觉预训练的损坏图像建模,[论文]
(arXiv 2022.02) DNNFuser:将生成式预训练Transformer作为通用映射器,用于DNN加速器中的层融合,[论文]
(arXiv 2022.02) Interactron:具身自适应目标检测,[论文]
(arXiv 2022.02) 预训练语言模型在交互式决策中的应用,[论文]
(arXiv 2022.02) Transformer能否成为强大的治疗效应估计器?[论文]
(arXiv 2022.02) 利用注意力机制和视觉Transformer提升基于价值函数模型的样本效率,[论文]
2022年1月
(arXiv 2022.01) O-ViT:正交视觉Transformer,[论文]
(arXiv 2022.01) DynaMixer:具有动态混合功能的视觉MLP架构,[论文]
(arXiv 2022.01) 插件反演:一种与模型无关的视觉反演方法,结合数据增强,[论文]
(arXiv 2022.01) MVP:通过多级语义对齐进行多阶段视觉-语言预训练,[论文]
(arXiv 2022.01) VC-GPT:面向端到端生成式视觉-语言预训练的视觉条件GPT,[论文]
(arXiv 2022.01) BOAT:双边局部注意力视觉Transformer,[论文]
(arXiv 2022.01) 基于图自注意力的Transformer图表示学习,[论文]
(arXiv 2022.01) 用于视觉问答系统性泛化的Transformer模块网络,[论文]
(arXiv 2022.01) 基于U-Transformer的广义图像外延生成,[论文]
(arXiv 2022.01) RelTR:用于场景图生成的关系Transformer,[论文]
(arXiv 2022.01) DocSegTr:一种实例级端到端文档图像分割Transformer,[论文]
(arXiv 2022.01) 预训练的语言Transformer是通用的图像分类器,[论文]
(arXiv 2022.01) 探索与匹配:基于Transformer的端到端视频定位,[论文]
(arXiv 2022.01) TGFuse:一种基于Transformer和生成对抗网络的红外与可见光图像融合方法,[论文]
(arXiv 2022.01) ViT-HGR:基于视觉Transformer的高密度表面肌电图信号手势识别,[论文]
(arXiv 2022.01) ShapeFormer:基于Transformer的稀疏表示形状补全,[论文],[项目]
(arXiv 2022.01) 基于图Transformer的零样本草图图像检索,[论文]
(arXiv 2022.01) SA-VQA:面向视觉问答的视觉与语义表征结构化对齐,[论文]
(arXiv 2022.01) 用于建筑物损伤评估的双任务孪生Transformer框架,[论文]
(arXiv 2022.01) 当移位操作遇到视觉Transformer时:一种极其简单的替代注意力机制的方法,[论文],[代码]
(arXiv 2022.01) 自监督3D语义表示学习用于视觉-语言导航,[论文]
(arXiv 2022.01) 仅用2040张图像训练视觉Transformer,[论文]
(arXiv 2022.01) 利用远程监督学习识别程序性活动,[论文]
(arXiv 2022.01) 基于语义表征评估语言偏置的图像分类,[论文]
(arXiv 2022.01) 视觉Transformer在密集预测任务上的综合研究,[论文]
(arXiv 2022.01) 受阅读策略启发的视觉表征学习用于文本到视频检索,[论文]
(arXiv 2022.01) 学习以具身感知为导向的多模态神经SLAM行动,[论文]
(arXiv 2022.01) 视觉信息引导的零样本释义生成,[论文]
(arXiv 2022.01) TerViT:一种高效的三值视觉Transformer,[论文]
(arXiv 2022.01) 多模态视频字幕生成的端到端生成式预训练,[论文]
(arXiv 2022.01) MeMViT:内存增强型多尺度视觉Transformer,用于高效长期视频识别,[论文]
(arXiv 2022.01) ProposalCLIP:利用CLIP线索进行无监督的开放类别目标提案生成,[论文]
(arXiv 2022.01) 跨模态对比蒸馏用于指令性活动预测,[论文]
(arXiv 2022.01) Transformer的应用:弱监督动作分割,[论文]
(arXiv 2022.01) VAQF:用于低比特视觉Transformer的全自动软硬件协同设计框架,[论文]
(arXiv 2022.01) CLIP-TD:针对视觉-语言任务的CLIP定向蒸馏,[论文]
(arXiv 2022.01) 基于双向交叉注意力Transformer的领域适应,[论文]
(arXiv 2022.01) 持续Transformer:用于在线推理的无冗余注意力机制,[论文]
(arXiv 2022.01) 基于深度∆-插值器的动作中间帧生成,[论文]
(arXiv 2022.01) RePre:通过重建式预训练改进自监督视觉Transformer,[论文]
(arXiv 2022.01) GTrans:带有图嵌入的时空自回归Transformer,用于极端事件的临近预报,[论文]
(arXiv 2022.01) TransFuse:一种基于Transformer的统一图像融合框架,采用自监督学习,[论文]
(arXiv 2022.01) Q-ViT:视觉Transformer的全可微量化,[论文]
(arXiv 2022.01) Poseur:基于Transformer的直接人体姿态回归*,[论文]
(arXiv 2022.01) SWINUNET3D——一种使用移位窗口Transformer的分层架构,用于深度交通预测,[论文],[代码]
(arXiv 2022.01) SWIN-POSE:基于Swin Transformer的人体姿态估计,[论文]
(arXiv 2022.01) 看得更近:利用Transformer融合第一人称与第三人称视角实现机器人操作,[论文],[项目]
(arXiv 2022.01) ViT2Hash:无监督的信息保持哈希,[论文]
(arXiv 2022.01) ImageSubject:一个用于主体检测的大规模数据集,[论文]
(arXiv 2022.01) 基于视频-文本建模的视频摘要,[论文]
(arXiv 2022.01) 关于协同注意力Transformer层在视觉问答中的有效性,[论文]
(arXiv 2022.01) 金字塔融合Transformer用于语义分割,[论文]
(arXiv 2022.01) 多视角Transformer用于视频识别,[论文]
(arXiv 2022.01) HYPERTRANSFORMER:用于监督和半监督少样本学习的模型生成,[论文]
(arXiv 2022.01) UNIFORMER:用于高效时空表征学习的统一Transformer,[论文],[代码]
(arXiv 2022.01) TransVOD:基于时空Transformer的端到端视频目标检测,[论文]
(arXiv 2022.01) Uni-EDEN:通过多粒度视觉-语言预训练构建的通用编码器-解码器网络,[论文]
(arXiv 2022.01) Lawin Transformer:通过大窗口注意力的多尺度表征改进语义分割Transformer,[论文],[代码]
(arXiv 2022.01) 使用统一条件模型对视觉语言BERT进行自训练,[论文]
(arXiv 2022.01) TransVPR:基于Transformer的场所识别,采用多层级注意力聚合,[论文]
(arXiv 2022.01) 流场引导的稀疏Transformer用于视频去模糊,[论文]
(arXiv 2022.01) 视觉Transformer中的随机层,[论文]
(arXiv 2022.01) ERNIE-VILG:用于双向视觉-语言生成的统一生成式预训练,[论文]
(arXiv 2022.01) InverseMV:使用卷积视频-音乐Transformer来编排钢琴乐谱,[论文],[代码]
(arXiv 2022.01) CSformer:为压缩感知架起卷积与Transformer之间的桥梁,[论文]
(arXiv 2022.01) Persformer:一种用于拓扑机器学习的Transformer架构,[论文]
(arXiv 2022.01) 视觉Transformer瘦身:在连续优化空间中进行多维度搜索,[论文]
(arXiv 2022.01) PyramidTNT:利用金字塔架构改进Transformer-in-Transformer基线,[论文],[代码]
2021年12月
(arXiv 2021.12) 视觉Transformer的多维模型压缩,[论文]
(arXiv 2021.12) Pale Transformer:一种具有淡色形状注意力机制的通用视觉Transformer骨干网络,[论文],[代码]
(arXiv 2021.12) APRIL:寻找视觉Transformer在隐私保护方面的阿喀琉斯之踵,[论文]
(arXiv 2021.12) 基于分数位置编码的音视频帧同步技术,用于视频到文本翻译中的Transformer,[论文]
(arXiv 2021.12) CLIP在医学领域是否像在通用领域一样有益于视觉问答任务?[论文]
(arXiv 2021.12) SPViT:通过软令牌剪枝实现更快速的视觉Transformer,[论文]
(arXiv 2021.12) 一捧词汇:从词袋监督中学习可迁移的视觉模型,[论文]
(arXiv 2021.12) StyleGAN-V:一款连续视频生成器,兼具StyleGAN2的价格、图像质量和优势,[论文],[代码]
(arXiv 2021.12) Miti-DETR:基于Transformer的物体检测模型,采用缓解自注意力收敛问题的设计,[论文]
(arXiv 2021.12) SGTR:基于Transformer的端到端场景图生成,[论文]
(arXiv 2021.12) 基于层次化Transformer的视频联合建模用于协同摘要,[论文]
(arXiv 2021.12) 面向小规模数据集的视觉Transformer,[论文]
(arXiv 2021.12) 基于能量型潜在空间的生成式视觉Transformer用于显著性预测的学习,[论文]
(arXiv 2021.12) ViR:视觉资源库,[论文]
(arXiv 2021.12) 开放词汇图像分割,[论文]
(arXiv 2021.12) LaTr:面向场景文本的布局感知Transformer,用于视觉问答任务,[论文]
(arXiv 2021.12) 使用交叉注意力Transformer和行为编码进行多模态人格识别,[论文]
(arXiv 2021.12) 细粒度的多模态自监督学习,[论文]
(arXiv 2021.12) CLEVR3D:组合式语言与基础视觉推理,用于3D真实场景中的问答任务,[论文]
(arXiv 2021.12) MIA-Former:通过多粒度输入适配实现高效且鲁棒的视觉Transformer,[论文]
(arXiv 2021.12) 利用知识图嵌入进行对比式物体检测,[论文]
(arXiv 2021.12) LOCFORMER:通过特征采样方法使Transformer能够在长篇未修剪视频中执行时间片段定位,[论文]
(arXiv 2021.12) 用于领域适应的Transformer预训练,[论文]
(arXiv 2021.12) ScanQA:用于空间场景理解的3D问答,[论文]
(arXiv 2021.12) 自监督预训练是否需要大规模数据集?[论文]
(arXiv 2021.12) StyleSwin:基于Transformer的GAN,用于高分辨率图像生成,[论文],[代码]
(arXiv 2021.12) 基于图神经网络驱动的Transformer进行事件相机去噪,[论文]
(arXiv 2021.12) 基于最优传输蒸馏的数据高效语言监督零样本识别,[论文]
(arXiv 2021.12) SiamTrans:利用预训练的双塔Transformer实现零样本多帧图像修复,[论文]
(arXiv 2021.12) ZeroVL:一种在资源有限情况下对齐视觉-语言表示的强大基线,[论文]
(arXiv 2021.12) 基于Transformer实现端到端的图像压缩与分析,[论文]
(arXiv 2021.12) 如何增强你的ViT?一致性损失与StyleAug——一种随机风格迁移增强方法,[论文]
(arXiv 2021.12) DProST:利用空间雕刻和动态投影空间Transformer进行6自由度物体位姿估计,[论文]
(arXiv 2021.12) 用于自监督视觉预训练的掩码特征预测,[论文]
(arXiv 2021.12) SGEITL:面向视觉常识推理的场景图增强图像-文本学习,[论文]
(arXiv 2021.12) TransZero++:跨属性引导的Transformer用于零样本学习,[论文],[代码]
(arXiv 2021.12) 基于Vision Transformer的视频哈希检索,用于追踪虚假视频的来源,[论文],[代码]
(arXiv 2021.12) 视频与图像联合训练Transformer可提升动作识别性能,[论文]
(arXiv 2021.12) AdaViT:用于高效视觉Transformer的自适应Token,[论文]
(arXiv 2021.12) CLIP-Lite:从文本标注中学习信息高效的视觉表征,[论文]
(arXiv 2021.12) 向统一的基础模型迈进:联合预训练Transformer处理未配对的图像与文本,[论文]
(arXiv 2021.12) 自监督时序Transformer网络用于动作识别,[论文]
(arXiv 2021.12) COMPOSER:视频中群体活动的组合式学习,[论文]
(arXiv 2021.12) 基于短程与长程关系的时空Transformer用于微表情识别,[论文]
(arXiv 2021.12) 通过实体增强知识注入改进并诊断基于知识的视觉问答,[论文]
(arXiv 2021.12) SVIP:用于视频中流程的序列验证,[论文]
(arXiv 2021.12) 改进Vision Transformer以支持增量学习,[论文]
(arXiv 2021.12) PartGlot:通过语言参考游戏学习形状部件分割,[论文]
(arXiv 2021.12) 基于空间交互Transformer网络进行行人轨迹预测,[论文]
(arXiv 2021.12) 学习语义对齐的特征表示用于基于文本的人脸搜索,[论文]
(arXiv 2021.12) L-Verse:在图像与文本之间进行双向生成,[论文]
(arXiv 2021.12) 自注意力机制并不需要O(n^2)的内存,[论文]
(arXiv 2021.12) Vision Transformer对补丁扰动是否鲁棒?[论文]
(arXiv 2021.12) 将语义概念注入端到端图像字幕生成,[论文]
(arXiv 2021.12) MAGMA——通过基于适配器的微调对生成模型进行多模态增强,[论文]
(arXiv 2021.12) LCTR:关于唤醒 Transformer 的局部连续性以实现弱监督目标定位,[论文]
(arXiv 2021.12) FaceFormer:基于 Transformer 的语音驱动 3D 面部动画,[论文]
(arXiv 2021.12) CLIP2StyleGAN:无监督提取 StyleGAN 编辑方向,[论文]
(arXiv 2021.12) Couplformer:用耦合注意力图重新思考视觉 Transformer,[论文]
(arXiv 2021.12) 统一的多模态预训练与基于提示的调优,用于视觉-语言理解与生成,[论文]
(arXiv 2021.12) 带原始对象查询的视觉 Transformer 用于多标签图像分类,[论文]
(arXiv 2021.12) MS-TCT:用于动作检测的多尺度时序 ConvTransformer,[论文]
(arXiv 2021.12) U^2-Former:一种用于图像修复的嵌套 U 形 Transformer,[论文]
(arXiv 2021.12) 用于点云分析的自适应通道编码 Transformer,[论文]
(arXiv 2021.12) VT-CLIP:利用视觉引导文本增强视觉-语言模型,[论文]
(arXiv 2021.12) PTTR:基于 Transformer 的关系型 3D 点云目标跟踪,[论文],[代码]
(arXiv 2021.12) GETAM:用于弱监督语义分割的梯度加权逐元素 Transformer 注意力图,[论文]
(arXiv 2021.12) LMR-CBT:使用 CB-Transformer 学习模态融合表征,用于从非对齐多模态序列中进行多模态情绪识别,[论文]
(arXiv 2021.12) 让长图像变短:视觉 Transformer 的自适应标记长度,[论文]
(arXiv 2021.12) FuseDream:无需训练的文本到图像生成,结合改进的CLIP+GAN 空间优化,[论文],[代码]
(arXiv 2021.12) 通过 Transformer 学习可泛化的针对可变形物体的视觉-触觉机器人抓取策略,[论文],[代码]
(arXiv 2021.12) Hformer:混合 CNN-Transformer 模型,用于条纹投影相位解包裹中的条纹级次预测,[论文]
(arXiv 2021.12) 用于fMRI 预测任务的 Transformer 预训练与微调,[论文]
(arXiv 2021.12) 基于 Transformer 的轨迹预测,[论文]
(arXiv 2021.12) 评估轻量级 Transformer 在动作识别中的表现,[论文]
(arXiv 2021.12) 基于自我监督的上下文化时空对比学习,[论文]
(arXiv 2021.12) CMA-CLIP:用于图像-文本分类的跨模态注意力CLIP,[论文]
(arXiv 2021.12) 自举ViT:迈向解放视觉 Transformer 的预训练束缚,[论文]
(arXiv 2021.12) 基于决策的黑盒攻击:通过逐块移除对抗样本攻击视觉 Transformer,[论文],[代码]
(arXiv 2021.12) DoodleFormer:用 Transformer 进行创意素描绘制,[论文]
(arXiv 2021.12) 利用模仿和自我监督学习创建多模态交互式智能体,[论文]
(arXiv 2021.12) 先分类后接地:将视频场景图重新表述为时间二分图,[论文]
(arXiv 2021.12) BLT:用于可控布局生成的双向布局Transformer,[论文]
(arXiv 2021.12) 双语、开放世界视频文本数据集及基于Transformer的端到端视频文本检测器,[论文],[代码],[数据集]
(arXiv 2021.12) DualFormer:用于高效视频识别的局部-全局分层Transformer,[论文],[代码]
(arXiv 2021.12) 快速点云Transformer,[论文]
(arXiv 2021.12) 用于多光谱目标检测的跨模态融合Transformer,[论文]
(arXiv 2021.12) PatchFormer:一种带有Patch注意力的高效****点云Transformer,[论文]
(arXiv 2021.12) 基于Transformer的方法,用于历史文献中联合进行手写文字和命名实体识别,[论文]
(arXiv 2021.12) 一次性搞定一切——用于视频检索的多模态融合Transformer,[论文]
(arXiv 2021.12) FLAVA:一个基础性的语言与视觉对齐模型,[论文]
(arXiv 2021.12) 用于文本驱动图像变换的嵌入算术,[论文]
(arXiv 2021.12) LAVT:面向指代式图像分割的语言感知视觉Transformer,[论文]
(arXiv 2021.12) Uni-Perceiver:用于零样本和少样本任务的通用感知统一预训练架构,[论文]
(arXiv 2021.12) DenseCLIP:基于语言引导的密集预测,采用上下文感知的提示策略,[论文],[代码]
(arXiv 2021.12) OW-DETR:开放世界检测Transformer,[论文]
(arXiv 2021.12) MTFNet:用于RGB-D显著性目标检测的互Transformer融合网络,[论文]
(arXiv 2021.12) TCTN:一种用于时空预测学习的3D-时间卷积Transformer网络,[论文]
(arXiv 2021.12) DenseCLIP:从CLIP中提取无需标注的密集标签,[论文]
(arXiv 2021.12) TransMEF:一种基于Transformer的多曝光图像融合框架,采用自监督多任务学习,[论文]
(arXiv 2021.12) 以目标为中心的无监督图像标题生成,[论文]
(arXiv 2021.12) 视觉配对学习:一种用于图像分类的高效训练框架,[论文]
(arXiv 2021.12) 用于场景文本识别的视觉-语义Transformer,[论文]
(arXiv 2021.12) 改进的多尺度视觉Transformer,用于分类和检测,[论文]
(arXiv 2021.12) BEVT:视频Transformer的BERT预训练,[论文]
(arXiv 2021.12) 通过弱监督进行人-物体交互检测,[论文]
(arXiv 2021.12) 学习Transformer特征用于图像质量评估,[论文]
(arXiv 2021.12) CLIP风格化器:仅需单个文本条件即可实现图像风格迁移,[论文]
(arXiv 2021.12) 基于Transformer的多视角立体视觉,[论文]
(arXiv 2021.12) VoRTX:基于Transformer的体素级视图选择与融合的体积3D重建,[论文],[代码]
2021年11月
(arXiv 2021.11) 预测、预防与评估:由预训练视觉-语言模型赋能的解耦式文本驱动图像操纵,[论文]
(arXiv 2021.11) NomMer:在视觉Transformer中提名协同上下文以用于视觉识别,[论文],[代码]
(arXiv 2021.11) PolyViT:在图像、视频和音频上对视觉Transformer进行联合训练,[论文]
(arXiv 2021.11) SWAT:标记内部及标记之间的空间结构,[论文]
(arXiv 2021.11) 自适应傅里叶神经算子:用于Transformer的高效标记混合器,[论文]
(arXiv 2021.11) DyTox:具有动态标记扩展功能的用于持续学习的Transformer,[论文],[代码]
(arXiv 2021.11) 通过Transformer进行冰球球员识别,[论文]
(arXiv 2021.11) 用于多模态Transformer的稀疏融合,[论文]
(arXiv 2021.11) PhysFormer:基于面部视频的生理测量,采用时差Transformer,[论文],[代码]
(arXiv 2021.11) 离散表示增强视觉Transformer的鲁棒性,[论文]
(arXiv 2021.11) TRAVLR:时隐时现!评估视觉-语言推理的跨模态迁移能力,[论文]
(arXiv 2021.11) 跨越文本与边界框的格式界限:迈向统一的视觉-语言建模,[论文]
(arXiv 2021.11) 半监督视觉Transformer,[论文]
(arXiv 2021.11) CpT:用于3D点云处理的卷积点Transformer,[论文]
(arXiv 2021.11) 使用视觉Transformer实现零样本认证的对抗补丁防御,[论文]
(arXiv 2021.11) PointMixer:用于点云理解的MLP-Mixer,[论文]
(arXiv 2021.11) Florence:一种新的计算机视觉基础模型,[论文]
(arXiv 2021.11) 使用视觉Transformer对检测迁移学习进行基准测试,[论文]
(arXiv 2021.11) 基于参考的磁共振图像重建,使用纹理Transformer,[论文]
(arXiv 2021.11) 引导、编辑、检索:面向教学视频检索的语言接地型多模态模式,[论文]
(arXiv 2021.11) Restormer:高效的Transformer用于高分辨率图像修复,[论文],[代码]
(arXiv 2021.11) 简单而有效:将CLIP嵌入用于具身AI,[论文]
(arXiv 2021.11) TransMix:为视觉Transformer提供注意力到混合的能力,[论文],[代码]
(arXiv 2021.11) TRIG:基于Transformer的文本识别器,带有初始嵌入引导,[论文]
(arXiv 2021.11) LiT:通过锁定图像和文本微调实现零样本迁移,[论文]
(arXiv 2021.11) FILIP:细粒度交互式语言-图像预训练,[论文]
(arXiv 2021.11) 图关系Transformer:将成对对象特征融入Transformer架构,[论文],[代码]
(arXiv 2021.11) 注意力机制近似稀疏分布式记忆,[论文]
(arXiv 2021.11) 混合BYOL-VIT:处理小数据集的有效方法,[论文]
(arXiv 2021.11) Tip-Adapter:无需训练的CLIP适配器,用于提升视觉-语言建模效果,[论文],[代码]
(arXiv 2021.11) 基于Transformer的令牌生成器提升图像合成的视觉质量,[论文]
(arXiv 2021.11) 视觉Transformer能否执行卷积操作?[论文]
(arXiv 2021.11) 使用Transformer进行牲畜监测,[论文]
(arXiv 2021.11) BoxeR:用于2D和3D Transformer的框注意力,[论文]
(arXiv 2021.11) VLDeformer:用于快速跨模态检索的视觉-语言分解Transformer,[论文]
(arXiv 2021.11) 场景表示Transformer:通过集合潜变量场景表示实现无几何约束的新视图合成,[论文],[项目]
(arXiv 2021.11) 通过超级令牌在视觉Transformer中进行全局交互建模,[论文]
(arXiv 2021.11) 通过双赢Transformer同时利用领域特定和不变知识,实现无监督领域适应,[论文]
(arXiv 2021.11) SWINBERT:具有稀疏注意力的端到端Transformer,用于视频字幕生成,[论文]
(arXiv 2021.11) 摊销提示:用于领域泛化中CLIP的轻量级微调,[论文]
(arXiv 2021.11) 通用字幕生成器:通过内容-风格分离进行长尾视觉-语言模型训练,[论文]
(arXiv 2021.11) 在Transformer扩展中,稀疏就足够了,[论文]
(arXiv 2021.11) HEAT:用于结构化重建的全息边缘注意力Transformer,[论文]
(arXiv 2021.11) 视觉Transformer的统一剪枝框架,[论文]
(arXiv 2021.11) 锥形对抗训练提升ViT性能,[论文]
(arXiv 2021.11) ,[论文]
(arXiv 2021.11) AdaViT:用于高效图像识别的自适应视觉Transformer,[论文]
(arXiv 2021.11) ATS:用于高效视觉Transformer的自适应令牌采样,[论文]
(arXiv 2021.11) CLIP与视频字幕生成器相遇:属性感知表征学习促进准确的字幕生成,[论文]
(arXiv 2021.11) CRIS:基于CLIP的引用式图像分割,[论文]
(arXiv 2021.11) MC-SSL0.0:迈向多概念自监督学习,[论文]
(arXiv 2021.11) TransWeather:基于Transformer的恶劣天气条件下退化图像恢复,[论文],[代码]
(arXiv 2021.11) TransMVSNet:具有全局上下文感知的基于Transformer的多视图立体网络,[论文],[代码]
(arXiv 2021.11) 用于解决视觉推理问题的循环视觉Transformer,[论文]
(arXiv 2021.11) 视频帧插值Transformer,[论文]
(arXiv 2021.11) LAFITE:迈向无语言指导的文本到图像生成训练,[论文]
(arXiv 2021.11) Point-BERT:通过掩码点建模预训练3D点云Transformer,[论文],[代码]
(arXiv 2021.11) MHFormer:用于3D人体姿态估计的多假设Transformer,[论文],[代码]
(arXiv 2021.11) 解放Transformer:基于离散吸收扩散的并行标记预测,用于从向量量化编码快速生成高分辨率图像,[论文],[代码]
(arXiv 2021.11) 自剪枝视觉Transformer,[论文]
(arXiv 2021.11) VIOLET:带有掩码视觉标记建模的端到端视频-语言Transformer,[论文],[代码]
(arXiv 2021.11) 一种轻量级图Transformer网络,用于从2D人体姿态重建人体网格,[论文]
(arXiv 2021.11) MorphMLP:一种无自注意力、类似MLP的图像和视频骨干网络,[论文]
(arXiv 2021.11) 八叉树Transformer:基于分层结构序列的自回归3D形状生成,[论文]
(arXiv 2021.11) 用于视频字幕生成的分层模块化网络,[论文]
(arXiv 2021.11) 图像块即波:相位感知视觉MLP,[论文]
(arXiv 2021.11) PTQ4ViT:视觉Transformer的量化后训练框架,[论文]
(arXiv 2021.11) PU-Transformer:点云上采样Transformer,[论文]
(arXiv 2021.11) 扩展视觉-语言预训练以用于图像字幕生成,[论文]
(arXiv 2021.11) Cerberus Transformer:联合进行语义、可用性和属性解析,[论文],[代码]
(arXiv 2021.11) 基于时空标记选择的高效视频Transformer,[论文]
(arXiv 2021.11) Vis-TOP:视觉Transformer叠加处理器,[论文]
(arXiv 2021.11) 在小型模型约束下重新思考视觉Transformer中的查询、键和值嵌入,[论文]
(arXiv 2021.11) UFO:用于视觉-语言表征学习的统一Transformer,[论文]
(arXiv 2021.11) 利用大规模视频转录推进高分辨率视频-语言表征,[论文]
(arXiv 2021.11) 零样本迁移学习的综合扩展,[论文]
(arXiv 2021.11) 简单而有效:用于具身AI的CLIP嵌入,[论文]
(arXiv 2021.11) 通过在补丁嵌入中使用PreLayerNorm提升视觉Transformer的鲁棒性,[论文]
(arXiv 2021.11) 掩码自编码器是可扩展的视觉学习者,[论文]
(arXiv 2021.11) 掩码引导的光谱域Transformer,用于高效的高光谱图像重建,[论文]
(arXiv 2021.11) CLIP2TV:关于基于Transformer的方法用于视频-文本检索的实证研究,[论文]
(arXiv 2021.11) 具有可变长度记忆的多模态Transformer,用于视觉-语言导航,[论文]
(arXiv 2021.11) 通过基于Token的生成器结合Transformer提升图像合成的视觉质量,[论文]
(arXiv 2021.11) 视觉Transformer能否执行卷积操作?[论文]
(arXiv 2021.11) HRViT:多尺度高分辨率视觉Transformer,[论文]
2021年10月
(arXiv 2021.10) 用于无监督域适应的分散Transformer网络,[论文]
(arXiv 2021.10) 散脑:统一稀疏与低秩注意力近似,[论文]
(arXiv 2021.10) UltraPose:通过人体解耦3D模型合成包含10亿个点的密集姿态,[论文],[数据与代码]
(arXiv 2021.10) SOAT:一种场景与对象感知的Transformer,用于视觉-语言导航,[论文]
(arXiv 2021.10) 基于CNN-Transformer编码器-解码器网络的孟加拉语图像标题生成,[论文]
(arXiv 2021.10) TriBERT:面向全身的人体中心音频-视觉表征学习,用于视觉声音分离,[论文]
(arXiv 2021.10) TNTC:基于Transformer互补性的双流网络,用于基于步态的情绪识别,[论文]
(arXiv 2021.10) IIP-Transformer:用于基于骨骼的动作识别的内部-外部部件Transformer,[论文],[代码]
(arXiv 2021.10) 沉浸式Transformer:具有双重随机注意力的Transformer,[论文]
(arXiv 2021.10) 通过深度特征工程学习文本-图像联合嵌入,以实现高效的跨模态检索,[论文]
(arXiv 2021.10) 面向人体姿态和形状估计的深度双流视频推理,[论文]
(arXiv 2021.10) 基于动态稀疏注意力的Transformer加速,[论文]
(arXiv 2021.10) 将视觉空间、语言和常识结构整合到故事可视化中,[论文]
(arXiv 2021.10) Gophormer:用于节点分类的自我图Transformer,[论文]
(arXiv 2021.10) STRANSGAN:关于Transformer在GAN中应用的实证研究,[论文],[代码]
(arXiv 2021.10) MVT:用于3D物体识别的多视角视觉Transformer,[论文]
(arXiv 2021.10) DocTr:用于几何去畸变和光照校正的文档图像Transformer,[论文],[代码]
(arXiv 2021.10) 基于CNN-Transformer编码器-解码器网络的孟加拉语图像标题生成,[论文]
(arXiv 2021.10) AFTer-UNet:轴向融合Transformer UNet用于医学图像分割,[论文]
(arXiv 2021.10) 3D-ANAS v2:在自动设计的卷积网络上嫁接Transformer模块,用于高光谱图像分类,[论文],[代码]
(arXiv 2021.10) CMTR:用于可见光-红外 行人重识别 的跨模态 Transformer,[论文]
(arXiv 2021.10) 3D-RETR:基于 Transformer 的端到端 单视图和多视图 3D 重建,[论文],[代码]
(arXiv 2021.10) HRFormer:用于 密集预测 的 高分辨率 Transformer,[论文],[代码]
(arXiv 2021.10) 利用动作捕捉数据进行 人体网格恢复,[论文]
(arXiv 2021.10) 一个好的 提示词 是否胜过数百万参数?面向 视觉-语言 模型的低资源提示词学习,[论文]
(arXiv 2021.10) 多模态 对话回复生成,[论文]
(arXiv 2021.10) 通过编排多模态说明手册理解 程序性知识,[论文]
(arXiv 2021.10) 用于 3D 点云序列 的时空 Transformer,[论文]
(arXiv 2021.10) TransFusion:基于 Transformer 的跨视角融合方法,用于 3D 人体姿态估计,[论文],[代码]
(arXiv 2021.10) 用于 双向图像和文本生成 的统一多模态 Transformer,[论文]
(arXiv 2021.10) 基于 高斯键 混合的 Transformer,[论文]
(arXiv 2021.10) DIFFUSIONCLIP:利用扩散模型进行 文本引导的图像操控,[论文]
(arXiv 2021.10) 视觉 Transformer 和 MLP-Mixer 对抗 CNN 的 鲁棒性 比较,[论文],[代码]
(arXiv 2021.10) 用于视觉感知的涟漪注意力机制,具有 次二次复杂度,[论文]
(arXiv 2021.10) CLIP-Forge:迈向零样本 文本到形状 生成,[论文]
(arXiv 2021.10) 通过基于补丁的负向增强来理解和提升视觉 Transformer 的 鲁棒性,[论文]
(arXiv 2021.10) 稀疏 MoE 遇上 高效集成,[论文]
(arXiv 2021.10) 用于交流的绘画共享 视觉表征:不同 偏见 如何影响人类的可解释性和意图?[论文]
(arXiv 2021.10) SignBERT:为 手语识别 预训练的手部模型感知表征,[论文]
(arXiv 2021.10) 在 自监督 视觉表征学习中,通过 Transformer 重振 CNN 注意力,[论文]
(arXiv 2021.10) 通过微调单个可训练模块来探究视觉 Transformer 和 CNN 的 迁移学习能力,[论文]
(arXiv 2021.10) CLIP4Caption ++:用于 视频字幕 的多 CLIP 方法,[论文]
(arXiv 2021.10) 基于 Transformer 的双关系图用于 多标签图像识别,[论文]
(arXiv 2021.10) 改进版 VQGAN 的 矢量量化图像建模,[论文]
(arXiv 2021.10) 用于 3D 人体姿态估计 的自适应多视图和时序融合 Transformer,[论文],[代码]
(arXiv 2021.10) NVIT:视觉 Transformer 的 压缩 和 参数再分配,[论文]
(arXiv 2021.10) 6D-ViT:基于 Transformer 的实例表征学习实现类别级 6D 物体姿态估计,[论文]
(arXiv 2021.10) ATISS:用于 室内场景合成 的自回归 Transformer,[论文],[代码] ,
(arXiv 2021.10) MOBILEVIT:轻量级、通用且 移动端 友好的视觉 Transformer,[论文]
(arXiv 2021.10) 视觉 Transformer 中的 标记池化,[论文]
(arXiv 2021.10) CLIP4Caption:用于 视频字幕 的 CLIP 方法,[论文]
(arXiv 2021.10) 利用注意力中的 冗余 进行重用 Transformer,[论文]
(arXiv 2021.10) 使用神经解释器进行 动态推理,[论文]
(arXiv 2021.10) 一种增强 CLIP 的 视频-语言 理解方法,[论文]
(arXiv 2021.10) 使用部件-求和 Transformer 结合复合查询进行 视觉关系检测,[论文]
(arXiv 2021.10) 通过查询和多尺度检测发现人类与大词汇量物体的交互,[论文]
(arXiv 2021.10) 学习用于食谱生成和食物检索的结构化表示,[论文]
(arXiv 2021.10) 来自ViT的免费午餐:用于细粒度视觉识别的自适应注意力多尺度融合Transformer,[论文]
2021年9月
(arXiv 2021.09) 从视频和文章中联合进行多媒体事件提取,[论文]
(arXiv 2021.09) 用于动态时空预测的长距离Transformer,[论文]
(arXiv 2021.09) 视觉接地的概念组合,[论文]
(arXiv 2021.09) CoSeg:受认知启发的无监督通用事件分割,[论文]
(arXiv 2021.09) CCTrans:用Transformer简化并改进人群计数,[论文]
(arXiv 2021.09) UFO-ViT:高性能线性视觉Transformer,无需Softmax,[论文]
(arXiv 2021.09) 复杂背景下基于Transformer的红外小尺寸目标检测,[论文]
(arXiv 2021.09) 几何纠缠的视觉语义Transformer用于图像字幕生成,[论文]
(arXiv 2021.09) 微调视觉Transformer以预测伊辛模型中的状态变量,[论文]
(arXiv 2021.09) MFEVIT:一种鲁棒轻量级基于Transformer的多模态2D+3D面部表情识别网络,[论文]
(arXiv 2021.09) 视觉Transformer哈希用于图像检索,[论文]
(arXiv 2021.09) PETA:使用Transformer注意力进行相册事件识别,[论文]
(arXiv 2021.09) MLIM:结合掩码语言和图像建模的视觉-语言模型预训练,[论文]
(arXiv 2021.09) 密集对比视觉-语言预训练,[论文]
(arXiv 2021.09) CPT:为预训练视觉-语言模型提供的彩色提示调整,[论文]
(arXiv 2021.09) CLIPORT:用于机器人操作的“是什么”和“在哪里”路径,[论文],[项目],[代码]
(arXiv 2021.09) 带有视觉接地的多模态增量Transformer用于视觉对话生成,[论文]
(arXiv 2021.09) LOTR:使用定位Transformer进行人脸关键点定位,[论文]
(arXiv 2021.09) Dyadformer:一种用于二元互动长程建模的多模态Transformer,[论文]
(arXiv 2021.09) SDTP:面向密集图像预测的语义感知解耦Transformer金字塔,[论文]
(arXiv 2021.09) KD-VLP:通过对象知识蒸馏改进端到端视觉-语言预训练,[论文]
(arXiv 2021.09) T6D-Direct:用于多目标6D姿态直接回归的Transformer,[论文]
(arXiv 2021.09) OH-Former:用于人员再识别的全关系高阶Transformer,[论文]
(arXiv 2021.09) PIX2SEQ:一个用于目标检测的语言建模框架,[论文]
(arXiv 2021.09) ActionCLIP:视频动作识别的新范式,[论文]
(arXiv 2021.09) BGT-Net:用于场景图生成的双向GRU Transformer网络,[论文]
(arXiv 2021.09) 混合局部-全局Transformer用于图像去雾,[论文]
(arXiv 2021.09) 半监督多尺度Transformer用于广角人像校正,[论文]
(arXiv 2021.09) 带有几何一致对象的标签注意力Transformer用于图像字幕生成,[论文]
(arXiv 2021.09) 姿势Transformer(POTR):使用非自回归Transformer进行人体运动预测,[论文],[代码]
(arXiv 2021.09) 学习为视觉对话中的视觉对象进行接地,[论文]
(arXiv 2021.09) CDTrans:用于无监督域适应的跨域Transformer,[论文]
(arXiv 2021.09) 具有多模态交互的时序金字塔Transformer用于视频问答,[论文]
(arXiv 2021.09) 线条作为视觉句子:用于视觉定位的上下文感知线条描述符,[论文]
(arXiv 2021.09) 负样本很重要:面向时序接地的距离度量学习的复兴,[论文]
(arXiv 2021.09) 全景叙事接地,[论文]
(arXiv 2021.09) GPT-3在少样本知识型VQA中的实证研究,[论文]
(arXiv 2021.09) PlaTe:在程序化任务中使用Transformer进行视觉接地规划,[论文],[项目]
(arXiv 2021.09) EfficientCLIP:通过集成置信学习和语言建模实现高效的跨模态预训练,[论文]
(arXiv 2021.09) 缩放ReLU对训练视觉Transformer至关重要,[论文]
(arXiv 2021.09) FuseFormer:在Transformer中融合细粒度信息以用于视频修复,[论文],[代码]
(arXiv 2021.09) GCsT:用于动作识别的图卷积骨架Transformer,[论文]
(arXiv 2021.09) WHYACT:在生活方式vlog中识别动作原因,[论文]
(arXiv 2021.09) 通过扩展CLIP实现零样本开放集检测,[论文]
(arXiv 2021.09) 向视觉Transformer发起可迁移的对抗攻击,[论文]
(arXiv 2021.09) UCTransNet:从通道视角出发,利用Transformer重新思考U-Net中的跳跃连接,[论文],[代码]
(arXiv 2021.09) TxT:基于Transformer的跨模态端到端学习,[论文]
(arXiv 2021.09) 视觉与语言,还是视觉为语言?关于多模态Transformer中的跨模态影响,[论文]
(arXiv 2021.09) 稀疏-MLP:一种具有条件计算的全MLP架构,[论文]
(arXiv 2021.09) 基于音频-视觉Transformer的人群计数,[论文]
(arXiv 2021.09) FUSFORMER:一种基于Transformer的融合方法,用于高光谱图像的超分辨率,[论文]
(arXiv 2021.09) 动画Transformer:通过片段匹配实现视觉对应关系,[论文]
(arXiv 2021.09) 用于3D目标检测的体素Transformer,[论文]
(arXiv 2021.09) 用于语义特征对应的联合图学习与匹配,[论文]
2021年8月
(arXiv 2021.08) SIGN:融入空间信息的生成网络,用于广义零样本语义分割,[论文]
(arXiv 2021.08) GroupFormer:基于聚类时空Transformer的群体活动识别,[论文],[代码]
(arXiv 2021.08) 网络结构之争:CNN、Transformer和MLP的实证研究,[论文]
(arXiv 2021.08) 探索与改进移动端视觉Transformer,[论文]
(arXiv 2021.08) 用于时空表征学习的移位分块Transformer,[论文]
(arXiv 2021.08) SASRA:面向连续环境中视觉-语言导航的语义感知时空推理智能体,[论文]
(arXiv 2021.08) 引导查询位置并执行相似注意力机制,用于基于Transformer的检测头,[论文]
(arXiv 2021.08) SIMVLM:利用弱监督进行的简单视觉语言模型预训练,[论文]
(arXiv 2021.08) TransFER:使用Transformer学习关系感知的面部表情表征,[论文]
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器