T-Rex
T-Rex2 是一款面向通用物体检测的先进 AI 模型,由 IDEA Research 团队研发并发表于 ECCV 2024。它突破了传统检测器依赖固定类别的限制,通过“文本 - 视觉提示协同”技术,让用户能结合文字描述或简单的视觉交互(如点击、框选)来精准定位图像中的任意目标。无论是识别罕见物体、统计复杂场景中的数量,还是进行细粒度的图像标注,T-Rex2 都能提供零样本(Zero-shot)的高性能支持。
该工具主要解决了传统算法在面对开放世界场景时灵活性不足、泛化能力弱的痛点,将复杂的检测任务转化为更直观的交互式体验。其核心技术亮点在于能够深度融合语义理解与视觉特征,甚至支持将检测任务视为“下一个令牌预测”,展现出强大的多模态感知能力。
T-Rex2 非常适合计算机视觉研究人员探索前沿算法,也适用于开发者快速集成高精度检测功能到应用中。此外,基于该模型衍生的 Count Anything APP 和 T-Rex Label 工具,也让农业、制造业从业者及数据标注设计师能轻松实现自动化计数与高效数据集构建。无论你是希望深入底层代码的工程师,还是寻求提升工作效率的行业用户,T-Rex2 都提供了从 API 调用到开源部署的完整解决方案。
使用场景
某大型电商平台的运营团队需要每日从数万张商品实拍图中,快速提取特定新品(如“红色复古连衣裙”)的展示位置,以自动生成营销素材和库存报告。
没有 T-Rex 时
- 标注成本极高:面对海量非标准场景图片,人工逐帧框选目标物体耗时数天,且外包标注费用昂贵。
- 泛化能力不足:传统检测模型必须针对每类新品重新训练,无法直接识别未见过的新款式的“红色复古连衣裙”。
- 交互方式僵化:仅支持预设类别检测,无法通过自然语言描述(如“带有蕾丝边的袖子”)进行灵活筛选。
- 响应速度滞后:从提出需求到获得检测结果周期过长,错失营销热点窗口期。
使用 T-Rex 后
- 零样本即时检测:利用 T-Rex 的文本 - 视觉协同能力,直接输入文字提示即可精准定位从未训练过的商品,无需任何额外训练。
- 人机交互升级:运营人员可结合点击画面(视觉提示)与文字描述(文本提示),让 T-Rex 在复杂背景中精确锁定模糊目标。
- 工作流自动化:通过 API 将 T-Rex 集成至内部系统,实现上传图片即自动返回坐标数据,处理效率提升数十倍。
- 动态适应性强:面对季节性新品或突发营销需求,T-Rex 能立即理解新指令并输出高质量检测结果,大幅缩短上线周期。
T-Rex 通过将通用的物体检测转化为简单的“文本 + 视觉”提示任务,彻底打破了传统模型对训练数据的依赖,让非技术人员也能像对话一样操控计算机视觉。
运行环境要求
- 未说明
未说明 (项目主要提供云端 API 和本地 Gradio Demo,本地运行具体 GPU 需求未在 README 中列出)
未说明

快速开始
一张图片胜过千言万语,而围绕它的文字同样意义深远。
🔥 [2025/10/15] Rex-Omni: 还在使用传统检测器吗?我们已将目标检测转化为一个简单的“下一个标记预测”任务,借助多模态大语言模型实现!仅需一个模型(完全开源),即可达到零样本SOTA性能,同时解决检测、引用、OCR以及GUI对齐等问题。快来体验下一代感知模型吧!
📌 您可在此处获取API访问权限:https://cloud.deepdataspace.com/dashboard/usage。获得API密钥后,您可按照以下示例代码试用T-Rex2:https://github.com/IDEA-Research/T-Rex/tree/trex2/demo_examples
介绍视频 🎥
如果可以的话,请打开音乐 🎧
新闻 📰
- 2024-06-24: 我们基于T-Rex2推出了两款全新免费产品:
- Count Anything APP:CountAnything是一款多功能、高效且经济实惠的计数工具,采用先进的计算机视觉算法——特别是T-Rex——进行自动化计数。它适用于制造业、农业和水产养殖等多个行业。
- T-Rex Label:T-Rex Label是一款由T-Rex2驱动的先进标注工具,专为应对各行业及场景中的复杂需求而设计。它是希望简化工作流程并轻松创建高质量数据集的理想选择。
- 2024-05-17: Grounding DINO 1.5发布。这是IDEA Research推出的最强大的开放世界目标检测模型系列。只需通过文本提示,即可检测任何物体!
目录 📜
1. 介绍 📚
目标检测,即在图像中定位和识别物体的能力,是计算机视觉的基石,对自动驾驶、内容审核等应用至关重要。传统目标检测模型的一个显著局限性在于其封闭集特性。这些模型仅在预先确定的类别上进行训练,因此只能识别这些特定类别。训练过程本身也十分繁琐,需要专业知识、大规模数据集以及复杂的模型调优才能达到理想的精度。此外,一旦引入新的物体类别,这些挑战将进一步加剧,整个流程都需重新开始。
T-Rex2通过在一个模型中整合文本和视觉提示,充分发挥了两种模态的优势,从而克服了这些局限。文本与视觉提示的协同作用赋予了T-Rex2强大的零样本能力,使其成为不断变化的目标检测领域中的一款多功能工具。
T-Rex能做什么 📝
T-Rex2非常适合多种实际应用场景,包括但不限于:农业、工业、家畜和野生动物监测、生物学、医学、OCR、零售、电子、交通、物流等领域。T-Rex2主要支持三种主要工作流:交互式视觉提示工作流、通用视觉提示工作流和文本提示工作流。它可以覆盖大多数需要目标检测的应用场景。
2. 试用演示 🎮
我们现在开放T-Rex2的在线演示。请在此处查看演示
3. API使用示例📚
📌 您可在此处获取API访问权限:https://cloud.deepdataspace.com/dashboard/usage。获得API密钥后,您可按照以下示例代码试用T-Rex2:https://github.com/IDEA-Research/T-Rex/tree/trex2/demo_examples
设置
安装API包,并从邮件中获取API令牌。
git clone https://github.com/IDEA-Research/T-Rex.git
cd T-Rex
pip install dds-cloudapi-sdk==0.1.1
pip install -v -e .
交互式视觉提示 API
在交互式视觉提示工作流中,用户可以在给定的图像上以框或点的形式提供视觉提示,以指定要检测的对象。
python demo_examples/interactive_inference.py --token <your_token>- 您应该会在
demo_vis/目录下看到以下可视化结果:
- 您应该会在
通用视觉提示 API
在通用视觉提示工作流中,用户可以在一张参考图像上提供视觉提示,并在另一张图像上进行检测。
python demo_examples/generic_inference.py --token <your_token>- 您应该会在
demo_vis/目录下看到以下可视化结果:
+
=
- 您应该会在
自定义视觉提示嵌入 API
在这个工作流中,您可以使用多张图像为某个对象类别自定义一个视觉嵌入。利用这个嵌入,您可以在任何图像上进行检测。
python demo_examples/customize_embedding.py --token <your_token>
- 您应该会获得一个以
safetensors格式保存的视觉提示嵌入下载链接。请将其保存下来,以便用于embedding_inference。
嵌入式推理 API
借助之前 API 生成的视觉提示嵌入,您可以在任何图像上进行检测。
python demo_examples/embedding_inference.py --token <your_token>
4. 使用 API 的本地 Gradio 演示🎨
4.1. 设置
- 如果您尚未安装 T-Rex2 API,请先安装:
- 安装 Gradio 及其他依赖项
```bash
# 安装 Gradio 及其他依赖项
pip install gradio-image-prompter
4.2. 运行 Gradio 演示
python gradio_demo.py --trex2_api_token <your_token>
4.3. 基本操作
- 绘制框:在图像上绘制一个框来指定要检测的对象。按住鼠标左键拖动即可绘制框。
- 绘制点:在图像上绘制一个点来指定要检测的对象。单击鼠标左键即可绘制点。
- 交互式视觉提示:在给定图像上以框或点的形式提供视觉提示,以指定要检测的对象。输入的目标图像和交互式视觉提示图像应为同一张图像。
- 通用视觉提示:在多张参考图像上提供视觉提示,并在另一张图像上进行检测。
5. 相关工作
:fire: 我们发布了 DINOv 的训练与推理代码以及演示链接,该模型能够处理上下文相关的视觉提示,用于开放集和指代性检测与分割。欢迎查看!
6. 许可证
我们采用 IDEA License 1.0 许可协议。
BibTeX 📚
@misc{jiang2024trex2,
title={T-Rex2: Towards Generic Object Detection via Text-Visual Prompt Synergy},
author={Qing Jiang and Feng Li and Zhaoyang Zeng and Tianhe Ren and Shilong Liu and Lei Zhang},
year={2024},
eprint={2403.14610},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
Deep-Live-Cam
Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。
opencv
OpenCV 是一个功能强大的开源计算机视觉库,被誉为机器视觉领域的“瑞士军刀”。它主要解决让计算机“看懂”图像和视频的核心难题,提供了从基础的图像读取、色彩转换、边缘检测,到复杂的人脸识别、物体追踪、3D 重建及深度学习模型部署等全方位算法支持。无论是处理静态图片还是分析实时视频流,OpenCV 都能高效完成特征提取与模式识别任务。 这款工具特别适合计算机视觉开发者、人工智能研究人员以及机器人工程师使用。对于希望将视觉感知能力集成到应用中的软件工程师,或是需要快速验证算法原型的学术研究者,OpenCV 都是不可或缺的基础设施。虽然普通用户通常不会直接操作代码,但日常生活中使用的扫码支付、美颜相机和自动驾驶系统,背后往往都有它的身影。 OpenCV 的独特亮点在于其卓越的性能与广泛的兼容性。它采用 C++ 编写以确保高速运算,同时提供 Python、Java 等多种语言接口,极大降低了开发门槛。库中内置了数千种优化算法,并支持跨平台运行,能够无缝对接各类硬件加速器。作为社区驱动的项目,OpenCV 拥有活跃的生态系统和丰富的学习资源,持续推动着视觉技术的前沿发展。



