InternGPT
InternGPT(简称 iGPT)是一个开源的视觉交互演示平台,旨在让用户通过点击、拖拽和绘制等直观的指点操作,与 AI 模型进行高效互动。它突破了传统聊天机器人仅依赖纯文字输入的局限,显著提升了用户在处理复杂视觉任务时的沟通效率与指令准确度。
该平台不仅支持多模态对话,还集成了多种前沿 AI 能力,包括 DragGAN 交互式图像编辑、ImageBind 多感官理解、SAM 图像分割以及媲美 GPT-4 质量的 Husky 大模型对话系统。其核心技术亮点在于独特的“指点语言驱动”机制,配合辅助控制策略,让大型语言模型能更精准地理解视觉语境,实现“所指即所得”的交互体验。
InternGPT 非常适合研究人员探索多模态交互新范式,也便于开发者快速集成和展示自研 AI 模型。同时,由于提供了友好的在线演示和本地部署方案,对技术感兴趣的设计师及普通用户也能轻松上手,体验拖拽修图、跨模态搜索等创新功能。作为一个持续演进的项目,InternGPT 欢迎社区贡献代码,共同推动视觉交互技术的发展。
使用场景
一位电商设计师需要快速为新品海报调整模特姿态并生成配套营销文案,传统流程需在不同软件间反复切换。
没有 InternGPT 时
- 操作割裂低效:设计师需在 Photoshop 中手动液化修图调整姿态,再切换到写作工具构思文案,上下文频繁中断。
- 语言描述歧义大:仅靠文字指令(如“让模特手抬高一点”)难以精准传达视觉需求,导致 AI 生成的图片或文案多次返工。
- 多模态协同困难:无法直接将修改后的图像特征(如特定材质纹理)作为上下文输入给语言模型,导致文案与画面细节脱节。
- 技术门槛高:若要集成 DragGAN 或 SAM 等先进模型进行交互式编辑,需单独部署环境并编写复杂的对接代码。
使用 InternGPT 后
- 指点式交互流畅:设计师直接在 InternGPT 界面上通过点击、拖拽(DragGAN 功能)圈选模特手臂并拖动,实时完成姿态调整,无需切换软件。
- 视觉指令零歧义:利用“指向 - 语言”驱动机制,系统能精准理解“把这里(圈选区域)改成红色”的指令,大幅减少沟通试错成本。
- 多模态深度联动:调整后的图像自动成为对话上下文,InternGPT 内置的 Husky 模型能基于最新画面细节,瞬间生成高度契合的营销标语。
- 一站式模型集成:无需自行配置底层环境,InternGPT 已预集成 ChatGPT、SAM 及 ImageBind 等能力,开箱即用,让创意聚焦于内容本身。
InternGPT 通过创新的指点交互与多模态融合,将原本割裂的“修图 + 写作”流程重构为直观的视觉对话,显著提升了复杂视觉场景下的创作效率与准确度。
运行环境要求
- 未说明
- 必需 NVIDIA GPU
- 命令行参数显示模型需加载至 CUDA 设备(如 --load "..._cuda:0")
- 具体显存需求未明确说明,但文档提到已优化显存使用并建议使用 `-e` 标志节省内存
未说明

快速开始
该项目仍在建设中,我们将持续更新,并欢迎社区的贡献和拉取请求。

🤖💬 InternGPT [论文]
InternGPT(简称 iGPT)/ InternChat(简称 iChat)是一个基于指针语言驱动的视觉交互系统,允许用户通过点击、拖拽和绘制等指针操作与 ChatGPT 进行交互。InternGPT 的名称代表 interaction(交互)、nonverbal(非语言)和 ChatGPT。与依赖纯语言的现有交互系统不同,iGPT 通过引入指针指令,显著提升了用户与聊天机器人之间的沟通效率,以及聊天机器人在以视觉为中心的任务中的准确性,尤其是在复杂的视觉场景中。此外,在 iGPT 中,还使用了一种辅助控制机制来增强大语言模型的控制能力,并微调了一个名为 Husky 的大型视觉-语言模型,用于实现高质量的多模态对话(其表现甚至超越了 ChatGPT-3.5-turbo,达到了 93.89% GPT-4 质量)。
🤖💬 在线演示
InternGPT 已上线(请访问 https://igpt.opengvlab.com)。快来试试吧!
[注意] 您可能需要排队等待较长时间。您也可以克隆我们的仓库,并使用自己的 GPU 运行它。
https://github.com/OpenGVLab/InternGPT/assets/13723743/529abde4-5dce-48de-bb38-0a0c199bb980
https://github.com/OpenGVLab/InternGPT/assets/13723743/bacf3e58-6c24-4c0f-8cf7-e0c4b8b3d2af
https://github.com/OpenGVLab/InternGPT/assets/13723743/8fd9112f-57d9-4871-a369-4e1929aa2593
🥳 🚀 最新动态
(2023.06.19) 我们优化了工具执行时的 GPU 内存使用。请参阅 开始使用。
(2023.06.19) 我们更新了 INSTALL.md,提供了更详细的环境搭建说明。
(2023.05.31) 非常遗憾,由于一些紧急原因,我们不得不暂停在线演示。如果您想体验所有功能,请尝试在本地部署后进行。
(2023.05.24) 🎉🎉🎉 我们已支持 DragGAN! 使用方法请参见 视频演示。快来试试这个超酷的功能吧:演示。(我们现在支持了功能完全的DragGAN! 可以拖动、可以自定义图片,具体用法见video demo,复现的DragGAN代码在这里,在线demo在这里)
(2023.05.15) 包含 HuskyVQA 的 model_zoo 已发布!请在您的本地机器上试用!
(2023.05.15) 我们的代码也已在 Hugging Face 上公开!您可以复制该仓库,并在自己的 GPU 上运行。
🧭 用户手册
更新:
(2023.05.24) 我们现在支持 DragGAN。您可以按照以下步骤尝试:
- 点击“新建图像”按钮;
- 在图像上点击蓝色点作为起点,红色点作为终点;
- 请注意,蓝色点的数量必须与红色点的数量相同。然后点击“拖动”按钮;
- 处理完成后,您将获得一张编辑后的图像以及一段展示编辑过程的视频。
(2023.05.18) 我们现在支持 ImageBind。如果您希望根据音频生成新图像,可以提前上传音频文件:
- 如果要从单个音频文件生成新图像,您可以发送消息:“从这段音频生成一张真实图像”;
- 如果要结合音频和文本生成新图像,您可以发送消息:“从这段音频和 {您的提示} 生成一张真实图像”;
- 如果要结合音频和图片生成新图像,您需要先上传图片,然后发送消息:“从上述图片和音频生成一张新图像”。
主要功能:
上传图像后,您可以进行 多模态对话,例如发送消息:“图中是什么?”或“图片的背景颜色是什么?”。 您还可以通过以下方式对图像进行交互式操作、编辑或生成:
- 您可以点击图像并按下
Pick按钮来 可视化分割区域,或者按下OCR按钮来 识别选定位置的文字; - 若要 移除图像中的遮罩区域,您可以发送消息:“移除遮罩区域”;
- 若要 用其他内容替换图像中的遮罩区域,您可以发送消息:“用 {您的提示} 替换遮罩区域”;
- 若要 生成一张新图像,您可以发送消息:“根据图像的分割信息生成一张描述 {您的提示} 的新图像”;
- 若想通过手绘创建新图像,您需要按下
Whiteboard按钮并在画板上作画。完成绘画后,您需按下Save按钮,并发送消息:“根据这份草图生成一张描述 {您的提示} 的新图像”。
🗓️ 计划
- 支持 VisionLLM
- 支持中文
- 支持 MOSS
- 基于 InternImage 和 InternVideo 的更强大的基础模型
- 更精准的交互体验
- OpenMMLab 工具包
- 网页与代码生成
- 支持搜索引擎
- 低成本部署
- 支持 DragGAN
- 支持 ImageBind
- 智能体响应验证
- 提示词优化
- 用户手册和视频演示
- 支持语音助手
- 支持点击交互
- 交互式图像编辑
- 交互式图像生成
- 交互式视觉问答
- 任意物体分割
- 图像修复
- 图像描述
- 图像抠图
- 光学字符识别
- 动作识别
- 视频字幕
- 视频密集字幕
- 视频精彩片段解读
🏠 系统概览

🎁 主要功能
移除被遮挡的物体

交互式图像编辑

图像生成

交互式视觉问答

交互式图像生成

视频精彩片段解读

🛠️ 安装
请参阅 INSTALL.md
👨🏫 开始使用
运行以下命令即可启动一个包含我们基础功能的 Gradio 服务:
python -u app.py --load "HuskyVQA_cuda:0,SegmentAnything_cuda:0,ImageOCRRecognition_cuda:0" --port 3456 -e
若需启用语音助手,请使用 openssl 生成证书:
mkdir certificate
openssl req -x509 -newkey rsa:4096 -keyout certificate/key.pem -out certificate/cert.pem -sha256 -days 365 -nodes
然后运行:
python -u app.py --load "HuskyVQA_cuda:0,SegmentAnything_cuda:0,ImageOCRRecognition_cuda:0" \
--port 3456 --https -e
如需使用 iGPT 的全部功能,可运行:
python -u app.py \
--load "ImageOCRRecognition_cuda:0,Text2Image_cuda:0,SegmentAnything_cuda:0,ActionRecognition_cuda:0,VideoCaption_cuda:0,DenseCaption_cuda:0,ReplaceMaskedAnything_cuda:0,LDMInpainting_cuda:0,SegText2Image_cuda:0,ScribbleText2Image_cuda:0,Image2Scribble_cuda:0,Image2Canny_cuda:0,CannyText2Image_cuda:0,StyleGAN_cuda:0,Anything2Image_cuda:0,HuskyVQA_cuda:0" \
-p 3456 --https -e
请注意,-e 标志可以显著节省内存。
选择性加载功能
若您只想尝试 DragGAN,只需加载 StyleGAN 并打开 “DragGAN” 选项卡即可:
python -u app.py --load "StyleGAN_cuda:0" --tab "DragGAN" --port 3456 --https -e
在这种情况下,您只能使用 DragGAN 的功能,从而避免加载不必要的依赖项。
🎫 许可证
本项目采用 Apache 2.0 许可证 发布。
🖊️ 引用
如果您在研究中使用了本项目,请考虑引用:
@article{2023interngpt,
title={InternGPT: 通过与 ChatGPT 交互解决视觉中心任务},
author={刘兆阳、何一楠、王文海、王伟云、王毅、陈寿发、张庆龙、赖泽强、杨洋、李清云、俞嘉硕等},
journal={arXiv 预印本 arXiv:2305.05662},
year={2023}
}
🤝 致谢
感谢以下开源项目的贡献:
Hugging Face LangChain TaskMatrix SAM Stable Diffusion ControlNet InstructPix2Pix BLIP Latent Diffusion Models EasyOCR ImageBind DragGAN
欢迎与我们交流,共同持续提升 InternGPT 的用户体验。
如需加入我们的微信群,请扫描以下二维码添加我们的助理为微信好友:

常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备