[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-OpenGVLab--InternGPT":3,"tool-OpenGVLab--InternGPT":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",143909,2,"2026-04-07T11:33:18",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":72,"owner_avatar_url":73,"owner_bio":74,"owner_company":75,"owner_location":75,"owner_email":76,"owner_twitter":77,"owner_website":75,"owner_url":78,"languages":79,"stars":96,"forks":97,"last_commit_at":98,"license":99,"difficulty_score":100,"env_os":101,"env_gpu":102,"env_ram":101,"env_deps":103,"category_tags":114,"github_topics":117,"view_count":32,"oss_zip_url":75,"oss_zip_packed_at":75,"status":17,"created_at":138,"updated_at":139,"faqs":140,"releases":171},5154,"OpenGVLab\u002FInternGPT","InternGPT","InternGPT (iGPT) is an open source demo platform where you can easily showcase your AI models. Now it supports DragGAN, ChatGPT, ImageBind, multimodal chat like GPT-4, SAM, interactive image editing, etc. Try it at igpt.opengvlab.com (支持DragGAN、ChatGPT、ImageBind、SAM的在线Demo系统)","InternGPT（简称 iGPT）是一个开源的视觉交互演示平台，旨在让用户通过点击、拖拽和绘制等直观的指点操作，与 AI 模型进行高效互动。它突破了传统聊天机器人仅依赖纯文字输入的局限，显著提升了用户在处理复杂视觉任务时的沟通效率与指令准确度。\n\n该平台不仅支持多模态对话，还集成了多种前沿 AI 能力，包括 DragGAN 交互式图像编辑、ImageBind 多感官理解、SAM 图像分割以及媲美 GPT-4 质量的 Husky 大模型对话系统。其核心技术亮点在于独特的“指点语言驱动”机制，配合辅助控制策略，让大型语言模型能更精准地理解视觉语境，实现“所指即所得”的交互体验。\n\nInternGPT 非常适合研究人员探索多模态交互新范式，也便于开发者快速集成和展示自研 AI 模型。同时，由于提供了友好的在线演示和本地部署方案，对技术感兴趣的设计师及普通用户也能轻松上手，体验拖拽修图、跨模态搜索等创新功能。作为一个持续演进的项目，InternGPT 欢迎社区贡献代码，共同推动视觉交互技术的发展。","[[中文文档]](README_CN.md)\n\n**The project is still under construction, we will continue to update it and welcome contributions\u002Fpull requests from the community.**\n\n\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_InternGPT_readme_b9118e303397.png\" width=\"600\">\u003C\u002Fp>\n\n\u003Ca src=\"https:\u002F\u002Fimg.shields.io\u002Fdiscord\u002F1099920215724277770?label=Discord&logo=discord\" href=\"https:\u002F\u002Fdiscord.gg\u002FkhWBFnCgAN\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fdiscord\u002F1099920215724277770?label=Discord&logo=discord\"> \u003C\u002Fa> | \u003Ca src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FGPU%20Demo-Open-green?logo=alibabacloud\" href=\"https:\u002F\u002Fichat.opengvlab.com\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDemo-Open-green?logo=alibabacloud\"> \u003C\u002Fa> | \u003Ca src=\"https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Ffollow\u002Fopengvlab?style=social\" href=\"https:\u002F\u002Ftwitter.com\u002Fopengvlab\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Ffollow\u002Fopengvlab?style=social\">  \u003C\u002Fa> \n    \n\n\n# 🤖💬 InternGPT [[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.05662.pdf)] \n\n\n\u003C!-- ## Description -->\n**InternGPT**(short for **iGPT**) \u002F **InternChat**(short for **iChat**) is pointing-language-driven visual interactive system, allowing you to interact with ChatGPT by clicking, dragging and drawing using a pointing device. The name InternGPT stands for **inter**action, **n**onverbal, and Chat**GPT**. Different from existing interactive systems that rely on pure language, by incorporating pointing instructions, iGPT significantly improves the efficiency of communication between users and chatbots, as well as the accuracy of chatbots in vision-centric tasks, especially in complicated visual scenarios. Additionally, in iGPT, an auxiliary control mechanism is used to improve the control capability of LLM, and a large vision-language model termed **Husky** is fine-tuned for high-quality multi-modal dialogue (impressing ChatGPT-3.5-turbo with **93.89% GPT-4 Quality**).\n\n\n## 🤖💬 Online Demo\n**InternGPT** is online (see [https:\u002F\u002Figpt.opengvlab.com](https:\u002F\u002Figpt.opengvlab.com\u002F)). Let's try it!\n\n[**NOTE**] It is possible that you are waiting in a lengthy queue. You can clone our repo and run it with your private GPU.\n\n\n**\u003Ca id=\"draggan_demo\">Video Demo with DragGAN: \u003C\u002Fa>**\n\nhttps:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternGPT\u002Fassets\u002F13723743\u002F529abde4-5dce-48de-bb38-0a0c199bb980\n\n**\u003Ca id=\"imagebind_demo\">Video Demo with ImageBind: \u003C\u002Fa>**\n\nhttps:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternGPT\u002Fassets\u002F13723743\u002Fbacf3e58-6c24-4c0f-8cf7-e0c4b8b3d2af\n\n**\u003Ca id=\"igpt_demo\">iGPT Video Demo: \u003C\u002Fa>**\n\nhttps:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternGPT\u002Fassets\u002F13723743\u002F8fd9112f-57d9-4871-a369-4e1929aa2593\n\n\n\n\n## 🥳 🚀 What's New \n- (2023.06.19) We optimize the GPU memory usage when executing the tools. Please refer to [Get Started](#get_started).\n\n- (2023.06.19) We update the [INSTALL.md](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternGPT\u002Fblob\u002Fmain\u002FINSTALL.md) which provides more detailed instructions for setting up environment.\n\n- (2023.05.31) It is with great regret that due to some emergency reasons, we have to suspend the online demo. If you want to experience all the features, please try them after deploying locally.\n\n- (2023.05.24) 🎉🎉🎉 We have supported the [DragGAN](https:\u002F\u002Fgithub.com\u002FZeqiang-Lai\u002FDragGAN)! Please see the [video demo](#draggan_demo) for the usage. Let's try this awesome feauture: [Demo](https:\u002F\u002Figpt.opengvlab.com\u002F). （我们现在支持了功能完全的[DragGAN](https:\u002F\u002Fgithub.com\u002FZeqiang-Lai\u002FDragGAN)! 可以拖动、可以自定义图片，具体用法见[video demo](#draggan_demo)，复现的DragGAN代码在[这里](https:\u002F\u002Fgithub.com\u002FZeqiang-Lai\u002FDragGAN)，在线demo在[这里](https:\u002F\u002Figpt.opengvlab.com\u002F)）\n\n- (2023.05.18) We have supported [ImageBind](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FImageBind). Please see the [video demo](#imagebind_demo) for the usage. \n\n- (2023.05.15) The [model_zoo](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FOpenGVLab\u002FInternGPT\u002Ftree\u002Fmain\u002Fmodel_zoo) including HuskyVQA has been released! Try it on your local machine!\n\n- (2023.05.15) Our code is also publicly available on [Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FOpenGVLab\u002FInternGPT)! You can duplicate the repository and run it on your own GPUs.\n\n### 🧭 User Manual\n\nUpdate:\n\n(2023.05.24) We now support [DragGAN](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10973). You can try it as follows:\n- Click the button `New Image`;\n- Click the image where blue denotes the start point and red denotes the end point;\n- Notice that the number of blue points is the same as the number of red points. Then you can click the button `Drag It`;\n- After processing, you will receive an edited image and a video that visualizes the editing process.\n\u003Cbr>\n\n(2023.05.18) We now support [ImageBind](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FImageBind). If you want to generate a new image conditioned on audio, you can upload an audio file in advance:\n- To **generate a new image from a single audio file**, you can send the message like: `\"generate a real image from this audio\"`;\n- To **generate a new image from audio and text**, you can send the message like: `\"generate a real image from this audio and {your prompt}\"`;\n- To **generate a new image from audio and image**, you need to upload an image and then send the message like: `\"generate a new image from above image and audio\"`.\n\n\u003Cbr>\n\n**Main features:**\n\nAfter uploading the image, you can have a **multi-modal dialogue** by sending messages like: `\"what is it in the image?\"` or `\"what is the background color of image?\"`.     \nYou also can interactively operate, edit or generate the image as follows:\n- You can click the image and press the button **`Pick`** to **visualize the segmented region** or press the button **`OCR`** to **recognize the words** at chosen position;\n- To **remove the masked reigon** in the image, you can send the message like: `\"remove the masked region\"`;\n- To **replace the masked reigon** in the image, you can send the message like: `\"replace the masked region with {your prompt}\"`;\n- To **generate a new image**, you can send the message like: `\"generate a new image based on its segmentation describing {your prompt}\"`\n- To **create a new image by your scribble**, you should press button **`Whiteboard`** and draw in the board. After drawing, you need to press the button **`Save`** and send the message like: `\"generate a new image based on this scribble describing {your prompt}\"`.\n\n\n## 🗓️ Schedule\n- [ ] Support [VisionLLM](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FVisionLLM)\n- [ ] Support Chinese\n- [ ] Support MOSS\n- [ ] More powerful foundation models based on [InternImage](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternImage) and [InternVideo](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVideo)\n- [ ] More accurate interactive experience\n- [ ] OpenMMLab toolkit\n- [ ] Web page & code generation \n- [ ] Support search engine \n- [ ] Low cost deployment\n- [x] Support [DragGAN](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10973)\n- [x] Support [ImageBind](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FImageBind)\n- [x] Response verification for agent\n- [x] Prompt optimization\n- [x] User manual and video demo\n- [x] Support voice assistant\n- [x] Support click interaction\n- [x] Interactive image editing\n- [x] Interactive image generation\n- [x] Interactive visual question answering\n- [x] Segment anything\n- [x] Image inpainting\n- [x] Image caption\n- [x] Image matting\n- [x] Optical character recognition\n- [x] Action recognition\n- [x] Video caption\n- [x] Video dense caption\n- [x] Video highlight interpretation\n\n\n## 🏠 System Overview\n\u003Cp align=\"center\">\u003Cimg width=\"800\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_InternGPT_readme_d84e6e105be0.png\" alt=\"arch\">\u003C\u002Fp>\n\n## 🎁 Major Features \n\u003Cdetails>\n\u003Csummary>Remove the masked object\u003C\u002Fsummary>\n\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_InternGPT_readme_aba1f94a2e84.gif\" width=\"500\">\u003C\u002Fp>\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>Interactive image editing\u003C\u002Fsummary>\n\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_InternGPT_readme_67e631467d17.gif\" width=\"500\">\u003C\u002Fp>\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>Image generation\u003C\u002Fsummary>\n\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_InternGPT_readme_8276efda2134.gif\" width=\"500\">\u003C\u002Fp>\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>Interactive visual question answer\u003C\u002Fsummary>\n\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_InternGPT_readme_0425d79a1c89.gif\" width=\"500\">\u003C\u002Fp>\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>Interactive image generation\u003C\u002Fsummary>\n\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_InternGPT_readme_85a15710ac42.png\" width=\"500\">\u003C\u002Fp>\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>Video highlight interpretation\u003C\u002Fsummary>\n\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_InternGPT_readme_e86de975cc4c.jpg\" width=\"500\">\u003C\u002Fp>\n\u003C\u002Fdetails>\n\n\n## 🛠️ Installation\n\nSee [INSTALL.md](INSTALL.md)\n\n## 👨‍🏫 \u003Ca id=\"get_started\">Get Started \u003C\u002Fa>\n\nRunning the following shell can start a gradio service for our basic features:\n```shell\npython -u app.py --load \"HuskyVQA_cuda:0,SegmentAnything_cuda:0,ImageOCRRecognition_cuda:0\" --port 3456 -e\n```\n\nif you want to enable the voice assistant, please use `openssl` to generate the certificate:\n```shell\nmkdir certificate\nopenssl req -x509 -newkey rsa:4096 -keyout certificate\u002Fkey.pem -out certificate\u002Fcert.pem -sha256 -days 365 -nodes\n```\n\nand then run:\n```shell\npython -u app.py --load \"HuskyVQA_cuda:0,SegmentAnything_cuda:0,ImageOCRRecognition_cuda:0\" \\\n--port 3456 --https -e\n```\n\nFor all features of our iGPT, you need to run:\n```shell\npython -u app.py \\\n--load \"ImageOCRRecognition_cuda:0,Text2Image_cuda:0,SegmentAnything_cuda:0,ActionRecognition_cuda:0,VideoCaption_cuda:0,DenseCaption_cuda:0,ReplaceMaskedAnything_cuda:0,LDMInpainting_cuda:0,SegText2Image_cuda:0,ScribbleText2Image_cuda:0,Image2Scribble_cuda:0,Image2Canny_cuda:0,CannyText2Image_cuda:0,StyleGAN_cuda:0,Anything2Image_cuda:0,HuskyVQA_cuda:0\" \\\n-p 3456 --https -e\n```\n\nNotice that `-e` flag can save a lot of memory.\n\n### Selectively Loading Features\nWhen you only want to try DragGAN, you just need to load StyleGAN and open the tab \"DragGAN\":\n```shell\npython -u app.py --load \"StyleGAN_cuda:0\" --tab \"DragGAN\" --port 3456 --https -e\n```\n\nIn this situation, you can only use the functions of DragGAN, which frees you from some dependencies that you are not interested in.\n\n## 🎫 License\n\nThis project is released under the [Apache 2.0 license](LICENSE). \n\n## 🖊️ Citation\n\nIf you find this project useful in your research, please consider cite:\n\n```BibTeX\n@article{2023interngpt,\n  title={InternGPT: Solving Vision-Centric Tasks by Interacting with ChatGPT Beyond Language},\n  author={Liu, Zhaoyang and He, Yinan and Wang, Wenhai and Wang, Weiyun and Wang, Yi and Chen, Shoufa and Zhang, Qinglong and Lai, Zeqiang and Yang, Yang and Li, Qingyun and Yu, Jiashuo and others},\n  journal={arXiv preprint arXiv:2305.05662},\n  year={2023}\n}\n```\n\n## 🤝 Acknowledgement\nThanks to the open source of the following projects:\n\n[Hugging Face](https:\u002F\u002Fgithub.com\u002Fhuggingface) &#8194;\n[LangChain](https:\u002F\u002Fgithub.com\u002Fhwchase17\u002Flangchain) &#8194;\n[TaskMatrix](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FTaskMatrix) &#8194;\n[SAM](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fsegment-anything) &#8194;\n[Stable Diffusion](https:\u002F\u002Fgithub.com\u002FCompVis\u002Fstable-diffusion) &#8194; \n[ControlNet](https:\u002F\u002Fgithub.com\u002Flllyasviel\u002FControlNet) &#8194; \n[InstructPix2Pix](https:\u002F\u002Fgithub.com\u002Ftimothybrooks\u002Finstruct-pix2pix) &#8194; \n[BLIP](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002FBLIP) &#8194;\n[Latent Diffusion Models](https:\u002F\u002Fgithub.com\u002FCompVis\u002Flatent-diffusion) &#8194;\n[EasyOCR](https:\u002F\u002Fgithub.com\u002FJaidedAI\u002FEasyOCR)&#8194;\n[ImageBind](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FImageBind) &#8194;\n[DragGAN](https:\u002F\u002Fgithub.com\u002FXingangPan\u002FDragGAN) &#8194;\n\nWelcome to discuss with us and continuously improve the user experience of InternGPT.\n\nIf you want to join our WeChat group, please scan the following QR Code to add our assistant as a Wechat friend:\n\n\u003Cp align=\"center\">\u003Cimg width=\"300\" alt=\"image\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_InternGPT_readme_4ec5ca7b3d5a.png\">\u003C\u002Fp> \n\n\n\n\n","[[中文文档]](README_CN.md)\n\n**该项目仍在建设中，我们将持续更新，并欢迎社区的贡献和拉取请求。**\n\n\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_InternGPT_readme_b9118e303397.png\" width=\"600\">\u003C\u002Fp>\n\n\u003Ca href=\"https:\u002F\u002Fimg.shields.io\u002Fdiscord\u002F1099920215724277770?label=Discord&logo=discord\" target=\"_blank\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fdiscord\u002F1099920215724277770?label=Discord&logo=discord\"> \u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FGPU%20Demo-Open-green?logo=alibabacloud\" target=\"_blank\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDemo-Open-green?logo=alibabacloud\"> \u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Ffollow\u002Fopengvlab?style=social\" target=\"_blank\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Ffollow\u002Fopengvlab?style=social\">  \u003C\u002Fa> \n    \n\n\n# 🤖💬 InternGPT [[论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.05662.pdf)] \n\n\n\u003C!-- ## 描述 -->\n**InternGPT**（简称 **iGPT**）\u002F **InternChat**（简称 **iChat**）是一个基于指针语言驱动的视觉交互系统，允许用户通过点击、拖拽和绘制等指针操作与 ChatGPT 进行交互。InternGPT 的名称代表 **inter**action（交互）、**n**onverbal（非语言）和 Chat**GPT**。与依赖纯语言的现有交互系统不同，iGPT 通过引入指针指令，显著提升了用户与聊天机器人之间的沟通效率，以及聊天机器人在以视觉为中心的任务中的准确性，尤其是在复杂的视觉场景中。此外，在 iGPT 中，还使用了一种辅助控制机制来增强大语言模型的控制能力，并微调了一个名为 **Husky** 的大型视觉-语言模型，用于实现高质量的多模态对话（其表现甚至超越了 ChatGPT-3.5-turbo，达到了 **93.89% GPT-4 质量**）。\n\n\n## 🤖💬 在线演示\n**InternGPT** 已上线（请访问 [https:\u002F\u002Figpt.opengvlab.com](https:\u002F\u002Figpt.opengvlab.com\u002F)）。快来试试吧！\n\n[**注意**] 您可能需要排队等待较长时间。您也可以克隆我们的仓库，并使用自己的 GPU 运行它。\n\n\n**\u003Ca id=\"draggan_demo\">DragGAN 视频演示：\u003C\u002Fa>**\n\nhttps:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternGPT\u002Fassets\u002F13723743\u002F529abde4-5dce-48de-bb38-0a0c199bb980\n\n**\u003Ca id=\"imagebind_demo\">ImageBind 视频演示：\u003C\u002Fa>**\n\nhttps:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternGPT\u002Fassets\u002F13723743\u002Fbacf3e58-6c24-4c0f-8cf7-e0c4b8b3d2af\n\n**\u003Ca id=\"igpt_demo\">iGPT 视频演示：\u003C\u002Fa>**\n\nhttps:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternGPT\u002Fassets\u002F13723743\u002F8fd9112f-57d9-4871-a369-4e1929aa2593\n\n\n\n\n## 🥳 🚀 最新动态 \n- (2023.06.19) 我们优化了工具执行时的 GPU 内存使用。请参阅 [开始使用](#get_started)。\n\n- (2023.06.19) 我们更新了 [INSTALL.md](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternGPT\u002Fblob\u002Fmain\u002FINSTALL.md)，提供了更详细的环境搭建说明。\n\n- (2023.05.31) 非常遗憾，由于一些紧急原因，我们不得不暂停在线演示。如果您想体验所有功能，请尝试在本地部署后进行。\n\n- (2023.05.24) 🎉🎉🎉 我们已支持 [DragGAN](https:\u002F\u002Fgithub.com\u002FZeqiang-Lai\u002FDragGAN)! 使用方法请参见 [视频演示](#draggan_demo)。快来试试这个超酷的功能吧：[演示](https:\u002F\u002Figpt.opengvlab.com\u002F)。（我们现在支持了功能完全的[DragGAN](https:\u002F\u002Fgithub.com\u002FZeqiang-Lai\u002FDragGAN)! 可以拖动、可以自定义图片，具体用法见[video demo](#draggan_demo)，复现的DragGAN代码在[这里](https:\u002F\u002Fgithub.com\u002FZeqiang-Lai\u002FDragGAN)，在线demo在[这里](https:\u002F\u002Figpt.opengvlab.com\u002F)）\n\n- (2023.05.18) 我们已支持 [ImageBind](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FImageBind)。使用方法请参见 [视频演示](#imagebind_demo)。\n\n- (2023.05.15) 包含 HuskyVQA 的 [model_zoo](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FOpenGVLab\u002FInternGPT\u002Ftree\u002Fmain\u002Fmodel_zoo) 已发布！请在您的本地机器上试用！\n\n- (2023.05.15) 我们的代码也已在 [Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FOpenGVLab\u002FInternGPT) 上公开！您可以复制该仓库，并在自己的 GPU 上运行。\n\n### 🧭 用户手册\n\n更新：\n\n(2023.05.24) 我们现在支持 [DragGAN](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10973)。您可以按照以下步骤尝试：\n- 点击“新建图像”按钮；\n- 在图像上点击蓝色点作为起点，红色点作为终点；\n- 请注意，蓝色点的数量必须与红色点的数量相同。然后点击“拖动”按钮；\n- 处理完成后，您将获得一张编辑后的图像以及一段展示编辑过程的视频。\n\u003Cbr>\n\n(2023.05.18) 我们现在支持 [ImageBind](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FImageBind)。如果您希望根据音频生成新图像，可以提前上传音频文件：\n- 如果要从单个音频文件生成新图像，您可以发送消息：“从这段音频生成一张真实图像”；\n- 如果要结合音频和文本生成新图像，您可以发送消息：“从这段音频和 {您的提示} 生成一张真实图像”；\n- 如果要结合音频和图片生成新图像，您需要先上传图片，然后发送消息：“从上述图片和音频生成一张新图像”。\n\n\u003Cbr>\n\n**主要功能：**\n\n上传图像后，您可以进行 **多模态对话**，例如发送消息：“图中是什么？”或“图片的背景颜色是什么？”。\n您还可以通过以下方式对图像进行交互式操作、编辑或生成：\n- 您可以点击图像并按下 **`Pick`** 按钮来 **可视化分割区域**，或者按下 **`OCR`** 按钮来 **识别选定位置的文字**；\n- 若要 **移除图像中的遮罩区域**，您可以发送消息：“移除遮罩区域”；\n- 若要 **用其他内容替换图像中的遮罩区域**，您可以发送消息：“用 {您的提示} 替换遮罩区域”；\n- 若要 **生成一张新图像**，您可以发送消息：“根据图像的分割信息生成一张描述 {您的提示} 的新图像”；\n- 若想通过手绘创建新图像，您需要按下 **`Whiteboard`** 按钮并在画板上作画。完成绘画后，您需按下 **`Save`** 按钮，并发送消息：“根据这份草图生成一张描述 {您的提示} 的新图像”。\n\n## 🗓️ 计划\n- [ ] 支持 [VisionLLM](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FVisionLLM)\n- [ ] 支持中文\n- [ ] 支持 MOSS\n- [ ] 基于 [InternImage](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternImage) 和 [InternVideo](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVideo) 的更强大的基础模型\n- [ ] 更精准的交互体验\n- [ ] OpenMMLab 工具包\n- [ ] 网页与代码生成\n- [ ] 支持搜索引擎\n- [ ] 低成本部署\n- [x] 支持 [DragGAN](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10973)\n- [x] 支持 [ImageBind](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FImageBind)\n- [x] 智能体响应验证\n- [x] 提示词优化\n- [x] 用户手册和视频演示\n- [x] 支持语音助手\n- [x] 支持点击交互\n- [x] 交互式图像编辑\n- [x] 交互式图像生成\n- [x] 交互式视觉问答\n- [x] 任意物体分割\n- [x] 图像修复\n- [x] 图像描述\n- [x] 图像抠图\n- [x] 光学字符识别\n- [x] 动作识别\n- [x] 视频字幕\n- [x] 视频密集字幕\n- [x] 视频精彩片段解读\n\n\n## 🏠 系统概览\n\u003Cp align=\"center\">\u003Cimg width=\"800\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_InternGPT_readme_d84e6e105be0.png\" alt=\"arch\">\u003C\u002Fp>\n\n## 🎁 主要功能 \n\u003Cdetails>\n\u003Csummary>移除被遮挡的物体\u003C\u002Fsummary>\n\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_InternGPT_readme_aba1f94a2e84.gif\" width=\"500\">\u003C\u002Fp>\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>交互式图像编辑\u003C\u002Fsummary>\n\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_InternGPT_readme_67e631467d17.gif\" width=\"500\">\u003C\u002Fp>\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>图像生成\u003C\u002Fsummary>\n\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_InternGPT_readme_8276efda2134.gif\" width=\"500\">\u003C\u002Fp>\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>交互式视觉问答\u003C\u002Fsummary>\n\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_InternGPT_readme_0425d79a1c89.gif\" width=\"500\">\u003C\u002Fp>\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>交互式图像生成\u003C\u002Fsummary>\n\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_InternGPT_readme_85a15710ac42.png\" width=\"500\">\u003C\u002Fp>\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>视频精彩片段解读\u003C\u002Fsummary>\n\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_InternGPT_readme_e86de975cc4c.jpg\" width=\"500\">\u003C\u002Fp>\n\u003C\u002Fdetails>\n\n\n## 🛠️ 安装\n\n请参阅 [INSTALL.md](INSTALL.md)\n\n## 👨‍🏫 \u003Ca id=\"get_started\">开始使用 \u003C\u002Fa>\n\n运行以下命令即可启动一个包含我们基础功能的 Gradio 服务：\n```shell\npython -u app.py --load \"HuskyVQA_cuda:0,SegmentAnything_cuda:0,ImageOCRRecognition_cuda:0\" --port 3456 -e\n```\n\n若需启用语音助手，请使用 `openssl` 生成证书：\n```shell\nmkdir certificate\nopenssl req -x509 -newkey rsa:4096 -keyout certificate\u002Fkey.pem -out certificate\u002Fcert.pem -sha256 -days 365 -nodes\n```\n\n然后运行：\n```shell\npython -u app.py --load \"HuskyVQA_cuda:0,SegmentAnything_cuda:0,ImageOCRRecognition_cuda:0\" \\\n--port 3456 --https -e\n```\n\n如需使用 iGPT 的全部功能，可运行：\n```shell\npython -u app.py \\\n--load \"ImageOCRRecognition_cuda:0,Text2Image_cuda:0,SegmentAnything_cuda:0,ActionRecognition_cuda:0,VideoCaption_cuda:0,DenseCaption_cuda:0,ReplaceMaskedAnything_cuda:0,LDMInpainting_cuda:0,SegText2Image_cuda:0,ScribbleText2Image_cuda:0,Image2Scribble_cuda:0,Image2Canny_cuda:0,CannyText2Image_cuda:0,StyleGAN_cuda:0,Anything2Image_cuda:0,HuskyVQA_cuda:0\" \\\n-p 3456 --https -e\n```\n\n请注意，`-e` 标志可以显著节省内存。\n\n### 选择性加载功能\n若您只想尝试 DragGAN，只需加载 StyleGAN 并打开 “DragGAN” 选项卡即可：\n```shell\npython -u app.py --load \"StyleGAN_cuda:0\" --tab \"DragGAN\" --port 3456 --https -e\n```\n\n在这种情况下，您只能使用 DragGAN 的功能，从而避免加载不必要的依赖项。\n\n## 🎫 许可证\n\n本项目采用 [Apache 2.0 许可证](LICENSE) 发布。\n\n## 🖊️ 引用\n\n如果您在研究中使用了本项目，请考虑引用：\n\n```BibTeX\n@article{2023interngpt,\n  title={InternGPT: 通过与 ChatGPT 交互解决视觉中心任务},\n  author={刘兆阳、何一楠、王文海、王伟云、王毅、陈寿发、张庆龙、赖泽强、杨洋、李清云、俞嘉硕等},\n  journal={arXiv 预印本 arXiv:2305.05662},\n  year={2023}\n}\n```\n\n## 🤝 致谢\n感谢以下开源项目的贡献：\n\n[Hugging Face](https:\u002F\u002Fgithub.com\u002Fhuggingface) &#8194;\n[LangChain](https:\u002F\u002Fgithub.com\u002Fhwchase17\u002Flangchain) &#8194;\n[TaskMatrix](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FTaskMatrix) &#8194;\n[SAM](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fsegment-anything) &#8194;\n[Stable Diffusion](https:\u002F\u002Fgithub.com\u002FCompVis\u002Fstable-diffusion) &#8194; \n[ControlNet](https:\u002F\u002Fgithub.com\u002Flllyasviel\u002FControlNet) &#8194; \n[InstructPix2Pix](https:\u002F\u002Fgithub.com\u002Ftimothybrooks\u002Finstruct-pix2pix) &#8194; \n[BLIP](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002FBLIP) &#8194;\n[Latent Diffusion Models](https:\u002F\u002Fgithub.com\u002FCompVis\u002Flatent-diffusion) &#8194;\n[EasyOCR](https:\u002F\u002Fgithub.com\u002FJaidedAI\u002FEasyOCR)&#8194;\n[ImageBind](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FImageBind) &#8194;\n[DragGAN](https:\u002F\u002Fgithub.com\u002FXingangPan\u002FDragGAN) &#8194;\n\n欢迎与我们交流，共同持续提升 InternGPT 的用户体验。\n\n如需加入我们的微信群，请扫描以下二维码添加我们的助理为微信好友：\n\n\u003Cp align=\"center\">\u003Cimg width=\"300\" alt=\"image\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_InternGPT_readme_4ec5ca7b3d5a.png\">\u003C\u002Fp>","# InternGPT 快速上手指南\n\nInternGPT (iGPT) 是一个指点语言驱动的视觉交互系统，允许用户通过点击、拖拽和绘制等指点操作与 ChatGPT 进行交互。它显著提升了多模态任务（如图像编辑、生成、问答）的沟通效率和准确性。\n\n## 1. 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 18.04+)\n*   **GPU**: 支持 CUDA 的 NVIDIA 显卡（建议显存 16GB 以上以运行完整功能，单功能可酌情降低）\n*   **Python**: 3.8 或更高版本\n*   **依赖管理**: 推荐使用 `conda` 创建独立虚拟环境\n*   **其他工具**: `git`, `openssl` (若需启用语音助手功能)\n\n> **注意**：本项目依赖较多深度学习库，建议使用国内镜像源加速安装过程。\n\n## 2. 安装步骤\n\n### 2.1 克隆项目\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternGPT.git\ncd InternGPT\n```\n\n### 2.2 创建并激活虚拟环境\n```bash\nconda create -n igpt python=3.8 -y\nconda activate igpt\n```\n\n### 2.3 安装依赖\n请参考项目根目录下的详细安装文档 [`INSTALL.md`](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternGPT\u002Fblob\u002Fmain\u002FINSTALL.md) 进行依赖安装。通常步骤如下（具体请以最新 INSTALL.md 为准）：\n\n```bash\n# 示例：安装基础依赖（请根据实际 INSTALL.md 调整）\npip install -r requirements.txt\n```\n\n> **提示**：如果遇到下载速度慢的问题，可临时使用国内 pip 源：\n> `pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`\n\n### 2.4 下载模型权重\n项目所需的模型权重（包括 HuskyVQA 等）托管在 Hugging Face。\n*   模型仓库地址：[OpenGVLab\u002FInternGPT model_zoo](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FOpenGVLab\u002FInternGPT\u002Ftree\u002Fmain\u002Fmodel_zoo)\n*   请将下载的模型放置在代码指定的目录下（通常为 `model_zoo` 文件夹）。\n\n## 3. 基本使用\n\n启动服务前，请确保已正确加载模型权重。以下命令将启动一个基于 Gradio 的本地 Web 服务。\n\n### 3.1 启动基础功能\n运行以下命令启动包含核心功能（视觉问答、分割、OCR）的服务：\n\n```shell\npython -u app.py --load \"HuskyVQA_cuda:0,SegmentAnything_cuda:0,ImageOCRRecognition_cuda:0\" --port 3456 -e\n```\n\n*   `--load`: 指定要加载的模型及设备（cuda:0 表示第一块显卡）。\n*   `-e`: 启用内存优化模式，显著降低显存占用。\n*   启动后，在浏览器访问 `http:\u002F\u002Flocalhost:3456` 即可使用。\n\n### 3.2 启用语音助手（可选）\n若需使用语音交互功能，需先生成 SSL 证书：\n\n```shell\nmkdir certificate\nopenssl req -x509 -newkey rsa:4096 -keyout certificate\u002Fkey.pem -out certificate\u002Fcert.pem -sha256 -days 365 -nodes\n```\n\n然后使用 `--https` 参数启动：\n\n```shell\npython -u app.py --load \"HuskyVQA_cuda:0,SegmentAnything_cuda:0,ImageOCRRecognition_cuda:0\" --port 3456 --https -e\n```\n\n### 3.3 体验特定功能：DragGAN\n如果您只想体验图像拖拽编辑功能（DragGAN），无需加载所有模型，可运行：\n\n```shell\npython -u app.py --load \"StyleGAN_cuda:0\" --tab \"DragGAN\" --port 3456 --https -e\n```\n\n### 3.4 全功能启动\n若要体验所有支持的功能（包括图像生成、修复、视频理解等），请运行：\n\n```shell\npython -u app.py \\\n--load \"ImageOCRRecognition_cuda:0,Text2Image_cuda:0,SegmentAnything_cuda:0,ActionRecognition_cuda:0,VideoCaption_cuda:0,DenseCaption_cuda:0,ReplaceMaskedAnything_cuda:0,LDMInpainting_cuda:0,SegText2Image_cuda:0,ScribbleText2Image_cuda:0,Image2Scribble_cuda:0,Image2Canny_cuda:0,CannyText2Image_cuda:0,StyleGAN_cuda:0,Anything2Image_cuda:0,HuskyVQA_cuda:0\" \\\n-p 3456 --https -e\n```\n\n## 4. 快速操作示例\n\n进入 Web 界面后，您可以尝试以下交互：\n\n1.  **多模态对话**: 上传图片，发送 `\"what is it in the image?\"` 询问图片内容。\n2.  **区域分割与识别**:\n    *   点击图片任意位置，点击 **`Pick`** 按钮可视化分割区域。\n    *   点击文字区域，点击 **`OCR`** 按钮识别文字。\n3.  **图像编辑**:\n    *   选中区域后，发送 `\"remove the masked region\"` 移除物体。\n    *   发送 `\"replace the masked region with a cat\"` 将选中区域替换为猫。\n4.  **DragGAN 拖拽编辑**:\n    *   点击 `New Image` 上传或生成图片。\n    *   在图上标记蓝色点（起始点）和红色点（目标点），确保数量一致。\n    *   点击 `Drag It` 按钮执行拖拽编辑。\n5.  **涂鸦生成**:\n    *   点击 **`Whiteboard`** 进行手绘涂鸦，点击 **`Save`**。\n    *   发送 `\"generate a new image based on this scribble describing a sunset\"` 基于涂鸦生成图像。","一位电商设计师需要快速为新品海报调整模特姿态并生成配套营销文案，传统流程需在不同软件间反复切换。\n\n### 没有 InternGPT 时\n- **操作割裂低效**：设计师需在 Photoshop 中手动液化修图调整姿态，再切换到写作工具构思文案，上下文频繁中断。\n- **语言描述歧义大**：仅靠文字指令（如“让模特手抬高一点”）难以精准传达视觉需求，导致 AI 生成的图片或文案多次返工。\n- **多模态协同困难**：无法直接将修改后的图像特征（如特定材质纹理）作为上下文输入给语言模型，导致文案与画面细节脱节。\n- **技术门槛高**：若要集成 DragGAN 或 SAM 等先进模型进行交互式编辑，需单独部署环境并编写复杂的对接代码。\n\n### 使用 InternGPT 后\n- **指点式交互流畅**：设计师直接在 InternGPT 界面上通过点击、拖拽（DragGAN 功能）圈选模特手臂并拖动，实时完成姿态调整，无需切换软件。\n- **视觉指令零歧义**：利用“指向 - 语言”驱动机制，系统能精准理解“把这里（圈选区域）改成红色”的指令，大幅减少沟通试错成本。\n- **多模态深度联动**：调整后的图像自动成为对话上下文，InternGPT 内置的 Husky 模型能基于最新画面细节，瞬间生成高度契合的营销标语。\n- **一站式模型集成**：无需自行配置底层环境，InternGPT 已预集成 ChatGPT、SAM 及 ImageBind 等能力，开箱即用，让创意聚焦于内容本身。\n\nInternGPT 通过创新的指点交互与多模态融合，将原本割裂的“修图 + 写作”流程重构为直观的视觉对话，显著提升了复杂视觉场景下的创作效率与准确度。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_InternGPT_2d3c94d7.png","OpenGVLab","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FOpenGVLab_4422f20f.jpg","General Vision Team of Shanghai AI Laboratory",null,"opengvlab@gmail.com","opengvlab","https:\u002F\u002Fgithub.com\u002FOpenGVLab",[80,84,88,92],{"name":81,"color":82,"percentage":83},"Python","#3572A5",98.1,{"name":85,"color":86,"percentage":87},"Cuda","#3A4E3A",1.4,{"name":89,"color":90,"percentage":91},"Dockerfile","#384d54",0.3,{"name":93,"color":94,"percentage":95},"C++","#f34b7d",0.2,3208,235,"2026-04-06T12:05:30","Apache-2.0",4,"未说明","必需 NVIDIA GPU。命令行参数显示模型需加载至 CUDA 设备（如 --load \"..._cuda:0\"）。具体显存需求未明确说明，但文档提到已优化显存使用并建议使用 `-e` 标志节省内存。",{"notes":104,"python":101,"dependencies":105},"1. 详细的环境安装步骤请参考项目中的 INSTALL.md 文件。\n2. 若需启用语音助手功能，必须使用 OpenSSL 生成 SSL 证书。\n3. 支持选择性加载模型功能（通过 --load 参数），例如仅运行 DragGAN 时可只加载 StyleGAN 以减少依赖和资源占用。\n4. 启动命令中的 `-e` 标志可显著节省显存。\n5. 项目处于建设中，部分在线演示可能暂停，建议本地部署体验完整功能。",[106,107,108,109,110,111,112,113],"Gradio (用于启动服务)","OpenSSL (用于生成语音助手的 HTTPS 证书)","HuskyVQA (视觉问答模型)","SegmentAnything (SAM)","DragGAN \u002F StyleGAN","ImageBind","Stable Diffusion \u002F ControlNet","EasyOCR",[14,13,35,115,52,15,116],"其他","视频",[118,119,120,121,122,123,124,125,126,127,128,129,130,131,132,133,134,135,136,137],"chatgpt","foundation-model","gpt","gpt-4","gradio","husky","image-captioning","langchain","llm","multimodal","vqa","internimage","llama","vicuna","video-generation","sam","segment-anything","click","imagebind","draggan","2026-03-27T02:49:30.150509","2026-04-08T01:46:42.266751",[141,146,151,156,161,166],{"id":142,"question_zh":143,"answer_zh":144,"source_url":145},23389,"使用 conda 安装 PyTorch 时卡在 'Solving environment' 怎么办？","如果遇到环境解析卡住的问题，可以尝试移除具体的 cuda 版本限定符，使用以下命令进行安装：\nconda install pytorch==1.13.0 torchvision==0.14.0 torchaudio==0.13.0 -c pytorch -c nvidia","https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternGPT\u002Fissues\u002F68",{"id":147,"question_zh":148,"answer_zh":149,"source_url":150},23387,"如何加入项目的微信群？","请扫描以下二维码添加助手为微信好友以加入群组：https:\u002F\u002Fuser-images.githubusercontent.com\u002F26198430\u002F253845075-e3f0807f-956a-474e-8fd2-1f7c22d73997.png","https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternGPT\u002Fissues\u002F46",{"id":152,"question_zh":153,"answer_zh":154,"source_url":155},23388,"为什么报错找不到 LLAMA 模型文件（params.json）？","由于许可证限制，项目无法直接提供 LLAMA 的原始检查点。您需要自行填写申请表单向 Meta (Facebook) 请求下载链接。获取模型后，请确保将其放置在代码预期的目录中（如 model_zoo\u002Fllama\u002F7B\u002F）。详细指令请参考：https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fllama","https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternGPT\u002Fissues\u002F5",{"id":157,"question_zh":158,"answer_zh":159,"source_url":160},23390,"是否有 Docker 部署方案以简化环境配置？","项目已提供 Docker 支持。中国大陆用户请参考：https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternGPT\u002Fblob\u002Fmain\u002FREADME_CN.md#%E4%BD%BF%E7%94%A8docker%E9%83%A8%E7%BD%B2；其他地区用户请参考：https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternGPT\u002Fblob\u002Fmain\u002FINSTALL.md#deploying-with-docker","https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternGPT\u002Fissues\u002F18",{"id":162,"question_zh":163,"answer_zh":164,"source_url":165},23391,"系统是如何根据用户输入选择视觉模型的？如果不用特定关键词怎么办？","当前版本主要通过识别输入中的特定关键词（如 'remove' 对应修复模型，'describe' 对应问答模型）来调度视觉模型。对于不使用标准关键词的自然语言输入（例如用 'take out' 代替 'remove'），当前版本可能无法准确识别。开发团队正在处理此问题，计划在 InternGPT v2 版本中通过升级模型来解决自然语言的歧义性问题，提升泛化能力。","https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternGPT\u002Fissues\u002F52",{"id":167,"question_zh":168,"answer_zh":169,"source_url":170},23392,"运行 Gradio Demo 时报错 'AssertionError: Expected a list of lists or list of tuples. Received: None' 如何解决？","该错误通常由环境配置或启动参数不匹配导致。遇到此类问题时，建议提供详细的运行环境信息（如 Python 版本、依赖包版本）以及完整的启动命令和操作步骤，以便维护者复现并定位具体问题。目前社区中有多人反馈此问题，需检查是否所有依赖模型均已正确加载且显存充足。","https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternGPT\u002Fissues\u002F19",[]]