[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-microsoft--SoM":3,"tool-microsoft--SoM":62},[4,18,26,35,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,2,"2026-04-18T11:18:24",[14,15,13],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":32,"last_commit_at":41,"category_tags":42,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[43,13,15,14],"插件",{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":10,"last_commit_at":50,"category_tags":51,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[52,15,13,14],"语言模型",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[14,15,13,61],"视频",{"id":63,"github_repo":64,"name":65,"description_en":66,"description_zh":67,"ai_summary_zh":68,"readme_en":69,"readme_zh":70,"quickstart_zh":71,"use_case_zh":72,"hero_image_url":73,"owner_login":74,"owner_name":75,"owner_avatar_url":76,"owner_bio":77,"owner_company":78,"owner_location":78,"owner_email":79,"owner_twitter":80,"owner_website":81,"owner_url":82,"languages":83,"stars":107,"forks":108,"last_commit_at":109,"license":110,"difficulty_score":111,"env_os":112,"env_gpu":113,"env_ram":114,"env_deps":115,"category_tags":123,"github_topics":78,"view_count":32,"oss_zip_url":78,"oss_zip_packed_at":78,"status":17,"created_at":125,"updated_at":126,"faqs":127,"releases":157},9862,"microsoft\u002FSoM","SoM","[arXiv 2023] Set-of-Mark Prompting for GPT-4V and LMMs","SoM（Set-of-Mark）是一种专为提升多模态大模型（如 GPT-4V）视觉理解能力而设计的提示工程技术。它核心解决了大模型在处理复杂图像时难以精准定位和区分具体对象的痛点。传统方法中，模型往往因缺乏明确的空间指引而产生幻觉或指代不清，而 SoM 通过在图像上自动叠加带有编号或标签的空间标记（如边界框、分割掩码），将抽象的视觉区域转化为模型可识别的“可说话”标记，从而显著增强其视觉定位（Visual Grounding）精度。\n\n这项技术的独特亮点在于其“即插即用”的特性：它不依赖重新训练模型，而是利用 Mask DINO、Segment Anything 等先进的分割与检测算法生成标记层，直接作为提示输入给现有大模型。这使得 GPT-4V 等模型能更准确地执行细粒度任务，如复杂的 GUI 导航、零样本异常检测及网页交互操作。\n\nSoM 非常适合 AI 研究人员、开发者以及需要构建高精度视觉应用的技术团队使用。对于希望探索多模态模型潜力、开发智能体（Agent）或解决特定视觉推理难题的用户而言，SoM 提供了一套高效、开源的工具箱，能够轻松集成到现有工作流中，让视觉提示真正赋能人","SoM（Set-of-Mark）是一种专为提升多模态大模型（如 GPT-4V）视觉理解能力而设计的提示工程技术。它核心解决了大模型在处理复杂图像时难以精准定位和区分具体对象的痛点。传统方法中，模型往往因缺乏明确的空间指引而产生幻觉或指代不清，而 SoM 通过在图像上自动叠加带有编号或标签的空间标记（如边界框、分割掩码），将抽象的视觉区域转化为模型可识别的“可说话”标记，从而显著增强其视觉定位（Visual Grounding）精度。\n\n这项技术的独特亮点在于其“即插即用”的特性：它不依赖重新训练模型，而是利用 Mask DINO、Segment Anything 等先进的分割与检测算法生成标记层，直接作为提示输入给现有大模型。这使得 GPT-4V 等模型能更准确地执行细粒度任务，如复杂的 GUI 导航、零样本异常检测及网页交互操作。\n\nSoM 非常适合 AI 研究人员、开发者以及需要构建高精度视觉应用的技术团队使用。对于希望探索多模态模型潜力、开发智能体（Agent）或解决特定视觉推理难题的用户而言，SoM 提供了一套高效、开源的工具箱，能够轻松集成到现有工作流中，让视觉提示真正赋能人工智能。","# \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_SoM_readme_fe4c8ac84665.png\" alt=\"Logo\" width=\"40\" height=\"40\" align=\"left\"> Set-of-Mark Visual Prompting for GPT-4V\n\n:grapes: \\[[Read our arXiv Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.11441.pdf)\\] &nbsp; :apple: \\[[Project Page](https:\u002F\u002Fsom-gpt4v.github.io\u002F)\\] \n\n[Jianwei Yang](https:\u002F\u002Fjwyang.github.io\u002F)\\*⚑, [Hao Zhang](https:\u002F\u002Fhaozhang534.github.io\u002F)\\*, [Feng Li](https:\u002F\u002Ffengli-ust.github.io\u002F)\\*, [Xueyan Zou](https:\u002F\u002Fmaureenzou.github.io\u002F)\\*, [Chunyuan Li](https:\u002F\u002Fchunyuan.li\u002F), [Jianfeng Gao](https:\u002F\u002Fwww.microsoft.com\u002Fen-us\u002Fresearch\u002Fpeople\u002Fjfgao\u002F)\n\n\\* Core Contributors &nbsp;&nbsp;&nbsp;&nbsp; ⚑ Project Lead\n\n### Introduction\n\nWe present **S**et-**o**f-**M**ark (SoM) prompting, simply overlaying a number of spatial and speakable marks on the images, to unleash the visual grounding abilities in the strongest LMM -- GPT-4V. **Let's using visual prompting for vision**!\n\n![method2_xyz](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_SoM_readme_0a775777370e.png)\n\n\n### GPT-4V + SoM Demo\n\nhttps:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FSoM\u002Fassets\u002F3894247\u002F8f827871-7ebd-4a5e-bef5-861516c4427b\n\n### 🔥 News\n* [04\u002F25] We release SoM-LLaVA, with a new dataset to empower open-source MLLMs with SoM Prompting. Check it out! [SoM-LLaVA](https:\u002F\u002Fgithub.com\u002Fzzxslp\u002FSoM-LLaVA)\n* [11\u002F21] Thanks to Roboflow and @SkalskiP, a [huggingface demo](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FRoboflow\u002FSoM) for SoM + GPT-4V is online! Try it out!\n* [11\u002F07] We released the vision benchmark we used to evaluate GPT-4V with SoM prompting! Check out the [benchmark page](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FSoM\u002Ftree\u002Fmain\u002Fbenchmark)!\n\n* [11\u002F07] Now that GPT-4V API has been released, we are releasing a demo integrating SoM into GPT-4V! \n```bash\nexport OPENAI_API_KEY=YOUR_API_KEY\npython demo_gpt4v_som.py\n```\n\n* [10\u002F23] We released the SoM toolbox code for generating set-of-mark prompts for GPT-4V. Try it out!\n\n### 🔗 Fascinating Applications\n\nFascinating applications of SoM in GPT-4V:\n* [11\u002F13\u002F2023] [Smartphone GUI Navigation boosted by Set-of-Mark Prompting](https:\u002F\u002Fgithub.com\u002Fzzxslp\u002FMM-Navigator)\n* [11\u002F05\u002F2023] [Zero-shot Anomaly Detection with GPT-4V and SoM prompting](https:\u002F\u002Fgithub.com\u002Fzhangzjn\u002FGPT-4V-AD)\n* [10\u002F21\u002F2023] [Web UI Navigation Agent inspired by Set-of-Mark Prompting](https:\u002F\u002Fgithub.com\u002Fddupont808\u002FGPT-4V-Act)\n* [10\u002F20\u002F2023] [Set-of-Mark Prompting Reimplementation by @SkalskiP from Roboflow](https:\u002F\u002Fgithub.com\u002FSkalskiP\u002FSoM.git)\n\n### 🔗 Related Works\n\nOur method compiles the following models to generate the set of marks:\n\n- [Mask DINO](https:\u002F\u002Fgithub.com\u002FIDEA-Research\u002FMaskDINO): State-of-the-art closed-set image segmentation model\n- [OpenSeeD](https:\u002F\u002Fgithub.com\u002FIDEA-Research\u002FOpenSeeD): State-of-the-art open-vocabulary image segmentation model\n- [GroundingDINO](https:\u002F\u002Fgithub.com\u002FIDEA-Research\u002FGroundingDINO): State-of-the-art open-vocabulary object detection model\n- [SEEM](https:\u002F\u002Fgithub.com\u002FUX-Decoder\u002FSegment-Everything-Everywhere-All-At-Once): Versatile, promptable, interactive and semantic-aware segmentation model\n- [Semantic-SAM](https:\u002F\u002Fgithub.com\u002FUX-Decoder\u002FSemantic-SAM): Segment and recognize anything at any granularity\n- [Segment Anything](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fsegment-anything): Segment anything\n\nWe are standing on the shoulder of the giant GPT-4V ([playground](https:\u002F\u002Fchat.openai.com\u002F))!\n\n### :rocket: Quick Start\n\n* Install segmentation packages\n\n```bash\n# install SEEM\npip install git+https:\u002F\u002Fgithub.com\u002FUX-Decoder\u002FSegment-Everything-Everywhere-All-At-Once.git@package\n# install SAM\npip install git+https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fsegment-anything.git\n# install Semantic-SAM\npip install git+https:\u002F\u002Fgithub.com\u002FUX-Decoder\u002FSemantic-SAM.git@package\n# install Deformable Convolution for Semantic-SAM\ncd ops && bash make.sh && cd ..\n\n# common error fix:\npython -m pip install 'git+https:\u002F\u002Fgithub.com\u002FMaureenZOU\u002Fdetectron2-xyz.git'\n```\n\n* Download the pretrained models\n\n```bash\nsh download_ckpt.sh\n```\n\n* Run the demo\n\n```bash\npython demo_som.py\n```\n\nAnd you will see this interface:\n\n![som_toolbox](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_SoM_readme_7729ca90d701.jpg)\n\n## Deploy to AWS\n\nTo deploy SoM to EC2 on AWS via Github Actions:\n\n1. Fork this repository and clone your fork to your local machine.\n2. Follow the instructions at the top of `deploy.py`.\n\n### :point_right: Comparing standard GPT-4V and its combination with SoM Prompting\n![teaser_github](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_SoM_readme_4daeece40ad9.png)\n\n### :round_pushpin: SoM Toolbox for image partition\n![method3_xyz](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_SoM_readme_35675a8cd8b0.png)\nUsers can select which granularity of masks to generate, and which mode to use between automatic (top) and interactive (bottom). A higher alpha blending value (0.4) is used for better visualization.\n### :unicorn: Interleaved Prompt\nSoM enables interleaved prompts which include textual and visual content. The visual content can be represented using the region indices.\n\u003Cimg width=\"975\" alt=\"Screenshot 2023-10-18 at 10 06 18\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_SoM_readme_05e76393ddbb.png\">\n\n### :medal_military: Mark types used in SoM\n![method4_xyz](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_SoM_readme_a935e62e2e5c.png)\n### :volcano: Evaluation tasks examples\n\u003Cimg width=\"946\" alt=\"Screenshot 2023-10-18 at 10 12 18\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_SoM_readme_c546f158ee5d.png\">\n\n## Use case\n### :tulip: Grounded Reasoning and Cross-Image Reference\n\n\u003Cimg width=\"972\" alt=\"Screenshot 2023-10-18 at 10 10 41\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_SoM_readme_ec345f17b2f5.png\">\n\nIn comparison to GPT-4V without SoM, adding marks enables GPT-4V to ground the\nreasoning on detailed contents of the image (Left). Clear object cross-image references are observed\non the right.\n17\n### :camping: Problem Solving\n\u003Cimg width=\"972\" alt=\"Screenshot 2023-10-18 at 10 18 03\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_SoM_readme_146cbf4dd2b7.png\">\n\nCase study on solving CAPTCHA. GPT-4V gives the wrong answer with a wrong number\nof squares while finding the correct squares with corresponding marks after SoM prompting.\n### :mountain_snow: Knowledge Sharing\n\u003Cimg width=\"733\" alt=\"Screenshot 2023-10-18 at 10 18 44\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_SoM_readme_aabd3db03527.png\">\n\nCase study on an image of dish for GPT-4V. GPT-4V does not produce a grounded answer\nwith the original image. Based on SoM prompting, GPT-4V not only speaks out the ingredients but\nalso corresponds them to the regions.\n### :mosque: Personalized Suggestion\n\u003Cimg width=\"733\" alt=\"Screenshot 2023-10-18 at 10 19 12\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_SoM_readme_e7b036fa5ee9.png\">\n\nSoM-pormpted GPT-4V gives very precise suggestions while the original one fails, even\nwith hallucinated foods, e.g., soft drinks\n### :blossom: Tool Usage Instruction\n\u003Cimg width=\"734\" alt=\"Screenshot 2023-10-18 at 10 19 39\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_SoM_readme_0a7c020cce5c.png\">\nLikewise, GPT4-V with SoM can help to provide thorough tool usage instruction\n, teaching\nusers the function of each button on a controller. Note that this image is not fully labeled, while\nGPT-4V can also provide information about the non-labeled buttons.\n\n### :sunflower: 2D Game Planning\n\u003Cimg width=\"730\" alt=\"Screenshot 2023-10-18 at 10 20 03\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_SoM_readme_f8e4ae1d10e4.png\">\n\nGPT-4V with SoM gives a reasonable suggestion on how to achieve a goal in a gaming\nscenario.\n### :mosque: Simulated Navigation\n\u003Cimg width=\"729\" alt=\"Screenshot 2023-10-18 at 10 21 24\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_SoM_readme_a05056717ad0.png\">\n\n### :deciduous_tree: Results\nWe conduct experiments on various vision tasks to verify the effectiveness of our SoM. Results show that GPT4V+SoM outperforms specialists on most vision tasks and is comparable to MaskDINO on COCO panoptic segmentation.\n![main_results](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_SoM_readme_34b87f02a149.png)\n\n## :black_nib: Citation\n\nIf you find our work helpful for your research, please consider citing the following BibTeX entry.   \n```bibtex\n@article{yang2023setofmark,\n      title={Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V}, \n      author={Jianwei Yang and Hao Zhang and Feng Li and Xueyan Zou and Chunyuan Li and Jianfeng Gao},\n      journal={arXiv preprint arXiv:2310.11441},\n      year={2023},\n}\n```\n","# \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_SoM_readme_fe4c8ac84665.png\" alt=\"Logo\" width=\"40\" height=\"40\" align=\"left\"> 针对GPT-4V的标记集合视觉提示\n\n:grapes: \\[[阅读我们的arXiv论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.11441.pdf)\\] &nbsp; :apple: \\[[项目页面](https:\u002F\u002Fsom-gpt4v.github.io\u002F)\\] \n\n[Jianwei Yang](https:\u002F\u002Fjwyang.github.io\u002F)\\*⚑, [Hao Zhang](https:\u002F\u002Fhaozhang534.github.io\u002F)\\*, [Feng Li](https:\u002F\u002Ffengli-ust.github.io\u002F)\\*, [Xueyan Zou](https:\u002F\u002Fmaureenzou.github.io\u002F)\\*, [Chunyuan Li](https:\u002F\u002Fchunyuan.li\u002F), [Jianfeng Gao](https:\u002F\u002Fwww.microsoft.com\u002Fen-us\u002Fresearch\u002Fpeople\u002Fjfgao\u002F)\n\n\\* 核心贡献者 &nbsp;&nbsp;&nbsp;&nbsp; ⚑ 项目负责人\n\n### 简介\n\n我们提出了**S**et-**o**f-**M**ark (SoM) 提示方法，即在图像上简单叠加若干空间和可语音化的标记，以充分释放最强多模态大模型——GPT-4V中的视觉定位能力。**让我们用视觉提示来增强视觉理解力吧！**\n\n![method2_xyz](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_SoM_readme_0a775777370e.png)\n\n\n### GPT-4V + SoM 演示\n\nhttps:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FSoM\u002Fassets\u002F3894247\u002F8f827871-7ebd-4a5e-bef5-861516c4427b\n\n### 🔥 最新消息\n* [04\u002F25] 我们发布了SoM-LLaVA，并附带了一个新的数据集，旨在通过SoM提示增强开源多模态大模型的能力。快来看看吧！[SoM-LLaVA](https:\u002F\u002Fgithub.com\u002Fzzxslp\u002FSoM-LLaVA)\n* [11\u002F21] 感谢Roboflow和@SkalskiP，一个关于SoM + GPT-4V的[Hugging Face演示](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FRoboflow\u002FSoM)已经上线了！快来试试吧！\n* [11\u002F07] 我们发布了用于评估GPT-4V结合SoM提示效果的视觉基准测试！请查看[基准测试页面](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FSoM\u002Ftree\u002Fmain\u002Fbenchmark)！\n\n* [11\u002F07] 随着GPT-4V API的发布，我们推出了一款将SoM集成到GPT-4V中的演示程序！ \n```bash\nexport OPENAI_API_KEY=YOUR_API_KEY\npython demo_gpt4v_som.py\n```\n\n* [10\u002F23] 我们发布了用于为GPT-4V生成标记集合提示的SoM工具箱代码。快来试一试吧！\n\n### 🔗 引人入胜的应用场景\n\nSoM在GPT-4V中的引人入胜的应用：\n* [2023年11月13日] [基于标记集合提示的智能手机GUI导航增强](https:\u002F\u002Fgithub.com\u002Fzzxslp\u002FMM-Navigator)\n* [2023年11月5日] [使用GPT-4V和SoM提示进行零样本异常检测](https:\u002F\u002Fgithub.com\u002Fzhangzjn\u002FGPT-4V-AD)\n* [2023年10月21日] [受标记集合提示启发的Web UI导航智能体](https:\u002F\u002Fgithub.com\u002Fddupont808\u002FGPT-4V-Act)\n* [2023年10月20日] [由Roboflow的@SkalskiP重新实现的标记集合提示](https:\u002F\u002Fgithub.com\u002FSkalskiP\u002FSoM.git)\n\n### 🔗 相关工作\n我们的方法整合了以下模型来生成标记集合：\n\n- [Mask DINO](https:\u002F\u002Fgithub.com\u002FIDEA-Research\u002FMaskDINO)：最先进的封闭集图像分割模型\n- [OpenSeeD](https:\u002F\u002Fgithub.com\u002FIDEA-Research\u002FOpenSeeD)：最先进的开放词汇图像分割模型\n- [GroundingDINO](https:\u002F\u002Fgithub.com\u002FIDEA-Research\u002FGroundingDINO)：最先进的开放词汇目标检测模型\n- [SEEM](https:\u002F\u002Fgithub.com\u002FUX-Decoder\u002FSegment-Everything-Everywhere-All-At-Once)：多功能、可提示、交互式且语义感知的分割模型\n- [Semantic-SAM](https:\u002F\u002Fgithub.com\u002FUX-Decoder\u002FSemantic-SAM)：可在任何粒度下分割并识别任何内容\n- [Segment Anything](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fsegment-anything)：可分割任何内容\n\n我们站在GPT-4V这一巨人的肩膀上（[体验平台](https:\u002F\u002Fchat.openai.com\u002F)）！\n\n### :rocket: 快速入门\n\n* 安装分割相关包\n\n```bash\n# 安装SEEM\npip install git+https:\u002F\u002Fgithub.com\u002FUX-Decoder\u002FSegment-Everything-Everywhere-All-At-Once.git@package\n# 安装SAM\npip install git+https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fsegment-anything.git\n# 安装Semantic-SAM\npip install git+https:\u002F\u002Fgithub.com\u002FUX-Decoder\u002FSemantic-SAM.git@package\n# 安装用于Semantic-SAM的可变形卷积\ncd ops && bash make.sh && cd ..\n\n# 常见错误修复：\npython -m pip install 'git+https:\u002F\u002Fgithub.com\u002FMaureenZOU\u002Fdetectron2-xyz.git'\n```\n\n* 下载预训练模型\n\n```bash\nsh download_ckpt.sh\n```\n\n* 运行演示程序\n\n```bash\npython demo_som.py\n```\n\n你将会看到如下界面：\n\n![som_toolbox](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_SoM_readme_7729ca90d701.jpg)\n\n## 部署到AWS\n\n要通过Github Actions将SoM部署到AWS的EC2实例上：\n\n1. 分支本仓库并将你的分支克隆到本地。\n2. 按照`deploy.py`文件顶部的说明操作。\n\n### :point_right: 标准GPT-4V与其结合SoM提示的对比\n![teaser_github](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_SoM_readme_4daeece40ad9.png)\n\n### :round_pushpin: SoM工具箱用于图像分割\n![method3_xyz](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_SoM_readme_35675a8cd8b0.png)\n用户可以选择生成何种粒度的掩码，以及是在自动模式（上方）还是交互模式（下方）之间进行切换。为了更好的可视化效果，采用了较高的混合透明度值（0.4）。\n### :unicorn: 交错提示\nSoM支持包含文本和视觉内容的交错提示。视觉内容可以通过区域索引来表示。\n\u003Cimg width=\"975\" alt=\"Screenshot 2023-10-18 at 10 06 18\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_SoM_readme_05e76393ddbb.png\">\n\n### :medal_military: SoM中使用的标记类型\n![method4_xyz](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_SoM_readme_a935e62e2e5c.png)\n### :volcano: 评估任务示例\n\u003Cimg width=\"946\" alt=\"Screenshot 2023-10-18 at 10 12 18\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_SoM_readme_c546f158ee5d.png\">\n\n## 使用场景\n### :tulip: 基于图像的推理与跨图像引用\n\n\u003Cimg width=\"972\" alt=\"Screenshot 2023-10-18 at 10 10 41\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_SoM_readme_ec345f17b2f5.png\">\n\n与未使用SoM提示的GPT-4V相比，添加标记后，GPT-4V能够将推理建立在图像的详细内容之上（左）。右侧则清晰地展示了对象之间的跨图像引用。\n17\n### :camping: 问题解决\n\u003Cimg width=\"972\" alt=\"Screenshot 2023-10-18 at 10 18 03\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_SoM_readme_146cbf4dd2b7.png\">\n\n以解决CAPTCHA为例。GPT-4V在没有标记的情况下给出了错误的答案，未能正确识别方块数量；而在经过SoM提示后，它不仅找到了正确的方块，还准确地将它们与对应的标记关联起来。\n### :mountain_snow: 知识分享\n\u003Cimg width=\"733\" alt=\"Screenshot 2023-10-18 at 10 18 44\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_SoM_readme_aabd3db03527.png\">\n\n以一道菜肴的图片为例。GPT-4V在原始图像的基础上无法给出有依据的回答。而借助SoM提示，GPT-4V不仅能够说出食材，还能将这些食材与图像中的相应区域一一对应。\n### :mosque: 个性化建议\n\u003Cimg width=\"733\" alt=\"Screenshot 2023-10-18 at 10 19 12\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_SoM_readme_e7b036fa5ee9.png\">\n\n经过SoM提示的GPT-4V给出了非常精确的建议，而原始版本则失败了，甚至出现了幻觉性的食物，例如软饮料。\n\n### :blossom: 工具使用说明\n\u003Cimg width=\"734\" alt=\"2023-10-18 10:19:39 截图\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_SoM_readme_0a7c020cce5c.png\">\n同样地，结合 SoM 的 GPT4-V 可以帮助提供详尽的工具使用说明，教导用户控制器上每个按钮的功能。请注意，这张图片并未完全标注，而 GPT-4V 也能补充说明未标注按钮的相关信息。\n\n### :sunflower: 2D 游戏策划\n\u003Cimg width=\"730\" alt=\"2023-10-18 10:20:03 截图\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_SoM_readme_f8e4ae1d10e4.png\">\n\n结合 SoM 的 GPT-4V 能够针对游戏场景中的目标达成给出合理的建议。\n\n### :mosque: 模拟导航\n\u003Cimg width=\"729\" alt=\"2023-10-18 10:21:24 截图\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_SoM_readme_a05056717ad0.png\">\n\n### :deciduous_tree: 实验结果\n我们针对多种视觉任务开展了实验，以验证所提出 SoM 方法的有效性。结果表明，GPT4V+SoM 在大多数视觉任务上均优于专业模型，在 COCO 全景分割任务上与 MaskDINO 持平。\n![main_results](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_SoM_readme_34b87f02a149.png)\n\n## :black_nib: 引用\n如果您认为我们的工作对您的研究有所帮助，请考虑引用以下 BibTeX 条目：\n```bibtex\n@article{yang2023setofmark,\n      title={Set-of-Mark 提示释放 GPT-4V 中非凡的视觉定位能力}, \n      author={Jianwei Yang 和 Hao Zhang 和 Feng Li 和 Xueyan Zou 和 Chunyuan Li 和 Jianfeng Gao},\n      journal={arXiv 预印本 arXiv:2310.11441},\n      year={2023},\n}\n```","# SoM (Set-of-Mark) 快速上手指南\n\nSoM 是一种视觉提示技术，通过在图像上叠加空间标记（如编号、高亮），显著增强 GPT-4V 等多模态大模型的视觉定位与推理能力。本指南将帮助您快速部署并运行 SoM 工具箱。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 18.04\u002F20.04) 或 macOS。Windows 用户建议使用 WSL2。\n*   **Python**: 版本 3.8 或更高。\n*   **GPU**: 推荐使用 NVIDIA GPU 以加速分割模型推理（需安装对应的 CUDA 驱动）。\n*   **API Key**: 若要运行 GPT-4V 演示，需拥有有效的 `OPENAI_API_KEY`。\n*   **依赖库**: 确保已安装 `git`, `pip`, `cmake` 等基础构建工具。\n\n> **注意**：本项目依赖多个大型分割模型（如 SAM, SEEM, GroundingDINO），首次运行时会自动下载预训练权重，请确保网络连接通畅。国内用户若遇到下载缓慢，可配置代理或使用国内镜像源加速 pip 包安装。\n\n## 安装步骤\n\n### 1. 安装分割算法包\n\n依次执行以下命令安装核心依赖。为解决国内网络问题，建议在 `pip install` 后添加 `-i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple` 使用清华镜像源。\n\n```bash\n# 安装 SEEM\npip install git+https:\u002F\u002Fgithub.com\u002FUX-Decoder\u002FSegment-Everything-Everywhere-All-At-Once.git@package\n\n# 安装 SAM (Segment Anything)\npip install git+https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fsegment-anything.git\n\n# 安装 Semantic-SAM\npip install git+https:\u002F\u002Fgithub.com\u002FUX-Decoder\u002FSemantic-SAM.git@package\n\n# 编译 Semantic-SAM 所需的 Deformable Convolution 算子\ncd ops && bash make.sh && cd ..\n\n# 修复常见的 detectron2 依赖问题\npython -m pip install 'git+https:\u002F\u002Fgithub.com\u002FMaureenZOU\u002Fdetectron2-xyz.git'\n```\n\n### 2. 下载预训练模型\n\n运行官方提供的脚本下载所有必需的预训练权重文件：\n\n```bash\nsh download_ckpt.sh\n```\n\n## 基本使用\n\n### 运行本地演示工具箱\n\n安装完成后，运行以下命令启动 SoM 交互式界面。该界面允许您上传图片、选择标记粒度（自动或交互模式），并生成带有视觉标记的提示图。\n\n```bash\npython demo_som.py\n```\n\n启动成功后，您将看到一个图形化界面，可以调整 Alpha 混合度以优化可视化效果，并导出处理后的图像用于后续的大模型推理。\n\n### 集成 GPT-4V 演示\n\n若您希望直接体验 SoM 与 GPT-4V 的结合效果，请先设置环境变量，然后运行专用演示脚本：\n\n```bash\nexport OPENAI_API_KEY=YOUR_API_KEY\npython demo_gpt4v_som.py\n```\n\n该脚本将自动对图像进行标记处理，并调用 GPT-4V API 进行带视觉提示的推理，展示增强的视觉定位与回答能力。","某电商运营团队需要快速从数千张复杂的商品促销海报中，精准提取特定品牌 Logo 的位置坐标及对应的折扣文字信息，以构建自动化营销数据库。\n\n### 没有 SoM 时\n- **空间定位模糊**：GPT-4V 面对密集排版的图片时，难以准确区分相邻的多个相似图标，常出现“指鹿为马”的对象混淆。\n- **指令理解偏差**：仅靠自然语言描述（如“左上角的红色标志”），模型在复杂背景下极易丢失视觉焦点，导致提取失败。\n- **人工复核成本高**：由于模型输出不稳定，团队必须安排专人逐张核对提取结果，效率低下且容易疲劳出错。\n- **细粒度识别困难**：对于重叠或遮挡的小目标，模型无法建立像素级的空间关联，经常遗漏关键促销信息。\n\n### 使用 SoM 后\n- **视觉锚点清晰**：SoM 自动在图像上叠加带编号的空间标记，让 GPT-4V 能像人类一样“指着”具体区域说话，彻底消除对象混淆。\n- **指令执行精准**：用户只需引用标记编号（如“查看标记 3 的文字”），模型即可锁定唯一目标，大幅提升复杂场景下的响应准确率。\n- **全流程自动化**：识别准确率显著提升，无需人工二次校验，数据处理吞吐量提高数倍，释放了运营人力。\n- **细节捕捉敏锐**：借助标记带来的像素级引导，即使是微小或被部分遮挡的折扣标签，也能被精准定位并转录。\n\nSoM 通过赋予大模型“指向性”视觉能力，将模糊的图像理解转化为精确的空间对话，彻底解决了复杂场景下的视觉落地难题。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_SoM_7729ca90.jpg","microsoft","Microsoft","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fmicrosoft_4900709c.png","Open source projects and samples from Microsoft",null,"opensource@microsoft.com","OpenAtMicrosoft","https:\u002F\u002Fopensource.microsoft.com","https:\u002F\u002Fgithub.com\u002Fmicrosoft",[84,88,92,96,100,104],{"name":85,"color":86,"percentage":87},"Python","#3572A5",74.1,{"name":89,"color":90,"percentage":91},"Cuda","#3A4E3A",21.7,{"name":93,"color":94,"percentage":95},"C++","#f34b7d",2.4,{"name":97,"color":98,"percentage":99},"Shell","#89e051",0.8,{"name":101,"color":102,"percentage":103},"Dockerfile","#384d54",0.5,{"name":105,"color":106,"percentage":103},"Jinja","#a52a22",1525,111,"2026-04-15T01:52:15","MIT",4,"Linux","需要 NVIDIA GPU（用于运行 Mask DINO, SAM, Semantic-SAM 等分割模型），需支持编译 Deformable Convolution 算子，具体显存和 CUDA 版本未说明（通常建议 16GB+ 显存以运行多个 SOTA 分割模型）","未说明",{"notes":116,"python":114,"dependencies":117},"该工具主要作为 GPT-4V 的视觉提示生成工具箱，核心功能是调用多个开源分割模型（如 SAM, GroundingDINO, SEEM 等）在图像上生成标记。安装过程复杂，需要手动编译 Semantic-SAM 的可变形卷积算子（ops\u002Fmake.sh）。运行演示脚本需要配置 OpenAI API Key。README 未明确列出统一的 requirements.txt，而是通过 git 链接直接安装各个分割模型的特定分支。",[118,119,120,121,122],"segment-anything","Semantic-SAM","SEEM","detectron2","Deformable Convolution ops",[15,124],"其他","2026-03-27T02:49:30.150509","2026-04-20T07:17:57.196918",[128,133,138,143,148,152],{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},44283,"如何手动安装 Semantic-SAM 及其依赖（包括 MultiScaleDeformableAttention 和 mpi4py）？","如果自动安装失败，可以按以下步骤在新鲜的 Anaconda 环境中手动安装：\n1. 安装 PyTorch 和 torchvision：\npip3 install torch==1.13.1 torchvision==0.14.1 --extra-index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu113\n2. 安装 detectron2 和 panopticapi：\npython -m pip install 'git+https:\u002F\u002Fgithub.com\u002FMaureenZOU\u002Fdetectron2-xyz.git'\npip install git+https:\u002F\u002Fgithub.com\u002Fcocodataset\u002Fpanopticapi.git\n3. 克隆并安装 Semantic-SAM：\ngit clone https:\u002F\u002Fgithub.com\u002FUX-Decoder\u002FSemantic-SAM\ncd Semantic-SAM\npython -m pip install -r requirements.txt\n4. 编译并安装 MultiScaleDeformableAttention：\ngit clone https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FMask2Former\ncd Mask2Former\u002Fmask2former\u002Fmodeling\u002Fpixel_decoder\u002Fops\nsh make.sh\n5. 安装 mpi4py：\nconda install -c conda-forge mpi4py\n6. 安装 SEEM 和 SAM：\npip install git+https:\u002F\u002Fgithub.com\u002FUX-Decoder\u002FSegment-Everything-Everywhere-All-At-Once.git@package\npip install git+https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fsegment-anything.git","https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FSoM\u002Fissues\u002F3",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},44284,"运行 demo 时遇到 MPI 初始化错误（Fatal error in PMPI_Init_thread）如何解决？","该问题通常是因为 SEEM 的 `package` 分支与 `v1.0` 分支不同步，导致 `utils\u002Fdistributed.py` 缺少导入语句。解决方法是修改 `demo_som.py` 文件：\n1. 删除第 49 行的 `opt_seem = init_distributed_seem(opt_seem)`。\n2. 将加载模型的代码 `state_dict = torch.load(load_dir, map_location=self.opt['device'])` 替换为 `state_dict = torch.load(load_dir, map_location='cpu')`。\n修改后即可正常运行。","https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FSoM\u002Fissues\u002F6",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},44285,"编译 ops 时遇到 'unsupported GNU version' (gcc 版本过高) 错误怎么办？","这是因为当前的 gcc 版本（高于 12）不被 CUDA 支持。解决方案是尝试使用较旧版本的 PyTorch，例如 2.2.1 版本通常可以解决此兼容性问题。也可以尝试在编译命令中添加 `-allow-unsupported-compiler` 标志，但这可能导致运行时错误，需谨慎使用。","https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FSoM\u002Fissues\u002F49",{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},44286,"在哪里可以获取用于评估的数据集（SoM-Bench）？","SoM-Bench 的第一个版本已发布，可以在以下地址找到：\nhttps:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FSoM\u002Ftree\u002Fmain\u002Fbenchmark\n目前作者正在整理 COCO 和 ADE20K 的真值标注以及自动评估代码。现阶段用户可以先尝试使用 flickr30k 和 refcocog 数据集进行评估。","https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FSoM\u002Fissues\u002F4",{"id":149,"question_zh":150,"answer_zh":151,"source_url":137},44287,"SoM 是否支持视频分割或跟踪任务？","目前官方尚未提供专门针对视频分割或跟踪的代码或说明。该项目主要专注于静态图像的分割与标记。如有相关需求，建议关注仓库的后续更新或在 Issues 中进一步询问社区是否有非官方的实现方案。",{"id":153,"question_zh":154,"answer_zh":155,"source_url":156},44288,"运行 Gradio Demo 时遇到 'ValueError: RGBA values should be within 0-1 range' 错误如何解决？","当 mask alpha 大于 0.85 且 granularity 大于 2.7 时，推理会因颜色值超出范围而失败。虽然具体修复代码未在截断的评论中完全显示，但通常此类问题需要检查生成 mask 的代码逻辑，确保在传递给绘图函数前，将 RGBA 像素值归一化到 0-1 之间（如果是浮点数）或转换为 0-255 之间（如果是整数）。建议检查 `gradio` 处理图像输出的相关部分，或对 mask 进行预处理：`mask = np.clip(mask, 0, 1)`。","https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FSoM\u002Fissues\u002F25",[158,163],{"id":159,"version":160,"summary_zh":161,"released_at":162},351845,"v1.0.1","SoM + GPT-4V 演示","2023-11-09T00:43:33",{"id":164,"version":165,"summary_zh":166,"released_at":167},351846,"v1.0","基于视觉提示技术的视觉定位评估基准数据集。","2023-11-08T01:10:20"]