[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-gligen--GLIGEN":3,"tool-gligen--GLIGEN":62},[4,18,26,35,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,2,"2026-04-10T11:39:34",[14,15,13],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":32,"last_commit_at":41,"category_tags":42,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[43,13,15,14],"插件",{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":10,"last_commit_at":50,"category_tags":51,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[52,15,13,14],"语言模型",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[14,15,13,61],"视频",{"id":63,"github_repo":64,"name":65,"description_en":66,"description_zh":67,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":75,"owner_location":75,"owner_email":75,"owner_twitter":75,"owner_website":75,"owner_url":76,"languages":77,"stars":86,"forks":87,"last_commit_at":88,"license":89,"difficulty_score":10,"env_os":90,"env_gpu":91,"env_ram":92,"env_deps":93,"category_tags":99,"github_topics":75,"view_count":32,"oss_zip_url":75,"oss_zip_packed_at":75,"status":17,"created_at":101,"updated_at":102,"faqs":103,"releases":134},8540,"gligen\u002FGLIGEN","GLIGEN","Open-Set Grounded Text-to-Image Generation","GLIGEN 是一款开源的“开放集定位文本生成图像”模型，旨在让 AI 绘画不仅听懂文字描述，还能精准理解空间布局。它解决了传统文生图模型难以精确控制物体位置、大小及相互关系的痛点。用户只需在输入文字提示词的同时，提供边界框、关键点或参考图像等额外条件，GLIGEN 就能在冻结的基础模型上，将指定内容准确地“放置”在画面的特定区域，实现高质量的局部重绘或整体构图控制。\n\n这项技术的独特亮点在于其强大的零样本（zero-shot）泛化能力。无需针对特定布局进行繁琐的监督训练，GLIGEN 在 COCO 和 LVIS 等基准测试中的表现便大幅超越了现有的监督式布局生成模型。此外，它能与 Grounding DINO 等工具联动，自动从语言提示中识别并定位物体，进一步降低了人工标注边框的成本。\n\nGLIGEN 非常适合需要精细控制画面构图的数字艺术家和设计师，同时也为研究可控生成技术的开发者提供了宝贵的开源基座。对于希望探索交互式图像编辑（如结合 LLaVA-Interactive）的进阶用户而言，GLIGEN 更是实现“所指即所得”创作体验的关键工具。","\r\n# GLIGEN: Open-Set Grounded Text-to-Image Generation (CVPR 2023)\r\n\r\n[Yuheng Li](https:\u002F\u002Fyuheng-li.github.io\u002F), [Haotian Liu](https:\u002F\u002Fhliu.cc), [Qingyang Wu](https:\u002F\u002Fscholar.google.ca\u002Fcitations?user=HDiw-TsAAAAJ&hl=en\u002F), [Fangzhou Mu](https:\u002F\u002Fpages.cs.wisc.edu\u002F~fmu\u002F), [Jianwei Yang](https:\u002F\u002Fjwyang.github.io\u002F), [Jianfeng Gao](https:\u002F\u002Fwww.microsoft.com\u002Fen-us\u002Fresearch\u002Fpeople\u002Fjfgao\u002F), [Chunyuan Li*](https:\u002F\u002Fchunyuan.li\u002F), [Yong Jae Lee*](https:\u002F\u002Fpages.cs.wisc.edu\u002F~yongjaelee\u002F) (*Co-senior authors)\r\n\r\n[[Project Page](https:\u002F\u002Fgligen.github.io\u002F)] [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.07093)] [[Demo](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fgligen\u002Fdemo)] [[YouTube Video](https:\u002F\u002Fyoutu.be\u002F-MCkU7IAGKs)]\r\n![Teaser figure](figures\u002Fconcept.gif)\r\n\r\n[![IMAGE ALT TEXT HERE](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgligen_GLIGEN_readme_5a13fd51b3ca.png)](https:\u002F\u002Fyoutu.be\u002F-MCkU7IAGKs)\r\n\r\n- Go beyond text prompt with GLIGEN: enable new capabilities on frozen text-to-image generation models to ground on various prompts, including box, keypoints and images.\r\n- GLIGEN’s zero-shot performance on COCO and LVIS outperforms that of existing supervised layout-to-image baselines by a large margin.\r\n\r\n\r\n## :fire: News\r\n\r\n\r\n* **[2023.11.2]**  GLIGEN is integreated into [LLaVA-Interactive](https:\u002F\u002Fllava-vl.github.io\u002Fllava-interactive\u002F): an all-in-one demo for Image Chat, Segmentation, Generation and Editing. Experience the future of interactive image editing with visual chat.\r\n[[Project Page](https:\u002F\u002Fllava-vl.github.io\u002Fllava-interactive\u002F)] [[Demo](https:\u002F\u002F6dd3-20-163-117-69.ngrok-free.app\u002F)] [[Code](https:\u002F\u002Fgithub.com\u002FLLaVA-VL\u002FLLaVA-Interactive-Demo)] [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.00571)]\r\n\u003Ccenter>\r\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgligen_GLIGEN_readme_1112a034d594.png\" width=\"30%\"> \r\n\u003C\u002Fcenter>\r\n\r\n\r\n* **[2023.04.18]** We have updated our arxiv paper. We explain the difference between GLIGEN and ControlNet [here](docs\u002Fgligen_vs_controlnet.MD) to help researchers to have a better and deeper understanding. \r\n\r\n* **[2023.04.08]** GLIGEN is combined with [Grounding DINO](https:\u002F\u002Fgithub.com\u002FIDEA-Research\u002FGroundingDINO), which free humans from anotating bounding boxes and their concepts. Given a language prompt, Grounding DINO localizes the concepts with boxes:  image $\\rightarrow$ (box, concept), then GLIGEN inpaint the image:  (box, concept) $\\rightarrow$ image:\r\n\r\n\u003Ccenter>\r\n\u003Cimg src=\"https:\u002F\u002Fcamo.githubusercontent.com\u002F4dabf8128cd4f40eaa97ee45d050ddcd8063356f631d98072fb5a5c19c35fa9c\u002F68747470733a2f2f68756767696e67666163652e636f2f5368696c6f6e674c69752f47726f756e64696e6744494e4f2f7265736f6c76652f6d61696e2f47445f474c4947454e2e706e67\" width=\"600\"> \r\n\u003C\u002Fcenter>\r\n\r\n\r\n* **[2023.03.22]** [Our fork on diffusers](https:\u002F\u002Fgithub.com\u002Fgligen\u002Fdiffusers\u002Ftree\u002Fgligen\u002Fexamples\u002Fgligen) with support of text-box-conditioned generation and inpainting is released.  It is now faster, more flexible, and automatically downloads and loads model from Huggingface Hub!  Try it out!\r\n* **[2023.03.20]** Stay up-to-date on the line of research on *grounded image generation* such as GLIGEN, by checking out [`Computer Vision in the Wild (CVinW) Reading List`](https:\u002F\u002Fgithub.com\u002FComputer-Vision-in-the-Wild\u002FCVinW_Readings#orange_book-grounded-image-generation-in-the-wild).\r\n* **[2023.03.19]** GLIGEN is covered by great Yannic Kilcher in his latest YouTube video on [`The biggest week in AI`](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=YqPYDWPYXFs&t=2245s).\r\n* **[2023.03.05]** Gradio demo code is released at [`GLIGEN\u002Fdemo`](https:\u002F\u002Fgithub.com\u002Fgligen\u002FGLIGEN\u002Ftree\u002Fmaster\u002Fdemo).\r\n* **[2023.03.03]** Code base and checkpoints are released.\r\n* **[2023.02.28]** Paper is accepted to CVPR 2023.\r\n* **[2023.01.17]** GLIGEN paper and demo is released.\r\n\r\n## Requirements\r\nWe provide [dockerfile](env_docker\u002FDockerfile) to setup environment. \r\n\r\n\r\n## Download GLIGEN models\r\n\r\nWe provide ten checkpoints for different use scenarios. All models here are based on SD-V-1.4.\r\n| Mode       | Modality       | Download                                                                                                       |\r\n|------------|----------------|----------------------------------------------------------------------------------------------------------------|\r\n| Generation | Box+Text       | [HF Hub](https:\u002F\u002Fhuggingface.co\u002Fgligen\u002Fgligen-generation-text-box\u002Fblob\u002Fmain\u002Fdiffusion_pytorch_model.bin)       |\r\n| Generation | Box+Text+Image | [HF Hub](https:\u002F\u002Fhuggingface.co\u002Fgligen\u002Fgligen-generation-text-image-box\u002Fblob\u002Fmain\u002Fdiffusion_pytorch_model.bin) |\r\n| Generation | Keypoint       | [HF Hub](https:\u002F\u002Fhuggingface.co\u002Fgligen\u002Fgligen-generation-keypoint\u002Fblob\u002Fmain\u002Fdiffusion_pytorch_model.bin)       |\r\n| Inpainting | Box+Text       | [HF Hub](https:\u002F\u002Fhuggingface.co\u002Fgligen\u002Fgligen-inpainting-text-box\u002Fblob\u002Fmain\u002Fdiffusion_pytorch_model.bin)       |\r\n| Inpainting | Box+Text+Image | [HF Hub](https:\u002F\u002Fhuggingface.co\u002Fgligen\u002Fgligen-inpainting-text-image-box\u002Fblob\u002Fmain\u002Fdiffusion_pytorch_model.bin) |\r\n| Generation | Hed map        | [HF Hub](https:\u002F\u002Fhuggingface.co\u002Fgligen\u002Fgligen-generation-hed\u002Fblob\u002Fmain\u002Fdiffusion_pytorch_model.bin)      |\r\n| Generation | Canny map      | [HF Hub](https:\u002F\u002Fhuggingface.co\u002Fgligen\u002Fgligen-generation-canny\u002Fblob\u002Fmain\u002Fdiffusion_pytorch_model.bin)      |\r\n| Generation | Depth map      | [HF Hub](https:\u002F\u002Fhuggingface.co\u002Fgligen\u002Fgligen-generation-depth\u002Fblob\u002Fmain\u002Fdiffusion_pytorch_model.bin)      |\r\n| Generation | Semantic map   | [HF Hub](https:\u002F\u002Fhuggingface.co\u002Fgligen\u002Fgligen-generation-sem\u002Fblob\u002Fmain\u002Fdiffusion_pytorch_model.bin)      |\r\n| Generation | Normal map     | [HF Hub](https:\u002F\u002Fhuggingface.co\u002Fgligen\u002Fgligen-generation-normal\u002Fblob\u002Fmain\u002Fdiffusion_pytorch_model.bin)      |\r\n\r\nNote that the provided checkpoint for semantic map is only trained on ADE20K dataset; the checkpoint for normal map is only trained on DIODE dataset.\r\n\r\n## Inference: Generate images with GLIGEN\r\n\r\nWe provide one script to generate images using provided checkpoints. First download models and put them in `gligen_checkpoints`. Then run\r\n```bash\r\npython gligen_inference.py\r\n```\r\nExample samples for each checkpoint will be saved in `generation_samples`. One can check `gligen_inference.py` for more details about interface. \r\n\r\n\r\n## Training \r\n\r\n### Grounded generation training\r\n\r\nOne need to first prepare data for different grounding modality conditions. Refer [data](DATA\u002FREADME.MD) for the data we used for different GLIGEN models. Once data is ready, the following command is used to train GLIGEN. (We support multi-GPUs training)\r\n\r\n```bash\r\nptyhon main.py --name=your_experiment_name  --yaml_file=path_to_your_yaml_config\r\n```\r\nThe `--yaml_file` is the most important argument and below we will use one example to explain key components so that one can be familiar with our code and know how to customize training on their own grounding modalities. The other args are self-explanatory by their names. The experiment will be saved in `OUTPUT_ROOT\u002Fname`\r\n\r\nOne can refer `configs\u002Fflicker_text.yaml` as one example. One can see that there are 5 components defining this yaml: **diffusion**, **model**, **autoencoder**, **text_encoder**, **train_dataset_names** and **grounding_tokenizer_input**. Typecially, **diffusion**, **autoencoder** and **text_encoder** should not be changed as they are defined by Stable Diffusion. One should pay attention to following:\r\n\r\n - Within **model** we add new argument **grounding_tokenizer** which defines a network producing grounding tokens. This network will be instantized in the model. One can refer to `ldm\u002Fmodules\u002Fdiffusionmodules\u002Fgrounding_net_example.py` for more details about defining this network.\r\n - **grounding_tokenizer_input** will define a network taking in batch data from dataloader and produce input for the grounding_tokenizer. In other words, it is an intermediante class between dataloader and grounding_tokenizer. One can refer `grounding_input\u002F__init__.py` for details about defining this class.\r\n - **train_dataset_names** should be listing a serial of names of datasets (all datasets will be concatenated internally, thus it is useful to combine datasets for training). Each dataset name should be first registered in `dataset\u002Fcatalog.py`. We have listed all dataset we used; if one needs to train GLIGEN on their own modality dataset, please don't forget first list its name there. \r\n\r\n\r\n### Grounded inpainting training\r\n\r\nGLIGEN also supports inpainting training. The following command can be used:\r\n```bash\r\nptyhon main.py --name=your_experiment_name  --yaml_file=path_to_your_yaml_config --inpaint_mode=True  --ckpt=path_to_an_adapted_model\r\n```\r\nTypecially, we first train GLIGEN on generation task (e.g., text grounded generation) and this model has 4 channels for input conv (latent space of Stable Diffusion), then we modify the saved checkpoint to 9 channels with addition 5 channels initilized with 0. This continue training can lead to faster convergence and better results. path_to_an_adapted_model refers to this modified checkpoint, `convert_ckpt.py` can be used for modifying checkpoint. **NOTE:** yaml file is the same for generation and inpainting training, one only need to change `--inpaint_mode`\r\n\r\n## Citation\r\n```\r\n@article{li2023gligen,\r\n  title={GLIGEN: Open-Set Grounded Text-to-Image Generation},\r\n  author={Li, Yuheng and Liu, Haotian and Wu, Qingyang and Mu, Fangzhou and Yang, Jianwei and Gao, Jianfeng and Li, Chunyuan and Lee, Yong Jae},\r\n  journal={CVPR},\r\n  year={2023}\r\n}\r\n```\r\n\r\n## Disclaimer\r\n\r\nThe original GLIGEN was partly implemented during a part-time internship at Microsoft while the first author was working at The University of Wisconsin-Madison. This repo re-implements GLIGEN in PyTorch with university GPUs. Despite the minor implementation differences, this repo aims to reproduce the results and observations in the paper for research purposes.\r\n\r\n## Terms and Conditions\r\n\r\nWe have strict terms and conditions for using the model checkpoints and the demo; it is restricted to uses that follow the license agreement of \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FCompVis\u002Flatent-diffusion\">Latent Diffusion Model\u003C\u002Fa> and \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FStability-AI\u002FStableDiffusion\">Stable Diffusion\u003C\u002Fa>.\r\n\r\n\r\n## Broader Impact\r\n\r\nIt is important to note that our model GLIGEN is designed for open-world grounded text-to-image generation with caption and various condition inputs (e.g. bounding box). However, we also recognize the importance of responsible AI considerations and the need to clearly communicate the capabilities and limitations of our research. While the grounding ability generalizes well to novel spatial configuration and concepts, our model may not perform well in scenarios that are out of scope or beyond the intended use case. We strongly discourage the misuse of our model in scenarios, where our technology could be used to generate misleading or malicious images. We also acknowledge the potential biases that may be present in the data used to train our model, and the need for ongoing evaluation and improvement to address these concerns. To ensure transparency and accountability, we have included a model card that describes the intended use cases, limitations, and potential biases of our model. We encourage users to refer to this model card and exercise caution when applying our technology in new contexts. We hope that our work will inspire further research and discussion on the ethical implications of AI and the importance of transparency and accountability in the development of new technologies.\r\n","# GLIGEN：开放集接地文本到图像生成（CVPR 2023）\n\n[李宇恒](https:\u002F\u002Fyuheng-li.github.io\u002F)、[刘浩天](https:\u002F\u002Fhliu.cc)、[吴庆阳](https:\u002F\u002Fscholar.google.ca\u002Fcitations?user=HDiw-TsAAAAJ&hl=en\u002F)、[穆方舟](https:\u002F\u002Fpages.cs.wisc.edu\u002F~fmu\u002F)、[杨建伟](https:\u002F\u002Fjwyang.github.io\u002F)、[高剑峰](https:\u002F\u002Fwww.microsoft.com\u002Fen-us\u002Fresearch\u002Fpeople\u002Fjfgao\u002F)、[李春元*](https:\u002F\u002Fchunyuan.li\u002F)、[李永在*](https:\u002F\u002Fpages.cs.wisc.edu\u002F~yongjaelee\u002F) (*共同资深作者)\n\n[[项目页面](https:\u002F\u002Fgligen.github.io\u002F)] [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.07093)] [[演示](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fgligen\u002Fdemo)] [[YouTube 视频](https:\u002F\u002Fyoutu.be\u002F-MCkU7IAGKs)]\n![预告图](figures\u002Fconcept.gif)\n\n[![此处为图片替代文本](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgligen_GLIGEN_readme_5a13fd51b3ca.png)](https:\u002F\u002Fyoutu.be\u002F-MCkU7IAGKs)\n\n- GLIGEN 不仅限于文本提示：它使冻结的文本到图像生成模型具备新能力，能够基于多种类型的提示进行定位，包括边界框、关键点和图像。\n- GLIGEN 在 COCO 和 LVIS 数据集上的零样本性能大幅超越现有的有监督布局到图像基线。\n\n## :fire: 新闻\n\n* **[2023.11.2]** GLIGEN 已集成到 [LLaVA-Interactive](https:\u002F\u002Fllava-vl.github.io\u002Fllava-interactive\u002F) 中：一个用于图像聊天、分割、生成和编辑的一体化演示。通过视觉聊天体验交互式图像编辑的未来。\n[[项目页面](https:\u002F\u002Fllava-vl.github.io\u002Fllava-interactive\u002F)] [[演示](https:\u002F\u002F6dd3-20-163-117-69.ngrok-free.app\u002F)] [[代码](https:\u002F\u002Fgithub.com\u002FLLaVA-VL\u002FLLaVA-Interactive-Demo)] [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.00571)]\n\u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgligen_GLIGEN_readme_1112a034d594.png\" width=\"30%\"> \n\u003C\u002Fcenter>\n\n* **[2023.04.18]** 我们更新了 arXiv 论文。我们在 [这里](docs\u002Fgligen_vs_controlnet.MD) 解释了 GLIGEN 与 ControlNet 的区别，以帮助研究人员更好地深入理解。\n\n* **[2023.04.08]** GLIGEN 已与 [Grounding DINO](https:\u002F\u002Fgithub.com\u002FIDEA-Research\u002FGroundingDINO) 结合使用，这使得人类无需再手动标注边界框及其概念。给定一个语言提示，Grounding DINO 会用边界框定位相关概念：图像 → (框, 概念)，然后 GLIGEN 对图像进行修复：(框, 概念) → 图像：\n\n\u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Fcamo.githubusercontent.com\u002F4dabf8128cd4f40eaa97ee45d050ddcd8063356f631d98072fb5a5c19c35fa9c\u002F68747470733a2f2f68756767696e67666163652e636f2f5368696c6f6e674c69752f47726f756e64696e6744494E4F2f7265736f6c76652f6d61692f47445F474C4947454E2e706E67\" width=\"600\"> \n\u003C\u002Fcenter>\n\n* **[2023.03.22]** 我们发布的 [diffusers 分支](https:\u002F\u002Fgithub.com\u002Fgligen\u002Fdiffusers\u002Ftree\u002Fgligen\u002Fexamples\u002Fgligen)，支持基于文本-框条件的生成和修复功能，现已推出。现在速度更快、更灵活，并且可以自动从 Hugging Face Hub 下载并加载模型！快来试试吧！\n* **[2023.03.20]** 关注 *接地图像生成* 等领域的最新研究进展，例如 GLIGEN，请查看 [`Computer Vision in the Wild (CVinW) 阅读清单`](https:\u002F\u002Fgithub.com\u002FComputer-Vision-in-the-Wild\u002FCVinW_Readings#orange_book-grounded-image-generation-in-the-wild)。\n* **[2023.03.19]** Yannic Kilcher 在其最新的 YouTube 视频中介绍了 GLIGEN，视频主题为 [`AI 领域最繁忙的一周`](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=YqPYDWPYXFs&t=2245s)。\n* **[2023.03.05]** Gradio 演示代码已在 [`GLIGEN\u002Fdemo`](https:\u002F\u002Fgithub.com\u002Fgligen\u002FGLIGEN\u002Ftree\u002Fmaster\u002Fdemo) 中发布。\n* **[2023.03.03]** 代码库和检查点已发布。\n* **[2023.02.28]** 论文已被 CVPR 2023 接受。\n* **[2023.01.17]** GLIGEN 论文和演示正式发布。\n\n## 要求\n我们提供了 [dockerfile](env_docker\u002FDockerfile) 来设置环境。\n\n\n## 下载 GLIGEN 模型\n\n我们提供了十个针对不同应用场景的检查点。所有模型均基于 SD-V-1.4。\n| 模式       | 模态       | 下载                                                                                                       |\n|------------|----------------|----------------------------------------------------------------------------------------------------------------|\n| 生成 | 边框+文本       | [HF Hub](https:\u002F\u002Fhuggingface.co\u002Fgligen\u002Fgligen-generation-text-box\u002Fblob\u002Fmain\u002Fdiffusion_pytorch_model.bin)       |\n| 生成 | 边框+文本+图像 | [HF Hub](https:\u002F\u002Fhuggingface.co\u002Fgligen\u002Fgligen-generation-text-image-box\u002Fblob\u002Fmain\u002Fdiffusion_pytorch_model.bin) |\n| 生成 | 关键点       | [HF Hub](https:\u002F\u002Fhuggingface.co\u002Fgligen\u002Fgligen-generation-keypoint\u002Fblob\u002Fmain\u002Fdiffusion_pytorch_model.bin)       |\n| 修复 | 边框+文本       | [HF Hub](https:\u002F\u002Fhuggingface.co\u002Fgligen\u002Fgligen-inpainting-text-box\u002Fblob\u002Fmain\u002Fdiffusion_pytorch_model.bin)       |\n| 修复 | 边框+文本+图像 | [HF Hub](https:\u002F\u002Fhuggingface.co\u002Fgligen\u002Fgligen-inpainting-text-image-box\u002Fblob\u002Fmain\u002Fdiffusion_pytorch_model.bin) |\n| 生成 | 边缘图        | [HF Hub](https:\u002F\u002Fhuggingface.co\u002Fgligen\u002Fgligen-generation-hed\u002Fblob\u002Fmain\u002Fdiffusion_pytorch_model.bin)      |\n| 生成 | Canny 图      | [HF Hub](https:\u002F\u002Fhuggingface.co\u002Fgligen\u002Fgligen-generation-canny\u002Fblob\u002Fmain\u002Fdiffusion_pytorch_model.bin)      |\n| 生成 | 深度图      | [HF Hub](https:\u002F\u002Fhuggingface.co\u002Fgligen\u002Fgligen-generation-depth\u002Fblob\u002Fmain\u002Fdiffusion_pytorch_model.bin)      |\n| 生成 | 语义图   | [HF Hub](https:\u002F\u002Fhuggingface.co\u002Fgligen\u002Fgligen-generation-sem\u002Fblob\u002Fmain\u002Fdiffusion_pytorch_model.bin)      |\n| 生成 | 法线图     | [HF Hub](https:\u002F\u002Fhuggingface.co\u002Fgligen\u002Fgligen-generation-normal\u002Fblob\u002Fmain\u002Fdiffusion_pytorch_model.bin)      |\n\n请注意，提供的语义图检查点仅在 ADE20K 数据集上训练；法线图检查点仅在 DIODE 数据集上训练。\n\n## 推理：使用 GLIGEN 生成图像\n\n我们提供了一个脚本，用于使用提供的检查点生成图像。首先下载模型并将其放入 `gligen_checkpoints` 目录中，然后运行：\n```bash\npython gligen_inference.py\n```\n每个检查点的示例样本将保存在 `generation_samples` 目录中。更多关于接口的详细信息，请参阅 `gligen_inference.py`。\n\n\n## 训练\n\n### 基于接地的生成训练\n\n首先需要为不同的接地模态条件准备数据。有关我们用于不同 GLIGEN 模型的数据，请参阅 [data](DATA\u002FREADME.MD)。数据准备好后，可以使用以下命令来训练 GLIGEN。（我们支持多 GPU 训练）\n\n```bash\npython main.py --name=your_experiment_name  --yaml_file=path_to_your_yaml_config\n```\n\n其中 `--yaml_file` 是最重要的参数。下面我们将通过一个示例来解释关键组件，以便您熟悉我们的代码，并了解如何针对自己的接地模态自定义训练。其他参数从名称上即可理解。实验结果将保存在 `OUTPUT_ROOT\u002Fname` 目录下。\n\n您可以参考 `configs\u002Fflicker_text.yaml` 作为示例。可以看到，该 YAML 文件定义了 5 个组件：**diffusion**、**model**、**autoencoder**、**text_encoder**、**train_dataset_names** 和 **grounding_tokenizer_input**。通常情况下，**diffusion**、**autoencoder** 和 **text_encoder** 不应更改，因为它们是由 Stable Diffusion 定义的。需要注意的是：\n\n- 在 **model** 中，我们添加了一个新的参数 **grounding_tokenizer**，用于定义一个生成接地标记的网络。该网络将在模型中实例化。有关如何定义此网络的详细信息，请参阅 `ldm\u002Fmodules\u002Fdiffusionmodules\u002Fgrounding_net_example.py`。\n- **grounding_tokenizer_input** 将定义一个网络，它接收来自数据加载器的批量数据，并为接地标记器生成输入。换句话说，它是数据加载器和接地标记器之间的中间层。有关如何定义此类别的详细信息，请参阅 `grounding_input\u002F__init__.py`。\n- **train_dataset_names** 应列出一系列数据集名称（所有数据集将在内部连接在一起，因此将多个数据集合并进行训练非常有用）。每个数据集名称都应首先在 `dataset\u002Fcatalog.py` 中注册。我们已经列出了所有使用的数据集；如果您需要在自己的模态数据集上训练 GLIGEN，请务必先将其名称添加到该文件中。\n\n### 基于接地的修复训练\n\nGLIGEN 还支持修复训练。可以使用以下命令：\n\n```bash\npython main.py --name=your_experiment_name  --yaml_file=path_to_your_yaml_config --inpaint_mode=True  --ckpt=path_to_an_adapted_model\n```\n\n通常，我们会先在生成任务上训练 GLIGEN（例如文本接地生成），此时该模型的输入卷积层有 4 个通道（Stable Diffusion 的潜在空间）。然后，我们将保存的检查点修改为 9 个通道，新增的 5 个通道初始化为 0。这种继续训练可以加快收敛速度并获得更好的效果。`path_to_an_adapted_model` 指的是这个修改后的检查点，可以使用 `convert_ckpt.py` 来修改检查点。**注意**：生成和修复训练使用的 YAML 文件是相同的，只需将 `--inpaint_mode` 参数更改为 `True` 即可。\n\n## 引用\n\n```bibtex\n@article{li2023gligen,\n  title={GLIGEN: Open-Set Grounded Text-to-Image Generation},\n  author={Li, Yuheng and Liu, Haotian and Wu, Qingyang and Mu, Fangzhou and Yang, Jianwei and Gao, Jianfeng and Li, Chunyuan and Lee, Yong Jae},\n  journal={CVPR},\n  year={2023}\n}\n```\n\n## 免责声明\n\n原始 GLIGEN 部分是在第一作者于威斯康星大学麦迪逊分校工作期间，在微软兼职实习时实现的。本仓库使用大学提供的 GPU，以 PyTorch 重新实现了 GLIGEN。尽管实现上存在一些细微差异，但本仓库旨在出于研究目的重现论文中的结果和观察。\n\n## 使用条款\n\n我们对模型检查点和演示的使用有严格的条款和条件限制，仅允许符合 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FCompVis\u002Flatent-diffusion\">Latent Diffusion Model\u003C\u002Fa> 和 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FStability-AI\u002FStableDiffusion\">Stable Diffusion\u003C\u002Fa> 许可协议的用途。\n\n## 更广泛的影响\n\n值得注意的是，我们的模型 GLIGEN 专为开放世界的文本接地图像生成而设计，支持标题和各种条件输入（如边界框）。然而，我们也认识到负责任的人工智能的重要性，以及清晰传达我们研究能力和局限性的必要性。虽然接地能力能够很好地泛化到新颖的空间配置和概念上，但在超出其设计范围或预期用途的情境中，模型的表现可能不佳。我们强烈反对在可能导致生成误导性或恶意图像的情况下滥用该模型。此外，我们也承认用于训练模型的数据中可能存在偏见，因此需要持续评估和改进以解决这些问题。为确保透明度和问责制，我们附上了模型卡片，其中描述了模型的预期用途、局限性以及潜在的偏见。我们鼓励用户在将我们的技术应用于新场景时参考该模型卡片，并谨慎行事。我们希望我们的工作能够激发更多关于人工智能伦理影响以及新技术开发中透明度和问责制重要性的研究和讨论。","# GLIGEN 快速上手指南\n\nGLIGEN 是一个开源的“开放集接地文本到图像生成”模型，能够在冻结的文本生成图像模型（如 Stable Diffusion）基础上，增加对边界框（Box）、关键点（Keypoints）和参考图像等多种条件的控制能力。\n\n## 1. 环境准备\n\n### 系统要求\n- **操作系统**: Linux (推荐) 或 macOS\n- **GPU**: 支持 CUDA 的 NVIDIA 显卡（建议显存 8GB 以上）\n- **Python**: 3.8 或更高版本\n\n### 前置依赖\n官方推荐使用 Docker 环境以避免依赖冲突。如果您选择手动安装，请确保已安装 PyTorch 和相关的深度学习库。\n\n**方案 A：使用 Docker（推荐）**\n项目提供了 `Dockerfile`，位于 `env_docker\u002F` 目录下。\n```bash\ncd env_docker\ndocker build -t gligen_env .\n```\n\n**方案 B：手动安装 Conda 环境**\n如果没有 Docker，可参考以下基础依赖安装（具体版本请以 `requirements.txt` 为准，若项目中未提供，通常需安装 stable-diffusion 相关依赖）：\n```bash\nconda create -n gligen python=3.8\nconda activate gligen\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\npip install opencv-python pillow einops omegaconf gradio diffusers transformers\n# 其他依赖请参考项目根目录下的隐式需求或报错补充\n```\n\n## 2. 安装步骤与模型下载\n\n### 克隆代码库\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fgligen\u002FGLIGEN.git\ncd GLIGEN\n```\n\n### 下载预训练模型\nGLIGEN 提供了多种场景的 checkpoints（基于 SD-V-1.4）。请将下载的模型文件放入项目根目录下的 `gligen_checkpoints` 文件夹中。\n\n以下是常用模型的下载链接（源自 Hugging Face，国内用户若访问缓慢可使用镜像站或代理）：\n\n| 模式 | 条件类型 | 下载链接 |\n| :--- | :--- | :--- |\n| **生成 (Generation)** | 文本 + 边界框 (Box+Text) | [下载链接](https:\u002F\u002Fhuggingface.co\u002Fgligen\u002Fgligen-generation-text-box\u002Fblob\u002Fmain\u002Fdiffusion_pytorch_model.bin) |\n| **生成 (Generation)** | 文本 + 边界框 + 图像 | [下载链接](https:\u002F\u002Fhuggingface.co\u002Fgligen\u002Fgligen-generation-text-image-box\u002Fblob\u002Fmain\u002Fdiffusion_pytorch_model.bin) |\n| **生成 (Generation)** | 关键点 (Keypoint) | [下载链接](https:\u002F\u002Fhuggingface.co\u002Fgligen\u002Fgligen-generation-keypoint\u002Fblob\u002Fmain\u002Fdiffusion_pytorch_model.bin) |\n| **修复 (Inpainting)** | 文本 + 边界框 | [下载链接](https:\u002F\u002Fhuggingface.co\u002Fgligen\u002Fgligen-inpainting-text-box\u002Fblob\u002Fmain\u002Fdiffusion_pytorch_model.bin) |\n| **生成 (Generation)** | Canny 边缘图 | [下载链接](https:\u002F\u002Fhuggingface.co\u002Fgligen\u002Fgligen-generation-canny\u002Fblob\u002Fmain\u002Fdiffusion_pytorch_model.bin) |\n| **生成 (Generation)** | 深度图 (Depth) | [下载链接](https:\u002F\u002Fhuggingface.co\u002Fgligen\u002Fgligen-generation-depth\u002Fblob\u002Fmain\u002Fdiffusion_pytorch_model.bin) |\n\n*注意：语义地图（Semantic map）模型仅在 ADE20K 数据集上训练，法线图（Normal map）模型仅在 DIODE 数据集上训练。*\n\n**目录结构示例：**\n```text\nGLIGEN\u002F\n├── gligen_checkpoints\u002F\n│   ├── diffusion_pytorch_model.bin  (此处放入下载的模型文件)\n├── gligen_inference.py\n└── ...\n```\n\n## 3. 基本使用\n\n### 运行推理脚本\n模型下载并放置到位后，运行官方提供的推理脚本即可生成图像。默认配置会加载预设的测试样本。\n\n```bash\npython gligen_inference.py\n```\n\n生成的示例图片将保存在 `generation_samples` 目录中。\n\n### 自定义使用\n若要修改输入条件（如自定义文本、边界框坐标或参考图），请直接编辑 `gligen_inference.py` 文件。该脚本展示了如何调用接口：\n1.  **加载模型**：指定 checkpoint 路径。\n2.  **准备条件**：构建 grounding tokens（如边界框坐标列表、关键点坐标或特征图）。\n3.  **生成图像**：调用扩散模型进行采样。\n\n**进阶提示**：\n如果您希望体验更灵活、支持自动从 Hugging Face Hub 下载模型的版本，可以使用基于 `diffusers` 的分支：\n```bash\n# 参考官方 diffusers 分支实现（需单独克隆或切换分支）\n# https:\u002F\u002Fgithub.com\u002Fgligen\u002Fdiffusers\u002Ftree\u002Fgligen\u002Fexamples\u002Fgligen\n```\n\n### 结合 Grounding DINO 实现全自动标注\n若不想手动绘制边界框，可将 GLIGEN 与 Grounding DINO 结合。流程如下：\n1.  输入语言提示词。\n2.  Grounding DINO 自动定位概念并输出 `(box, concept)`。\n3.  GLIGEN 接收这些信息进行图像生成或修复。\n\n*(具体集成代码请参考项目新闻部分提到的 Grounding DINO 集成示例)*","一位电商设计师正在为新品发布会快速生成多张包含特定布局的商品宣传图，需要精确控制产品在画面中的位置和大小。\n\n### 没有 GLIGEN 时\n- 仅靠文字提示词（如“左侧放一个红色杯子”）难以精准控制物体位置，AI 常将杯子画在中间或右侧，反复重试效率极低。\n- 若需调整某个商品的位置，必须重新生成整张图片，无法在保留背景和其他元素的同时单独移动目标物体。\n- 想要参考某张实拍图的构图来生成新图时，传统模型无法理解“参照这张图的布局”这类指令，导致构图完全随机。\n- 团队协作时，设计师需用 Photoshop 手动裁剪、拼贴生成的素材来修正布局，耗时耗力且破坏画面自然度。\n\n### 使用 GLIGEN 后\n- 直接输入“红色杯子”并框选左侧区域作为条件，GLIGEN 即可在指定坐标精准生成杯子，一次成功率高，大幅减少试错成本。\n- 支持局部重绘与位置绑定，设计师只需拖动边界框调整位置，GLIGEN 就能在不改变其他内容的情况下实时更新目标物体。\n- 可上传草图或参考图提取布局信息，结合文字描述生成符合特定构图的新图像，实现从“灵感草图”到“高清成品”的无缝转化。\n- 生成结果天然符合预设布局，无需后期手动修图，团队可直接将高质量素材投入后续设计流程，显著缩短交付周期。\n\nGLIGEN 让创作者从“抽卡式”生成转变为“可控式”创作，真正实现了文本与空间布局的双重精准指挥。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgligen_GLIGEN_46897f5b.png","gligen","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fgligen_84e3fdcc.png",null,"https:\u002F\u002Fgithub.com\u002Fgligen",[78,82],{"name":79,"color":80,"percentage":81},"Python","#3572A5",99.9,{"name":83,"color":84,"percentage":85},"Dockerfile","#384d54",0.1,2220,166,"2026-04-13T10:15:25","MIT","Linux","必需 NVIDIA GPU（支持多卡训练），具体型号和显存未说明（基于 Stable Diffusion v1.4，建议 8GB+），CUDA 版本未说明","未说明",{"notes":94,"python":92,"dependencies":95},"官方推荐使用提供的 Dockerfile 构建运行环境。模型基于 Stable Diffusion v1.4，需下载不同场景的检查点文件（如文本 + 框、关键点、深度图等）。支持多 GPU 训练。若使用 Hugging Face diffusers 分支，可自动下载模型并支持更快的推理。",[96,97,98],"PyTorch","Stable Diffusion (v1.4)","diffusers (可选 fork 版本)",[15,100],"其他","2026-03-27T02:49:30.150509","2026-04-18T00:45:32.906565",[104,109,114,119,124,129],{"id":105,"question_zh":106,"answer_zh":107,"source_url":108},38252,"加载模型时遇到 'Unexpected key(s) in state_dict: transformer.text_model.embeddings.position_ids' 错误怎么办？","这通常是由于依赖包版本不兼容导致的。请检查并重新安装 transformers 和 diffusers 库。尝试更新或重新安装这些包到兼容版本通常可以解决此问题。","https:\u002F\u002Fgithub.com\u002Fgligen\u002FGLIGEN\u002Fissues\u002F67",{"id":110,"question_zh":111,"answer_zh":112,"source_url":113},38253,"是否可以使用单张显卡（如 RTX 3090 Ti）训练 GLIGEN？","是的，可以使用单张显卡训练。对于 fp16 精度，显存占用小于 24GB，因此 RTX 3090 Ti (24GB) 是可以支持的。","https:\u002F\u002Fgithub.com\u002Fgligen\u002FGLIGEN\u002Fissues\u002F48",{"id":115,"question_zh":116,"answer_zh":117,"source_url":118},38254,"运行 'conda env create -f environment.yaml' 时遇到包冲突（Unsatisfiable Error）如何解决？","environment.yaml 文件中指定的某些包存在版本冲突。您可以使用社区修复后的配置文件。例如，可以从修复了 xformers 冲突问题的 Fork 仓库中获取更新后的 environment.yaml 文件：https:\u002F\u002Fgithub.com\u002FCREED404\u002FGLIGEN\u002Ftree\u002Ffix_xformers_conflict_issue","https:\u002F\u002Fgithub.com\u002Fgligen\u002FGLIGEN\u002Fissues\u002F62",{"id":120,"question_zh":121,"answer_zh":122,"source_url":123},38255,"如何为自定义数据集创建训练所需的 TSV 文件？","官方目前可能未提供详细的 TSV 生成指南，但社区用户发现 O365 标注的 JSON 格式与 COCO 格式相同。您可以参考项目中的 process_grounding.py 脚本来处理 COCO 格式的标注数据并转换为所需的格式。","https:\u002F\u002Fgithub.com\u002Fgligen\u002FGLIGEN\u002Fissues\u002F38",{"id":125,"question_zh":126,"answer_zh":127,"source_url":128},38256,"GLIGEN 推理时是否支持调整输出图像的尺寸（如高度和宽度）？","虽然理论上可以调整，但在实际使用中（特别是在 diffusers 分支中），如果更改图像的宽高比（例如设置为 768x512），可能会导致生成结果出现重复物体等异常现象。建议谨慎调整分辨率或保持默认比例。","https:\u002F\u002Fgithub.com\u002Fgligen\u002FGLIGEN\u002Fissues\u002F21",{"id":130,"question_zh":131,"answer_zh":132,"source_url":133},38257,"初始化 Trainer 时遇到关于 UNet 中 Downsample 模块的 'unexpected_keys' 断言错误是怎么回事？","这通常是对代码逻辑的误解。在 UNet 结构中，最后一层特征确实不会进入 downsample 分支，但这在加载状态字典时使用 strict=False 是预期的行为，并不会导致实际的运行时错误。如果遇到此类断言失败，请检查是否还有其他配置或权重不匹配的问题。","https:\u002F\u002Fgithub.com\u002Fgligen\u002FGLIGEN\u002Fissues\u002F52",[]]