[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-google-research--scenic":3,"tool-google-research--scenic":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",154349,2,"2026-04-13T23:32:16",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":76,"owner_twitter":76,"owner_website":77,"owner_url":78,"languages":79,"stars":88,"forks":89,"last_commit_at":90,"license":91,"difficulty_score":10,"env_os":92,"env_gpu":93,"env_ram":92,"env_deps":94,"category_tags":100,"github_topics":102,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":109,"updated_at":110,"faqs":111,"releases":147},7354,"google-research\u002Fscenic","scenic","Scenic: A Jax Library for Computer Vision Research and Beyond","Scenic 是一个基于 JAX 和 Flax 构建的开源代码库，专为计算机视觉及相关领域的研究而设计。它聚焦于基于注意力机制的模型开发，能够高效支持图像、视频、音频及其多模态组合数据的分类、分割与检测任务。\n\n在大规模模型训练中，研究人员常面临分布式训练配置复杂、实验样板代码重复以及数据管道搭建繁琐等挑战。Scenic 通过提供一套轻量级的共享库，解决了这些共性难题。它不仅内置了优化后的训练与评估循环、损失函数及指标计算模块，还集成了主流视觉数据集的输入管道和强大的基线模型，让研究者能将精力集中在算法创新而非工程基建上。\n\n这款工具非常适合从事深度学习研究的科研人员、算法工程师以及希望复现或探索前沿视觉模型的开发者。其独特的技术亮点在于对多设备、多主机大规模训练场景的原生支持，以及高度模块化的项目设计。目前，包括 ViViT、TokenLearner 在内的众多顶级会议论文模型均基于 Scenic 开发或复现，证明了其在推动视觉 Transformer 研究方面的强大实力与灵活性。","# Scenic\n\u003Cdiv style=\"text-align: left\">\n\u003Cimg align=\"right\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgoogle-research_scenic_readme_fccadd768b39.png\" width=\"200\" alt=\"Scenic logo\">\u003C\u002Fimg>\n\u003C\u002Fdiv>\n\n\n*Scenic* is a codebase with a focus on research around attention-based models\nfor computer vision. Scenic has been successfully used to develop\nclassification, segmentation, and detection models for multiple modalities\nincluding images, video, audio, and multimodal combinations of them.\n\nMore precisely, *Scenic* is a (i) set of shared light-weight libraries solving\ntasks commonly encountered tasks when training large-scale (i.e. multi-device,\nmulti-host) vision models; and (ii) several *projects* containing fully\nfleshed out problem-specific training and evaluation loops using these\nlibraries.\n\nScenic is developed in [JAX](https:\u002F\u002Fgithub.com\u002Fjax-ml\u002Fjax) and uses\n[Flax](https:\u002F\u002Fgithub.com\u002Fgoogle\u002Fflax).\n\n### Contents\n\n* [What we offer](#what-we-offer)\n* [SOTA models and baselines in Scenic](#sota-models-and-baselines-in-scenic)\n* [Philosophy](#philosophy)\n* [Getting started](#getting-started)\n* [Scenic component design](#scenic-component-design)\n* [Citing Scenic](#citing-scenic)\n\n## What we offer\nAmong others *Scenic* provides\n\n* Boilerplate code for launching experiments, summary writing, logging,\n  profiling, etc;\n* Optimized training and evaluation loops, losses, metrics, bi-partite matchers,\n  etc;\n* Input-pipelines for popular vision datasets;\n* [Baseline models](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fscenic\u002Ftree\u002Fmain\u002Fscenic\u002Fprojects\u002Fbaselines#scenic-baseline-models),\nincluding strong non-attentional baselines.\n\n## SOTA models and baselines in *Scenic*\nThere are some SOTA models and baselines in Scenic which were either developed\nusing Scenic, or have been reimplemented in Scenic:\n\nProjects that were developed in Scenic or used it for their experiments:\n\n* [ViViT: A Video Vision Transformer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2103.15691)\n* [OmniNet: Omnidirectional Representations from Transformers](https:\u002F\u002Farxiv.org\u002Fabs\u002F2103.01075)\n* [Attention Bottlenecks for Multimodal Fusion](https:\u002F\u002Farxiv.org\u002Fabs\u002F2107.00135)\n* [TokenLearner: What Can 8 Learned Tokens Do for Images and Videos?](https:\u002F\u002Farxiv.org\u002Fabs\u002F2106.11297)\n* [Exploring the Limits of Large Scale Pre-training](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.02095)\n* [The Efficiency Misnomer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.12894)\n* [Discrete Representations Strengthen Vision Transformer Robustness](https:\u002F\u002Farxiv.org\u002Fabs\u002F2111.10493)\n* [Pyramid Adversarial Training Improves ViT Performance](https:\u002F\u002Farxiv.org\u002Fabs\u002F2111.15121)\n* [VUT: Versatile UI Transformer for Multi-Modal Multi-Task User Interface Modeling](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.05692)\n* [CLAY: Learning to Denoise Raw Mobile UI Layouts for Improving Datasets at Scale](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.04100)\n* [Zero-Shot Text-Guided Object Generation with Dream Fields](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.01455)\n* [Multiview Transformers for Video Recognition](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.04288)\n* [PolyViT: Co-training Vision Transformers on Images, Videos and Audio](https:\u002F\u002Farxiv.org\u002Fabs\u002F2111.12993)\n* [Simple Open-Vocabulary Object Detection with Vision Transformers](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.06230)\n* [Learning with Neighbor Consistency for Noisy Labels](https:\u002F\u002Farxiv.org\u002Fabs\u002F2202.02200)\n* [Token Turing Machines](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2211.09119.pdf)\n* [Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2302.14115.pdf)\n* [AVATAR: Unconstrained Audiovisual Speech Recognition](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.07684)\n* [Adaptive Computation with Elastic Input Sequence](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.13195)\n* [Location-Aware Self-Supervised Transformers for Semantic Segmentation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.02400)\n* [How can objects help action recognition?](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FCVPR2023\u002Fhtml\u002FZhou_How_Can_Objects_Help_Action_Recognition_CVPR_2023_paper.html)\n* [Verbs in Action: Improving verb understanding in video-language models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.06708)\n* [Unified Visual Relationship Detection with Vision and Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.08998)\n* [UnLoc: A Unified Framework for Video Localization Tasks](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.11062)\n* [REVEAL: Retrieval-Augmented Visual-Language Pre-Training with Multi-Source Multimodal Knowledge Memory](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.05221)\n* [Audiovisual Masked Autoencoders](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.05922)\n* [MatFormer: Nested Transformer for Elastic Inference](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.07707)\n* [Pixel Aligned Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.09237)\n* [A Generative Approach for Wikipedia-Scale Visual Entity Recognition](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.02041)\n* [Streaming Dense Video Captioning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.01297)\n* [Dense Video Object Captioning from Disjoint Supervision](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.11729)\n\nMore information can be found in [projects](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fscenic\u002Ftree\u002Fmain\u002Fscenic\u002Fprojects#list-of-projects-hosted-in-scenic).\n\nBaselines that were reproduced in Scenic:\n\n* [(ViT) An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale](https:\u002F\u002Farxiv.org\u002Fabs\u002F2010.11929)\n* [(DETR) End-to-End Object Detection with Transformers](https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.12872)\n* [Deformable DETR: Deformable Transformers for End-to-End Object Detection](https:\u002F\u002Farxiv.org\u002Fabs\u002F2010.04159)\n* [(CLIP) Learning Transferable Visual Models From Natural Language Supervision](https:\u002F\u002Farxiv.org\u002Fabs\u002F2103.00020)\n* [MLP-Mixer: An all-MLP Architecture for Vision](https:\u002F\u002Farxiv.org\u002Fabs\u002F2105.01601)\n* [BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding](https:\u002F\u002Farxiv.org\u002Fabs\u002F1810.04805)\n* [How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers](https:\u002F\u002Farxiv.org\u002Fabs\u002F2106.10270)\n* [Big Transfer (BiT): General Visual Representation Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F1912.11370)\n* [Deep Residual Learning for Image Recognition](https:\u002F\u002Farxiv.org\u002Fabs\u002F1512.03385)\n* [U-Net: Convolutional Networks for Biomedical Image Segmentation](https:\u002F\u002Farxiv.org\u002Fabs\u002F1505.04597)\n* [PCT: Point Cloud Transformer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2012.09688)\n* [Universal Transformers](https:\u002F\u002Farxiv.org\u002Fabs\u002F1807.03819)\n* [PonderNet](https:\u002F\u002Farxiv.org\u002Fabs\u002F2107.05407)\n* [Masked Autoencoders Are Scalable Vision Learners](https:\u002F\u002Farxiv.org\u002Fabs\u002F2111.06377)\n* [Rethinking Attention with Performers](https:\u002F\u002Farxiv.org\u002Fabs\u002F2009.14794)\n* [(CenterNet) Objects as Points](https:\u002F\u002Farxiv.org\u002Fabs\u002F1904.07850)\n* [(SAM) Segment Anything](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.02643)\n\nMore information can be found in [baseline models](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fscenic\u002Ftree\u002Fmain\u002Fscenic\u002Fprojects\u002Fbaselines#scenic-baseline-models).\n\n\u003Ca name=\"philosophy\">\u003C\u002Fa>\n## Philosophy\n*Scenic* aims to facilitate rapid prototyping of large-scale vision models. To\nkeep the code simple to understand and extend we prefer *forking and\ncopy-pasting over adding complexity or increasing abstraction*. Only when\nfunctionality proves to be widely useful across many models and tasks it may be\nupstreamed to Scenic's shared libraries.\n\n\u003Ca name=\"getting_start\">\u003C\u002Fa>\n## Getting started\n\n* See `projects\u002Fbaselines\u002FREADME.md` for a walk-through baseline models and\n  instructions on how to run the code.\n* If you would like to contribute to *Scenic*, please check out the\n  [Philisophy](#philosophy), [Code structure](#code_structure) and\n  [Contributing](CONTRIBUTING.md) sections.\n  Should your contribution be a part of the shared libraries, please send us a\n  pull request!\n\n### Quickstart\nYou will need Python 3.9 or later. Download the code from GitHub\n\n```shell\n$ git clone https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fscenic.git\n$ cd scenic\n$ pip install .\n```\n\nand run training for ViT on ImageNet:\n\n```shell\n$ python scenic\u002Fmain.py -- \\\n  --config=scenic\u002Fprojects\u002Fbaselines\u002Fconfigs\u002Fimagenet\u002Fimagenet_vit_config.py \\\n  --workdir=.\u002F\n```\n\nNote that for specific projects and baselines, you might need to install extra\npackages that are mentioned in their `README.md` or `requirements.txt` files.\n\n[Here](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fgoogle-research\u002Fscenic\u002Fblob\u002Fmain\u002Fscenic\u002Fcommon_lib\u002Fcolabs\u002Fscenic_playground.ipynb)\nis also a minimal colab to train a simple feed-forward model using Scenic.\n\n\u003Ca name=\"code_structure\">\u003C\u002Fa>\n## Scenic component design\nScenic is designed to propose different levels of abstraction, to support\nhosting projects that only require changing hyper-parameters by defining config\nfiles, to those that need customization on the input pipeline, model\narchitecture, losses and metrics, and the training loop. To make this happen,\nthe code in Scenic is organized as either _project-level_ code,\nwhich refers to customized code for specific projects or baselines or\n_library-level_ code, which refers to common functionalities and general\npatterns that are adapted by the majority of projects. The project-level\ncode lives in the `projects` directory.\n\n\u003Cdiv align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgoogle-research_scenic_readme_6287c076fa23.jpg\" width=\"900\" alt=\"scenic design\">\u003C\u002Fimg>\n\u003C\u002Fdiv>\n\n### Library-level code\nThe goal is to keep the library-level code minimal and well-tested and to avoid\nintroducing extra abstractions to support minor use-cases. Shared libraries\nprovided by *Scenic* are split into:\n\n*   `dataset_lib`: Implements IO pipelines for loading and pre-processing data\n    for common Computer Vision tasks and benchmarks (see \"Tasks and Datasets\"\n    section). All pipelines are designed to be scalable and support multi-host\n    and multi-device setups, taking care dividing data among multiple hosts,\n    incomplete batches, caching, pre-fetching, etc.\n*   `model_lib` : Provides\n    *   several abstract model interfaces (e.g. `ClassificationModel` or\n        `SegmentationModel` in `model_lib.base_models`) with task-specific\n        losses and metrics;\n    *   neural network layers in `model_lib.layers`, focusing on efficient\n        implementation of attention and transformer layers;\n    *   accelerator-friendly implementations of bipartite matching\n        algorithms in `model_lib.matchers`.\n*   `train_lib`: Provides tools for constructing training loops and implements\n    several optimized trainers (classification trainer and segmentation trainer)\n    that can be forked for customization.\n*   `common_lib`: General utilities, like logging and debugging modules,\n    functionalities for processing raw data, etc.\n\n### Project-level code\nScenic supports the development of customized solutions for customized tasks and\ndata via the concept of \"project\". There is no one-fits-all recipe for how much\ncode should be re-used by a project. Projects can consist of only configs and\nuse the common models, trainers, task\u002Fdata that live in library-level code, or\nthey can simply fork any of the mentioned functionalities and redefine, layers,\nlosses, metrics, logging methods, tasks, architectures, as well as training and\nevaluation loops. The modularity of library-level code makes it flexible for\nprojects to fall placed on any spot in the \"run-as-is\" to \"fully customized\"\nspectrum.\n\nCommon baselines such as a ResNet and Vision Transformer (ViT) are implemented\nin the [`projects\u002Fbaselines`](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fscenic\u002Ftree\u002Fmain\u002Fscenic\u002Fprojects\u002Fbaselines)\nproject. Forking models in this directory is a good starting point for new\nprojects.\n\n## Citing Scenic\nIf you use Scenic, you can cite our [white paper](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FCVPR2022\u002Fhtml\u002FDehghani_Scenic_A_JAX_Library_for_Computer_Vision_Research_and_Beyond_CVPR_2022_paper.html).\nHere is an example BibTeX entry:\n\n```bibtex\n@InProceedings{dehghani2021scenic,\n    author    = {Dehghani, Mostafa and Gritsenko, Alexey and Arnab, Anurag and Minderer, Matthias and Tay, Yi},\n    title     = {Scenic: A JAX Library for Computer Vision Research and Beyond},\n    booktitle = {Proceedings of the IEEE\u002FCVF Conference on Computer Vision and Pattern Recognition (CVPR)},\n    year      = {2022},\n    pages     = {21393-21398}\n}\n```\n\n_Disclaimer: This is not an official Google product._\n","# Scenic\n\u003Cdiv style=\"text-align: left\">\n\u003Cimg align=\"right\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgoogle-research_scenic_readme_fccadd768b39.png\" width=\"200\" alt=\"Scenic logo\">\u003C\u002Fimg>\n\u003C\u002Fdiv>\n\n\n*Scenic* 是一个以研究基于注意力机制的计算机视觉模型为重点的代码库。Scenic 已成功用于开发针对多种模态（包括图像、视频、音频及其多模态组合）的分类、分割和检测模型。\n\n更具体地说，*Scenic* 既是一组用于解决大规模（即多设备、多主机）视觉模型训练中常见任务的轻量级共享库，也是若干包含使用这些库构建的完整问题特定训练与评估循环的 *项目*。\n\nScenic 基于 [JAX](https:\u002F\u002Fgithub.com\u002Fjax-ml\u002Fjax) 开发，并使用 [Flax](https:\u002F\u002Fgithub.com\u002Fgoogle\u002Fflax)。\n\n### 目录\n\n* [我们提供的内容](#what-we-offer)\n* [Scenic 中的 SOTA 模型和基线](#sota-models-and-baselines-in-scenic)\n* [理念](#philosophy)\n* [快速入门](#getting-started)\n* [Scenic 组件设计](#scenic-component-design)\n* [引用 Scenic](#citing-scenic)\n\n## 我们提供的内容\n*Scenic* 提供的内容包括：\n\n* 用于启动实验、记录摘要、日志记录、性能分析等的样板代码；\n* 优化的训练与评估循环、损失函数、指标、双向匹配器等；\n* 针对流行视觉数据集的输入管道；\n* [基线模型](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fscenic\u002Ftree\u002Fmain\u002Fscenic\u002Fprojects\u002Fbaselines#scenic-baseline-models)，其中包括强大的非注意力基线。\n\n## Scenic 中的 SOTA 模型和基线\nScenic 中包含一些 SOTA 模型和基线，它们或是使用 Scenic 开发的，或是被重新实现于 Scenic 中：\n\n在 Scenic 中开发或使用 Scenic 进行实验的项目：\n\n* [ViViT：一种视频视觉 Transformer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2103.15691)\n* [OmniNet：来自 Transformer 的全方位表示](https:\u002F\u002Farxiv.org\u002Fabs\u002F2103.01075)\n* [用于多模态融合的注意力瓶颈](https:\u002F\u002Farxiv.org\u002Fabs\u002F2107.00135)\n* [TokenLearner：8 个学习到的 token 能为图像和视频做些什么？](https:\u002F\u002Farxiv.org\u002Fabs\u002F2106.11297)\n* [探索大规模预训练的极限](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.02095)\n* [效率的误解](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.12894)\n* [离散表示增强视觉 Transformer 的鲁棒性](https:\u002F\u002Farxiv.org\u002Fabs\u002F2111.10493)\n* [金字塔对抗训练提升 ViT 性能](https:\u002F\u002Farxiv.org\u002Fabs\u002F2111.15121)\n* [VUT：用于多模态多任务用户界面建模的通用 UI Transformer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.05692)\n* [CLAY：学习去噪原始移动 UI 布局以大规模改进数据集](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.04100)\n* [零样本文本引导的对象生成与 Dream Fields](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.01455)\n* [多视角 Transformer 用于视频识别](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.04288)\n* [PolyViT：在图像、视频和音频上联合训练视觉 Transformer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2111.12993)\n* [使用视觉 Transformer 进行简单的开放词汇目标检测](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.06230)\n* [利用邻居一致性学习处理噪声标签](https:\u002F\u002Farxiv.org\u002Fabs\u002F2202.02200)\n* [Token 图灵机](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2211.09119.pdf)\n* [Vid2Seq：用于密集视频字幕的大规模视觉语言模型预训练](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2302.14115.pdf)\n* [AVATAR：无约束的视听语音识别](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.07684)\n* [自适应计算与弹性输入序列](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.13195)\n* [位置感知自监督 Transformer 用于语义分割](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.02400)\n* [物体如何帮助动作识别？](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FCVPR2023\u002Fhtml\u002FZhou_How_Can_Objects_Help_Action_Recognition_CVPR_2023_paper.html)\n* [动作中的动词：改进视频-语言模型中的动词理解](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.06708)\n* [使用视觉和语言模型进行统一的视觉关系检测](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.08998)\n* [UnLoc：用于视频定位任务的统一框架](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.11062)\n* [REVEAL：具有多源多模态知识记忆的检索增强视觉-语言预训练](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.05221)\n* [视听掩码自编码器](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.05922)\n* [MatFormer：用于弹性推理的嵌套 Transformer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.07707)\n* [像素对齐的语言模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.09237)\n* [一种生成式方法用于维基百科规模的视觉实体识别](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.02041)\n* [流式密集视频字幕](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.01297)\n* [从不连续监督中进行密集视频对象字幕生成](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.11729)\n\n更多信息请参阅 [项目列表](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fscenic\u002Ftree\u002Fmain\u002Fscenic\u002Fprojects#list-of-projects-hosted-in-scenic)。\n\n在 Scenic 中复现的基线模型：\n\n* [(ViT) 一张图像胜过 16x16 个单词：用于大规模图像识别的 Transformer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2010.11929)\n* [(DETR) 使用 Transformer 进行端到端目标检测](https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.12872)\n* [可变形 DETR：用于端到端目标检测的可变形 Transformer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2010.04159)\n* [(CLIP) 从自然语言监督中学习可迁移的视觉模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2103.00020)\n* [MLP-Mixer：一种全 MLP 架构用于视觉](https:\u002F\u002Farxiv.org\u002Fabs\u002F2105.01601)\n* [BERT：用于语言理解的深度双向 Transformer 预训练](https:\u002F\u002Farxiv.org\u002Fabs\u002F1810.04805)\n* [如何训练你的 ViT？数据、增强和正则化在视觉 Transformer 中的作用](https:\u002F\u002Farxiv.org\u002Fabs\u002F2106.10270)\n* [Big Transfer (BiT)：通用视觉表征学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F1912.11370)\n* [用于图像识别的深度残差学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F1512.03385)\n* [U-Net：用于生物医学图像分割的卷积网络](https:\u002F\u002Farxiv.org\u002Fabs\u002F1505.04597)\n* [PCT：点云 Transformer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2012.09688)\n* [通用 Transformer](https:\u002F\u002Farxiv.org\u002Fabs\u002F1807.03819)\n* [PonderNet](https:\u002F\u002Farxiv.org\u002Fabs\u002F2107.05407)\n* [掩码自编码器是可扩展的视觉学习者](https:\u002F\u002Farxiv.org\u002Fabs\u002F2111.06377)\n* [用 Performers 重新思考注意力](https:\u002F\u002Farxiv.org\u002Fabs\u002F2009.14794)\n* [(CenterNet) 将物体视为点](https:\u002F\u002Farxiv.org\u002Fabs\u002F1904.07850)\n* [(SAM) Segment Anything](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.02643)\n\n更多信息请参阅 [基线模型](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fscenic\u002Ftree\u002Fmain\u002Fscenic\u002Fprojects\u002Fbaselines#scenic-baseline-models)。\n\n\u003Ca name=\"philosophy\">\u003C\u002Fa>\n\n## 哲学\n*Scenic* 旨在促进大规模视觉模型的快速原型开发。为了保持代码简洁易懂且易于扩展，我们更倾向于 *分叉和复制粘贴，而不是增加复杂性或提高抽象层次*。只有当某项功能被证明在许多模型和任务中都具有广泛用途时，才会将其合并到 Scenic 的共享库中。\n\n\u003Ca name=\"getting_start\">\u003C\u002Fa>\n## 入门指南\n\n* 请参阅 `projects\u002Fbaselines\u002FREADME.md`，其中提供了基准模型的介绍以及运行代码的说明。\n* 如果您希望为 *Scenic* 做出贡献，请查看 [哲学](#philosophy)、[代码结构](#code_structure) 和 [贡献指南](CONTRIBUTING.md) 部分。如果您的贡献属于共享库的一部分，请向我们提交拉取请求！\n\n### 快速入门\n您需要 Python 3.9 或更高版本。从 GitHub 下载代码：\n\n```shell\n$ git clone https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fscenic.git\n$ cd scenic\n$ pip install .\n```\n\n然后运行 ViT 在 ImageNet 数据集上的训练：\n\n```shell\n$ python scenic\u002Fmain.py -- \\\n  --config=scenic\u002Fprojects\u002Fbaselines\u002Fconfigs\u002Fimagenet\u002Fimagenet_vit_config.py \\\n  --workdir=.\u002F\n```\n\n请注意，对于特定的项目和基准模型，您可能需要安装其 `README.md` 或 `requirements.txt` 文件中提到的额外依赖包。\n\n[这里](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fgoogle-research\u002Fscenic\u002Fblob\u002Fmain\u002Fscenic\u002Fcommon_lib\u002Fcolabs\u002Fscenic_playground.ipynb) 还提供了一个最小化的 Colab 笔记本，用于使用 Scenic 训练一个简单的前馈神经网络模型。\n\n\u003Ca name=\"code_structure\">\u003C\u002Fa>\n## Scenic 组件设计\nScenic 的设计旨在提供不同层次的抽象，以支持从仅需通过定义配置文件来调整超参数的项目，到需要对输入流水线、模型架构、损失函数和评估指标以及训练循环进行自定义的项目。为此，Scenic 的代码被组织为 _项目级_ 代码和 _库级_ 代码：前者是针对特定项目或基准模型的定制代码，后者则是大多数项目都会使用的通用功能和通用模式。项目级代码位于 `projects` 目录中。\n\n\u003Cdiv align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgoogle-research_scenic_readme_6287c076fa23.jpg\" width=\"900\" alt=\"scenic design\">\u003C\u002Fimg>\n\u003C\u002Fdiv>\n\n### 库级代码\n我们的目标是保持库级代码尽可能简洁且经过充分测试，并避免引入不必要的抽象来支持少数用例。*Scenic* 提供的共享库分为：\n\n*   `dataset_lib`：实现用于加载和预处理常见计算机视觉任务及基准数据的 IO 流水线（详见“任务与数据集”部分）。所有流水线均设计为可扩展，支持多主机和多设备部署，能够妥善处理数据在多台主机间的分配、不完整批次、缓存、预取等问题。\n*   `model_lib`：提供\n    *   多个抽象模型接口（如 `model_lib.base_models` 中的 `ClassificationModel` 或 `SegmentationModel`），并配备任务特定的损失函数和评估指标；\n    *   `model_lib.layers` 中的神经网络层，重点在于高效实现注意力机制和 Transformer 层；\n    *   `model_lib.matchers` 中的加速器友好型二部图匹配算法实现。\n*   `train_lib`：提供构建训练循环的工具，并实现了多个优化的训练器（分类训练器和分割训练器），可供用户分叉后进行自定义。\n*   `common_lib`：通用工具，例如日志记录和调试模块、原始数据处理功能等。\n\n### 项目级代码\nScenic 通过“项目”的概念支持针对特定任务和数据的定制化解决方案的开发。关于一个项目应复用多少代码并没有统一的标准。项目可以仅包含配置文件，并直接使用库级代码中的通用模型、训练器、任务和数据；也可以简单地分叉上述任何功能，重新定义层、损失函数、评估指标、日志记录方法、任务、架构以及训练和评估循环。库级代码的高度模块化使得项目可以在“开箱即用”到“完全定制”的整个范围内灵活选择。\n\n常见的基准模型，如 ResNet 和 Vision Transformer (ViT)，已在 [`projects\u002Fbaselines`](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fscenic\u002Ftree\u002Fmain\u002Fscenic\u002Fprojects\u002Fbaselines) 项目中实现。在这个目录中分叉现有模型是新项目的良好起点。\n\n## 引用 Scenic\n如果您使用了 Scenic，可以引用我们的 [白皮书](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FCVPR2022\u002Fhtml\u002FDehghani_Scenic_A_JAX_Library_for_Computer_Vision_Research_and_Beyond_CVPR_2022_paper.html)。以下是一个 BibTeX 条目示例：\n\n```bibtex\n@InProceedings{dehghani2021scenic,\n    author    = {Dehghani, Mostafa and Gritsenko, Alexey and Arnab, Anurag and Minderer, Matthias and Tay, Yi},\n    title     = {Scenic: A JAX Library for Computer Vision Research and Beyond},\n    booktitle = {Proceedings of the IEEE\u002FCVF Conference on Computer Vision and Pattern Recognition (CVPR)},\n    year      = {2022},\n    pages     = {21393-21398}\n}\n```\n\n*免责声明：这不是 Google 的官方产品。*","# Scenic 快速上手指南\n\nScenic 是一个基于 JAX 和 Flax 构建的开源代码库，专注于计算机视觉领域中基于注意力机制（Attention-based）模型的研究。它提供了轻量级的共享库用于解决大规模（多设备、多主机）视觉模型训练中的常见任务，并包含多个完整的项目示例，涵盖分类、分割、检测等多种模态（图像、视频、音频及多模态组合）。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**：推荐 Linux 环境（Windows 和 macOS 可能需要额外配置以支持 JAX GPU\u002FTPU）。\n*   **Python 版本**：Python 3.9 或更高版本。\n*   **硬件加速**：虽然可以在 CPU 上运行，但为了发挥 Scenic 在大规模模型训练上的优势，强烈建议配备 NVIDIA GPU 并安装对应的 CUDA 驱动，或使用 TPU 环境。\n*   **前置依赖**：Scenic 强依赖 Google 的深度学习生态，核心依赖包括：\n    *   [JAX](https:\u002F\u002Fgithub.com\u002Fjax-ml\u002Fjax)\n    *   [Flax](https:\u002F\u002Fgithub.com\u002Fgoogle\u002Fflax)\n\n> **国内开发者提示**：由于 JAX 及相关依赖包体积较大且源服务器位于海外，建议在安装时使用国内镜像源以加速下载。\n\n## 安装步骤\n\n### 1. 克隆代码仓库\n从 GitHub 获取 Scenic 源代码：\n\n```shell\ngit clone https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fscenic.git\ncd scenic\n```\n\n### 2. 安装依赖包\n使用 `pip` 安装 Scenic 及其依赖。\n\n**推荐方式（使用国内镜像加速）：**\n```shell\npip install . -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n**注意**：\n*   如果您计划运行特定的项目（Projects）或基线模型（Baselines），可能需要安装额外的依赖包。请查阅对应项目目录下的 `README.md` 或 `requirements.txt` 文件。\n*   若遇到 JAX 版本兼容性问题，可能需要手动指定安装带有 CUDA 支持的 JAX 版本（例如：`pip install \"jax[cuda]\" -f https:\u002F\u002Fstorage.googleapis.com\u002Fjax-releases\u002Fjax_cuda_releases.html`）。\n\n## 基本使用\n\nScenic 的核心设计理念是通过配置文件来驱动实验。以下是在 ImageNet 数据集上训练 Vision Transformer (ViT) 模型的最简示例。\n\n### 运行训练任务\n\n在项目根目录下，执行以下命令启动训练：\n\n```shell\npython scenic\u002Fmain.py -- \\\n  --config=scenic\u002Fprojects\u002Fbaselines\u002Fconfigs\u002Fimagenet\u002Fimagenet_vit_config.py \\\n  --workdir=.\u002F\n```\n\n**参数说明：**\n*   `--config`：指定实验配置文件路径。Scenic 在 `projects\u002Fbaselines` 中提供了大量预定义的配置文件，涵盖不同的数据集和模型架构。\n*   `--workdir`：指定工作目录，用于保存检查点（checkpoints）、日志（logs）和事件文件（events）。\n\n### 其他资源\n*   **基线模型指南**：更多关于如何运行 ResNet、DETR、CLIP 等基线模型的详细说明，请参阅 `projects\u002Fbaselines\u002FREADME.md`。\n*   **在线体验**：您可以直接在 Google Colab 上尝试一个简单的前馈模型训练示例：[Scenic Playground Colab](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fgoogle-research\u002Fscenic\u002Fblob\u002Fmain\u002Fscenic\u002Fcommon_lib\u002Fcolabs\u002Fscenic_playground.ipynb)。\n\n### 开发建议\nScenic 鼓励“分叉与复制”（forking and copy-pasting）而非过度抽象。如果您需要自定义模型结构、损失函数或训练循环，建议直接从 `projects\u002Fbaselines` 中复制相关代码进行修改，而不是试图修改底层库文件。只有当某个功能被证明在多个项目中广泛适用时，才考虑将其合并到共享库中。","某顶尖 AI 实验室的研究团队正致力于开发一种融合视频、音频与文本的多模态动作识别模型，以突破现有单一模态的性能瓶颈。\n\n### 没有 scenic 时\n- **重复造轮子**：研究人员需手动编写大量样板代码来处理多设备分布式训练、日志记录及性能分析，分散了核心算法研发的精力。\n- **数据管道复杂**：构建支持视频、音频同步输入的高效数据加载管线极其繁琐，且难以优化多主机环境下的 I\u002FO 瓶颈。\n- **基线复现困难**：缺乏统一的标准基线模型（如 ViViT 或 TokenLearner），每次验证新想法都需从头复现前沿论文，耗时且易出错。\n- **实验管理混乱**：不同项目间的训练循环、损失函数和评估指标实现不一致，导致实验结果难以横向对比和复现。\n\n### 使用 scenic 后\n- **专注核心创新**：scenic 提供了开箱即用的轻量级库，自动处理分布式训练启动、摘要写入和 profiling 等底层任务，让团队全心投入模型架构设计。\n- **高效多模态输入**：直接调用 scenic 内置的优化输入管道，轻松实现视频、音频等多模态数据的同步加载与预处理，显著提升训练吞吐量。\n- **快速站在巨人肩上**：团队直接复用 scenic 中已集成的 SOTA 模型（如 PolyViT）作为强基线，迅速验证新提出的多模态融合策略有效性。\n- **标准化实验流程**：利用 scenic 统一的项目结构和训练循环，确保了不同实验配置下指标计算的一致性，大幅加速了迭代周期。\n\nscenic 通过提供标准化的基础设施与前沿基线，将多模态视觉研究的开发效率提升了数倍，让研究者能更快速地探索注意力机制的边界。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgoogle-research_scenic_b3860160.png","google-research","Google Research","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fgoogle-research_c23b2adf.png","",null,"https:\u002F\u002Fresearch.google","https:\u002F\u002Fgithub.com\u002Fgoogle-research",[80,84],{"name":81,"color":82,"percentage":83},"Python","#3572A5",70,{"name":85,"color":86,"percentage":87},"Jupyter Notebook","#DA5B0B",30,3793,479,"2026-04-11T11:15:40","Apache-2.0","未说明","未说明 (基于 JAX，通常支持 NVIDIA GPU 或 TPU，具体取决于硬件配置)",{"notes":95,"python":96,"dependencies":97},"该工具基于 Google 的 JAX 和 Flax 框架开发，专注于计算机视觉研究。安装时通过 'pip install .' 进行。针对特定的项目或基线模型，可能需要安装 README 或 requirements.txt 中提到的额外包。代码库设计支持多设备、多主机的大规模训练环境。","3.9+",[98,99],"jax","flax",[101,14,35,15],"其他",[98,103,104,105,106,107,108],"computer-vision","deep-learning","research","attention","transformers","vision-transformer","2026-03-27T02:49:30.150509","2026-04-14T12:27:58.574518",[112,117,122,127,132,137,142],{"id":113,"question_zh":114,"answer_zh":115,"source_url":116},33021,"如何将 Scenic 模型转换为 ONNX 或 TensorRT 格式？","目前官方正在修复相关支持（参考 Issue #341）。虽然之前存在 bug，但维护者表示正在努力修复中。建议关注官方仓库的最新更新以获取完整的转换支持。","https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fscenic\u002Fissues\u002F337",{"id":118,"question_zh":119,"answer_zh":120,"source_url":121},33022,"OWL-ViT 是否支持使用图像块（image patch）作为查询进行单样本（one-shot）检测？如何实现？","支持。可以通过对多个边界框的嵌入向量（embeddings）取平均值来获得查询嵌入。例如，如果有两个代表同一对象的查询嵌入，可以使用公式 `two_shot_query_embedding = (query_embedding_1 + query_embedding_2) \u002F 2`。官方已添加包含交互式演示的 Colab Notebook，展示了如何从源图像的 `class_embeddings` 获取 `query_embedding` 并进行图像条件检测。","https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fscenic\u002Fissues\u002F325",{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},33023,"在哪里可以找到 OWLv2 的预训练模型和推理代码？","官方已发布 OWLv2 的推理代码和检查点（checkpoints）。\n1. 代码和说明见：https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fscenic\u002Ftree\u002Fmain\u002Fscenic\u002Fprojects\u002Fowl_vit#pretrained-checkpoints\n2. 更新的 Colab 示例：https:\u002F\u002Fcolab.sandbox.google.com\u002Fgithub\u002Fgoogle-research\u002Fscenic\u002Fblob\u002Fmain\u002Fscenic\u002Fprojects\u002Fowl_vit\u002Fnotebooks\u002FOWL_ViT_minimal_example.ipynb\n注意：这些检查点可直接替换 OWLv1 的代码使用，架构唯一的变化是 objectness head。部分训练特性（如 token dropping）尚未实现。","https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fscenic\u002Fissues\u002F830",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},33024,"如何在 Colab 中解决运行 OWL-ViT Notebook 时出现的 'ImportError: cannot import name monitoring from jax' 错误？","这通常是由于 JAX 版本问题导致的。可以尝试在 Notebook 的第一个单元格中运行以下命令来升级 pip 和安装带有 CUDA 支持的 JAX：\n```bash\n!pip install --upgrade pip\n!pip install --upgrade \"jax[cuda]\" -f https:\u002F\u002Fstorage.googleapis.com\u002Fjax-releases\u002Fjax_cuda_releases.html\n```\n之后即可正常导入 `from jax import monitoring`。","https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fscenic\u002Fissues\u002F663",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},33025,"OWL-ViT 的微调（fine-tuning）代码何时发布？如何进行微调？","微调指南已添加到 README 中。配置与从头训练类似，关键区别在于初始化方式：\n- 将 `config.init_from.codebase = 'clip'` 改为 `config.init_from.checkpoint_path = 'path\u002Fto\u002Fparent\u002Fcheckpoint'`。\n\n微调建议：\n1. 如果数据集较小，尝试较短的训练步数（如从 500 步开始，逐步加倍直到性能最优）。\n2. 默认学习率是很好的起点，但建议以 2 或 3 为因子上下调整。\n3. 仔细检查预处理设置以适应目标数据集。","https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fscenic\u002Fissues\u002F433",{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},33026,"TokenLearner v1.0 版本是否也只支持正方形输入？","根据代码注释，TokenLearner v1.1 明确说明仅支持正方形输入。关于 v1.0 的具体限制，建议直接查阅源代码中的实现细节或测试非正方形输入以验证兼容性，因为文档中未明确说明 v1.0 是否完全放宽了此限制，但通常此类架构对输入形状有特定要求以确保位置编码正确工作。","https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fscenic\u002Fissues\u002F279",{"id":143,"question_zh":144,"answer_zh":145,"source_url":146},33027,"在使用自己的数据集微调 OWL-ViT 时，如何准备数据？字段如 'crowd', 'non exhaustive labels', 'NEGATIVE LABELS' 是什么意思？","对于自定义数据集，需要按照 'DETECTION FEATURES' 的要求添加必要字段。虽然具体字段含义在 Issue 评论中未详细展开，但通常：\n- 'crowd' 标记拥挤区域；\n- 'non exhaustive labels' 表示标签可能不完整；\n- 'NEGATIVE LABELS' 和 'NEGATIVE TEXT LABELS' 用于定义负样本。\n建议参考官方文档中关于数据集格式的具体说明，或查看现有数据集配置文件以了解整数映射关系。","https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fscenic\u002Fissues\u002F655",[]]