[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-layumi--University1652-Baseline":3,"tool-layumi--University1652-Baseline":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",158594,2,"2026-04-16T23:34:05",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":77,"owner_email":78,"owner_twitter":79,"owner_website":80,"owner_url":81,"languages":82,"stars":103,"forks":104,"last_commit_at":105,"license":106,"difficulty_score":10,"env_os":107,"env_gpu":108,"env_ram":107,"env_deps":109,"category_tags":116,"github_topics":118,"view_count":32,"oss_zip_url":79,"oss_zip_packed_at":79,"status":17,"created_at":134,"updated_at":135,"faqs":136,"releases":172},8256,"layumi\u002FUniversity1652-Baseline","University1652-Baseline","ACM Multimedia2020 University-1652: A Multi-view Multi-source Benchmark for Drone-based Geo-localization :helicopter: annotates 1652 buildings in 72 universities around the world.","University1652-Baseline 是一个专注于无人机地理定位的开源基准项目，源自 ACM Multimedia 2020 的研究成果。它构建了一个涵盖全球 72 所大学、共计 1652 栋建筑的多视角数据集，整合了无人机航拍、卫星遥感及地面街景三种来源的图像数据。\n\n该项目主要解决跨视角图像匹配难题，支持两大核心任务：一是“无人机视角目标定位”，即通过无人机拍摄的画面在卫星图中精准锁定建筑物位置；二是“无人机导航”，利用卫星图像引导无人机回溯其曾经过的具体地点。这种多源数据融合方案有效弥补了单一视角在复杂环境下的定位局限。\n\nUniversity1652-Baseline 特别适合计算机视觉领域的研究人员、算法开发者以及从事自动驾驶或无人机技术探索的专业人士使用。其独特亮点在于提供了高质量的标注数据与完整的基线代码，不仅包含详细的飞行路径和经纬度信息，还持续举办相关国际研讨会与挑战赛，推动社区在无人机定位领域的技术交流与模型迭代。无论是进行学术研究还是开发实际应用场景，它都是一个极具价值的参考资源。","\u003Ch1 align=\"center\"> University1652-Baseline \u003C\u002Fh1>\n\u003Ch2 align=\"center\"> Satellite, Drone, Ground \u003C\u002Fh2>\n\n![Python 3.6+](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fpython-3.6+-green.svg)\n[![License: MIT](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-MIT-green.svg)](https:\u002F\u002Fopensource.org\u002Flicenses\u002FMIT)\n[![Citations](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FCitations-400%2B-brightgreen)](https:\u002F\u002Fscholar.google.com\u002Fscholar?cites=16355841926251595902)\n[![Stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Flayumi\u002FUniversity1652-Baseline)](https:\u002F\u002Fgithub.com\u002Flayumi\u002FUniversity1652-Baseline\u002Fstargazers)\n\n[![VideoDemo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flayumi_University1652-Baseline_readme_49511ea4228a.png)](https:\u002F\u002Fwww.youtube.com\u002Fembed\u002FdzxXPp8tVn4?vq=hd1080)\n\n[[Paper]](https:\u002F\u002Farxiv.org\u002Fabs\u002F2002.12186) \n[[Slide]](http:\u002F\u002Fzdzheng.xyz\u002Ffiles\u002FACM-MM-Talk.pdf)\n[[Explore Drone-view Data]](https:\u002F\u002Fgithub.com\u002Flayumi\u002FUniversity1652-Baseline\u002Fblob\u002Fmaster\u002Fdocs\u002Findex_files\u002Fsample_drone.jpg?raw=true)\n[[Explore Satellite-view Data]](https:\u002F\u002Fgithub.com\u002Flayumi\u002FUniversity1652-Baseline\u002Fblob\u002Fmaster\u002Fdocs\u002Findex_files\u002Fsample_satellite.jpg?raw=true)\n[[Explore Street-view Data]](https:\u002F\u002Fgithub.com\u002Flayumi\u002FUniversity1652-Baseline\u002Fblob\u002Fmaster\u002Fdocs\u002Findex_files\u002Fsample_street.jpg?raw=true)\n[[Video Sample]](https:\u002F\u002Fwww.youtube.com\u002Fembed\u002FdzxXPp8tVn4?vq=hd1080)\n[[中文介绍]](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F110987552)\n[[Building Name List]](https:\u002F\u002Fgithub.com\u002Flayumi\u002FUniversity1652-Baseline\u002Fblob\u002Fmaster\u002Fnew_name_list.txt)\n[[Latitude and Longitude]](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1PL8fVky9KZg7XESsuS5NCsYRyYAwui3S\u002Fview?usp=sharing)\n[[Flight Path]](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1EW5Esi72tPcfL3zmoHYpufKj_SXrY-xE\u002Fview?usp=sharing)\n\n⭐ **Found this useful? Give us a star!** Help us reach more researchers in drone-based geo-localization. 🚀\n\n![](https:\u002F\u002Fgithub.com\u002Flayumi\u002FUniversity1652-Baseline\u002Fblob\u002Fmaster\u002Fdocs\u002Findex_files\u002FData.jpg)\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flayumi_University1652-Baseline_readme_91989ffb638e.png)\n\n\n### Download [University-1652] upon request (Usually I will reply you in 5 minutes). You may use the request [template](https:\u002F\u002Fgithub.com\u002Flayumi\u002FUniversity1652-Baseline\u002Fblob\u002Fmaster\u002FRequest.md).\n\nThis repository contains the dataset link and the code for our paper [University-1652: A Multi-view Multi-source Benchmark for Drone-based Geo-localization](https:\u002F\u002Farxiv.org\u002Fabs\u002F2002.12186), ACM Multimedia 2020. The offical paper link is at https:\u002F\u002Fdl.acm.org\u002Fdoi\u002F10.1145\u002F3394171.3413896. We collect 1652 buildings of 72 universities around the world. Thank you for your kindly attention.\n\n**Task 1: Drone-view target localization.** (Drone -> Satellite) Given one drone-view image or video, the task aims to find the most similar satellite-view image to localize the target building in the satellite view. \n\n**Task 2: Drone navigation.** (Satellite -> Drone) Given one satellite-view image, the drone intends to find the most relevant place (drone-view images) that it has passed by. According to its flight history, the drone could be navigated back to the target place.\n\n## Workshops & Challenges \n \u003Csummary>\u003Cb>\n  2026 Workshop and Sepcial Session\n\u003C\u002Fb>\u003C\u002Fsummary>\n\n- **ACM MM UAVM 2026**: Join our 4th workshop! [Details](https:\u002F\u002Fwww.zdzheng.xyz\u002FACMMM2026Workshop-UAV\u002F).\n\n- **Challenge**: https:\u002F\u002Fwww.codabench.org\u002Fcompetitions\u002F15251\u002F\n  \n\u003Cdetails>\n \u003Csummary>\u003Cb>\n  2025 Workshop and Sepcial Session\n\u003C\u002Fb>\u003C\u002Fsummary>\n- **ACM MM UAVM 2025**: Join our 3rd workshop! [Details](https:\u002F\u002Fwww.zdzheng.xyz\u002FACMMM2025Workshop-UAV\u002F).\n  - **Challenge Workflow**:\n    1. Train on University-1652 (Drone+Satellite+Street).\n    2. Download name-masked test set from [OneDrive](https:\u002F\u002Fwww.zdzheng.xyz\u002FACMMM2025Workshop-UAV\u002F).\n    3. Extract features using your model.\n    4. Modify `demo.py` or `evaluate_gpu.py` to save top-10 gallery image names (follow query order).\n\u003C\u002Fdetails>\n \n\u003Cdetails>\n \u003Csummary>\u003Cb>\n  2024 Workshop and Sepcial Session\n\u003C\u002Fb>\u003C\u002Fsummary>\n \n- **ACM MM UAVM Workshop 2024** We will hold the 2nd workshop on ACM MM 2024! Please see [https:\u002F\u002Fwww.zdzheng.xyz\u002FACMMM2024Workshop-UAV\u002F](https:\u002F\u002Fwww.zdzheng.xyz\u002FACMMM2024Workshop-UAV\u002F) for reference.\n\n- **ACM ICMR Workshop 2024** We are holding a workshop at ACM ICMR 2024 on  Multimedia Object Re-ID. You are welcome to show your insights. See you at Phuket, Thailand!😃 The workshop link is https:\u002F\u002Fwww.zdzheng.xyz\u002FMORE2024\u002F . Submission DDL is **15 April 2024**.\n\n- **ACM WWW Workshop 2024** We are holding a workshop at ACM WWW 2025 on  Multimedia Object Re-ID. You are welcome to show your insights. See you at Sydney!😃 The workshop link is https:\u002F\u002Fwww.zdzheng.xyz\u002FMORE2025\u002F . Submission DDL is **1 Jan 2025**.\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n \u003Csummary>\u003Cb>\n  2023 Workshop and Sepcial Session\n\u003C\u002Fb>\u003C\u002Fsummary>\n\n- **IEEE ITSC Special Session 2023** \nWe host a special session on IEEE Intelligent Transportation Systems Conference (ITSC), covering the object re-identification & point cloud topic. The paper ddl is by **May 15, 2023** and the paper notification is at June 30, 2023. Please select the session code ``w7r4a'' during submission. More details can be found at [Special Session Website](https:\u002F\u002F2023.ieee-itsc.org\u002Fwp-content\u002Fuploads\u002F2023\u002F03\u002FIEEE-ITSC-2023-Special-Session-Proposal-Safe-Critical-Scenario-Understanding-in-Intelligent-Transportation-Systems-SCSU-ITS.pdf).  \n\n- **Remote Sensing Special Issue 2023**\nWe raise a special issue on Remote Sensing (IF=5.3) from now to ~~**16 June 2023**~~ **16 Dec 2023**. You are welcomed to submit your manuscript at (https:\u002F\u002Fwww.mdpi.com\u002Fjournal\u002Fremotesensing\u002Fspecial_issues\u002FEMPK490239), but you need to keep open-source fee in mind.\n\n- **ACM Multimedia Workshop 2023**\nWe are holding the workshop at ACM Multimedia 2023 on Aerial-view Imaging. [Call for papers](https:\u002F\u002Fwww.zdzheng.xyz\u002FACMMM2023Workshop\u002F) [中文介绍](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F620180604)\n\n\u003C\u002Fdetails>\n\n## Table of contents\n* [About Dataset](#about-dataset)\n* [News](#news)\n* [Code Features](#code-features)\n* [Prerequisites](#prerequisites)\n* [Getting Started](#getting-started)\n    * [Installation](#installation)\n    * [Dataset Preparation](#dataset--preparation)\n    * [Train Evaluation ](#train--evaluation)\n    * [Trained Model](#trained-model)\n    * [University-16k](#university-16k)\n* [Citation](#citation)\n\n## About Dataset\nThe dataset split is as follows: \n| Split | #imgs | #buildings | #universities|\n| --------   | -----  | ----| ----|\n|Training | 50,218 | 701 | 33 |\n| Query_drone | 37,855 | 701 |  39 |\n| Query_satellite | 701 | 701 | 39|\n| Query_ground | 2,579 | 701 | 39|\n| Gallery_drone | 51,355 | 951 | 39|\n| Gallery_satellite |  951 | 951 | 39|\n| Gallery_ground | 2,921 | 793  | 39|\n\nMore detailed file structure:\n```\n├── University-1652\u002F\n│   ├── readme.txt\n│   ├── train\u002F\n│       ├── drone\u002F                   \u002F* drone-view training images \n│           ├── 0001\n|           ├── 0002\n|           ...\n│       ├── street\u002F                  \u002F* street-view training images \n│       ├── satellite\u002F               \u002F* satellite-view training images       \n│       ├── google\u002F                  \u002F* noisy street-view training images (collected from Google Image)\n│   ├── test\u002F\n│       ├── query_drone\u002F  \n│       ├── gallery_drone\u002F  \n│       ├── query_street\u002F  \n│       ├── gallery_street\u002F \n│       ├── query_satellite\u002F  \n│       ├── gallery_satellite\u002F \n│       ├── 4K_drone\u002F\n```\n\nWe note that there are no overlaps between 33 univeristies of training set and 39 univeristies of test set.\n**Download**: Request the dataset [here](https:\u002F\u002Fgithub.com\u002Flayumi\u002FUniversity1652-Baseline\u002Fblob\u002Fmaster\u002FRequest.md) (response within 5 minutes).\n\n## News\n\n**2 May 2025** I replace the apex with the merged supports in Pytorch for `fp16` and `bf16`.\n\n**26 Nov 2024** Drone to BEV? You may check our new paper \"Video2BEV: Transforming Drone Videos to BEVs for Video-based Geo-localization\" at https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.13610.\n\n**2 Jul 2024** Text-guided Geo-localization is accepted by [ECCV 2024](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2311.12751). [Code](https:\u002F\u002Fgithub.com\u002FMultimodalGeo\u002FGeoText-1652) is available.\n\n**26 Jan 2023** 1652 Building Name List is at [Here](https:\u002F\u002Fgithub.com\u002Flayumi\u002FUniversity1652-Baseline\u002Fblob\u002Fmaster\u002Fnew_name_list.txt).\n\n**10 Jul 2022** Rainy？Night？Foggy？ Snow？ You may check our new paper \"Multiple-environment Self-adaptive Network for Aerial-view Geo-localization\" at https:\u002F\u002Fgithub.com\u002Fwtyhub\u002FMuseNet (accepted by Pattern Recognition'24)  \n\n**1 Dec 2021** Fix the issue due to the latest torchvision, which do not allow the empty subfolder. Note that some buildings do not have google images.  \n\n**3 March 2021** [GeM Pooling](https:\u002F\u002Fcmp.felk.cvut.cz\u002F~radenfil\u002Fpublications\u002FRadenovic-arXiv17a.pdf) is added. You may use it by `--pool gem`.\n\n**21 January 2021** The GPU-Re-Ranking,  a GNN-based real-time post-processing code, is at [Here](GPU-Re-Ranking\u002F).\n\n**21 August 2020** The transfer learning code for Oxford and Paris is at [Here](https:\u002F\u002Fgithub.com\u002Flayumi\u002Fcnnimageretrieval-pytorch\u002Fblob\u002Fmaster\u002Fcirtorch\u002Fexamples\u002Ftest_My1652model.py).\n\n**27 July 2020** The meta data of 1652 buildings, such as latitude and longitude, are now available at [Google Driver](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1PL8fVky9KZg7XESsuS5NCsYRyYAwui3S\u002Fview?usp=sharing). (You could use Google Earth Pro to open the kml file or use vim to check the value).  \nWe also provide the spiral flight tour file at [Google Driver](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1EW5Esi72tPcfL3zmoHYpufKj_SXrY-xE\u002Fview?usp=sharing). (You could open the kml file via Google Earth Pro to enable the flight camera).  \n\n**26 July 2020** The paper is accepted by ACM Multimedia 2020.\n\n**12 July 2020** I made the baseline of triplet loss (with soft margin) on University-1652 public available at [Here](https:\u002F\u002Fgithub.com\u002Flayumi\u002FUniversity1652-triplet-loss).\n\n**12 March 2020** I add the [state-of-the-art](https:\u002F\u002Fgithub.com\u002Flayumi\u002FUniversity1652-Baseline\u002Ftree\u002Fmaster\u002FState-of-the-art) page for geo-localization and [tutorial](https:\u002F\u002Fgithub.com\u002Flayumi\u002FUniversity1652-Baseline\u002Ftree\u002Fmaster\u002Ftutorial), which will be updated soon.\n\n## Code Features\nNow we have supported:\n- Float16 and BFloat16 with native pytorch support (replace apex)\n- Multiple Query Evaluation\n- Re-Ranking\n- Random Erasing\n- ResNet\u002FVGG-16\n- Visualize Training Curves\n- Visualize Ranking Result\n- Linear Warm-up \n\n## Prerequisites\n\n- Python 3.6+\n- GPU Memory >= 8G\n- Numpy > 1.12.1\n- Pytorch 0.3+ \n\n## Getting started\n### Installation\n- Install Pytorch from http:\u002F\u002Fpytorch.org\u002F\n- Install required packages\n```bash\npip install -r requirement.txt\n```\n- [Optinal] Usually it comes with pytorch. Install Torchvision from the source (Please check the README. Or directly install by anaconda. It will be Okay.)\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fpytorch\u002Fvision # Please check the version to match Pytorch.\ncd vision\npython setup.py install\n```\n\n## Dataset & Preparation\nDownload [University-1652] upon request. You may use the request [template](https:\u002F\u002Fgithub.com\u002Flayumi\u002FUniversity1652-Baseline\u002Fblob\u002Fmaster\u002FRequest.md).\n\nOr download [CVUSA](http:\u002F\u002Fcs.uky.edu\u002F~jacobs\u002Fdatasets\u002Fcvusa\u002F) \u002F [CVACT](https:\u002F\u002Fgithub.com\u002FLiumouliu\u002FOriCNN). \n\nFor CVUSA, I follow the training\u002Ftest split in (https:\u002F\u002Fgithub.com\u002FLiumouliu\u002FOriCNN). \n\n## Train & Evaluation \n### Train & Evaluation University-1652\n```\npython train.py --name three_view_long_share_d0.75_256_s1_google  --extra --views 3  --droprate 0.75  --share  --stride 1 --h 256  --w 256 --fp16; \npython test.py --name three_view_long_share_d0.75_256_s1_google\n```\n\nDefault setting: Drone -> Satellite\nIf you want to try other evaluation setting, you may change these lines at: https:\u002F\u002Fgithub.com\u002Flayumi\u002FUniversity1652-Baseline\u002Fblob\u002Fmaster\u002Ftest.py#L217-L225 \n\n### Ablation Study only Satellite & Drone\n```\npython train_no_street.py --name two_view_long_no_street_share_d0.75_256_s1  --share --views 3  --droprate 0.75  --stride 1 --h 256  --w 256  --fp16; \npython test.py --name two_view_long_no_street_share_d0.75_256_s1\n```\nSet three views but set the weight of loss on street images to zero.\n\n### Train & Evaluation CVUSA\n```\npython prepare_cvusa.py\npython train_cvusa.py --name usa_vgg_noshare_warm5_lr2 --warm 5 --lr 0.02 --use_vgg16 --h 256 --w 256  --fp16 --batchsize 16;\npython test_cvusa.py  --name usa_vgg_noshare_warm5_lr2 \n```\n\n### Show the retrieved Top-10 result \n```\npython test.py --name three_view_long_share_d0.75_256_s1_google # after test\npython demo.py --query_index 0 # which image you want to query in the query set \n```\nIt will save an image named `show.png' containig top-10 retrieval results in the folder. \n\n## Trained Model\n\nYou could download the trained model at [GoogleDrive](https:\u002F\u002Fdrive.google.com\u002Fopen?id=1iES210erZWXptIttY5EBouqgcF5JOBYO) or [OneDrive](https:\u002F\u002Fstudentutsedu-my.sharepoint.com\u002F:u:\u002Fg\u002Fpersonal\u002F12639605_student_uts_edu_au\u002FEW19pLps66RCuJcMAOtWg5kB6Ux_O-9YKjyg5hP24-yWVQ?e=BZXcdM). After download, please put model folders under `.\u002Fmodel\u002F`.\n\n## 🌍 University-160k Test – Always Open!\n**Test anytime** — our evaluation server **never ends**!  \nUniversity160k is a challenging cross-view geo-localization test set that simulates real-world large-scale scenarios.  \nIt extends University-1652 with **+167,486** satellite-view distractors.\n[Join & submit →](https:\u002F\u002Fcodalab.lisn.upsaclay.fr\u002Fcompetitions\u002F12672)\n\n## Citation\nThe following paper uses and reports the result of the baseline model. You may cite it in your paper.\n```bibtex\n@article{zheng2020university,\n  title={University-1652: A Multi-view Multi-source Benchmark for Drone-based Geo-localization},\n  author={Zheng, Zhedong and Wei, Yunchao and Yang, Yi},\n  journal={ACM Multimedia},\n  year={2020}\n}\n@inproceedings{zheng2023uavm,\n  title={UAVM'23: 2023 Workshop on UAVs in Multimedia: Capturing the World from a New Perspective},\n  author={Zheng, Zhedong and Shi, Yujiao and Wang, Tingyu and Liu, Jun and Fang, Jianwu and Wei, Yunchao and Chua, Tat-seng},\n  booktitle={Proceedings of the 31st ACM International Conference on Multimedia},\n  pages={9715--9717},\n  year={2023}\n}\n```\nInstance loss is defined in \n```bibtex\n@article{zheng2017dual,\n  title={Dual-Path Convolutional Image-Text Embeddings with Instance Loss},\n  author={Zheng, Zhedong and Zheng, Liang and Garrett, Michael and Yang, Yi and Xu, Mingliang and Shen, Yi-Dong},\n  journal={ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM)},\n  doi={10.1145\u002F3383184},\n  volume={16},\n  number={2},\n  pages={1--23},\n  year={2020},\n  publisher={ACM New York, NY, USA}\n}\n```\n## Related Work\n- Instance Loss [Code](https:\u002F\u002Fgithub.com\u002Flayumi\u002FImage-Text-Embedding)\n- Person re-ID from Different Viewpoints [Code](https:\u002F\u002Fgithub.com\u002Flayumi\u002FPerson_reID_baseline_pytorch)\n- Lending Orientation to Neural Networks for Cross-view Geo-localization [Code](https:\u002F\u002Fgithub.com\u002FLiumouliu\u002FOriCNN)\n- Predicting Ground-Level Scene Layout from Aerial Imagery [Code](https:\u002F\u002Fgithub.com\u002Fviibridges\u002Fcrossnet)\n","\u003Ch1 align=\"center\"> University1652-基准 \u003C\u002Fh1>\n\u003Ch2 align=\"center\"> 卫星、无人机、地面 \u003C\u002Fh2>\n\n![Python 3.6+](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fpython-3.6+-green.svg)\n[![许可证：MIT](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-MIT-green.svg)](https:\u002F\u002Fopensource.org\u002Flicenses\u002FMIT)\n[![引用次数](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FCitations-400%2B-brightgreen)](https:\u002F\u002Fscholar.google.com\u002Fscholar?cites=16355841926251595902)\n[![星星数](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Flayumi\u002FUniversity1652-Baseline)](https:\u002F\u002Fgithub.com\u002Flayumi\u002FUniversity1652-Baseline\u002Fstargazers)\n\n[![视频演示](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flayumi_University1652-Baseline_readme_49511ea4228a.png)](https:\u002F\u002Fwww.youtube.com\u002Fembed\u002FdzxXPp8tVn4?vq=hd1080)\n\n[[论文]](https:\u002F\u002Farxiv.org\u002Fabs\u002F2002.12186) \n[[幻灯片]](http:\u002F\u002Fzdzheng.xyz\u002Ffiles\u002FACM-MM-Talk.pdf)\n[[探索无人机视角数据]](https:\u002F\u002Fgithub.com\u002Flayumi\u002FUniversity1652-Baseline\u002Fblob\u002Fmaster\u002Fdocs\u002Findex_files\u002Fsample_drone.jpg?raw=true)\n[[探索卫星视角数据]](https:\u002F\u002Fgithub.com\u002Flayumi\u002FUniversity1652-Baseline\u002Fblob\u002Fmaster\u002Fdocs\u002Findex_files\u002Fsample_satellite.jpg?raw=true)\n[[探索街景视角数据]](https:\u002F\u002Fgithub.com\u002Flayumi\u002FUniversity1652-Baseline\u002Fblob\u002Fmaster\u002Fdocs\u002Findex_files\u002Fsample_street.jpg?raw=true)\n[[视频样本]](https:\u002F\u002Fwww.youtube.com\u002Fembed\u002FdzxXPp8tVn4?vq=hd1080)\n[[中文介绍]](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F110987552)\n[[建筑物名称列表]](https:\u002F\u002Fgithub.com\u002Flayumi\u002FUniversity1652-Baseline\u002Fblob\u002Fmaster\u002Fnew_name_list.txt)\n[[经纬度]](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1PL8fVky9KZg7XESsuS5NCsYRyYAwui3S\u002Fview?usp=sharing)\n[[飞行路径]](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1EW5Esi72tPcfL3zmoHYpufKj_SXrY-xE\u002Fview?usp=sharing)\n\n⭐ **觉得有用吗？请给我们点个赞！** 帮助我们触达更多从事基于无人机地理定位研究的学者。🚀\n\n![](https:\u002F\u002Fgithub.com\u002Flayumi\u002FUniversity1652-Baseline\u002Fblob\u002Fmaster\u002Fdocs\u002Findex_files\u002FData.jpg)\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flayumi_University1652-Baseline_readme_91989ffb638e.png)\n\n\n### 按需下载[University-1652]（通常我会在5分钟内回复您）。您可以使用请求[模板](https:\u002F\u002Fgithub.com\u002Flayumi\u002FUniversity1652-Baseline\u002Fblob\u002Fmaster\u002FRequest.md)。\n\n本仓库包含我们论文《University-1652：用于无人机地理定位的多视角多源基准》（https:\u002F\u002Farxiv.org\u002Fabs\u002F2002.12186，ACM多媒体2020）的数据集链接和代码。官方论文链接为https:\u002F\u002Fdl.acm.org\u002Fdoi\u002F10.1145\u002F3394171.3413896。我们收集了全球72所大学的1652栋建筑物。感谢您的关注。\n\n**任务1：无人机视角目标定位。** （无人机→卫星）给定一张无人机视角图像或视频，任务旨在找到最相似的卫星视角图像，以在卫星视图中定位目标建筑物。\n\n**任务2：无人机导航。** （卫星→无人机）给定一张卫星视角图像，无人机需要找到它曾经飞过的最相关位置（无人机视角图像）。根据其飞行历史，无人机可以导航回目标位置。\n\n## 研讨会与挑战赛\n \u003Csummary>\u003Cb>\n  2026研讨会和特别会议\n\u003C\u002Fb>\u003C\u002Fsummary>\n\n- **ACM MM UAVM 2026**：加入我们的第4次研讨会！[详情](https:\u002F\u002Fwww.zdzheng.xyz\u002FACMMM2026Workshop-UAV\u002F)。\n\n- **挑战赛**：https:\u002F\u002Fwww.codabench.org\u002Fcompetitions\u002F15251\u002F\n  \n\u003Cdetails>\n \u003Csummary>\u003Cb>\n  2025研讨会和特别会议\n\u003C\u002Fb>\u003C\u002Fsummary>\n- **ACM MM UAVM 2025**：加入我们的第3次研讨会！[详情](https:\u002F\u002Fwww.zdzheng.xyz\u002FACMMM2025Workshop-UAV\u002F)。\n  - **挑战赛流程**：\n    1. 在University-1652上训练（无人机+卫星+街景）。\n    2. 从[OneDrive](https:\u002F\u002Fwww.zdzheng.xyz\u002FACMMM2025Workshop-UAV\u002F)下载姓名已脱敏的测试集。\n    3. 使用您的模型提取特征。\n    4. 修改`demo.py`或`evaluate_gpu.py`以保存前10名画廊图像的名称（按查询顺序排列）。\n\u003C\u002Fdetails>\n \n\u003Cdetails>\n \u003Csummary>\u003Cb>\n  2024研讨会和特别会议\n\u003C\u002Fb>\u003C\u002Fsummary>\n \n- **ACM MM UAVM研讨会2024** 我们将在ACM MM 2024上举办第2次研讨会！请参阅[https:\u002F\u002Fwww.zdzheng.xyz\u002FACMMM2024Workshop-UAV\u002F](https:\u002F\u002Fwww.zdzheng.xyz\u002FACMMM2024Workshop-UAV\u002F)以获取参考信息。\n\n- **ACM ICMR研讨会2024** 我们将在ACM ICMR 2024上举办关于多媒体对象再识别的研讨会。欢迎您分享您的见解。我们在泰国普吉岛见！😃 研讨会链接是https:\u002F\u002Fwww.zdzheng.xyz\u002FMORE2024\u002F 。投稿截止日期为**2024年4月15日**。\n\n- **ACM WWW研讨会2024** 我们将在ACM WWW 2025上举办关于多媒体对象再识别的研讨会。欢迎您分享您的见解。我们在悉尼见！😃 研讨会链接是https:\u002F\u002Fwww.zdzheng.xyz\u002FMORE2025\u002F 。投稿截止日期为**2025年1月1日**。\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n \u003Csummary>\u003Cb>\n  2023研讨会和特别会议\n\u003C\u002Fb>\u003C\u002Fsummary>\n\n- **IEEE ITSC特别会议2023** \n我们将在IEEE智能交通系统大会（ITSC）上举办一场特别会议，主题涵盖对象再识别和点云技术。论文提交截止日期为**2023年5月15日**，结果通知将于2023年6月30日发布。请在提交时选择会议代码``w7r4a''。更多详情请参见[特别会议网站](https:\u002F\u002F2023.ieee-itsc.org\u002Fwp-content\u002Fuploads\u002F2023\u002F03\u002FIEEE-ITSC-2023-Special-Session-Proposal-Safe-Critical-Scenario-Understanding-in-Intelligent-Transportation-Systems-SCSU-ITS.pdf)。  \n\n- **遥感特别期号2023**\n我们自即日起至~~**2023年6月16日**~~**2023年12月16日**发起遥感特别期号（IF=5.3）。欢迎各位提交稿件至(https:\u002F\u002Fwww.mdpi.com\u002Fjournal\u002Fremotesensing\u002Fspecial_issues\u002FEMPK490239)，但请注意开源费用问题。\n\n- **ACM多媒体研讨会2023**\n我们在ACM多媒体2023上举办了关于航拍成像的研讨会。[征稿通知](https:\u002F\u002Fwww.zdzheng.xyz\u002FACMMM2023Workshop\u002F) [中文介绍](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F620180604)\n\n\u003C\u002Fdetails>\n\n## 目录\n* [关于数据集](#about-dataset)\n* [新闻](#news)\n* [代码特性](#code-features)\n* [先决条件](#prerequisites)\n* [开始使用](#getting-started)\n    * [安装](#installation)\n    * [数据集准备](#dataset--preparation)\n    * [训练与评估](#train--evaluation)\n    * [训练好的模型](#trained-model)\n    * [University-16k](#university-16k)\n* [引用](#citation)\n\n## 关于数据集\n数据集的划分如下：\n| 划分       | #图片 | #建筑物 | #大学 |\n| --------   | -----  | ----| ----|\n|训练集     | 50,218 | 701 | 33 |\n|无人机查询集 | 37,855 | 701 |  39 |\n|卫星查询集  | 701    | 701 | 39|\n|地面查询集  | 2,579  | 701 | 39|\n|无人机图库集| 51,355 | 951 | 39|\n|卫星图库集  |  951   | 951 | 39|\n|地面图库集  | 2,921  | 793  | 39|\n\n更详细的文件结构：\n```\n├── University-1652\u002F\n│   ├── readme.txt\n│   ├── train\u002F\n│       ├── drone\u002F                   \u002F* 无人机视角训练图像 \n│           ├── 0001\n|           ├── 0002\n|           ...\n│       ├── street\u002F                  \u002F* 街景视角训练图像 \n│       ├── satellite\u002F               \u002F* 卫星视角训练图像       \n│       ├── google\u002F                  \u002F* 来自Google Image的噪声街景训练图像\n│   ├── test\u002F\n│       ├── query_drone\u002F  \n│       ├── gallery_drone\u002F  \n│       ├── query_street\u002F  \n│       ├── gallery_street\u002F \n│       ├── query_satellite\u002F  \n│       ├── gallery_satellite\u002F \n│       ├── 4K_drone\u002F\n```\n\n我们注意到，训练集中的33所大学与测试集中的39所大学之间没有重叠。\n**下载**：请在此处申请数据集[链接](https:\u002F\u002Fgithub.com\u002Flayumi\u002FUniversity1652-Baseline\u002Fblob\u002Fmaster\u002FRequest.md)（5分钟内回复）。\n\n## 新闻\n\n**2025年5月2日** 我用PyTorch中合并的支持替换了apex，用于`fp16`和`bf16`。\n\n**2024年11月26日** 无人机到BEV？您可以查看我们的新论文“Video2BEV: 将无人机视频转换为BEV以进行基于视频的地理定位”，网址为https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.13610。\n\n**2024年7月2日** 文本引导的地理定位已被[ECCV 2024](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2311.12751)接受。[代码](https:\u002F\u002Fgithub.com\u002FMultimodalGeo\u002FGeoText-1652)现已可用。\n\n**2023年1月26日** 1652栋建筑名称列表可在[这里](https:\u002F\u002Fgithub.com\u002Flayumi\u002FUniversity1652-Baseline\u002Fblob\u002Fmaster\u002Fnew_name_list.txt)找到。\n\n**2022年7月10日** 雨天？夜晚？雾天？雪天？您可以查看我们的新论文“用于航拍地理定位的多环境自适应网络”，网址为https:\u002F\u002Fgithub.com\u002Fwtyhub\u002FMuseNet（已被Pattern Recognition'24接受）。\n\n**2021年12月1日** 修复了由于最新版torchvision导致的问题，该版本不允许空子文件夹。请注意，部分建筑物没有Google图像。\n\n**2021年3月3日** 添加了[GeM池化](https:\u002F\u002Fcmp.felk.cvut.cz\u002F~radenfil\u002Fpublications\u002FRadenovic-arXiv17a.pdf)。您可以通过`--pool gem`来使用它。\n\n**2021年1月21日** 基于GNN的实时后处理代码GPU-Re-Ranking已在[这里](GPU-Re-Ranking\u002F)提供。\n\n**2020年8月21日** 用于牛津和巴黎的迁移学习代码已在[这里](https:\u002F\u002Fgithub.com\u002Flayumi\u002Fcnnimageretrieval-pytorch\u002Fblob\u002Fmaster\u002Fcirtorch\u002Fexamples\u002Ftest_My1652model.py)提供。\n\n**2020年7月27日** 1652栋建筑的元数据，如经纬度，现已在[Google Drive](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1PL8fVky9KZg7XESsuS5NCsYRyYAwui3S\u002Fview?usp=sharing)上可用。（您可以使用Google Earth Pro打开kml文件或使用vim查看数值）。我们还提供了螺旋飞行游览文件，可在[Google Drive](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1EW5Esi72tPcfL3zmoHYpufKj_SXrY-xE\u002Fview?usp=sharing)上找到。（您可以通过Google Earth Pro打开kml文件以启用飞行相机）。\n\n**2020年7月26日** 论文已被ACM Multimedia 2020接受。\n\n**2020年7月12日** 我将University-1652上的三元组损失（带软边界）基准公开在[这里](https:\u002F\u002Fgithub.com\u002Flayumi\u002FUniversity1652-triplet-loss)。\n\n**2020年3月12日** 我添加了关于地理定位的[最先进方法](https:\u002F\u002Fgithub.com\u002Flayumi\u002FUniversity1652-Baseline\u002Ftree\u002Fmaster\u002FState-of-the-art)页面以及[教程](https:\u002F\u002Fgithub.com\u002Flayumi\u002FUniversity1652-Baseline\u002Ftree\u002Fmaster\u002Ftutorial)，这些内容将很快更新。\n\n## 代码特性\n目前我们支持：\n- 使用原生PyTorch支持的Float16和BFloat16（替换apex）\n- 多查询评估\n- 重排序\n- 随机擦除\n- ResNet\u002FVGG-16\n- 可视化训练曲线\n- 可视化排名结果\n- 线性预热\n\n## 先决条件\n\n- Python 3.6+\n- GPU内存 >= 8G\n- Numpy > 1.12.1\n- PyTorch 0.3+\n\n## 开始使用\n### 安装\n- 从http:\u002F\u002Fpytorch.org\u002F安装PyTorch\n- 安装所需包\n```bash\npip install -r requirement.txt\n```\n- [可选] 通常PyTorch自带。从源码安装Torchvision（请查看README。或者直接通过anaconda安装即可）。\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fpytorch\u002Fvision # 请检查版本以匹配PyTorch。\ncd vision\npython setup.py install\n```\n\n## 数据集与准备\n按需下载[University-1652]。您可以使用[申请模板](https:\u002F\u002Fgithub.com\u002Flayumi\u002FUniversity1652-Baseline\u002Fblob\u002Fmaster\u002FRequest.md)。\n\n或者下载[CVUSA](http:\u002F\u002Fcs.uky.edu\u002F~jacobs\u002Fdatasets\u002Fcvusa\u002F) \u002F [CVACT](https:\u002F\u002Fgithub.com\u002FLiumouliu\u002FOriCNN)。\n\n对于CVUSA，我遵循(Liumouliu\u002FOriCNN)中的训练\u002F测试划分。\n\n## 训练与评估\n### 训练与评估University-1652\n```\npython train.py --name three_view_long_share_d0.75_256_s1_google  --extra --views 3  --droprate 0.75  --share  --stride 1 --h 256  --w 256 --fp16; \npython test.py --name three_view_long_share_d0.75_256_s1_google\n```\n\n默认设置：无人机 -> 卫星\n如果您想尝试其他评估设置，可以修改以下代码行：https:\u002F\u002Fgithub.com\u002Flayumi\u002FUniversity1652-Baseline\u002Fblob\u002Fmaster\u002Ftest.py#L217-L225\n\n### 仅卫星与无人机的消融研究\n```\npython train_no_street.py --name two_view_long_no_street_share_d0.75_256_s1  --share --views 3  --droprate 0.75  --stride 1 --h 256  --w 256  --fp16; \npython test.py --name two_view_long_no_street_share_d0.75_256_s1\n```\n设置三个视图，但将街景图像的损失权重设为零。\n\n### 训练与评估CVUSA\n```\npython prepare_cvusa.py\npython train_cvusa.py --name usa_vgg_noshare_warm5_lr2 --warm 5 --lr 0.02 --use_vgg16 --h 256 --w 256  --fp16 --batchsize 16;\npython test_cvusa.py  --name usa_vgg_noshare_warm5_lr2 \n```\n\n### 展示检索到的前10名结果\n```\npython test.py --name three_view_long_share_d0.75_256_s1_google # 测试完成后\npython demo.py --query_index 0 # 您想在查询集中查询哪张图片\n```\n系统会保存一张名为`show.png`的图片，其中包含前10名检索结果，存放在相应文件夹中。\n\n## 训练好的模型\n\n您可以在[GoogleDrive](https:\u002F\u002Fdrive.google.com\u002Fopen?id=1iES210erZWXptIttY5EBouqgcF5JOBYO)或[OneDrive](https:\u002F\u002Fstudentutsedu-my.sharepoint.com\u002F:u:\u002Fg\u002Fpersonal\u002F12639605_student_uts_edu_au\u002FEW19pLps66RCuJcMAOtWg5kB6Ux_O-9YKjyg5hP24-yWVQ?e=BZXcdM)下载训练好的模型。下载后，请将模型文件夹放入`.\u002Fmodel\u002F`目录下。\n\n## 🌍 University-160k 测试——永久开放！\n**随时测试** —— 我们的评测服务器 **永不结束**！  \nUniversity160k 是一个具有挑战性的跨视角地理定位测试集，模拟了真实世界的大规模场景。  \n它在 University-1652 的基础上扩展了 **+167,486** 张卫星视图干扰图像。\n[加入并提交 →](https:\u002F\u002Fcodalab.lisn.upsaclay.fr\u002Fcompetitions\u002F12672)\n\n## 引用\n以下论文使用并报告了基线模型的结果。您可以在自己的论文中引用它们。\n```bibtex\n@article{zheng2020university,\n  title={University-1652：基于无人机的多视角、多源地理定位基准数据集},\n  author={Zheng, Zhedong and Wei, Yunchao and Yang, Yi},\n  journal={ACM Multimedia},\n  year={2020}\n}\n@inproceedings{zheng2023uavm,\n  title={UAVM'23：2023年多媒体中的无人机研讨会——以全新视角捕捉世界},\n  author={Zheng, Zhedong and Shi, Yujiao and Wang, Tingyu and Liu, Jun and Fang, Jianwu and Wei, Yunchao and Chua, Tat-seng},\n  booktitle={第31届ACM国际多媒体会议论文集},\n  pages={9715--9717},\n  year={2023}\n}\n```\n实例损失的定义见：\n```bibtex\n@article{zheng2017dual,\n  title={带有实例损失的双路径卷积图像-文本嵌入},\n  author={Zheng, Zhedong and Zheng, Liang and Garrett, Michael and Yang, Yi and Xu, Mingliang and Shen, Yi-Dong},\n  journal={ACM多媒体计算、通信与应用期刊（TOMM）},\n  doi={10.1145\u002F3383184},\n  volume={16},\n  number={2},\n  pages={1--23},\n  year={2020},\n  publisher={ACM 纽约，纽约州，美国}\n}\n```\n\n## 相关工作\n- 实例损失 [代码](https:\u002F\u002Fgithub.com\u002Flayumi\u002FImage-Text-Embedding)\n- 不同视角下的行人再识别 [代码](https:\u002F\u002Fgithub.com\u002Flayumi\u002FPerson_reID_baseline_pytorch)\n- 为神经网络赋予方向性以实现跨视角地理定位 [代码](https:\u002F\u002Fgithub.com\u002FLiumouliu\u002FOriCNN)\n- 从航空影像预测地面场景布局 [代码](https:\u002F\u002Fgithub.com\u002Fviibridges\u002Fcrossnet)","# University1652-Baseline 快速上手指南\n\nUniversity1652-Baseline 是一个用于无人机地理定位（Drone-based Geo-localization）的多视角多源基准项目。它支持卫星、无人机和地面街景三种视角的图像匹配与定位任务。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐) 或 Windows\n*   **Python**: 3.6 及以上版本\n*   **GPU**: 显存 >= 8GB\n*   **核心依赖**:\n    *   PyTorch 0.3+ (建议使用较新版本以兼容 fp16\u002Fbf16)\n    *   NumPy > 1.12.1\n    *   Torchvision (需与 PyTorch 版本匹配)\n\n## 安装步骤\n\n### 1. 安装 PyTorch\n请访问 [PyTorch 官网](https:\u002F\u002Fpytorch.org\u002F) 根据您的 CUDA 版本安装合适的 PyTorch。\n*(国内用户推荐使用清华或阿里镜像源加速安装)*\n\n```bash\n# 示例：使用 pip 安装 (请根据实际 CUDA 版本调整)\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\n```\n\n### 2. 安装项目依赖\n克隆本仓库并安装所需的 Python 包：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Flayumi\u002FUniversity1652-Baseline.git\ncd University1652-Baseline\npip install -r requirement.txt\n```\n\n### 3. (可选) 源码安装 Torchvision\n如果通过 pip 安装的 Torchvision 版本与您的 PyTorch 不匹配，可以从源码安装：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fpytorch\u002Fvision\ncd vision\n# 请检查分支版本以匹配您的 PyTorch 版本\npython setup.py install\ncd ..\n```\n\n## 基本使用\n\n### 1. 数据集准备\n本项目使用的 **University-1652** 数据集需要申请下载。\n*   **申请方式**: 填写 [Request.md](https:\u002F\u002Fgithub.com\u002Flayumi\u002FUniversity1652-Baseline\u002Fblob\u002Fmaster\u002FRequest.md) 中的模板发送给作者（通常 5 分钟内回复）。\n*   **目录结构**: 下载后解压，确保目录结构如下：\n    ```text\n    ├── University-1652\u002F\n    │   ├── train\u002F          # 训练集 (drone, street, satellite, google)\n    │   └── test\u002F           # 测试集 (query_*, gallery_*)\n    ```\n*   **替代方案**: 您也可以使用 CVUSA 或 CVACT 数据集进行实验。\n\n### 2. 模型训练与评估\n以下命令演示了默认的“无人机视角 -> 卫星视角” (Drone -> Satellite) 任务的训练与测试流程。\n\n**步骤 A: 训练模型**\n使用多视角（无人机、卫星、街景）数据进行训练，开启混合精度训练 (`--fp16`) 以节省显存。\n\n```bash\npython train.py --name three_view_long_share_d0.75_256_s1_google --extra --views 3 --droprate 0.75 --share --stride 1 --h 256 --w 256 --fp16\n```\n\n**步骤 B: 评估模型**\n使用训练好的模型进行测试评估。\n\n```bash\npython test.py --name three_view_long_share_d0.75_256_s1_google\n```\n\n### 3. 其他配置说明\n*   **仅使用卫星与无人机视角**: 如果您想排除街景数据进行消融实验，请使用以下命令：\n    ```bash\n    python train_no_street.py --name two_view_long_no_street_share_d0.75_256_s1 --share --views 3 --droprate 0.75 --stride 1 --h 256 --w 256 --fp16\n    python test.py --name two_view_long_no_street_share_d0.75_256_s1\n    ```\n*   **切换任务模式**: 默认设置为 `Drone -> Satellite`。若需测试 `Satellite -> Drone` 或其他模式，请修改 `test.py` 文件中第 217-225 行的相关配置。\n\n### 4. 特性支持\n当前代码库已原生支持以下特性，可通过命令行参数启用：\n*   **精度优化**: Float16 (`--fp16`) 和 BFloat16\n*   **重排序**: GPU-Re-Ranking (基于 GNN 的后处理)\n*   **数据增强**: Random Erasing, Linear Warm-up\n*   **骨干网络**: ResNet, VGG-16, GeM Pooling (`--pool gem`)","某智慧城市安防团队正在开发一套无人机自动巡检系统，需要在复杂城市环境中快速定位特定建筑物并规划返航路径。\n\n### 没有 University1652-Baseline 时\n- **数据获取困难**：团队需自行采集全球不同视角的建筑图像，耗时数月仍难以覆盖多样化的光照和角度变化。\n- **跨视角匹配精度低**：缺乏标准的“无人机 - 卫星”配对数据训练模型，导致无人机拍摄画面无法准确对应到卫星地图上的具体位置。\n- **导航回溯失败**：当无人机需要依据卫星图找回曾飞越的地点时，因缺少多源视图基准，算法常迷失方向或定位偏差过大。\n- **研发验证无标准**：没有统一的评测基准，团队难以客观评估算法性能，也无法与学术界最新成果进行横向对比。\n\n### 使用 University1652-Baseline 后\n- **数据即拿即用**：直接调用涵盖全球 72 所高校、1652 栋建筑的标准化数据集，立即启动包含卫星、无人机及地面三视角的模型训练。\n- **定位精准度跃升**：利用其提供的多视角配对数据优化算法，实现了从无人机实时视频到卫星地图的秒级高精度匹配。\n- **智能返航无忧**：基于\"Satellite -> Drone\"任务基准，无人机能根据历史飞行记录，准确识别并返回目标建筑上空。\n- **对标国际前沿**：依托 ACM Multimedia 认可的权威基准进行测试，快速迭代模型并在国际挑战赛中验证技术领先性。\n\nUniversity1652-Baseline 通过提供高质量的多视角地理定位基准，将原本需要数月构建的数据壁垒转化为即插即用的核心能力，极大加速了无人机自主导航系统的落地进程。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flayumi_University1652-Baseline_0b440948.png","layumi","Zhedong Zheng","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Flayumi_7083c170.jpg","Hi, I am a tenure-track assistant professor at the University of Macau. My work focuses on computer vision, especially representation learning. ","University of Macau","Macau, China","Zhedong.Zheng@student.uts.edu.au",null,"http:\u002F\u002Fwww.zdzheng.xyz","https:\u002F\u002Fgithub.com\u002Flayumi",[83,87,91,95,99],{"name":84,"color":85,"percentage":86},"Python","#3572A5",98.3,{"name":88,"color":89,"percentage":90},"Cuda","#3A4E3A",0.9,{"name":92,"color":93,"percentage":94},"C++","#f34b7d",0.5,{"name":96,"color":97,"percentage":98},"MATLAB","#e16737",0.3,{"name":100,"color":101,"percentage":102},"Shell","#89e051",0,629,92,"2026-04-15T14:11:36","MIT","未说明","必需，显存 >= 8GB，具体 CUDA 版本未说明（需匹配 PyTorch 版本）",{"notes":110,"python":111,"dependencies":112},"1. 数据集 University-1652 需要通过邮件申请获取，通常 5 分钟内回复。2. 项目支持 Float16 和 BFloat16 混合精度训练（已替换 apex 为原生 PyTorch 支持）。3. 安装 Torchvision 时需注意版本与已安装的 PyTorch 严格对应，建议从源码安装或使用 anaconda。4. 默认任务为无人机视角到卫星视角的定位（Drone -> Satellite）。","3.6+",[113,114,115],"Pytorch >= 0.3","Numpy > 1.12.1","Torchvision (需与 PyTorch 版本匹配)",[16,15,117,14],"其他",[119,120,121,122,123,124,125,126,127,128,129,130,131,132,133],"drone","image-retrieval","cross-view","pytorch","cvusa","geo-localization","multi-source-benchmark","satellite","awesome-list","dataset","cvact","gem-pooling","remote-sensing","uav","place-recognition","2026-03-27T02:49:30.150509","2026-04-17T08:25:58.300099",[137,142,147,152,157,162,167],{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},36965,"在中国无法从 Google Drive 下载数据集，有替代方案吗？","由于网络限制，中国用户可能无法直接从 Google Drive 下载。维护者建议通过学术邮箱（academic email）发送请求，他们会将数据集的直接下载链接发送到您的邮箱。","https:\u002F\u002Fgithub.com\u002Flayumi\u002FUniversity1652-Baseline\u002Fissues\u002F10",{"id":143,"question_zh":144,"answer_zh":145,"source_url":146},36966,"为什么训练时某些类别的 Google 街景文件夹是空的？","这是正常现象。为了确保数据质量，项目使用了两个强过滤器：移除“室内”图像和属于两栋建筑的“模糊”图像。因此，一些在线收集的 Google 街景文件夹被清空，以保持与卫星和无人机图像的类别名称对齐。请保留这些空文件夹不要删除。","https:\u002F\u002Fgithub.com\u002Flayumi\u002FUniversity1652-Baseline\u002Fissues\u002F36",{"id":148,"question_zh":149,"answer_zh":150,"source_url":151},36967,"运行训练时报错 'IndexError: tuple index out of range' 如何解决？","该错误通常与 Apex 混合精度训练库有关。如果安装了 Apex 但配置不当会导致此问题。解决方案是尝试不使用 fp16（即去掉 --fp16 参数）进行正常训练，或者检查并重新正确安装 Apex 库。","https:\u002F\u002Fgithub.com\u002Flayumi\u002FUniversity1652-Baseline\u002Fissues\u002F65",{"id":153,"question_zh":154,"answer_zh":155,"source_url":156},36968,"如何可视化检索结果（如论文中的图 5）？","在提取图像特征并保存结果后，可以参考项目根目录下的 demo.py 脚本来可视化检索结果。该脚本展示了如何加载结果并生成匹配图像的可视化展示。","https:\u002F\u002Fgithub.com\u002Flayumi\u002FUniversity1652-Baseline\u002Fissues\u002F30",{"id":158,"question_zh":159,"answer_zh":160,"source_url":161},36969,"如何获取测试集\u002F查询集（query_drone）的 GPS 坐标信息？","关于无人机图像的 GPS 坐标及其他详细信息，请参阅项目 README 中的 'News' 部分或相关更新公告，那里提供了获取这些元数据的指引。","https:\u002F\u002Fgithub.com\u002Flayumi\u002FUniversity1652-Baseline\u002Fissues\u002F40",{"id":163,"question_zh":164,"answer_zh":165,"source_url":166},36970,"如何采集类似 University1652 的跨视角地理定位图像数据？","数据采集的高层次步骤可参考相关的学术演讲幻灯片。具体实现上，作者使用 KeymouseGo 脚本控制 Windows 上的 Google Earth 应用程序自动点击和录制视频，随后使用 ffmpeg 从视频中提取帧图像作为数据集。","https:\u002F\u002Fgithub.com\u002Flayumi\u002FUniversity1652-Baseline\u002Fissues\u002F18",{"id":168,"question_zh":169,"answer_zh":170,"source_url":171},36971,"为什么复现结果与论文差距很大（Recall@1 极低）？","请确保您使用的是在 University-1652 数据集上训练的模型进行评估，而不是在其他数据集（如 CVUSA）上预训练的模型。如果使用了错误的预训练模型或在测试阶段配置了错误的画廊（gallery）和查询（query）名称（例如应设置为 gallery_satellite 和 query_drone），会导致结果严重偏低。","https:\u002F\u002Fgithub.com\u002Flayumi\u002FUniversity1652-Baseline\u002Fissues\u002F6",[173,178],{"id":174,"version":175,"summary_zh":176,"released_at":177},297366,"v1.2","- 在 PyTorch 中，将 apex 替换为已合并的支持库，以用于 FP16 和 BF16 精度。","2025-05-07T12:22:26",{"id":179,"version":180,"summary_zh":181,"released_at":182},297367,"v1.1","在一个仓库中新增对七种损失函数的支持，包括对比损失、三元组损失、Lifted Structured Loss、Circle Loss、ArcFace、CosFace 和 Sphere Loss。","2021-12-16T03:51:04"]