[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tool-facebookresearch--Ego4d":3,"similar-facebookresearch--Ego4d":109},{"id":4,"github_repo":5,"name":6,"description_en":7,"description_zh":8,"ai_summary_zh":8,"readme_en":9,"readme_zh":10,"quickstart_zh":11,"use_case_zh":12,"hero_image_url":13,"owner_login":14,"owner_name":15,"owner_avatar_url":16,"owner_bio":17,"owner_company":18,"owner_location":18,"owner_email":18,"owner_twitter":18,"owner_website":19,"owner_url":20,"languages":21,"stars":46,"forks":47,"last_commit_at":48,"license":49,"difficulty_score":50,"env_os":51,"env_gpu":51,"env_ram":51,"env_deps":52,"category_tags":59,"github_topics":63,"view_count":50,"oss_zip_url":18,"oss_zip_packed_at":18,"status":69,"created_at":70,"updated_at":71,"faqs":72,"releases":103},3836,"facebookresearch\u002FEgo4d","Ego4d","Ego4d dataset repository. Download the dataset, visualize, extract features & example usage of the dataset","Ego4D 是全球规模最大的第一人称视角视频机器学习数据集与基准测试套件，旨在推动人工智能对“人类视角”的理解能力。它收录了超过 3700 小时的标注视频数据，并衍生出多模态、多视角的 Ego-Exo4D 数据集，同步记录了佩戴智能眼镜的第一人称画面与第三方相机拍摄的第三人称画面，总时长超 1200 小时。\n\n这一工具主要解决了现有 AI 模型缺乏高质量、大规模日常活动视频数据的问题，帮助机器更好地学习人类的行为模式、空间感知及任务执行逻辑，广泛应用于视觉问答、自然语言查询及长时动作分析等研究场景。\n\nEgo4D 非常适合计算机视觉研究人员、AI 开发者及高校学者使用。其独特亮点在于提供了完善的 Python 模块支持，不仅包含便捷的命令行下载工具和数据可视化平台，还内置了统一的视频读取 API 及特征提取接口，轻松集成 Omnivore、SlowFast 等主流模型。此外，项目附带丰富的示例教程与研究代码，让用户能快速上手进行模型训练与基准测试，大幅降低了第一人称视频研究的门槛。","> [!IMPORTANT]\n> **EGO-EXO4D DATASET ANNOUNCEMENT:** *Ego-Exo4D* **V2** is now *available to\n> the public*. V2 contains **1286.30 video hours** (**221.26 ego-hours**) across 5035\n> takes with **more annotations** Please refer to the\n> [changelog](https:\u002F\u002Fdocs.ego-exo4d-data.org\u002Fchangelog) for details on what\n> has changed.\n>\n> **EGO4D UPDATE:** *V2.1* has been released due to the addition of the\n> [Goal-Step](https:\u002F\u002Fopenreview.net\u002Fpdf?id=3BxYAaovKr) annotations and\n> accompanying \"grouped videos\". Please refer to the\n> [documentation](https:\u002F\u002Fego4d-data.org\u002Fdocs\u002Fupdates\u002F#ego4d-goal-step--grouped-videos) for more information.\n\n# Ego4D & Ego-Exo4D\n\n**Ego-Exo4D** is a large-scale multi-modal multi-view video dataset (including 3D) and benchmark challenge. The dataset consists of time-synchronized videos of participants recorded with at least one first-person (egocentric Aria glasses) and third-person (exocentric GoPro cameras) perspective cameras. \n- Please refer to the [website](https:\u002F\u002Fego-exo4d-data.org\u002F),\n  [documentation](https:\u002F\u002Fdocs.ego-exo4d-data.org\u002F),\n  [paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.18259), [blog\n  post](https:\u002F\u002Fai.meta.com\u002Fblog\u002Fego-exo4d-video-learning-perception\u002F) and\n  [video introduction](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=GdooXEBAnI8).\n\n**Ego4D** is the world's largest egocentric (first person) video ML dataset and benchmark suite, including over 3700 hours of annotated first-person video data. \n- Please refer to the [website](https:\u002F\u002Fego4d-data.org\u002F),\n  [documentation](https:\u002F\u002Fego4d-data.org\u002Fdocs\u002F) or\n  [paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.07058) for more information.\n\n## Getting Started\n- To **access** the data, please refer to the Documentation:\n    - For Ego-Exo4D: refer to the [Getting Started](https:\u002F\u002Fdocs.ego-exo4d-data.org\u002Fgetting-started\u002F) page.\n    - For Ego4D: refer to the [Start Here](https:\u002F\u002Fego4d-data.org\u002Fdocs\u002Fstart-here\u002F) page.\n- To **download** the data, refer to:\n    - For Ego-Exo4D: [Ego-Exo4D's Downloader CLI README](ego4d\u002Fegoexo\u002Fdownload\u002FREADME.md)\n    - For Ego4D: [Ego4D's CLI README](ego4d\u002Fcli\u002FREADME.md)\n- **Explore** Ego4D or Ego-Exo4D here (you'll need a license): [Ego4D Visualizer](https:\u002F\u002Fvisualize.ego4d-data.org\u002F)\n- Read the [Summary](#summary) below for details about this repository.\n\n## Summary\n\nThe Ego4d repository (`ego4d` python module) includes: \n- [Ego-Exo4D Downloader CLI](ego4d\u002Fegoexo\u002Fdownload\u002FREADME.md) for the Ego-Ego4D dataset (available as the command `egoexo`)\n- [Ego4D Downloader CLI](ego4d\u002Fcli\u002FREADME.md) for the Ego4D dataset (available as the command `ego4d`)\n- A simple API abstracting common video reading libraries\n([TorchAudio](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FEgo4d\u002Fblob\u002Fmain\u002Fego4d\u002Fresearch\u002Freaders.py#L69),\n[PyAV](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FEgo4d\u002Fblob\u002Fmain\u002Fego4d\u002Fresearch\u002Freaders.py#L136)),\n- An API for [feature\nextraction](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FEgo4d\u002Fblob\u002Fmain\u002Fego4d\u002Ffeatures\u002FREADME.md#as-an-api), which includes [lightweight wrappers for common models](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FEgo4d\u002Ftree\u002Fmain\u002Fego4d\u002Ffeatures\u002Fmodels), such as: [Omnivore](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FEgo4d\u002Fblob\u002Fmain\u002Fego4d\u002Ffeatures\u002Fmodels\u002Fomnivore.py) and [SlowFast](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FEgo4d\u002Fblob\u002Fmain\u002Fego4d\u002Ffeatures\u002Fmodels\u002Fslowfast.py)\n- Notebooks (for [Ego4D](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FEgo4d\u002Ftree\u002Fmain\u002Fnotebooks) and [Ego-Exo4D]()) serving as examples\u002Ftutorials to analyze & use the dataset\n    - Colab notebooks for Ego4D serve as additional examples for the benchmarks (VQ, NLQ and STA) can be found on: https:\u002F\u002Fego4d-data.org\u002Fdocs\u002Fchallenge\u002F\n- Research code to train models on the dataset, e.g. [clep](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FEgo4d\u002Ftree\u002Fmain\u002Fego4d\u002Fresearch\u002Fclep)\n    - **NOTE:** baseline code for Ego-Exo4D is coming soon!\n    - **NOTE:** baseline code for the Ego4D benchmarks exists on separate GitHub repositories, see the [EGO4D organization](https:\u002F\u002Fgithub.com\u002FEGO4D\u002F) and [docs](https:\u002F\u002Fego4d-data.org\u002Fdocs\u002Fbenchmarks\u002Foverview\u002F)\n\n\nPlease see [**Structure of the Repository**](#structure-of-the-repository) below for details.\n\n## Setup\n\nPlease follow the below instructions to setup the downloader CLI for Ego4d and\nto install the `ego4d` python module. \n\n### Option 1: From the PyPi package\n\n\n>[!TIP]\n>Please ensure you have a conda or pyenv environment created & activated. If you're unsure\n>on how to do so, you can follow [Option 2: Step 1](step-1-create-or-use-an-environment).\n\n```\npip install ego4d --upgrade\n```\n\n**NOTE:** Please ensure you are on at least Python 3.10\n\n### Option 2: Clone\u002FDownload the Code\n\nEnsure you have cloned or downloaded the code to your local disk. All\ninstructions assume you are the **root of the repository**.\n\n#### Step 1: Create or Use an Environment\n\nCreate a conda environment to enable pip installation:\n```\nconda create -n ego4d python=3.11 -y\nconda activate ego4d\n```\n\nIf you are using an existing conda (or pyenv) environment: please ensure you\nhave installed *at least* Python 3.10.\n\n#### Step 2: \n\n```\npip install .  # run from the root of Ego4d\n```\n\nNow you should be able to import ego4d:\n\n```\npython3 -c 'import ego4d; print(ego4d)'\n```\n\nYou can check that the ego4d module links to the correct file on your file system from the output of the above command.\n\n## Structure of the Repository\nThe repository contains multiple directories covering a specific theme. Each\ntheme contains an associated `README.md` file, please refer to them.\n\n\nAll python code is located in the `ego4d` and associated subdirectories. The\ngoal for each subdirectory is to cover one specific theme. \n\n- `ego4d`: the `ego4d` *python* module exists\n    - [`cli`](ego4d\u002Fcli\u002FREADME.md): The Ego4D CLI for downloading the dataset\n    - [`features`](ego4d\u002Ffeatures\u002FREADME.md): Feature extraction across the dataset\n    - [`research`](ego4d\u002Fresearch\u002FREADME.md): Everything related to research and\n      usage of the dataset (dataloaders, etc).\n        - [`research\u002Fclep`](ego4d\u002Fresearch\u002Fclep\u002FREADME.md): Contrastive Language Ego-centric video Pre-training\n- [`viz`](viz\u002Fnarrations\u002FREADME.md): visualization engine\n\n## Visualization and Demo\n- For a demo notebook: [Annotation Notebook](notebooks\u002Fannotation_visualization.ipynb)\n- For the visualization engine: [Viz README](viz\u002Fnarrations\u002FREADME.md)\n\n# License\n\nEgo4D is released under the [MIT License](LICENSE).\n","> [!IMPORTANT]\n> **EGO-EXO4D 数据集公告：** *Ego-Exo4D* **V2** 现已 *向公众开放*。V2 版本包含 **5035 次拍摄中的 1286.30 小时视频**（其中 **221.26 小时为第一视角视频**），并附有 **更多标注信息**。有关具体变更内容，请参阅\n> [更改日志](https:\u002F\u002Fdocs.ego-exo4d-data.org\u002Fchangelog)。\n>\n> **EGO4D 更新：** 由于新增了 [Goal-Step](https:\u002F\u002Fopenreview.net\u002Fpdf?id=3BxYAaovKr) 标注及配套的“分组视频”，现已发布 *V2.1* 版本。更多信息请参阅\n> [文档](https:\u002F\u002Fego4d-data.org\u002Fdocs\u002Fupdates\u002F#ego4d-goal-step--grouped-videos)。\n\n# Ego4D 和 Ego-Exo4D\n\n**Ego-Exo4D** 是一个大规模多模态、多视角（包括 3D）的视频数据集及基准挑战赛。该数据集由参与者佩戴至少一台第一视角（egocentric Aria 眼镜）和一台第三视角（exocentric GoPro 相机）摄像设备同步录制而成。\n- 请参阅 [官网](https:\u002F\u002Fego-exo4d-data.org\u002F)、\n  [文档](https:\u002F\u002Fdocs.ego-exo4d-data.org\u002F)、\n  [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.18259)、[博客文章](https:\u002F\u002Fai.meta.com\u002Fblog\u002Fego-exo4d-video-learning-perception\u002F)以及\n  [视频介绍](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=GdooXEBAnI8)。\n\n**Ego4D** 是全球最大的第一视角视频机器学习数据集及基准测试套件，包含超过 3700 小时的标注第一视角视频数据。\n- 有关更多信息，请参阅 [官网](https:\u002F\u002Fego4d-data.org\u002F)、\n  [文档](https:\u002F\u002Fego4d-data.org\u002Fdocs\u002F) 或\n  [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.07058)。\n\n## 入门指南\n- 若要 **访问** 数据，请参考文档：\n    - 对于 Ego-Exo4D：请参阅 [入门指南](https:\u002F\u002Fdocs.ego-exo4d-data.org\u002Fgetting-started\u002F) 页面。\n    - 对于 Ego4D：请参阅 [从这里开始](https:\u002F\u002Fego4d-data.org\u002Fdocs\u002Fstart-here\u002F) 页面。\n- 若要 **下载** 数据，请参考：\n    - 对于 Ego-Exo4D：[Ego-Exo4D 下载 CLI README](ego4d\u002Fegoexo\u002Fdownload\u002FREADME.md)\n    - 对于 Ego4D：[Ego4D CLI README](ego4d\u002Fcli\u002FREADME.md)\n- 在此处 **探索** Ego4D 或 Ego-Exo4D（需持有许可证）：[Ego4D 可视化工具](https:\u002F\u002Fvisualize.ego4d-data.org\u002F)\n- 请阅读下方的 [概要](#summary) 以了解本仓库的详细信息。\n\n## 概要\n\nEgo4d 仓库（`ego4d` Python 模块）包含以下内容：\n- [Ego-Exo4D 下载 CLI](ego4d\u002Fegoexo\u002Fdownload\u002FREADME.md)，用于下载 Ego-Exo4D 数据集（可通过命令 `egoexo` 使用）\n- [Ego4D 下载 CLI](ego4d\u002Fcli\u002FREADME.md)，用于下载 Ego4D 数据集（可通过命令 `ego4d` 使用）\n- 一个简化 API，用于抽象常见的视频读取库\n([TorchAudio](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FEgo4d\u002Fblob\u002Fmain\u002Fego4d\u002Fresearch\u002Freaders.py#L69),\n[PyAV](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FEgo4d\u002Fblob\u002Fmain\u002Fego4d\u002Fresearch\u002Freaders.py#L136)),\n- 一个用于 [特征提取](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FEgo4d\u002Fblob\u002Fmain\u002Fego4d\u002Ffeatures\u002FREADME.md#as-an-api) 的 API，其中包括针对常见模型的轻量级封装\n([Omnivore](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FEgo4d\u002Fblob\u002Fmain\u002Fego4d\u002Ffeatures\u002Fmodels\u002Fomnivore.py) 和\n[SlowFast](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FEgo4d\u002Fblob\u002Fmain\u002Fego4d\u002Ffeatures\u002Fmodels\u002Fslowfast.py) 等)\n- 笔记本（适用于 [Ego4D](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FEgo4d\u002Ftree\u002Fmain\u002Fnotebooks) 和 [Ego-Exo4D]())，用作分析和使用数据集的示例与教程\n    - Ego4D 的 Colab 笔记本还提供了基准测试（VQ、NLQ 和 STA）的额外示例，详情请见：https:\u002F\u002Fego4d-data.org\u002Fdocs\u002Fchallenge\u002F\n- 用于在数据集中训练模型的研究代码，例如 [clep](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FEgo4d\u002Ftree\u002Fmain\u002Fego4d\u002Fresearch\u002Fclep)\n    - **注意：** Ego-Exo4D 的基线代码即将推出！\n    - **注意：** Ego4D 基准测试的基线代码位于单独的 GitHub 仓库中，详情请参阅 [EGO4D 组织](https:\u002F\u002Fgithub.com\u002FEGO4D\u002F) 和\n      [文档](https:\u002F\u002Fego4d-data.org\u002Fdocs\u002Fbenchmarks\u002Foverview\u002F)\n\n\n有关详细信息，请参阅下方的 [仓库结构](#structure-of-the-repository)。\n\n## 设置\n请按照以下步骤设置 Ego4D 下载 CLI 并安装 `ego4d` Python 模块。\n\n### 选项 1：通过 PyPi 包\n\n\n>[!TIP]\n>请确保您已创建并激活 conda 或 pyenv 环境。如果您不确定如何操作，可以参考 [选项 2：步骤 1](step-1-create-or-use-an-environment)。\n\n```\npip install ego4d --upgrade\n```\n\n**注意：** 请确保您使用的是 Python 3.10 或更高版本。\n\n### 选项 2：克隆或下载代码\n请确保您已将代码克隆或下载到本地磁盘。所有说明均假定您位于 **仓库根目录**。\n\n#### 步骤 1：创建或使用环境\n创建一个 conda 环境以支持 pip 安装：\n```\nconda create -n ego4d python=3.11 -y\nconda activate ego4d\n```\n\n如果您正在使用现有的 conda（或 pyenv）环境，请确保已安装 *至少* Python 3.10。\n\n#### 步骤 2：\n```\npip install .  # 从 Ego4D 根目录运行\n```\n\n现在您应该能够导入 ego4d：\n\n```\npython3 -c 'import ego4d; print(ego4d)'\n```\n\n您可以通过上述命令的输出检查 ego4d 模块是否正确链接到您文件系统中的相应文件。\n\n## 仓库结构\n该仓库包含多个按主题划分的目录。每个主题都配有相应的 `README.md` 文件，请参阅。\n\n所有 Python 代码均位于 `ego4d` 及其子目录中。每个子目录旨在覆盖一个特定主题。\n- `ego4d`：包含 `ego4d` *Python* 模块\n    - [`cli`](ego4d\u002Fcli\u002FREADME.md)：用于下载 Ego4D 数据集的 Ego4D CLI 工具\n    - [`features`](ego4d\u002Ffeatures\u002FREADME.md)：用于在数据集中进行特征提取\n    - [`research`](ego4d\u002Fresearch\u002FREADME.md)：与数据集的研究和使用相关的所有内容（数据加载器等）。\n        - [`research\u002Fclep`](ego4d\u002Fresearch\u002Fclep\u002FREADME.md)：对比语言第一视角视频预训练\n- [`viz`](viz\u002Fnarrations\u002FREADME.md)：可视化引擎\n\n## 可视化与演示\n- 演示笔记本：[标注笔记本](notebooks\u002Fannotation_visualization.ipynb)\n- 可视化引擎：[Viz README](viz\u002Fnarrations\u002FREADME.md)\n\n# 许可证\nEgo4D 采用 [MIT 许可证](LICENSE) 发布。","# Ego4D & Ego-Exo4D 快速上手指南\n\nEgo4D 是全球最大的第一人称视角视频机器学习数据集，Ego-Exo4D 则是其升级版，包含多模态、多视角（第一人称 + 第三人称）同步视频数据。本指南帮助开发者快速配置环境并安装工具包。\n\n## 环境准备\n\n在开始之前，请确保满足以下系统要求：\n\n*   **操作系统**: Linux 或 macOS (Windows 用户建议使用 WSL2)\n*   **Python 版本**: **Python 3.10** 或更高版本 (推荐 3.11)\n*   **包管理工具**: 推荐使用 `conda` 或 `pyenv` 管理虚拟环境\n*   **网络环境**: 下载数据集需要访问 Meta 服务器，建议配置稳定的网络连接\n\n## 安装步骤\n\n你可以选择通过 PyPI 直接安装，或克隆源码进行安装。推荐使用 **Option 2 (源码安装)** 以便获取最新的功能和示例代码。\n\n### Option 1: 通过 PyPI 安装 (最简方式)\n\n如果你只需要使用 CLI 工具或基础 API，且已激活包含 Python 3.10+ 的虚拟环境：\n\n```bash\npip install ego4d --upgrade\n```\n\n### Option 2: 克隆源码安装 (推荐)\n\n此方式适合需要进行二次开发、运行示例 Notebook 或使用研究代码的开发者。\n\n#### 第一步：创建并激活虚拟环境\n\n使用 conda 创建名为 `ego4d` 的环境（指定 Python 3.11）：\n\n```bash\nconda create -n ego4d python=3.11 -y\nconda activate ego4d\n```\n\n> **注意**: 如果使用现有的 conda 或 pyenv 环境，请确保其中 Python 版本至少为 3.10。\n\n#### 第二步：克隆仓库并安装\n\n首先克隆代码库（如果尚未克隆）：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FEgo4d.git\ncd Ego4d\n```\n\n在仓库根目录下执行安装命令：\n\n```bash\npip install .\n```\n\n#### 第三步：验证安装\n\n运行以下命令检查模块是否链接正确：\n\n```bash\npython3 -c 'import ego4d; print(ego4d)'\n```\n\n如果输出显示了 `ego4d` 模块在你本地文件系统中的路径，则安装成功。\n\n## 基本使用\n\n安装完成后，你将获得两个主要的命令行工具（CLI）用于下载数据，以及一个 Python API 用于读取视频和提取特征。\n\n### 1. 下载数据集\n\n根据你需要下载的数据集类型，使用对应的命令：\n\n*   **下载 Ego4D 数据**:\n    ```bash\n    ego4d --help  # 查看帮助文档\n    # 具体下载命令请参考 ego4d\u002Fcli\u002FREADME.md\n    ```\n\n*   **下载 Ego-Exo4D 数据**:\n    ```bash\n    egoexo --help # 查看帮助文档\n    # 具体下载命令请参考 ego4d\u002Fegoexo\u002Fdownload\u002FREADME.md\n    ```\n\n> **重要提示**: 下载数据前，请务必前往 [Ego4D 官网](https:\u002F\u002Fego4d-data.org\u002F) 或 [Ego-Exo4D 官网](https:\u002F\u002Fego-exo4d-data.org\u002F) 申请访问许可 (License)。\n\n### 2. 使用 Python API 读取视频\n\n`ego4d` 模块提供了统一的 API 来抽象不同的视频读取后端（如 TorchAudio, PyAV）。\n\n```python\nimport ego4d\n\n# 示例：初始化数据集对象 (需先配置好数据路径)\n# 具体用法请参考 notebooks 目录下的示例代码\ndataset = ego4d.datasets.Ego4DDataset(split=\"test\")\n\n# 访问数据加载器或特征提取工具\n# 详见 ego4d\u002Ffeatures\u002FREADME.md\n```\n\n### 3. 探索与可视化\n\n*   **在线浏览**: 拥有 License 后，可访问 [Ego4D Visualizer](https:\u002F\u002Fvisualize.ego4d-data.org\u002F) 在线浏览标注数据。\n*   **本地示例**: 运行仓库中提供的 Jupyter Notebook 来学习如何分析数据：\n    *   标注可视化: `notebooks\u002Fannotation_visualization.ipynb`\n    *   Colab 示例: 参考官网挑战页面获取基准测试 (VQ, NLQ, STA) 的 Colab 笔记。","某智能家居团队正在研发一款能理解用户日常操作并主动提供指导的 AR 眼镜助手，需要训练模型识别复杂的烹饪或维修步骤。\n\n### 没有 Ego4d 时\n- **数据获取极难**：难以收集大规模、高质量的第一人称（Egocentric）视频数据，自行拍摄数千小时带标注的生活场景成本高昂且周期漫长。\n- **视角单一局限**：缺乏同步的第三人称（Exocentric）视角数据，导致模型无法学习空间几何关系，难以在 3D 空间中精准定位物体。\n- **标注粒度粗糙**：现有公开数据集多只有动作分类标签，缺少“目标 - 步骤”（Goal-Step）等细粒度时序标注，模型无法理解长任务的逻辑结构。\n- **预处理繁琐**：不同相机源的视频格式混乱，团队需花费大量时间编写代码进行解码、对齐和特征提取，严重拖慢算法迭代速度。\n\n### 使用 Ego4d 后\n- **海量数据即用**：直接下载包含超 3700 小时第一人称及多视角同步视频的大规模数据集，瞬间拥有覆盖全球多样生活场景的训练素材。\n- **多模态空间感知**：利用同步的 Aria 眼镜与 GoPro 多视角数据，成功训练出具备 3D 空间理解能力的模型，显著提升了 AR 指引的准确性。\n- **细粒度任务拆解**：基于新增的 Goal-Step 标注，模型学会了将复杂任务（如“做蛋糕”）拆解为具体步骤，能实时判断用户当前进度并给予提示。\n- **开发效率飞跃**：通过 Ego4d 提供的统一 CLI 工具和特征提取 API，一键完成数据加载与 Omnivore 等模型的特征计算，让团队专注于核心算法优化。\n\nEgo4d 通过提供世界最大规模的多视角第一人称视频基准，彻底解决了具身智能算法在数据稀缺与标注精细度上的核心瓶颈。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffacebookresearch_Ego4d_4325390a.png","facebookresearch","Meta Research","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Ffacebookresearch_449342bd.png","",null,"https:\u002F\u002Fopensource.fb.com","https:\u002F\u002Fgithub.com\u002Ffacebookresearch",[22,26,30,34,38,42],{"name":23,"color":24,"percentage":25},"Jupyter Notebook","#DA5B0B",90.4,{"name":27,"color":28,"percentage":29},"Python","#3572A5",8.7,{"name":31,"color":32,"percentage":33},"JavaScript","#f1e05a",0.6,{"name":35,"color":36,"percentage":37},"Shell","#89e051",0.2,{"name":39,"color":40,"percentage":41},"CSS","#663399",0.1,{"name":43,"color":44,"percentage":45},"HTML","#e34c26",0,569,57,"2026-04-03T05:59:58","MIT",2,"未说明",{"notes":53,"python":54,"dependencies":55},"建议使用 conda 创建并激活虚拟环境（推荐 Python 3.11）。该工具主要提供数据集下载 CLI、视频读取 API 及特征提取封装（如 Omnivore, SlowFast 模型），具体训练代码位于独立仓库。安装可通过 PyPI ('pip install ego4d') 或源码 ('pip install .') 进行。","3.10+",[56,57,58],"conda 或 pyenv (环境管理)","TorchAudio","PyAV",[60,61,62],"数据工具","视频","图像",[64,65,66,67,68],"dataset","computer-vision","video","feature-extraction","visuzalization","ready","2026-03-27T02:49:30.150509","2026-04-06T07:11:52.672608",[73,78,83,88,93,98],{"id":74,"question_zh":75,"answer_zh":76,"source_url":77},17558,"申请许可证或提交表单时出现 \"Failed to Fetch\" 错误怎么办？","这通常是因为旧的许可证服务器正在迁移。维护者已推出新的许可证服务器，请使用以下新链接发送许可证请求：\n1. Ego4D: https:\u002F\u002Fego4d.dev\u002Frequest\u002Fego4d\n2. EgoExo4D: https:\u002F\u002Fego4d.dev\u002Frequest\u002Fego-exo4d\n如果问题仍然存在，可以尝试等待一段时间后或在不同时间段重试。","https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FEgo4d\u002Fissues\u002F161",{"id":79,"question_zh":80,"answer_zh":81,"source_url":82},17559,"中国研究人员下载 Ego4D 数据集时遇到连接超时、SSL 错误或速度极慢如何解决？","由于数据集托管在 AWS S3（如 ap-south-1, eu-central-1 区域），国内直接下载常遇网络限制。解决方案包括：\n1. 配置代理工具：使用 Clash (Linux\u002FMac\u002FWindows) 或 Shadowsocks，并导入有效的配置文件（config.yaml）以绕过区域限制。\n2. 注意流量限制：数据集高达 7TB，普通 VPN 月流量可能不足，需确保代理服务支持大流量传输。\n3. AWS CLI 区域设置：尝试将 AWS CLI 的区域设置为美国（us-east-1 等），有时能改善连接稳定性。\n4. 分步下载：如果文件过大导致中断，可先从可视化网站获取视频列表 (.txt)，编写脚本逐个下载。","https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FEgo4d\u002Fissues\u002F86",{"id":84,"question_zh":85,"answer_zh":86,"source_url":87},17560,"下载大文件时遇到 SSLError 或 ConnectionClosedError 如何处理？","此错误常因文件过大（>10GB）或网络连接不稳定引起。建议尝试以下步骤：\n1. 调整 AWS CLI 区域：将 AWS CLI 默认区域设置为美国（例如 us-east-1），然后重试。\n2. 分批下载：不要一次性下载所有数据，先过滤出需要的视频片段列表，编写脚本逐个下载。\n3. 检查代理设置：如果在国内，确保代理工具正常工作且未触发 SSL 验证失败（有时需关闭代理的 SSL 验证或切换节点）。\n4. 参考官方论坛获取更多支持信息。","https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FEgo4d\u002Fissues\u002F151",{"id":89,"question_zh":90,"answer_zh":91,"source_url":92},17561,"收到批准邮件但 Access ID 和 Access Key 显示为 NULL 或无法使用怎么办？","这是一个已知问题，部分用户的访问密钥生成有误。维护者已修复了已分配的访问密钥。如果您遇到此问题：\n1. 请查看相关修复公告（通常在 Issue #399 的评论中）。\n2. 如果密钥仍无效，可能需要重新申请或联系官方支持重新发送凭证。\n3. 确保在可视化工具中测试密钥的有效性。","https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FEgo4d\u002Fissues\u002F397",{"id":94,"question_zh":95,"answer_zh":96,"source_url":97},17562,"配置了 AWS 凭证但下载时仍报 \"403 Forbidden\" 错误是什么原因？","即使配置了凭证，403 错误通常意味着权限未生效或配置位置错误。请检查：\n1. 凭证配置文件名：默认情况下，凭证应保存在 `[default]` 配置文件中。如果您创建了新的 profile（例如 `ego_exo`），在使用 CLI 下载时必须显式指定参数 `--s3_profile ego_exo`。\n2. 凭证生效时间：刚获得的凭证可能需要短暂时间才能在 S3 端生效，稍等片刻再试。\n3. 凭证格式：确保 `~\u002F.aws\u002Fcredentials` 文件中的 Access Key ID 和 Secret Access Key 格式正确，无多余空格或字符。","https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FEgo4d\u002Fissues\u002F372",{"id":99,"question_zh":100,"answer_zh":101,"source_url":102},17563,"提交许可证申请后很久仍未收到访问密钥怎么办？","如果在 Dropbox 或其他表单上签署协议后未收到密钥：\n1. 耐心等待：系统处理可能需要一定时间，尤其是在用户量大的时候。\n2. 尝试重提：有用户反馈在不同时间段重新尝试提交或访问链接后成功。\n3. 检查垃圾邮件箱：确认批准邮件未被误判为垃圾邮件。\n4. 如果长时间未收到，可在 GitHub Issue 上留言或联系官方支持，提供您的申请邮箱地址以便查询。","https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FEgo4d\u002Fissues\u002F351",[104],{"id":105,"version":106,"summary_zh":107,"released_at":108},107849,"1.5.2","# Ego-Exo4D 和 Ego4D V2.1\n\n团队很荣幸地宣布两项重要成果：\n\n1. **Ego-Exo4D**：一个全新的多模态、多视角视频数据集，包含丰富的 3D 信息。  \n   - 每个录制（capture）包含一位或多位参与者（佩戴相机者）多次重复执行的物理类任务（如足球、篮球、舞蹈、抱石和音乐）或程序性任务（如烹饪、自行车维修、健康护理）。  \n   - 详情请参阅：[官网](https:\u002F\u002Fego-exo4d-data.org\u002F)、[文档](https:\u002F\u002Fdocs.ego-exo4d-data.org\u002F)、[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.18259)、[博客文章](https:\u002F\u002Fai.meta.com\u002Fblog\u002Fego-exo4d-video-learning-perception\u002F)以及[视频介绍](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=GdooXEBAnI8)。\n\n2. **Ego4D V2.1**：新增了 [Goal-Step](https:\u002F\u002Fopenreview.net\u002Fpdf?id=3BxYAaovKr) 标注及配套的“分组视频”。更多信息请参阅[文档](https:\u002F\u002Fego4d-data.org\u002Fdocs\u002Fupdates\u002F#ego4d-goal-step--grouped-videos)。\n\n[Ego4D 仓库的 README](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FEgo4d\u002Ftree\u002Fegoexo_readme) 已更新，以反映上述内容。\n\n我们希望您能喜欢这个新数据集，并对 Ego4D 的更新感到满意。如有任何问题或遇到任何困难，请随时与我们联系。\n\n**重要提示**：近期下载工具曾出现将数据下载到错误目录的问题，涉及 capture 和 take 文件夹。该问题已于 2023 年 12月 15 日下午 4:40（PST）修复。如果您在 `\u003Cdownload_dir>\u002Fcaptures\u002Fcaptures` 或 `\u003Cdownload_dir\u002Ftakes\u002Ftakes` 中发现了相关文件，请使用以下脚本进行修正：https:\u002F\u002Fgist.github.com\u002Fmiguelmartin75\u002Fb2bfeec06e51ce217ab2613761d9cd7b，并重新运行下载工具，同时添加 `-d` 参数。\n\n感谢您成为 Ego4D 社区的一员！  \nEgo4D 团队","2023-12-15T23:28:42",[110,121,129,141,149,157],{"id":111,"name":112,"github_repo":113,"description_zh":114,"stars":115,"difficulty_score":116,"last_commit_at":117,"category_tags":118,"status":69},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[119,62,120],"开发框架","Agent",{"id":122,"name":123,"github_repo":124,"description_zh":125,"stars":126,"difficulty_score":50,"last_commit_at":127,"category_tags":128,"status":69},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[119,62,120],{"id":130,"name":131,"github_repo":132,"description_zh":133,"stars":134,"difficulty_score":50,"last_commit_at":135,"category_tags":136,"status":69},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[62,60,61,137,120,138,139,119,140],"插件","其他","语言模型","音频",{"id":142,"name":143,"github_repo":144,"description_zh":145,"stars":146,"difficulty_score":116,"last_commit_at":147,"category_tags":148,"status":69},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[120,62,119,139,138],{"id":150,"name":151,"github_repo":152,"description_zh":153,"stars":154,"difficulty_score":116,"last_commit_at":155,"category_tags":156,"status":69},519,"PaddleOCR","PaddlePaddle\u002FPaddleOCR","PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。\n\n面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。\n\nPaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。",74913,"2026-04-05T10:44:17",[139,62,119,138],{"id":158,"name":159,"github_repo":160,"description_zh":161,"stars":162,"difficulty_score":50,"last_commit_at":163,"category_tags":164,"status":69},2471,"tesseract","tesseract-ocr\u002Ftesseract","Tesseract 是一款历史悠久且备受推崇的开源光学字符识别（OCR）引擎，最初由惠普实验室开发，后由 Google 维护，目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据，有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题，是数字化归档和信息自动化的重要基础工具。\n\n在技术层面，Tesseract 展现了强大的适应能力。从版本 4 开始，它引入了基于长短期记忆网络（LSTM）的神经网络 OCR 引擎，显著提升了行识别的准确率；同时，为了兼顾旧有需求，它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码，开箱即用即可识别超过 100 种语言，并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面，它灵活支持纯文本、hOCR、PDF、TSV 等多种格式，方便后续数据处理。\n\nTesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库（libtesseract），不包含图形用户界面（GUI），因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中",73286,"2026-04-03T01:56:45",[119,62]]