kubric
Kubric 是由谷歌研发的一款开源数据生成流水线,专门用于创建带有丰富标注的半真实感多物体合成视频。它能够自动生成包含实例分割掩码、深度图和光流等精确“真值”信息的高质量数据集。
在机器学习和计算机视觉研究中,训练数据往往面临获取难、标注成本高或真实场景复杂度不足的挑战。许多算法在简单的玩具数据集上表现良好,一旦应用到真实世界数据便效果骤降。Kubric 旨在解决这一痛点,让研究人员能够按需生成不同复杂度的数据集,从而更好地评估和提升模型在无监督多物体视频理解等任务中的泛化能力。
这款工具非常适合 AI 研究人员、算法工程师以及需要大规模合成数据进行模型训练与评估的开发者使用。其核心技术亮点在于模块化设计:底层结合 PyBullet 进行物理仿真,自动模拟物体间的碰撞与交互;上层调用 Blender 进行高质量渲染。这种架构不仅保证了数据的物理真实性和视觉逼真度,还允许用户灵活控制场景复杂度,轻松定制训练集与测试集的划分,是探索从简化场景到接近真实世界视频之间广阔地带的有力助手。
使用场景
某自动驾驶初创公司的算法团队正在研发一套能在复杂街道场景中精准识别并追踪多个动态障碍物的视觉系统。
没有 kubric 时
- 数据标注成本极高:人工逐帧绘制多物体的实例分割掩码和深度图,耗时数周且难以覆盖所有极端天气与光照条件。
- 真值数据缺失:真实监控视频缺乏像素级的光流(Optical Flow)和精确的 3D 物理属性标注,导致模型训练缺乏可靠的“标准答案”进行监督。
- 场景可控性差:难以系统性构造特定难度的测试用例(如特定数量的物体遮挡、特定材质组合),无法有效评估模型的泛化边界。
- 物理交互不真实:简单的合成数据往往忽略物体间的碰撞与重力影响,导致模型在现实世界中面对物体跌落或碰撞时表现失效。
使用 kubric 后
- 自动化生成丰富标注:kubric 利用 Blender 和 PyBullet 一键生成视频,自动输出完美的实例分割、深度图及光流真值,将数据准备周期从数周缩短至数小时。
- 无限多样的训练样本:团队可自定义物体数量、纹理复杂度及运动轨迹,快速构建涵盖各种长尾场景的大规模数据集,显著提升模型鲁棒性。
- 精确的物理仿真:基于物理引擎生成的物体碰撞与运动轨迹高度拟真,填补了纯静态合成数据与现实动态场景之间的鸿沟。
- 灵活的评估体系:通过控制训练集与测试集的物体特征组合,kubric 帮助团队定量评估模型在未见过的物体组合下的系统性泛化能力。
kubric 通过低成本生成带有完美物理真值的半真实合成视频,解决了多物体视频理解任务中高质量标注数据匮乏的核心瓶颈。
运行环境要求
- Linux
- macOS
- Windows
未说明(依赖 Blender 渲染后端,通常建议配备支持 OpenGL/Vulkan 的 GPU 以加速渲染,但非强制必需)
未说明(建议 16GB+ 以处理复杂的物理模拟和多对象场景)

快速开始
Kubric
一个用于生成半真实感合成多物体视频的数据流水线,附带丰富的标注信息,如实例分割掩码、深度图和光流。

动机与设计
我们需要更好的数据来训练和评估机器学习系统,尤其是在无监督的多物体视频理解领域。当前的系统在一些玩具数据集上表现良好(例如 deepmind/multi_object_datasets),但在真实世界数据上却表现不佳。如果我们能够按需创建不同复杂度的合适数据集,研究进展将大大加速。Kubric 主要基于 pybullet(用于物理模拟)和 Blender(用于渲染)构建;然而,代码保持模块化设计,以便未来支持不同的渲染后端。
快速入门
有关使用说明,请参阅 https://kubric.readthedocs.io。
假设您已安装 Docker,要生成上述数据,只需执行以下命令:
git clone https://github.com/google-research/kubric.git
cd kubric
docker pull kubricdockerhub/kubruntu
docker run --rm --interactive \
--user $(id -u):$(id -g) \
--volume "$(pwd):/kubric" \
kubricdockerhub/kubruntu \
/usr/bin/python3 examples/helloworld.py
ls output
Kubric 使用 Blender 2.93(详见 此处),因此如果您希望交互式检查生成的 *.blend 场景文件(即无需渲染场景),请确保已安装正确的 Blender 版本。
需求
- 一个方便生成视频数据的流水线。
- 物理模拟功能,以自动生成多个物体之间的物理交互。
- 对生成数据复杂度的良好控制,以便我们能够评估诸如物体和纹理多样性等具体方面。
- 现实感:理想情况下,能够覆盖从 CLEVR 到 YouTube8 等真实世界视频的整个复杂度范围。虽然这显然不可行,但我们希望尽可能接近这一目标。
- 能够获取场景中物体的丰富真值信息,用于评估目的(例如物体分割和属性)。
- 可控的训练/测试集划分,以评估组合性和系统性泛化能力(例如针对未见特征或物体组合的评估)。
挑战与数据集
通常,我们会将挑战相关的数据集存储在这个 Google Cloud 存储桶 中。 更具体地说,这些挑战是 Kubric CVPR'22 论文中的“数据集贡献”:
其他数据集/工作的链接:
- ToyBox(来自 Neural Semantic Fields)
- MultiShapeNet(来自 Scene Representation Transformer)
- SyntheticTrio(来自 Controllable Neural Radiance Fields)
Bibtex
@article{greff2021kubric,
title = {Kubric: a scalable dataset generator},
author = {Klaus Greff and Francois Belletti and Lucas Beyer and Carl Doersch and
Yilun Du and Daniel Duckworth and David J Fleet and Dan Gnanapragasam and
Florian Golemo and Charles Herrmann and Thomas Kipf and Abhijit Kundu and
Dmitry Lagun and Issam Laradji and Hsueh-Ti (Derek) Liu and Henning Meyer and
Yishu Miao and Derek Nowrouzezahrai and Cengiz Oztireli and Etienne Pot and
Noha Radwan and Daniel Rebain and Sara Sabour and Mehdi S. M. Sajjadi and Matan Sela and
Vincent Sitzmann and Austin Stone and Deqing Sun and Suhani Vora and Ziyu Wang and
Tianhao Wu and Kwang Moo Yi and Fangcheng Zhong and Andrea Tagliasacchi},
booktitle = {IEEE计算机视觉与模式识别会议(CVPR)论文集},
year = {2022},
}
免责声明
本项目并非 Google 官方产品。
版本历史
v0.1.12021/08/25v0.12021/08/25常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
Deep-Live-Cam
Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
funNLP
funNLP 是一个专为中文自然语言处理(NLP)打造的超级资源库,被誉为"NLP 民工的乐园”。它并非单一的软件工具,而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。 面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点,funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具,还独特地收录了丰富的垂直领域资源,如法律、医疗、金融行业的专用词库与数据集,甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性,从基础的字典词典到前沿的 BERT、GPT-2 模型代码,再到高质量的标注数据和竞赛方案,应有尽有。 无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师,还是从事人工智能研究的学者,都能在这里找到急需的“武器弹药”。对于开发者而言,它能大幅减少寻找数据和复现模型的时间;对于研究者,它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神,极大地降低了中文自然语言处理的开发与研究成本,是中文 AI 社区不可或缺的宝藏仓库。
cs-video-courses
cs-video-courses 是一个精心整理的计算机科学视频课程清单,旨在为自学者提供系统化的学习路径。它汇集了全球知名高校(如加州大学伯克利分校、新南威尔士大学等)的完整课程录像,涵盖从编程基础、数据结构与算法,到操作系统、分布式系统、数据库等核心领域,并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。 面对网络上零散且质量参差不齐的教学资源,cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容,仅收录真正的大学层级课程,排除了碎片化的简短教程或商业广告,确保用户能接触到严谨的学术内容。 这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员,以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽,不仅包含传统的软件工程与网络安全,还细分了生成式 AI、大语言模型、计算生物学等新兴学科,并直接链接至官方视频播放列表,让用户能一站式获取高质量的教育资源,免费享受世界顶尖大学的课堂体验。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

