[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-thuml--predrnn-pytorch":3,"tool-thuml--predrnn-pytorch":65},[4,23,32,40,49,57],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":22},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,2,"2026-04-05T10:45:23",[13,14,15,16,17,18,19,20,21],"图像","数据工具","视频","插件","Agent","其他","语言模型","开发框架","音频","ready",{"id":24,"name":25,"github_repo":26,"description_zh":27,"stars":28,"difficulty_score":29,"last_commit_at":30,"category_tags":31,"status":22},3833,"MoneyPrinterTurbo","harry0703\u002FMoneyPrinterTurbo","MoneyPrinterTurbo 是一款利用 AI 大模型技术，帮助用户一键生成高清短视频的开源工具。只需输入一个视频主题或关键词，它就能全自动完成从文案创作、素材匹配、字幕合成到背景音乐搭配的全过程，最终输出完整的竖屏或横屏短视频。\n\n这款工具主要解决了传统视频制作流程繁琐、门槛高以及素材版权复杂等痛点。无论是需要快速产出内容的自媒体创作者，还是希望尝试视频生成的普通用户，无需具备专业的剪辑技能或昂贵的硬件配置（普通电脑即可运行），都能轻松上手。同时，其清晰的 MVC 架构和对多种主流大模型（如 DeepSeek、Moonshot、通义千问等）的广泛支持，也使其成为开发者进行二次开发或技术研究的理想底座。\n\nMoneyPrinterTurbo 的独特亮点在于其高度的灵活性与本地化友好性。它不仅支持中英文双语及多种语音合成，允许用户精细调整字幕样式和画面比例，还特别优化了国内网络环境下的模型接入方案，让用户无需依赖 VPN 即可使用高性能国产大模型。此外，工具提供批量生成模式，可一次性产出多个版本供用户择优，极大地提升了内容创作的效率与质量。",54991,3,"2026-04-05T12:23:02",[20,19,17,15,13],{"id":33,"name":34,"github_repo":35,"description_zh":36,"stars":37,"difficulty_score":10,"last_commit_at":38,"category_tags":39,"status":22},2179,"oh-my-openagent","code-yeongyu\u002Foh-my-openagent","oh-my-openagent（简称 omo）是一款强大的开源智能体编排框架，前身名为 oh-my-opencode。它致力于打破单一模型供应商的生态壁垒，解决开发者在构建 AI 应用时面临的“厂商锁定”难题。不同于仅依赖特定模型的封闭方案，omo 倡导开放市场理念，支持灵活调度多种主流大模型：利用 Claude、Kimi 或 GLM 进行任务编排，调用 GPT 处理复杂推理，借助 Minimax 提升响应速度，或发挥 Gemini 的创意优势。\n\n这款工具特别适合希望摆脱平台限制、追求极致性能与成本平衡的开发者及研究人员使用。通过统一接口，用户可以轻松组合不同模型的长处，构建更高效、更具适应性的智能体系统。其独特的技术亮点在于“全模型兼容”架构，让用户不再受制于某一家公司的策略变动或定价调整，真正实现对前沿模型资源的自由驾驭。无论是构建自动化编码助手，还是开发多步骤任务处理流程，oh-my-openagent 都能提供灵活且稳健的基础设施支持，助力用户在快速演进的 AI 生态中保持技术主动权。",48371,"2026-04-05T11:36:18",[15,19,20,13,17],{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":46,"last_commit_at":47,"category_tags":48,"status":22},2483,"onlook","onlook-dev\u002Fonlook","Onlook 是一款专为设计师打造的开源 AI 优先设计工具，被誉为“设计师版的 Cursor”。它旨在打破设计与开发之间的壁垒，让用户能够以可视化的方式直接构建、样式化和编辑 React 应用。通过 Onlook，用户无需深入编写复杂代码，即可在类似 Figma 的直观界面中完成网页原型的搭建与调整，并实时预览最终效果。\n\n这款工具主要解决了传统工作流中设计稿到代码转换效率低、沟通成本高的问题。以往，设计师使用 Figma 等工具完成设计后，需要开发人员手动将其转化为代码，过程繁琐且容易出错。Onlook 允许用户直接在浏览器 DOM 中进行可视化编辑，底层自动生成基于 Next.js 和 TailwindCSS 的高质量代码，实现了“所见即所得”的开发体验。它不仅支持从文本或图像快速生成应用，还具备分支管理、资源管理及一键部署等功能，极大地简化了从创意到成品的流程。\n\nOnlook 特别适合前端开发者、UI\u002FUX 设计师以及希望快速验证产品创意的独立开发者使用。对于设计师而言，它降低了参与前端开发的门槛；对于开发者来说，它提供了一个高效的视觉化调试和原型构建环境。其核心技术亮点在于",25006,4,"2026-04-03T01:50:49",[17,13,15,20],{"id":50,"name":51,"github_repo":52,"description_zh":53,"stars":54,"difficulty_score":10,"last_commit_at":55,"category_tags":56,"status":22},3795,"serena","oraios\u002Fserena","Serena 是一款专为编程智能体（Coding Agent）打造的强大工具包，被誉为“智能体的集成开发环境（IDE）”。它通过模型上下文协议（MCP）与各类大语言模型及客户端无缝集成，旨在解决传统 AI 在复杂代码库中因依赖行号或简单文本搜索而导致的效率低下和准确性不足的问题。\n\n与传统方法不同，Serena 采用“智能体优先”的设计理念，提供基于语义的代码检索、编辑和重构能力。它能像资深开发者使用 IDE 一样，深入理解代码的符号层级和关联结构，从而让智能体在大型项目中运行得更快、更稳、更可靠。无论是终端用户（如 Claude Code）、IDE 插件（VSCode、Cursor）还是桌面应用，都能轻松接入 Serena 以扩展功能。\n\nSerena 特别适合需要处理大规模代码项目的开发者、研究人员以及希望提升 AI 编码能力的技术团队。其核心技术亮点在于灵活的后端支持：既默认集成了基于语言服务器协议（LSP）的开源方案，支持超过 40 种编程语言；也可选配强大的 JetBrains 插件，利用专业 IDE 的深度分析能力。这让 Serena 成为连接人工智能与复杂软件工程的高效桥",22488,"2026-04-05T10:53:54",[17,13,20,15],{"id":58,"name":59,"github_repo":60,"description_zh":61,"stars":62,"difficulty_score":29,"last_commit_at":63,"category_tags":64,"status":22},3856,"sam2","facebookresearch\u002Fsam2","SAM 2 是 Meta 推出的新一代基础模型，旨在解决图像与视频中的“提示式视觉分割”难题。无论是静态图片还是动态视频，用户只需提供简单的点击、框选等提示，SAM 2 就能精准识别并分割出目标对象。它将单张图像视为单帧视频进行处理，成功打破了以往模型在视频理解上的局限。\n\n这款工具特别适合计算机视觉开发者、AI 研究人员以及需要处理视频内容的设计师使用。对于希望探索多目标跟踪或构建交互式应用的技术团队，SAM 2 提供了强大的底层支持。其核心亮点在于采用了带有流式记忆机制的 Transformer 架构，能够实现实时的视频处理性能。此外，项目配套发布了迄今为止规模最大的视频分割数据集（SA-V），并通过“模型闭环数据引擎”不断自我进化。最新更新的 SAM 2.1 版本不仅提供了更优的预训练权重，还支持全模型编译加速及灵活的多目标独立追踪，让复杂场景下的视频分析变得更加高效与便捷。",18853,"2026-04-05T10:30:04",[13,15],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":80,"owner_email":81,"owner_twitter":80,"owner_website":82,"owner_url":83,"languages":84,"stars":93,"forks":94,"last_commit_at":95,"license":80,"difficulty_score":29,"env_os":96,"env_gpu":97,"env_ram":96,"env_deps":98,"category_tags":104,"github_topics":105,"view_count":10,"oss_zip_url":80,"oss_zip_packed_at":80,"status":22,"created_at":109,"updated_at":110,"faqs":111,"releases":147},3617,"thuml\u002Fpredrnn-pytorch","predrnn-pytorch","Official implementation for NIPS'17 paper: PredRNN: Recurrent Neural Networks for Predictive Learning Using Spatiotemporal LSTMs.","PredRNN-pytorch 是一个基于 PyTorch 实现的开源项目，专注于时空序列的预测学习。它的核心任务是通过分析历史视频帧或图像序列中的视觉动态变化，精准生成未来的图像内容。这一工具有效解决了传统模型在处理复杂时空依赖关系时难以捕捉长期动态特征的难题，特别适用于气象雷达回波预测、交通流量演变模拟以及机器人动作推演等场景。\n\n该项目主要面向人工智能研究人员和深度学习开发者，为他们提供了复现经典论文算法及探索前沿技术的坚实基座。PredRNN-pytorch 不仅包含了 2017 年提出的初代 PredRNN 模型，还集成了 2022 年升级版的 PredRNN-V2。其独特的技术亮点包括：创新的“之字形”记忆流机制，实现了不同网络层间信息的双向高效沟通；PredRNN-V2 引入的记忆解耦损失函数，促使模型学习到更模块化的视觉动态结构；以及逆向课程采样策略，显著增强了模型从上下文推断长期规律的能力。此外，它还支持结合动作指令的视频预测，展现了在基于模型的视觉控制领域的巨大潜力。无论是学术研究还是工程落地，PredRNN-pytorch 都是处理时空预测任务的得力助手。","# PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive Learning (TPAMI 2022)\n\nThe predictive learning of spatiotemporal sequences aims to generate future images by learning from the historical context, where the visual dynamics are believed to have modular structures that can be learned with compositional subsystems.\n\n## Initial version at NeurIPS 2017\n\nThis repo first contains a PyTorch implementation of **PredRNN** (2017) [[paper](https:\u002F\u002Fpapers.nips.cc\u002Fpaper\u002F6689-predrnn-recurrent-neural-networks-for-predictive-learning-using-spatiotemporal-lstms)], a recurrent network with a pair of memory cells that operate in nearly independent transition manners, and finally form unified representations of the complex environment.\n\nConcretely, besides the original memory cell of LSTM, this network is featured by a zigzag memory flow that propagates in both bottom-up and top-down directions across all layers, enabling the learned visual dynamics at different levels of RNNs to communicate.\n\n## New in PredRNN-V2 at TPAMI 2022\n\nThis repo also includes the implementation of **PredRNN-V2** [[paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2103.09504.pdf)], which improves PredRNN in the following three aspects.\n\n\n#### 1. Memory-Decoupled ST-LSTM\n\nWe find that the pair of memory cells in PredRNN contain undesirable, redundant features, and thus present a memory decoupling loss to encourage them to learn modular structures of visual dynamics. \n\n![decouple](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthuml_predrnn-pytorch_readme_24705b7a9ada.png)\n\n#### 2. Reverse Scheduled Sampling\n\nReverse scheduled sampling is a new curriculum learning strategy for seq-to-seq RNNs. As opposed to scheduled sampling, it gradually changes the training process of the PredRNN encoder from using the previously generated frame to using the previous ground truth. **Benefit:** It forces the model to learn long-term dynamics from context frames. \n\n[comment]: \u003C![rss](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthuml_predrnn-pytorch_readme_a7e0ea8191f3.png)>\n\n#### 3. Action-Conditioned Video Prediction\n\nWe further extend PredRNN to action-conditioned video prediction. By fusing the actions with hidden states, PredRNN and PredRNN-V2 show highly competitive performance in long-term forecasting. They are potential to serve as the base dynamic model in model-based visual control.\n\nWe show quantitative results on the BAIR robot pushing dataset for predicting 28 future frames from 2 observations.\n\n![action](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthuml_predrnn-pytorch_readme_d4ed49f3aa56.png)\n\n## Showcases\n\nMoving MNIST\n\n![mnist](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthuml_predrnn-pytorch_readme_689005d21c48.png)\n\nKTH\n\n![kth](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthuml_predrnn-pytorch_readme_c35fb767e3fc.png)\n\nBAIR (We zoom in on the area in the red box)\n\n![bair](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthuml_predrnn-pytorch_readme_e5463f5ddc95.png)\n\nTraffic4Cast\n\n![Traffic4Cast](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthuml_predrnn-pytorch_readme_5717c2d4dfdf.png)\n\nRadar echoes\n\n![radar](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthuml_predrnn-pytorch_readme_887c52839ee9.png)\n\n## Quantitative results on Moving MNIST and KTH in LPIPS\n\nLPIPS is more sensitive to perceptual human judgments, the lower the better.\n\n|        | Moving MNIST | KTH action |\n|  ----  | ----   | ---- |\n| PredRNN  | 0.109 | 0.204 |\n| PredRNN-V2  | 0.071 | 0.139 |\n\n## Quantitative results on Traffic4Cast (Berlin)\n\n|                  | MSE (10^{-3}) |\n| ---------------- | --------------------- |\n| U-Net            | 6.992                 |\n| CrevNet          | 6.789                 |\n| U-Net+PredRNN-V2 | **5.135**             |\n\n[comment]:\u003C## Quantitative results on the action-conditioned BAIR dataset>\n\n[comment]:\u003CFrame-wise SSIM and PSNR for the predicted future 28 frames.>\n\n[comment]:\u003C![bair_res](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthuml_predrnn-pytorch_readme_918264d34951.png)>\n\n\n## Get Started\n\n1. Install Python 3.6, PyTorch 1.9.0 for the main code. Also, install Tensorflow 2.1.0 for BAIR dataloader.\n\n2. Download data. This repo contains code for three datasets: the [Moving Mnist dataset](https:\u002F\u002Fonedrive.live.com\u002F?authkey=%21AGzXjcOlzTQw158&id=FF7F539F0073B9E2%21124&cid=FF7F539F0073B9E2), the [KTH action dataset](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1_M1O4TuQOhYcNdXXuNoNjYyzGrSM9pBF?usp=sharing), and the BAIR dataset (30.1GB), which can be obtained by:\n\n   ```\n   wget http:\u002F\u002Frail.eecs.berkeley.edu\u002Fdatasets\u002Fbair_robot_pushing_dataset_v0.tar\n   ```\n\n3. Train the model. You can use the following bash script to train the model. The learned model will be saved in the `--save_dir` folder.\n  The generated future frames will be saved in the `--gen_frm_dir` folder.\n\n4. You can get **pretrained models** from [Tsinghua Cloud](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Fd\u002F72241e0046a74f81bf29\u002F) or [Google Drive](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1jaEHcxo_UgvgwEWKi0ygX1SbODGz6PWw).\n```\ncd mnist_script\u002F\nsh predrnn_mnist_train.sh\nsh predrnn_v2_mnist_train.sh\n\ncd kth_script\u002F\nsh predrnn_kth_train.sh\nsh predrnn_v2_kth_train.sh\n\ncd bair_script\u002F\nsh predrnn_bair_train.sh\nsh predrnn_v2_bair_train.sh\n```\n\n## Citation\n\nIf you find this repo useful, please cite the following papers.\n```\n@inproceedings{wang2017predrnn,\n  title={{PredRNN}: Recurrent Neural Networks for Predictive Learning Using Spatiotemporal {LSTM}s},\n  author={Wang, Yunbo and Long, Mingsheng and Wang, Jianmin and Gao, Zhifeng and Yu, Philip S},\n  booktitle={Advances in Neural Information Processing Systems},\n  pages={879--888},\n  year={2017}\n}\n\n@misc{wang2021predrnn,\n      title={{PredRNN}: A Recurrent Neural Network for Spatiotemporal Predictive Learning}, \n      author={Wang, Yunbo and Wu, Haixu and Zhang, Jianjin and Gao, Zhifeng and Wang, Jianmin and Yu, Philip S and Long, Mingsheng},\n      year={2021},\n      eprint={2103.09504},\n      archivePrefix={arXiv},\n}\n```\n\n","# PredRNN：用于时空预测学习的循环神经网络（TPAMI 2022）\n\n时空序列的预测学习旨在通过学习历史上下文来生成未来的图像，其中视觉动态被认为具有模块化的结构，可以通过组合式的子系统来学习。\n\n## 初版于 NeurIPS 2017\n\n本仓库首先包含 **PredRNN**（2017）的 PyTorch 实现 [[论文](https:\u002F\u002Fpapers.nips.cc\u002Fpaper\u002F6689-predrnn-recurrent-neural-networks-for-predictive-learning-using-spatiotemporal-lstms)]，这是一种具有两组记忆单元的循环网络，它们以几乎独立的方式进行状态转移，最终形成对复杂环境的统一表征。\n\n具体而言，除了 LSTM 的原始记忆单元外，该网络还具有一个在所有层中自下而上和自上而下双向传播的锯齿形记忆流，从而使不同层次 RNN 学习到的视觉动态能够相互交流。\n\n## TPAMI 2022 版 PredRNN-V2 的新特性\n\n本仓库还包括 **PredRNN-V2** 的实现 [[论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2103.09504.pdf)]，它在以下三个方面对 PredRNN 进行了改进。\n\n\n#### 1. 记忆解耦的 ST-LSTM\n\n我们发现，PredRNN 中的两组记忆单元包含不必要的冗余特征，因此提出了一种记忆解耦损失，以鼓励它们学习视觉动态的模块化结构。\n\n![decouple](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthuml_predrnn-pytorch_readme_24705b7a9ada.png)\n\n#### 2. 反向调度采样\n\n反向调度采样是一种针对序列到序列 RNN 的新型课程学习策略。与传统的调度采样相反，它逐渐将 PredRNN 编码器的训练过程从使用先前生成的帧切换为使用之前的真值帧。**优点**：这迫使模型从上下文帧中学习长期动态。\n\n[comment]: \u003C![rss](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthuml_predrnn-pytorch_readme_a7e0ea8191f3.png)>\n\n#### 3. 动作条件下的视频预测\n\n我们进一步将 PredRNN 扩展到动作条件下的视频预测任务。通过将动作与隐藏状态融合，PredRNN 和 PredRNN-V2 在长期预测方面表现出极高的竞争力，有望作为基于模型的视觉控制中的基础动力学模型。\n\n我们在 BAIR 机器人推动物体数据集上展示了定量结果，该任务是从 2 个观测帧预测未来 28 帧。\n\n![action](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthuml_predrnn-pytorch_readme_d4ed49f3aa56.png)\n\n## 展示案例\n\n移动 MNIST\n\n![mnist](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthuml_predrnn-pytorch_readme_689005d21c48.png)\n\nKTH\n\n![kth](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthuml_predrnn-pytorch_readme_c35fb767e3fc.png)\n\nBAIR（我们放大红色框内的区域）\n\n![bair](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthuml_predrnn-pytorch_readme_e5463f5ddc95.png)\n\nTraffic4Cast\n\n![Traffic4Cast](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthuml_predrnn-pytorch_readme_5717c2d4dfdf.png)\n\n雷达回波\n\n![radar](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthuml_predrnn-pytorch_readme_887c52839ee9.png)\n\n## LPIPS 下移动 MNIST 和 KTH 的定量结果\n\nLPIPS 对人类感知判断更为敏感，数值越低越好。\n\n|        | 移动 MNIST | KTH 动作 |\n|  ----  | ----   | ---- |\n| PredRNN  | 0.109 | 0.204 |\n| PredRNN-V2  | 0.071 | 0.139 |\n\n## Traffic4Cast（柏林）的定量结果\n\n|                  | MSE (10^{-3}) |\n| ---------------- | --------------------- |\n| U-Net            | 6.992                 |\n| CrevNet          | 6.789                 |\n| U-Net+PredRNN-V2 | **5.135**             |\n\n[comment]:\u003C## 动作条件下的 BAIR 数据集的定量结果>\n\n[comment]:\u003C预测未来 28 帧的逐帧 SSIM 和 PSNR。>\n\n[comment]:\u003C![bair_res](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthuml_predrnn-pytorch_readme_918264d34951.png)>\n\n\n## 快速入门\n\n1. 安装 Python 3.6 和 PyTorch 1.9.0 以运行主代码。同时，安装 Tensorflow 2.1.0 用于 BAIR 数据加载器。\n\n2. 下载数据。本仓库包含三个数据集的代码：[移动 MNIST 数据集](https:\u002F\u002Fonedrive.live.com\u002F?authkey=%21AGzXjcOlzTQw158&id=FF7F539F0073B9E2%21124&cid=FF7F539F0073B9E2)、[KTH 动作数据集](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1_M1O4TuQOhYcNdXXuNoNjYyzGrSM9pBF?usp=sharing)，以及 BAIR 数据集（30.1GB），可通过以下命令获取：\n\n   ```\n   wget http:\u002F\u002Frail.eecs.berkeley.edu\u002Fdatasets\u002Fbair_robot_pushing_dataset_v0.tar\n   ```\n\n3. 训练模型。您可以使用以下 Bash 脚本来训练模型。训练好的模型将保存在 `--save_dir` 文件夹中，生成的未来帧将保存在 `--gen_frm_dir` 文件夹中。\n\n4. 您可以从 [清华大学云](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Fd\u002F72241e0046a74f81bf29\u002F) 或 [Google Drive](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1jaEHcxo_UgvgwEWKi0ygX1SbODGz6PWw) 获取 **预训练模型**。\n```\ncd mnist_script\u002F\nsh predrnn_mnist_train.sh\nsh predrnn_v2_mnist_train.sh\n\ncd kth_script\u002F\nsh predrnn_kth_train.sh\nsh predrnn_v2_kth_train.sh\n\ncd bair_script\u002F\nsh predrnn_bair_train.sh\nsh predrnn_v2_bair_train.sh\n```\n\n## 引用\n\n如果您觉得本仓库有用，请引用以下论文。\n```\n@inproceedings{wang2017predrnn,\n  title={{PredRNN}: Recurrent Neural Networks for Predictive Learning Using Spatiotemporal {LSTM}s},\n  author={Wang, Yunbo and Long, Mingsheng and Wang, Jianmin and Gao, Zhifeng and Yu, Philip S},\n  booktitle={Advances in Neural Information Processing Systems},\n  pages={879--888},\n  year={2017}\n}\n\n@misc{wang2021predrnn,\n      title={{PredRNN}: A Recurrent Neural Network for Spatiotemporal Predictive Learning}, \n      author={Wang, Yunbo and Wu, Haixu and Zhang, Jianjin and Gao, Zhifeng and Wang, Jianmin and Yu, Philip S and Long, Mingsheng},\n      year={2021},\n      eprint={2103.09504},\n      archivePrefix={arXiv},\n}\n```","# PredRNN-PyTorch 快速上手指南\n\nPredRNN 是一个用于时空序列预测学习的循环神经网络，适用于视频预测、雷达回波外推等任务。本指南基于官方仓库，帮助您快速在本地运行 PredRNN 及改进版 PredRNN-V2。\n\n## 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n\n*   **操作系统**: Linux (推荐) 或 macOS\n*   **Python 版本**: 3.6\n*   **核心依赖**:\n    *   PyTorch 1.9.0\n    *   TensorFlow 2.1.0 (仅用于 BAIR 数据集的数据加载器)\n*   **硬件建议**: 建议使用支持 CUDA 的 NVIDIA GPU 以加速训练和推理。\n\n## 安装步骤\n\n1.  **创建虚拟环境并安装 Python 依赖**\n    建议使用 `conda` 或 `venv` 隔离环境。以下以 conda 为例：\n\n    ```bash\n    conda create -n predrnn python=3.6\n    conda activate predrnn\n    pip install torch==1.9.0 torchvision==0.10.0\n    pip install tensorflow==2.1.0\n    pip install numpy scipy scikit-image opencv-python\n    ```\n\n    > **提示**：国内用户可使用清华源加速安装：\n    > `pip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple \u003Cpackage_name>`\n\n2.  **克隆项目代码**\n\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002Fviolanteo\u002Fpredrnn-pytorch.git\n    cd predrnn-pytorch\n    ```\n\n3.  **下载数据集**\n    根据需求选择以下任一数据集：\n\n    *   **Moving MNIST**: [下载链接](https:\u002F\u002Fonedrive.live.com\u002F?authkey=%21AGzXjcOlzTQw158&id=FF7F539F0073B9E2%21124&cid=FF7F539F0073B9E2)\n    *   **KTH Action**: [下载链接](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1_M1O4TuQOhYcNdXXuNoNjYyzGrSM9pBF?usp=sharing)\n    *   **BAIR Robot Pushing** (30.1GB):\n        ```bash\n        wget http:\u002F\u002Frail.eecs.berkeley.edu\u002Fdatasets\u002Fbair_robot_pushing_dataset_v0.tar\n        tar -xvf bair_robot_pushing_dataset_v0.tar\n        ```\n    \n    *请将下载的数据集解压后放置在代码中指定的数据目录（通常在脚本中通过参数配置）。*\n\n4.  **获取预训练模型（可选）**\n    若需直接测试或微调，可从以下地址下载预训练权重：\n    *   [清华大学云盘](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Fd\u002F72241e0046a74f81bf29\u002F) (国内推荐)\n    *   [Google Drive](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1jaEHcxo_UgvgwEWKi0ygX1SbODGz6PWw)\n\n## 基本使用\n\n项目提供了针对不同数据集的训练脚本。以下以 **Moving MNIST** 数据集为例，演示如何训练原始版 PredRNN 和改进版 PredRNN-V2。\n\n### 1. 训练 Moving MNIST 模型\n\n进入对应的脚本目录并执行训练命令：\n\n```bash\ncd mnist_script\u002F\n\n# 训练原始版 PredRNN\nsh predrnn_mnist_train.sh\n\n# 训练改进版 PredRNN-V2\nsh predrnn_v2_mnist_train.sh\n```\n\n*   训练好的模型将保存在脚本参数 `--save_dir` 指定的文件夹中。\n*   生成的未来预测帧将保存在 `--gen_frm_dir` 指定的文件夹中。\n\n### 2. 训练其他数据集\n\n对于 KTH 动作数据集或 BAIR 机器人推动数据集，操作方式类似：\n\n```bash\n# KTH 数据集\ncd ..\u002Fkth_script\u002F\nsh predrnn_kth_train.sh\nsh predrnn_v2_kth_train.sh\n\n# BAIR 数据集\ncd ..\u002Fbair_script\u002F\nsh predrnn_bair_train.sh\nsh predrnn_v2_bair_train.sh\n```\n\n### 3. 结果评估\n训练完成后，您可以查看生成目录中的图像序列，或参考 README 中提供的 LPIPS\u002FMSE 指标对比表来评估模型性能。PredRNN-V2 通常在长时预测任务中表现更优。","某智慧城市交通管理中心正在构建一套短时交通流预测系统，旨在通过历史监控画面预判未来路网的拥堵演变趋势。\n\n### 没有 predrnn-pytorch 时\n- **时空特征割裂**：传统 CNN 或普通 LSTM 模型难以同时捕捉车辆移动的空间形态与时间连续性，导致预测画面模糊，无法还原真实的交通动态。\n- **长程依赖丢失**：在预测超过 10 分钟的未来路况时，模型容易受误差累积影响，迅速退化为静态背景图，丢失关键的车流变化细节。\n- **外部干预失效**：模型仅能被动观察视频，无法融合“信号灯切换”或“事故疏导”等控制动作，难以支撑主动式的交通调控决策。\n- **训练收敛困难**：缺乏有效的课程学习策略，模型在面对复杂多变的早晚高峰数据时，训练不稳定且泛化能力差。\n\n### 使用 predrnn-pytorch 后\n- **时空动态解耦**：利用 PredRNN-V2 的记忆解耦机制，模型成功分离并学习了车流的模块化运动规律，生成的未来帧清晰锐利，保留了车道和车型细节。\n- **长期预测稳定**：借助反向计划采样（Reverse Scheduled Sampling）策略，强制模型从真实上下文学习长时依赖，显著提升了 30 分钟以上长远路况的预测准确性。\n- **支持动作条件预测**：通过融合控制动作与隐藏状态，系统能模拟“若绿灯延长 10 秒”后的具体车流疏散效果，为智能信控提供量化依据。\n- **感知指标优化**：在柏林 Traffic4Cast 实测中，结合 U-Net 的架构将均方误差（MSE）大幅降低至 5.135，视觉感知质量远超传统基线模型。\n\npredrnn-pytorch 通过独特的时空记忆流与解耦学习机制，将交通预测从模糊的“看图猜谜”升级为可干预、高精度的动态推演引擎。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthuml_predrnn-pytorch_689005d2.png","thuml","THUML @ Tsinghua University","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fthuml_2b45f3ea.png","Machine Learning Group, School of Software, Tsinghua University",null,"mingsheng@tsinghua.edu.cn","http:\u002F\u002Fise.thss.tsinghua.edu.cn\u002F~mlong","https:\u002F\u002Fgithub.com\u002Fthuml",[85,89],{"name":86,"color":87,"percentage":88},"Python","#3572A5",93.4,{"name":90,"color":91,"percentage":92},"Shell","#89e051",6.6,522,124,"2026-03-12T05:32:27","未说明","未说明（基于 PyTorch 的时空预测模型通常建议配备 NVIDIA GPU 以加速训练）",{"notes":99,"python":100,"dependencies":101},"该工具主要依赖 PyTorch 1.9.0 进行核心模型运行，但加载 BAIR 数据集需要额外安装 TensorFlow 2.1.0。支持 Moving MNIST、KTH 和 BAIR 三个数据集，其中 BAIR 数据集大小约为 30.1GB。提供预训练模型下载链接。","3.6",[102,103],"torch==1.9.0","tensorflow==2.1.0",[15],[106,107,108],"video-prediction","predictive-learning","recurrent-neural-networks","2026-03-27T02:49:30.150509","2026-04-06T07:12:38.696940",[112,117,122,127,132,137,142],{"id":113,"question_zh":114,"answer_zh":115,"source_url":116},16588,"如何获取或复现论文中提到的 KTH Action 数据集（训练集 108,717，测试集 4,086 序列）？","维护者已将预处理好的数据集上传至清华云盘，下载地址为：https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Fd\u002F7d19372a621a4952b738\u002F。如果希望自己预处理，可以参考 e3d_lstm 项目中的代码 `e3d_lstm\u002Fsrc\u002Fdata_provider\u002Fkth_action.py`，但需注意该模型本身可能存在一些 bug。","https:\u002F\u002Fgithub.com\u002Fthuml\u002Fpredrnn-pytorch\u002Fissues\u002F3",{"id":118,"question_zh":119,"answer_zh":120,"source_url":121},16589,"预测图像没有变化（所有预测帧相同），无法捕捉动态演变，该如何解决？","这种情况通常发生在输入呈现积累趋势而未来趋势是消散的挑战性场景中。建议尝试以下方法：1. 预测相邻两帧之间的变化量（即 `X_{t}-X_{t-1}`）以强调运动信息；2. 调整调度采样（schedule sampling）策略，将输入掩码（input mask）的起始值设为较高数值（如 0.8），这样既能降低预测难度，又能迫使模型学习长期依赖关系。","https:\u002F\u002Fgithub.com\u002Fthuml\u002Fpredrnn-pytorch\u002Fissues\u002F30",{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},16590,"为什么在 KTH 数据集上的测试结果中，输入序列和预测序列看起来几乎完全一样，没有预测出未来的动作？","这通常是结果文件命名索引的问题，而非模型失效。在“下一帧预测”（next frame prediction）设置下，如果总长度为 20，输入长度为 10，模型实际输出的是 19 张图像。之前的代码在保存结果时文件名索引（'pd' index）范围是从 2 到 20，导致视觉上的误解。维护者已在最新提交中修复了结果文件名的索引逻辑，请更新代码后重新运行。","https:\u002F\u002Fgithub.com\u002Fthuml\u002Fpredrnn-pytorch\u002Fissues\u002F16",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},16591,"代码中的 `reshape_patch` 函数有什么作用？它是用来降低图像空间分辨率的吗？","`reshape_patch` 函数的作用是将图像划分为小块（patches），这是计算机视觉中广泛使用的思想（类似于超分辨率任务中的操作）。在该项目的实现中，添加 `patch_size` 参数可以显著加快训练过程并减少 CUDA 显存占用。它不仅仅是降低分辨率，而是通过改变数据的组织形式来优化计算效率。","https:\u002F\u002Fgithub.com\u002Fthuml\u002Fpredrnn-pytorch\u002Fissues\u002F12",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},16592,"Moving MNIST 数据集中的 `clips` 和 `dims` 数组是如何构建和使用的？","`clips` 数组用于从训练和测试数据集中创建样本序列。其结构通常为 `(2, 序列数量，2)`：第一维区分输入和输出；第二维表示序列总数（如训练集 10000，测试集 2000）；最后一维的两个值分别表示序列的起始位置和该序列包含的帧数。例如，下一个单元格的起始值等于上一个单元格的起始值加上序列长度。这种结构允许灵活地截取连续帧作为输入输出对。","https:\u002F\u002Fgithub.com\u002Fthuml\u002Fpredrnn-pytorch\u002Fissues\u002F37",{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},16593,"PredRNN++ 论文中的 Moving MNIST 数据集规模与代码仓库中提供的一致吗？为何无法复现性能？","代码仓库中的数据设置是正确的。PredRNN、PredRNN++ 和 PredRNN-V2 系列工作使用的是相同的 Moving MNIST 数据配置。如果无法复现性能，请确保严格遵循代码库中的数据加载逻辑，而不是仅依赖论文描述（论文可能存在表述滞后）。相关数据集和代码也可参考原始的 PredRNN++ 仓库：https:\u002F\u002Fgithub.com\u002FYunbo426\u002Fpredrnn-pp。","https:\u002F\u002Fgithub.com\u002Fthuml\u002Fpredrnn-pytorch\u002Fissues\u002F27",{"id":143,"question_zh":144,"answer_zh":145,"source_url":146},16594,"在处理 KTH 数据集时遇到 'inf' (无穷大) 错误，如何解决？","该问题通常由数据归一化过程中的数据类型不匹配引起。解决方案是修改数据加载文件（如 `kth_action.py`）第 165 行附近的数据类型定义，将 `dtype=np.int8` 更改为 `dtype=np.float32`。此外，维护者表示该问题已在最新的代码提交中修复，建议拉取最新代码。","https:\u002F\u002Fgithub.com\u002Fthuml\u002Fpredrnn-pytorch\u002Fissues\u002F42",[]]