[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-zhengqili--Neural-Scene-Flow-Fields":3,"tool-zhengqili--Neural-Scene-Flow-Fields":65},[4,18,32,40,48,57],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,3,"2026-04-06T03:28:53",[13,14,15,16],"开发框架","图像","Agent","视频","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":24,"last_commit_at":25,"category_tags":26,"status":17},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,2,"2026-04-05T10:45:23",[14,27,16,28,15,29,30,13,31],"数据工具","插件","其他","语言模型","音频",{"id":33,"name":34,"github_repo":35,"description_zh":36,"stars":37,"difficulty_score":10,"last_commit_at":38,"category_tags":39,"status":17},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,30,29],{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":10,"last_commit_at":46,"category_tags":47,"status":17},519,"PaddleOCR","PaddlePaddle\u002FPaddleOCR","PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。\n\n面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。\n\nPaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。",74939,"2026-04-05T23:16:38",[30,14,13,29],{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":54,"last_commit_at":55,"category_tags":56,"status":17},3215,"awesome-machine-learning","josephmisiti\u002Fawesome-machine-learning","awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。\n\n它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。\n\n其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。",72149,1,"2026-04-03T21:50:24",[13,29],{"id":58,"name":59,"github_repo":60,"description_zh":61,"stars":62,"difficulty_score":54,"last_commit_at":63,"category_tags":64,"status":17},2234,"scikit-learn","scikit-learn\u002Fscikit-learn","scikit-learn 是一个基于 Python 构建的开源机器学习库，依托于 SciPy、NumPy 等科学计算生态，旨在让机器学习变得简单高效。它提供了一套统一且简洁的接口，涵盖了从数据预处理、特征工程到模型训练、评估及选择的全流程工具，内置了包括线性回归、支持向量机、随机森林、聚类等在内的丰富经典算法。\n\n对于希望快速验证想法或构建原型的数据科学家、研究人员以及 Python 开发者而言，scikit-learn 是不可或缺的基础设施。它有效解决了机器学习入门门槛高、算法实现复杂以及不同模型间调用方式不统一的痛点，让用户无需重复造轮子，只需几行代码即可调用成熟的算法解决分类、回归、聚类等实际问题。\n\n其核心技术亮点在于高度一致的 API 设计风格，所有估算器（Estimator）均遵循相同的调用逻辑，极大地降低了学习成本并提升了代码的可读性与可维护性。此外，它还提供了强大的模型选择与评估工具，如交叉验证和网格搜索，帮助用户系统地优化模型性能。作为一个由全球志愿者共同维护的成熟项目，scikit-learn 以其稳定性、详尽的文档和活跃的社区支持，成为连接理论学习与工业级应用的最",65628,"2026-04-05T10:10:46",[13,29,27],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":71,"readme_en":72,"readme_zh":73,"quickstart_zh":74,"use_case_zh":75,"hero_image_url":76,"owner_login":77,"owner_name":78,"owner_avatar_url":79,"owner_bio":80,"owner_company":81,"owner_location":82,"owner_email":83,"owner_twitter":83,"owner_website":84,"owner_url":85,"languages":86,"stars":103,"forks":104,"last_commit_at":105,"license":106,"difficulty_score":107,"env_os":108,"env_gpu":109,"env_ram":108,"env_deps":110,"category_tags":124,"github_topics":83,"view_count":24,"oss_zip_url":83,"oss_zip_packed_at":83,"status":17,"created_at":125,"updated_at":126,"faqs":127,"releases":156},4350,"zhengqili\u002FNeural-Scene-Flow-Fields","Neural-Scene-Flow-Fields","PyTorch implementation of paper \"Neural Scene Flow Fields for Space-Time View Synthesis of Dynamic Scenes\"","Neural-Scene-Flow-Fields 是一个基于 PyTorch 的开源项目，源自 CVPR 2021 的研究论文，旨在实现动态场景的时空视图合成。简单来说，它能将一段普通的单目视频转化为可自由探索的 3D 动态场景，让用户不仅能改变观察角度，还能在时间轴上进行“慢动作”回放或插值，生成流畅的时空过渡效果。\n\n该工具主要解决了传统静态 3D 重建技术无法处理运动物体和动态变化的难题。通过引入神经场景流场概念，它能够从单一视频中同时学习场景的几何结构、外观纹理以及物体的运动轨迹，从而在任意时刻和任意视角下渲染出高质量的新画面。\n\n其核心技术亮点在于巧妙结合了单目深度预测、光流估计与神经辐射场（NeRF）技术，并针对野外拍摄的非专业视频进行了优化，降低了对多视角同步采集设备的依赖。\n\nNeural-Scene-Flow-Fields 非常适合计算机视觉研究人员、图形学开发者以及对动态 3D 内容创作感兴趣的技术爱好者使用。由于涉及环境配置、数据预处理及模型训练，使用者需要具备一定的编程基础（熟悉 Python 和 PyTorch）和深度学习背景。对于希望探索前沿动态场景重建算法","Neural-Scene-Flow-Fields 是一个基于 PyTorch 的开源项目，源自 CVPR 2021 的研究论文，旨在实现动态场景的时空视图合成。简单来说，它能将一段普通的单目视频转化为可自由探索的 3D 动态场景，让用户不仅能改变观察角度，还能在时间轴上进行“慢动作”回放或插值，生成流畅的时空过渡效果。\n\n该工具主要解决了传统静态 3D 重建技术无法处理运动物体和动态变化的难题。通过引入神经场景流场概念，它能够从单一视频中同时学习场景的几何结构、外观纹理以及物体的运动轨迹，从而在任意时刻和任意视角下渲染出高质量的新画面。\n\n其核心技术亮点在于巧妙结合了单目深度预测、光流估计与神经辐射场（NeRF）技术，并针对野外拍摄的非专业视频进行了优化，降低了对多视角同步采集设备的依赖。\n\nNeural-Scene-Flow-Fields 非常适合计算机视觉研究人员、图形学开发者以及对动态 3D 内容创作感兴趣的技术爱好者使用。由于涉及环境配置、数据预处理及模型训练，使用者需要具备一定的编程基础（熟悉 Python 和 PyTorch）和深度学习背景。对于希望探索前沿动态场景重建算法或开发新型视频特效工具的团队来说，这是一个极具参考价值的实现方案。","# Neural Scene Flow Fields\nPyTorch implementation of paper \"Neural Scene Flow Fields for Space-Time View Synthesis of Dynamic Scenes\", CVPR 2021\n\n[[Project Website]](https:\u002F\u002Fwww.cs.cornell.edu\u002F~zl548\u002FNSFF\u002F) [[Paper]](https:\u002F\u002Farxiv.org\u002Fabs\u002F2011.13084) [[Video]](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=qsMIH7gYRCc&feature=emb_title)\n\n\n## Dependency\nThe code is tested with Python3, Pytorch >= 1.6 and CUDA >= 10.2, the dependencies includes \n* configargparse\n* matplotlib\n* opencv\n* scikit-image\n* scipy\n* cupy\n* imageio.\n* tqdm\n* kornia\n\nThe current version in this github include some improvement for monocular videos in the wild. For reference code matched paper's description, please check out [this branch](https:\u002F\u002Fgithub.com\u002Fzhengqili\u002FNeural-Scene-Flow-Fields\u002Ftree\u002F5bfedc477bab845d539e7b70d114ba39c1644b0e)\n\n## Video preprocessing \n1. Download nerf_data.zip from [link](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1G-NFZKEA8KSWojUKecpJPVoq5XCjBLOV?usp=sharing), an example input video with SfM camera poses and intrinsics estimated from [COLMAP](https:\u002F\u002Fcolmap.github.io\u002F) (Note you need to use COLMAP \"colmap image_undistorter\" command to undistort input images to get \"dense\" folder as shown in the example, this dense folder should include \"images\" and \"sparse\" folders).\n\n2. Download single view depth prediction model \"model.pt\" from [link](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1G-NFZKEA8KSWojUKecpJPVoq5XCjBLOV?usp=sharing), and put it on the folder \"nsff_scripts\".\n\n3. Run the following commands to generate required inputs for training\u002Finference:\n```bash\n    # Usage\n    cd nsff_scripts\n    # create camera intrinsics\u002Fextrinsic format for NSFF, same as original NeRF where it uses imgs2poses.py script from the LLFF code: https:\u002F\u002Fgithub.com\u002FFyusion\u002FLLFF\u002Fblob\u002Fmaster\u002Fimgs2poses.py\n    python save_poses_nerf.py --data_path \"\u002Fhome\u002Fxxx\u002FNeural-Scene-Flow-Fields\u002Fkid-running\u002Fdense\u002F\"\n    # Resize input images and run single view model, \n    # argument resize_height: resized image height for model training, width will be resized based on original aspect ratio\n    python run_midas.py --data_path \"\u002Fhome\u002Fxxx\u002FNeural-Scene-Flow-Fields\u002Fkid-running\u002Fdense\u002F\" --resize_height 288\n    # Run optical flow model\n    .\u002Fdownload_models.sh\n    python run_flows_video.py --model models\u002Fraft-things.pth --data_path \u002Fhome\u002Fxxx\u002FNeural-Scene-Flow-Fields\u002Fkid-running\u002Fdense\u002F \n```\n\n## Rendering from an example pretrained model\n1. Download pretraind model \"kid-running_ndc_5f_sv_of_sm_unify3_F00-30.zip\" from [link](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1G-NFZKEA8KSWojUKecpJPVoq5XCjBLOV?usp=sharing). Unzipping and putting it in the folder \"nsff_exp\u002Flogs\u002Fkid-running_ndc_5f_sv_of_sm_unify3_F00-30\u002F360000.tar\". \n\nSet datadir in config\u002Fconfig_kid-running.txt to the root directory of input video. Then go to directory \"nsff_exp\":\n```bash\n   cd nsff_exp\n   mkdir logs\n```\n\n2. Rendering of fixed time, viewpoint interpolation\n```bash\n   python run_nerf.py --config configs\u002Fconfig_kid-running.txt --render_bt --target_idx 10\n```\n\nBy running the example command, you should get the following result:\n![Alt Text](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzhengqili_Neural-Scene-Flow-Fields_readme_ea909546fcb5.gif)\n\n3. Rendering of fixed viewpoint, time interpolation\n```bash\n   python run_nerf.py --config configs\u002Fconfig_kid-running.txt --render_lockcam_slowmo --target_idx 8\n```\n\nBy running the example command, you should get the following result:\n![Alt Text](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzhengqili_Neural-Scene-Flow-Fields_readme_57634b33f94e.gif)\n\n4. Rendering of space-time interpolation\n```bash\n   python run_nerf.py --config configs\u002Fconfig_kid-running.txt --render_slowmo_bt  --target_idx 10\n```\n\nBy running the example command, you should get the following result:\n![Alt Text](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzhengqili_Neural-Scene-Flow-Fields_readme_af65833fcadd.gif)\n\n## Training\n1. In configs\u002Fconfig_kid-running.txt, modifying expname to any name you like (different from the original one), and running the following command to train the model:\n```bash\n    python run_nerf.py --config configs\u002Fconfig_kid-running.txt\n```\nThe per-scene training takes ~2 days using 4 Nvidia GTX2080TI GPUs.\n\n2. Several parameters in config files you might need to know for training a good model on in-the-wild video\n* final_height: this must be same as --resize_height argument in run_midas.py, in kid-running case, it should be 288.\n* N_samples: in order to render images with higher resolution, you have to increase number sampled points such as 256 or 512\n* chain_sf: model will perform local 5 frame consistency if set True, and perform 3 frame consistency if set False. For faster training, setting to False.\n* start_frame,  end_frame: indicate training frame range. The default model usually works for video of 1~2s and 30-60 frames work the best for default hyperparameters. Training on longer frames can cause oversmooth rendering. To mitigate the effect, you can increase the capacity of the network by increasing netwidth to 512.\n* decay_iteration: number of iteartion in initialization stage. Data-driven losses will decay every 1000 * decay_iteration steps. We have updated code to automatically calculate number of decay iterations.\n* no_ndc: our current implementation only supports reconstruction in NDC space, meaning it only works for forward-facing scene, same as original NeRF.\n* use_motion_mask, num_extra_sample: whether to use estimated coarse motion segmentation mask to perform hard-mining sampling during initialization stage, and how many extra samples during initialization stage.\n* w_depth, w_optical_flow: weight of losses for single-view depth and geometry consistency priors described in the paper. Weights of (0.4, 0.2) or (0.2, 0.1) usually work the best for most of the videos. \n* If you see signifacnt ghosting result in the final rendering, you might try the suggestion from [link](https:\u002F\u002Fgithub.com\u002Fzhengqili\u002FNeural-Scene-Flow-Fields\u002Fissues\u002F18)\n\n## Evaluation on the Dynamic Scene Dataset\n1. Download Dynamic Scene dataset \"dynamic_scene_data_full.zip\" from [link](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1G-NFZKEA8KSWojUKecpJPVoq5XCjBLOV?usp=sharing)\n\n2. Download pretrained model \"dynamic_scene_pretrained_models.zip\" from [link](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1G-NFZKEA8KSWojUKecpJPVoq5XCjBLOV?usp=sharing), unzip and put them in the folder \"nsff_exp\u002Flogs\u002F\"\n\n3. Run the following command for each scene to get quantitative results reported in the paper:\n```bash\n   # Usage: configs\u002Fconfig_xxx.txt indicates each scene name such as config_balloon1-2.txt in nsff\u002Fconfigs\n   python evaluation.py --config configs\u002Fconfig_xxx.txt\n```\n\n* Note: you have to use modified LPIPS implementation included in this branch in order to measure LIPIS error for dynamic region only as described in the paper.\n\n## Acknowledgment\nThe code is based on implementation of several prior work:\n\n* https:\u002F\u002Fgithub.com\u002Fsniklaus\u002Fsoftmax-splatting\n* https:\u002F\u002Fgithub.com\u002Fyenchenlin\u002Fnerf-pytorch\n* https:\u002F\u002Fgithub.com\u002FJKOK005\u002FdVRK-Linear-Interpolator-\n* https:\u002F\u002Fgithub.com\u002Frichzhang\u002FPerceptualSimilarity\n* https:\u002F\u002Fgithub.com\u002Fintel-isl\u002FMiDaS\n* https:\u002F\u002Fgithub.com\u002Fprinceton-vl\u002FRAFT\n* https:\u002F\u002Fgithub.com\u002FNVIDIA\u002Fflownet2-pytorch\n\n## License\nThis repository is released under the [MIT license](hhttps:\u002F\u002Fopensource.org\u002Flicenses\u002FMIT).\n\n## Citation\nIf you find our code\u002Fmodels useful, please consider citing our paper:\n```bash\n@InProceedings{li2020neural,\n  title={Neural Scene Flow Fields for Space-Time View Synthesis of Dynamic Scenes},\n  author={Li, Zhengqi and Niklaus, Simon and Snavely, Noah and Wang, Oliver},\n  booktitle = {Proceedings of the IEEE\u002FCVF Conference on Computer Vision and Pattern Recognition (CVPR)},\n  year={2021}\n}\n","# 神经场景光流场\n论文“用于动态场景时空视图合成的神经场景光流场”（CVPR 2021）的 PyTorch 实现\n\n[[项目官网]](https:\u002F\u002Fwww.cs.cornell.edu\u002F~zl548\u002FNSFF\u002F) [[论文]](https:\u002F\u002Farxiv.org\u002Fabs\u002F2011.13084) [[视频]](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=qsMIH7gYRCc&feature=emb_title)\n\n\n## 依赖\n代码已在 Python3、PyTorch >= 1.6 和 CUDA >= 10.2 环境下测试通过。依赖库包括：\n* configargparse\n* matplotlib\n* opencv\n* scikit-image\n* scipy\n* cupy\n* imageio.\n* tqdm\n* kornia\n\n当前 GitHub 版本针对野外单目视频进行了一些改进。如需参考与论文描述一致的代码，请查看 [此分支](https:\u002F\u002Fgithub.com\u002Fzhengqili\u002FNeural-Scene-Flow-Fields\u002Ftree\u002F5bfedc477bab845d539e7b70d114ba39c1644b0e)。\n\n## 视频预处理\n1. 从 [链接](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1G-NFZKEA8KSWojUKecpJPVoq5XCjBLOV?usp=sharing) 下载 nerf_data.zip，其中包含使用 [COLMAP](https:\u002F\u002Fcolmap.github.io\u002F) 估计的 SfM 相机位姿和内参的示例输入视频。（注意，您需要使用 COLMAP 的 “colmap image_undistorter” 命令对输入图像进行去畸变处理，以获得示例中所示的 “dense” 文件夹，该文件夹应包含 “images” 和 “sparse” 子文件夹。）\n\n2. 从 [链接](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1G-NFZKEA8KSWojUKecpJPVoq5XCjBLOV?usp=sharing) 下载单目深度预测模型 “model.pt”，并将其放置在 “nsff_scripts” 文件夹中。\n\n3. 运行以下命令以生成训练\u002F推理所需的输入：\n```bash\n    # 使用方法\n    cd nsff_scripts\n    # 创建 NSFF 格式的相机内参\u002F外参，与原始 NeRF 中使用的 LLFF 代码中的 imgs2poses.py 脚本相同：https:\u002F\u002Fgithub.com\u002FFyusion\u002FLLFF\u002Fblob\u002Fmaster\u002Fimgs2poses.py\n    python save_poses_nerf.py --data_path \"\u002Fhome\u002Fxxx\u002FNeural-Scene-Flow-Fields\u002Fkid-running\u002Fdense\u002F\"\n    # 调整输入图像大小并运行单目模型，\n    # 参数 resize_height：模型训练时调整后的图像高度，宽度将根据原始宽高比自动调整\n    python run_midas.py --data_path \"\u002Fhome\u002Fxxx\u002FNeural-Scene-Flow-Fields\u002Fkid-running\u002Fdense\u002F\" --resize_height 288\n    # 运行光流模型\n    .\u002Fdownload_models.sh\n    python run_flows_video.py --model models\u002Fraft-things.pth --data_path \u002Fhome\u002Fxxx\u002FNeural-Scene-Flow-Fields\u002Fkid-running\u002Fdense\u002F \n```\n\n## 从示例预训练模型渲染\n1. 从 [链接](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1G-NFZKEA8KSWojUKecpJPVoq5XCjBLOV?usp=sharing) 下载预训练模型 “kid-running_ndc_5f_sv_of_sm_unify3_F00-30.zip”。解压后将其放入 “nsff_exp\u002Flogs\u002Fkid-running_ndc_5f_sv_of_sm_unify3_F00-30\u002F360000.tar” 文件夹中。\n\n将 config\u002Fconfig_kid-running.txt 中的 datadir 设置为输入视频的根目录。然后进入 “nsff_exp” 目录：\n```bash\n   cd nsff_exp\n   mkdir logs\n```\n\n2. 固定时间、视点插值渲染\n```bash\n   python run_nerf.py --config configs\u002Fconfig_kid-running.txt --render_bt --target_idx 10\n```\n\n运行示例命令后，您应该会得到如下结果：\n![Alt Text](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzhengqili_Neural-Scene-Flow-Fields_readme_ea909546fcb5.gif)\n\n3. 固定视点、时间插值渲染\n```bash\n   python run_nerf.py --config configs\u002Fconfig_kid-running.txt --render_lockcam_slowmo --target_idx 8\n```\n\n运行示例命令后，您应该会得到如下结果：\n![Alt Text](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzhengqili_Neural-Scene-Flow-Fields_readme_57634b33f94e.gif)\n\n4. 时空插值渲染\n```bash\n   python run_nerf.py --config configs\u002Fconfig_kid-running.txt --render_slowmo_bt  --target_idx 10\n```\n\n运行示例命令后，您应该会得到如下结果：\n![Alt Text](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzhengqili_Neural-Scene-Flow-Fields_readme_af65833fcadd.gif)\n\n## 训练\n1. 在 configs\u002Fconfig_kid-running.txt 中，将 expname 修改为您喜欢的任何名称（与原始名称不同），然后运行以下命令训练模型：\n```bash\n    python run_nerf.py --config configs\u002Fconfig_kid-running.txt\n```\n每场景训练大约需要 2 天，使用 4 张 Nvidia GTX2080TI 显卡。\n\n2. 在野外视频上训练出良好模型时，您可能需要了解配置文件中的几个参数：\n* final_height：必须与 run_midas.py 中的 --resize_height 参数相同，在 kid-running 案例中，应设置为 288。\n* N_samples：为了渲染更高分辨率的图像，您需要增加采样点数，例如 256 或 512。\n* chain_sf：如果设置为 True，模型将执行局部 5 帧一致性；如果设置为 False，则执行 3 帧一致性。为了加快训练速度，建议设置为 False。\n* start_frame、end_frame：指示训练帧范围。默认模型通常适用于 1~2 秒的视频，且 30-60 帧的长度最适合默认超参数。训练更长的帧可能导致渲染过度平滑。为缓解这一问题，您可以将 netwidth 增加到 512，以提高网络容量。\n* decay_iteration：初始化阶段的迭代次数。数据驱动的损失将在每 1000 * decay_iteration 步骤后衰减。我们已更新代码，可自动计算衰减迭代次数。\n* no_ndc：我们当前的实现仅支持 NDC 空间中的重建，这意味着它仅适用于面向前方的场景，与原始 NeRF 相同。\n* use_motion_mask、num_extra_sample：是否在初始化阶段使用估计的粗略运动分割掩码进行困难样本挖掘，以及初始化阶段额外添加多少样本。\n* w_depth、w_optical_flow：论文中描述的单目深度和几何一致性先验损失的权重。对于大多数视频，权重设置为 (0.4, 0.2) 或 (0.2, 0.1) 通常效果最佳。\n* 如果最终渲染出现明显的鬼影现象，您可以尝试参考 [链接](https:\u002F\u002Fgithub.com\u002Fzhengqili\u002FNeural-Scene-Flow-Fields\u002Fissues\u002F18) 中的建议。\n\n## 动态场景数据集评估\n1. 从 [链接](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1G-NFZKEA8KSWojUKecpJPVoq5XCjBLOV?usp=sharing) 下载动态场景数据集 “dynamic_scene_data_full.zip”。\n\n2. 从 [链接](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1G-NFZKEA8KSWojUKecpJPVoq5XCjBLOV?usp=sharing) 下载预训练模型 “dynamic_scene_pretrained_models.zip”，解压后将其放入 “nsff_exp\u002Flogs\u002F” 文件夹中。\n\n3. 对每个场景运行以下命令，以获得论文中报告的定量结果：\n```bash\n   # 使用方法：configs\u002Fconfig_xxx.txt 表示每个场景的名称，例如 nsff\u002Fconfigs 中的 config_balloon1-2.txt\n   python evaluation.py --config configs\u002Fconfig_xxx.txt\n```\n\n* 注意：您必须使用此分支中包含的修改版 LPIPS 实现，才能按照论文描述仅测量动态区域的 LIPIS 误差。\n\n## 致谢\n该代码基于多项先前工作的实现：\n\n* https:\u002F\u002Fgithub.com\u002Fsniklaus\u002Fsoftmax-splatting\n* https:\u002F\u002Fgithub.com\u002Fyenchenlin\u002Fnerf-pytorch\n* https:\u002F\u002Fgithub.com\u002FJKOK005\u002FdVRK-Linear-Interpolator-\n* https:\u002F\u002Fgithub.com\u002Frichzhang\u002FPerceptualSimilarity\n* https:\u002F\u002Fgithub.com\u002Fintel-isl\u002FMiDaS\n* https:\u002F\u002Fgithub.com\u002Fprinceton-vl\u002FRAFT\n* https:\u002F\u002Fgithub.com\u002FNVIDIA\u002Fflownet2-pytorch\n\n## 许可证\n本仓库采用 [MIT 许可证](hhttps:\u002F\u002Fopensource.org\u002Flicenses\u002FMIT) 发布。\n\n## 引用\n如果您认为我们的代码或模型有用，请考虑引用我们的论文：\n```bash\n@InProceedings{li2020neural,\n  title={Neural Scene Flow Fields for Space-Time View Synthesis of Dynamic Scenes},\n  author={Li, Zhengqi and Niklaus, Simon and Snavely, Noah and Wang, Oliver},\n  booktitle = {IEEE\u002FCVF 计算机视觉与模式识别会议（CVPR）论文集},\n  year={2021}\n}","# Neural-Scene-Flow-Fields 快速上手指南\n\nNeural Scene Flow Fields (NSFF) 是一个用于动态场景时空视图合成的 PyTorch 实现，支持从单目视频中生成自由视角的慢动作视频。\n\n## 环境准备\n\n### 系统要求\n*   **Python**: 3.x\n*   **PyTorch**: >= 1.6\n*   **CUDA**: >= 10.2\n*   **GPU**: 推荐 NVIDIA GTX 2080 Ti 或更高性能显卡（训练单场景约需 4 张卡运行 2 天）\n\n### 依赖安装\n请确保已安装基础 CUDA 环境，然后使用 pip 安装以下依赖：\n\n```bash\npip install configargparse matplotlib opencv-python scikit-image scipy cupy imageio tqdm kornia\n```\n\n> **注意**：`cupy` 需要与您的 CUDA 版本匹配。如果通过 pip 安装失败，请参考 Cupy 官方文档使用预编译包安装。国内用户可尝试使用清华源加速安装：\n> `pip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple \u003Cpackage_name>`\n\n## 安装与数据预处理\n\n本项目当前版本针对野外单目视频进行了优化。使用前需下载预训练模型、示例数据及处理脚本。\n\n### 1. 下载必要资源\n请访问 [Google Drive 链接](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1G-NFZKEA8KSWojUKecpJPVoq5XCjBLOV?usp=sharing) 下载以下文件：\n*   `nerf_data.zip`: 包含示例视频及由 COLMAP 估算的相机位姿。\n*   `model.pt`: 单视图深度预测模型。\n*   `kid-running_ndc_5f_sv_of_sm_unify3_F00-30.zip`: 预训练好的 NSFF 模型。\n\n### 2. 目录结构设置\n解压后，请确保目录结构如下（以 `kid-running` 为例）：\n*   将 `nerf_data.zip` 解压后的 `dense` 文件夹放置于合适路径（需包含 `images` 和 `sparse` 文件夹）。\n    *   *注：若自行使用 COLMAP 处理，需执行 `colmap image_undistorter` 生成该结构。*\n*   将 `model.pt` 放入项目根目录下的 `nsff_scripts` 文件夹。\n*   将预训练模型解压后放入 `nsff_exp\u002Flogs\u002Fkid-running_ndc_5f_sv_of_sm_unify3_F00-30\u002F` 目录下，并重命名或确认为 `360000.tar`。\n\n### 3. 数据预处理命令\n进入脚本目录并执行以下命令生成训练\u002F推理所需的输入数据：\n\n```bash\ncd nsff_scripts\n\n# 1. 转换相机内参\u002F外参格式 (同原始 NeRF 格式)\n# 请将 \u002Fhome\u002Fxxx\u002F... 替换为您实际的 dense 文件夹路径\npython save_poses_nerf.py --data_path \"\u002Fhome\u002Fxxx\u002FNeural-Scene-Flow-Fields\u002Fkid-running\u002Fdense\u002F\"\n\n# 2. 调整图像大小并运行单视图深度模型\n# resize_height 需与后续配置文件中的 final_height 保持一致 (示例为 288)\npython run_midas.py --data_path \"\u002Fhome\u002Fxxx\u002FNeural-Scene-Flow-Fields\u002Fkid-running\u002Fdense\u002F\" --resize_height 288\n\n# 3. 下载光流模型并运行光流估算\n.\u002Fdownload_models.sh\npython run_flows_video.py --model models\u002Fraft-things.pth --data_path \u002Fhome\u002Fxxx\u002FNeural-Scene-Flow-Fields\u002Fkid-running\u002Fdense\u002F\n```\n\n## 基本使用\n\n以下演示如何使用预训练模型进行渲染。请确保已完成上述“数据预处理”步骤，并将配置文件 `configs\u002Fconfig_kid-running.txt` 中的 `datadir` 修改为您的输入视频根目录。\n\n### 1. 固定时间，视角插值 (Viewpoint Interpolation)\n在特定时刻生成不同视角的图像：\n\n```bash\ncd nsff_exp\nmkdir -p logs # 确保日志目录存在\n\npython run_nerf.py --config configs\u002Fconfig_kid-running.txt --render_bt --target_idx 10\n```\n\n### 2. 固定视角，时间插值 (Time Interpolation \u002F Slow-mo)\n在固定相机位置生成慢动作视频（时间插值）：\n\n```bash\npython run_nerf.py --config configs\u002Fconfig_kid-running.txt --render_lockcam_slowmo --target_idx 8\n```\n\n### 3. 时空联合插值 (Space-Time Interpolation)\n同时改变视角和时间，生成复杂的自由视角慢动作视频：\n\n```bash\npython run_nerf.py --config configs\u002Fconfig_kid-running.txt --render_slowmo_bt --target_idx 10\n```\n\n### 4. 开始训练 (可选)\n若要训练自己的场景，请修改 `configs\u002Fconfig_kid-running.txt` 中的 `expname`，然后运行：\n\n```bash\npython run_nerf.py --config configs\u002Fconfig_kid-running.txt\n```\n\n**关键配置提示：**\n*   `final_height`: 必须与预处理时 `run_midas.py` 的 `--resize_height` 参数一致。\n*   `start_frame` \u002F `end_frame`: 默认超参数最适合 30-60 帧（约 1-2 秒）的视频。更长视频可能导致过度平滑，建议增加 `netwidth` 至 512。\n*   `chain_sf`: 设为 `False` 可加快训练速度（3 帧一致性），设为 `True` 则使用 5 帧一致性。","一家影视后期工作室正在处理一段户外儿童奔跑的单目视频，导演希望在不使用多机位拍摄的情况下，生成主角在空中的超慢动作镜头，并自由变换摄像机角度以增强视觉冲击力。\n\n### 没有 Neural-Scene-Flow-Fields 时\n- **动态模糊严重**：传统插帧算法无法理解复杂的三维运动，强行放慢速度会导致人物边缘出现严重的拖影和伪影。\n- **视角固定死板**：仅凭单目视频无法重建三维场景，摄像机只能沿原路径播放，完全无法实现围绕人物的环绕运镜。\n- **背景撕裂失真**：当人物快速移动时，背景与前景分离困难，简单的 2D 变换会导致背景画面拉伸或破裂。\n- **制作成本高昂**：若要达到理想效果，必须重新组织多机位阵列进行补拍，耗费大量人力、场地和时间成本。\n\n### 使用 Neural-Scene-Flow-Fields 后\n- **时空流畅合成**：利用神经场景流场技术，精准建模动态物体的三维运动轨迹，生成的超慢动作视频清晰自然，无伪影。\n- **自由视点漫游**：成功从单目视频中重建出动态场景的隐式表示，允许摄影师在任意时间点自由插入全新的摄像机视角。\n- **一致性的几何保持**：通过联合优化场景几何与时间维度，确保在视角切换和時間插值过程中，人物与背景的相对位置关系始终准确。\n- **低成本高效产出**：无需额外拍摄设备，直接利用现有素材即可训练模型，将原本需要数天的补拍工作缩短为几小时的渲染过程。\n\nNeural-Scene-Flow-Fields 通过将单目视频转化为可自由操控的时空三维场景，彻底打破了动态内容在新视角合成与时间重采样上的技术壁垒。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzhengqili_Neural-Scene-Flow-Fields_48257966.png","zhengqili","Zhengqi Li","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fzhengqili_ba603c6f.png","Research Scientist at Google Research. ","Cornell University","New York City",null,"zhengqili.github.io","https:\u002F\u002Fgithub.com\u002Fzhengqili",[87,91,95,99],{"name":88,"color":89,"percentage":90},"Python","#3572A5",96.4,{"name":92,"color":93,"percentage":94},"Cuda","#3A4E3A",3.1,{"name":96,"color":97,"percentage":98},"C++","#f34b7d",0.4,{"name":100,"color":101,"percentage":102},"Shell","#89e051",0,740,93,"2026-04-01T13:03:06","MIT",4,"未说明","必需 NVIDIA GPU，测试环境为 4x Nvidia GTX2080TI，CUDA >= 10.2",{"notes":111,"python":112,"dependencies":113},"训练单个场景在 4 张 GTX2080TI 上约需 2 天。视频预处理需使用 COLMAP 估算相机位姿并去畸变，还需下载单目深度预测模型 (MiDaS) 和光流模型 (RAFT)。当前版本仅支持前向场景 (NDC 空间) 的重建。若需复现论文原始代码，需切换至特定分支。","Python 3",[114,115,116,117,118,119,120,121,122,123],"pytorch>=1.6","configargparse","matplotlib","opencv","scikit-image","scipy","cupy","imageio","tqdm","kornia",[16,29],"2026-03-27T02:49:30.150509","2026-04-06T18:56:10.630833",[128,133,138,143,148,152],{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},19790,"如何在自定义数据集上运行 NSFF？如果预处理生成的运动掩码（motion_masks）全是白色该怎么办？","当前的处理流程是为单目相机数据设计的，它会计算连续帧之间的光流。如果你的数据集是多视角（multiview）设置，直接运行会导致问题（如掩码全白）。要解决此问题，需要修改代码以支持多视角数据，具体做法是仅计算并使用同一相机连续帧之间的光流，而不是跨相机的光流。","https:\u002F\u002Fgithub.com\u002Fzhengqili\u002FNeural-Scene-Flow-Fields\u002Fissues\u002F10",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},19791,"如何正确分离静态背景和动态前景区域？为什么直接将混合权重（blend weight）设为 0 或 1 无法得到理想的分割结果？","直接强制设置混合权重为 0 或 1 往往效果不佳，因为动态模型可能会在静态区域也学习到一些内容以最小化颜色损失，导致分割不纯净。作者指出，虽然去除混合权重直接组合两个模型在理论上更合理，但在单目视频训练中容易产生伪影。目前建议的方法是利用 `blend_alpha` 来屏蔽动态模型中的静态区域，即通过公式 `alpha_dy = (1. - torch.exp(-opacity_dy * dists)) * raw_blend_w` 进行渲染。此外，有用户发现参考 \"NeRF in the Wild\" 的组合方式并在训练中加入粗略的掩码监督（mask loss）能更好地分离前景和背景。","https:\u002F\u002Fgithub.com\u002Fzhengqili\u002FNeural-Scene-Flow-Fields\u002Fissues\u002F3",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},19792,"关于图像扭曲（warping）和混合权重（blending weight）的实现逻辑，是否有更好的替代方案？","原实现中由静态网络预测混合权重的做法被认为不够直观，因为动态物体的运动独立于静态场景。社区实验表明，使用简单的加法策略（类似 NeRF-W）或者由动态网络预测权重可能产生更好的重建和新视图合成结果。此外，原代码中存在两套渲染流水线（当前时间步的混合与 t-1\u002Ft+1 的动态部分渲染），这增加了训练难度。如果静态网络效果较好，建议简化流程，专注于更合理的混合策略。","https:\u002F\u002Fgithub.com\u002Fzhengqili\u002FNeural-Scene-Flow-Fields\u002Fissues\u002F19",{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},19793,"项目是否计划发布论文中使用的所有数据集（如奔跑的小孩、气泡场景等）？运动掩码（motion masks）的精度要求有多高？","关于数据集发布需关注项目后续更新。关于掩码精度，实验表明即使只提供“粗略掩码”（coarse mask），网络也能学会分离背景和前景。对于复杂场景（如气泡），掩码不需要像素级完美，但需要足够区分主体。如果掩码过于粗糙（范围过大），模型仍能工作，但分离效果可能会受影响。核心机制在于静态区域静态模型收敛更快，动态区域动态模型收敛更快，从而自然形成分离，但高质量的掩码有助于加速这一过程并提高最终分割质量。","https:\u002F\u002Fgithub.com\u002Fzhengqili\u002FNeural-Scene-Flow-Fields\u002Fissues\u002F1",{"id":149,"question_zh":150,"answer_zh":151,"source_url":147},19794,"在渲染时，如何手动查看纯静态背景或纯动态前景的效果？","可以通过修改代码中的 `raw_blend_w` 参数来实现。在 `render_utils.py` 文件中找到相关行（通常在渲染循环中），将 `raw_blend_w` 强制设置为 0 可仅渲染背景（静态部分），设置为 1 可仅渲染前景（动态部分）。例如，使用命令 `python run_nerf.py --config configs\u002Fconfig_kid-running.txt --render_bt --target_idx 0` 并配合代码修改，可以分别输出静态图和动态图以检查分解效果。",{"id":153,"question_zh":154,"answer_zh":155,"source_url":147},19795,"为什么在单目视频中去除混合权重（blending weight）直接组合模型会导致更多伪影？","虽然从原理上讲，去除混合权重并沿射线直接组合两个模型（静态和动态）是更优的方法，但在单目视频的实际训练中，这种策略往往会导致严重的视觉伪影（artifacts）。这是因为单目数据缺乏足够的几何约束，使得模型难以在没有混合权重缓冲的情况下稳定地学习静态和动态成分的边界。因此，尽管混合权重可能不是理论上的最优解，但在当前技术条件下，它是减少渲染伪影、保证系统稳定运行的必要手段。",[]]