[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-DrewNF--Tensorflow_Object_Tracking_Video":3,"tool-DrewNF--Tensorflow_Object_Tracking_Video":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",154349,2,"2026-04-13T23:32:16",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":78,"owner_email":79,"owner_twitter":79,"owner_website":80,"owner_url":81,"languages":82,"stars":95,"forks":96,"last_commit_at":97,"license":98,"difficulty_score":99,"env_os":100,"env_gpu":101,"env_ram":100,"env_deps":102,"category_tags":109,"github_topics":111,"view_count":32,"oss_zip_url":79,"oss_zip_packed_at":79,"status":17,"created_at":122,"updated_at":123,"faqs":124,"releases":140},7367,"DrewNF\u002FTensorflow_Object_Tracking_Video","Tensorflow_Object_Tracking_Video","Object Tracking in Tensorflow ( Localization Detection Classification ) developed to partecipate to ImageNET VID competition","Tensorflow_Object_Tracking_Video 是一个基于 TensorFlow 框架开发的视频目标跟踪开源项目，旨在实现视频中物体的定位、检测与分类。该项目最初作为硕士论文课题，专为参加 ImageNet VID（视频物体检测）竞赛而设计，核心目标是解决如何在连续视频帧中准确且实时地追踪移动物体的问题。\n\n在技术实现上，它创新性地采用了级联架构策略，借鉴了获奖论文 T-CNN 的思路，将处理流程分为三个阶段：首先进行单帧静态图像检测，确定物体“在哪里”和“是什么”；随后引入时间维度信息，利用前后帧关联优化检测结果；最后结合上下文信息进一步提升准确率。项目整合了 YOLO 和 TensorBox 等成熟的深度学习模型，支持通过简单的命令行参数配置即可对视频文件进行处理并输出带标注的结果视频。\n\n这款工具非常适合计算机视觉领域的研究人员、深度学习开发者以及希望深入理解视频目标跟踪算法的学生使用。由于项目代码结构清晰且依赖常见的 Python 库（如 OpenCV、TensorFlow），它也适合作为学习多阶段目标检测架构的教学案例。需要注意的是，该项目最后更新于 201","Tensorflow_Object_Tracking_Video 是一个基于 TensorFlow 框架开发的视频目标跟踪开源项目，旨在实现视频中物体的定位、检测与分类。该项目最初作为硕士论文课题，专为参加 ImageNet VID（视频物体检测）竞赛而设计，核心目标是解决如何在连续视频帧中准确且实时地追踪移动物体的问题。\n\n在技术实现上，它创新性地采用了级联架构策略，借鉴了获奖论文 T-CNN 的思路，将处理流程分为三个阶段：首先进行单帧静态图像检测，确定物体“在哪里”和“是什么”；随后引入时间维度信息，利用前后帧关联优化检测结果；最后结合上下文信息进一步提升准确率。项目整合了 YOLO 和 TensorBox 等成熟的深度学习模型，支持通过简单的命令行参数配置即可对视频文件进行处理并输出带标注的结果视频。\n\n这款工具非常适合计算机视觉领域的研究人员、深度学习开发者以及希望深入理解视频目标跟踪算法的学生使用。由于项目代码结构清晰且依赖常见的 Python 库（如 OpenCV、TensorFlow），它也适合作为学习多阶段目标检测架构的教学案例。需要注意的是，该项目最后更新于 2017 年，主要反映了当时的前沿技术方案，适合用于算法原理研究或作为二次开发的基础参考。","# Tensorflow_Object_Tracking_Video\n\n(Version 0.3, Last Update 10-03-2017)\n\n![alt text](images\u002FUPC_logo.png \"Logo Title Text 1\")\n![alt text](images\u002FBSC_logo.png \"Logo Title Text 1\")\n![alt text](images\u002FIGP_logo.png  \"Logo Title Text 1\")\n![alt text](images\u002FPOLITO_logo.png  \"Logo Title Text 1\")\n\nThe Project follow the below **index**:\n\n1. **[Introduction](#1introduction);**\n2. **[Requitements & Installation](#2requirement--installation);**\n3. **[YOLO Script Usage](#3yolo-script-usage)**\n      1. **[Setting Parameters](#isetting-parameters);**\n      2. **[Usage](#iiusage).**\n4. **[VID TENSORBOX Script Usage](#4vid-tensorbox-script-usage)**\n      1. **[Setting Parameters](#isetting-parameters-2);**\n      2. **[Usage](#iiusage-2).**\n5. **[TENSORBOX Tests Files](#5tensorbox-tests);**\n6. **[Dataset Scripts](#6dataset-script);**\n7. **[Copyright](#7copyright);**\n8. **[State of the Project](#8state-of-the-project).**\n9. **[DOWNLOADS](#9downloads).**\n10. **[Acknowledgements](#10acknowledgements).**\n11. **[Bibliography](#11bibliography).**\n\n\n## 1.Introduction\n\nThis Repository is my Master Thesis Project: \"Develop a Video Object Tracking with Tensorflow Technology\" \nand it's still developing, so many updates will be made.\nIn this work, I used the architecture and problem solving strategy of the Paper T-CNN([Arxiv](http:\u002F\u002Farxiv.org\u002Fabs\u002F1604.02532)), that won last year [IMAGENET 2015](http:\u002F\u002Fimage-net.org\u002F) [Teaser Challenge VID](http:\u002F\u002Fimage-net.org\u002Fchallenges\u002FLSVRC\u002F2015\u002Fresults).\nSo the whole script architecture will be made of several component in cascade:\n  1. Still Image Detection (Return Tracking Results on single Frame);\n  2. Temporal Information Detection( Introducing Temporal Information into the DET Results);\n  3. Context Information Detection( Introducing Context Information into the DET Results);\n\n> Notice that the Still Image Detection component could be unique or decompose into two sub-component:\n>  1. First: determinate \"Where\" in the Frame;\n>  2. Second: determinate \"What\" in the Frame.\n\nMy project use many online tensorflow projects, as: \n  - [YOLO Tensorflow](https:\u002F\u002Fgithub.com\u002Fgliese581gg\u002FYOLO_tensorflow);\n  - [TensorBox](https:\u002F\u002Fgithub.com\u002FRussell91\u002FTensorBox).\n  - [Inception](https:\u002F\u002Fgithub.com\u002Ftensorflow\u002Fmodels\u002Ftree\u002Fmaster\u002Finception).\n\n## 2.Requirement & Installation\nTo install the script you only need to download the Repository.\nTo Run the script you have to had installed:\n  - Tensorflow;\n  - OpenCV;\n  - Python;\n\nAll the Python library necessary could be installed easily trought pip install package-name.\nIf you want to follow a guide to install the requirements here is the link for a [tutorial](https:\u002F\u002Fgithub.com\u002FDrewNF\u002FBuild-Deep-Learning-Env-with-Tensorflow-Python-OpenCV) I wrote for myself and for a course of Deep Learning at UPC.\n\n## 3.YOLO Script Usage\nYou only look once (YOLO) is a state-of-the-art, real-time object detection system.## i.Setting Parameters\n  This are the inline terminal argmunts taken from the script, most of them aren't required, only the video path **must** be specified when we call the script:\n        \n  ```python      \n    parser = argparse.ArgumentParser()\n    parser.add_argument('--det_frames_folder', default='det_frames\u002F', type=str)\n    parser.add_argument('--det_result_folder', default='det_results\u002F', type=str)\n    parser.add_argument('--result_folder', default='summary_result\u002F', type=str)\n    parser.add_argument('--summary_file', default='results.txt', type=str)\n    parser.add_argument('--output_name', default='output.mp4', type=str)\n    parser.add_argument('--perc', default=5, type=int)\n    parser.add_argument('--path_video', required=True, type=str)\n  ```\n  \n  Now you have to download the [weights](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F0B2JbaJSrWLpza08yS2FSUnV2dlE\u002Fview?usp=sharing ) for YOLO and put them into \u002FYOLO_DET_Alg\u002Fweights\u002F.\n  \n  For YOLO knowledge [here](http:\u002F\u002Fpjreddie.com\u002Fdarknet\u002Fyolo\u002F) you can find Original code(C implementation) & paper.\n  \n### ii.Usage\n  After Set the Parameters, we can proceed and run the script:\n  \n  ```python\n    python VID_yolo.py --path_video video.mp4\n  ```\nYou will see some Terminal Output like:\n\n![alt tag](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FDrewNF_Tensorflow_Object_Tracking_Video_readme_a7201df8762c.png)\n\nYou will see a realtime frames output(like the one here below) and then finally all will be embedded into the Video Output( I uploaded the first two Test I've made in the folder \u002Fvideo_result, you can download them and take a look to the final result.\nThe first one has problems in the frames order, this is why you will see so much flickering in the video image,the problem was then solved and in the second doesn't show frames flickering ):\n\n![alt tag](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FDrewNF_Tensorflow_Object_Tracking_Video_readme_58d74cfdc6da.jpg)\n\n## 4.VID TENSORBOX Script Usage\n### i.Setting Parameters\n  This are the inline terminal argmunts taken from the script, most of them aren't required.\n  As before, only the video path **must** be specified when we call the script:\n        \n  ```python      \n    parser.add_argument('--output_name', default='output.mp4', type=str)\n    parser.add_argument('--hypes', default='.\u002Fhypes\u002Foverfeat_rezoom.json', type=str)\n    parser.add_argument('--weights', default='.\u002Foutput\u002Fsave.ckpt-1090000', type=str)\n    parser.add_argument('--perc', default=2, type=int)\n    parser.add_argument('--path_video', required=True, type=str)\n  ```\n  I will soon put a weight file to download.\n  For train and spec on the multiclass implementation I will add them after the end of my thesis project.\n  \n### ii.Usage\n  \n  Download the .zip files linked in the Download section and replace the folders.\n      \n  Then, after set the parameters, we can proceed and run the script:\n  \n  ```python\n    python VID_tensorbox_multi_class.py --path_video video.mp4\n  ```  \n\n## 5.Tensorbox Tests\n  In the folder video_result_OVT you can find files result of the runs of the VID TENSOBOX scripts.\n  \n## 6.Dataset Scripts\n  All the scripts below are for the VID classes so if you wonna adapt them for other you have to simply change the Classes.py file where are defined the correspondencies between codes and names. All the data on the image are made respect a specific Image Ratio, because TENSORBOX works only with 640x480 PNG images, you will have to change the code a little to adapt to your needs.\n  I will provide four scripts:\n  1. **Process_Dataset_heavy.py**: Process your dataset with a brute force approach, you will obtain more bbox and files for each class;\n  2. **Process_Dataset_lightweight.py**: Process your dataset with a lightweight approach making, you will obtain less bbox and files for each class;\n  3. **Resize_Dataset.py**: Resize your dataset to 640x480 PNG images;\n  4. **Test_Processed_Data.py**: Will test that the process end well without errors.\n\nI've also add some file scripts to pre process and prepare the dataset to train the last component, the Inception Model, you can find them in a subfolder of the dataset script folder.\n\n## 7.Copyright\n\nAccording to the LICENSE file of the original code,\n\n  - Me and original author hold no liability for any damages;\n  - Do not use this on commercial!.\n\n## 8.State of the Project\n\n  - Support YOLO (SingleClass) DET Algorithm;\n  - Support Training **ONLY TENSOBOX and INCEPTION Training**;\n  - **USE OF TEMPORAL INFORMATION** [This are retrieved through some post processing algorithm I've implemented in the Utils_Video.py file **NOT TRAINABLE**];\n  - Modular Architecture composed in cascade by: Tensorbox (as General Object Detector), Tracker and Smoother and Inception (as Object Classifier);\n  \n ## 9.Downloads\n \n Here below the links of the weights file for Inception and Tensorbox from my retraining experiments:\n - [INCEPTION](https:\u002F\u002Fmega.nz\u002F#!rtkD2TzA!iDoBGzAFC69b8VE2wlJOoRg7kJ6XnayMcagrzidZGxw)\n - [TENSORBOX](https:\u002F\u002Fmega.nz\u002F#!WpdSUArZ!8-E3YIvpfBHUoBc1QGDyiWA0CKbIXxOyVqJWMeSE6-g)\n \n  ## 10.Acknowledgements\n  \n  Thanks to Professors:\n  \n  - **Elena Baralis** from Politecnico di Torino Dipartimento di Automatica e Informatica;\n  - **Jordi Torres** from BSC Department of Computer Science;\n  - **Xavi Giro ”I” Nieto** from UPC Department of Image Processing.\n  \n  ## 11.Bibliography\n  ### i.Course\n  - [Deep Learning for Computer Vision Barcelona](http:\u002F\u002Fimatge-upc.github.io\u002Ftelecombcn-2016-dlcv\u002F)\n  - [Build Deep Learning Env with Tensorflow Python OpenCV](https:\u002F\u002Fgithub.com\u002FDrewNF\u002FBuild-Deep-Learning-Env-with-Tensorflow-Python-OpenCV)\n  ### ii.Classification\n  - [ Alex Krizhevsky, Ilya Sutskever, and Geoffrey E. Hinton. “ImageNet Classification  with  Deep  Convolutional  Neural  Networks”.](https:\u002F\u002Fpapers.nips.cc\u002Fpaper\u002F4824-imagenet-classification-with-deep-convolutional-neural-networks)\n  - [Christian Szegedy et al. “Going Deeper with Convolutions”.](https:\u002F\u002Farxiv.org\u002Fabs\u002F1409.4842)\n  - [Christian Szegedy et al. “Rethinking the Inception Architecture for ComputerVision”.](https:\u002F\u002Farxiv.org\u002Fabs\u002F1512.00567)\n  - [Kaiming  He  et  al.  “Delving  Deep  into  Rectifiers:  Surpassing  Human-LevelPerformance on ImageNet Classification”. ](https:\u002F\u002Farxiv.org\u002Fabs\u002F1502.01852)\n  ### iii.Detection\n  - [Russell  Stewart  and  Mykhaylo  Andriluka.  “End-to-end  people  detection  incrowded scenes”.](https:\u002F\u002Farxiv.org\u002Fabs\u002F1506.04878)\n  - [Pierre  Sermanet  et  al.  “OverFeat:  Integrated  Recognition,  Localization  andDetection  using  Convolutional  Networks”.](https:\u002F\u002Farxiv.org\u002Fabs\u002F1312.6229)\n  - [S. Ren et al. “Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks”.](https:\u002F\u002Farxiv.org\u002Fabs\u002F1506.01497)\n  ### iv.Tracking\n  - [Dinesh Jayaraman and Kristen Grauman. “Slow and Steady Feature Analy-sis: Higher Order Temporal Coherence in Video”.](https:\u002F\u002Farxiv.org\u002Fabs\u002F1506.04714) \n  - [K.  Kang  et  al.  “T-CNN:  Tubelets  with  Convolutional  Neural  Networks  forObject Detection from Videos”.](https:\u002F\u002Farxiv.org\u002Fabs\u002F1604.02532)\n  - [ W. Han et al. “Seq-NMS for Video Object Detection”.](https:\u002F\u002Farxiv.org\u002Fabs\u002F1602.08465)\n  -[J. Redmon et al. “You Only Look Once: Unified, Real-Time Object Detection”](https:\u002F\u002Farxiv.org\u002Fabs\u002F1506.02640)\n","# Tensorflow_视频目标跟踪\n\n（版本 0.3，最后更新日期：2017年10月3日）\n\n![alt text](images\u002FUPC_logo.png \"Logo Title Text 1\")\n![alt text](images\u002FBSC_logo.png \"Logo Title Text 1\")\n![alt text](images\u002FIGP_logo.png  \"Logo Title Text 1\")\n![alt text](images\u002FPOLITO_logo.png  \"Logo Title Text 1\")\n\n本项目遵循以下**目录**：\n\n1. **[简介](#1introduction)；**\n2. **[要求与安装](#2requirement--installation)；**\n3. **[YOLO脚本使用方法](#3yolo-script-usage)**\n      1. **[设置参数](#isetting-parameters)；**\n      2. **[使用方法](#iiusage)。**\n4. **[VID TENSORBOX脚本使用方法](#4vid-tensorbox-script-usage)**\n      1. **[设置参数](#isetting-parameters-2)；**\n      2. **[使用方法](#iiusage-2)。**\n5. **[TENSORBOX测试文件](#5tensorbox-tests)；**\n6. **[数据集脚本](#6dataset-script)；**\n7. **[版权信息](#7copyright)；**\n8. **[项目状态](#8state-of-the-project)。**\n9. **[下载](#9downloads)。**\n10. **[致谢](#10acknowledgements)。**\n11. **[参考文献](#11bibliography)。**\n\n\n## 1.简介\n\n本仓库是我的硕士毕业论文项目：“基于TensorFlow技术的视频目标跟踪开发”，目前仍在开发中，未来还将进行多次更新。在本工作中，我采用了T-CNN论文（[Arxiv](http:\u002F\u002Farxiv.org\u002Fabs\u002F1604.02532)）的架构和问题解决策略，该论文去年赢得了[IMAGENET 2015](http:\u002F\u002Fimage-net.org\u002F) [Teaser Challenge VID](http:\u002F\u002Fimage-net.org\u002Fchallenges\u002FLSVRC\u002F2015\u002Fresults)比赛。因此，整个脚本架构将由多个级联组件组成：\n  1. 静态图像检测（返回单帧中的跟踪结果）；\n  2. 时间信息检测（将时间信息引入检测结果中）；\n  3. 上下文信息检测（将上下文信息引入检测结果中）；\n\n> 注意，静态图像检测组件可以是单一的，也可以分解为两个子组件：\n>  1. 第一：确定帧中的“位置”；\n>  2. 第二：确定帧中的“物体”。\n\n我的项目使用了许多在线的TensorFlow项目，例如：\n  - [YOLO Tensorflow](https:\u002F\u002Fgithub.com\u002Fgliese581gg\u002FYOLO_tensorflow)；\n  - [TensorBox](https:\u002F\u002Fgithub.com\u002FRussell91\u002FTensorBox)；\n  - [Inception](https:\u002F\u002Fgithub.com\u002Ftensorflow\u002Fmodels\u002Ftree\u002Fmaster\u002Finception)。\n\n## 2.要求与安装\n要安装该脚本，您只需下载本仓库即可。要运行脚本，您需要先安装：\n  - Tensorflow；\n  - OpenCV；\n  - Python；\n\n所有必要的Python库都可以通过`pip install 包名`轻松安装。如果您想按照指南来安装这些依赖项，这里有一个我为自己以及UPC深度学习课程编写的[教程](https:\u002F\u002Fgithub.com\u002FDrewNF\u002FBuild-Deep-Learning-Env-with-Tensorflow-Python-OpenCV)链接。\n\n## 3.YOLO脚本使用方法\nYou Only Look Once (YOLO) 是一种最先进的实时目标检测系统。### i.设置参数\n以下是脚本中使用的命令行参数，其中大多数并非必需，只有视频路径**必须**在调用脚本时指定：\n        \n  ```python      \n    parser = argparse.ArgumentParser()\n    parser.add_argument('--det_frames_folder', default='det_frames\u002F', type=str)\n    parser.add_argument('--det_result_folder', default='det_results\u002F', type=str)\n    parser.add_argument('--result_folder', default='summary_result\u002F', type=str)\n    parser.add_argument('--summary_file', default='results.txt', type=str)\n    parser.add_argument('--output_name', default='output.mp4', type=str)\n    parser.add_argument('--perc', default=5, type=int)\n    parser.add_argument('--path_video', required=True, type=str)\n  ```\n  \n  现在您需要下载[YOLO的权重](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F0B2JbaJSrWLpza08yS2FSUnV2dlE\u002Fview?usp=sharing )，并将其放置在\u002FYOLO_DET_Alg\u002Fweights\u002F目录下。\n  \n  关于YOLO的相关知识，您可以访问[这里](http:\u002F\u002Fpjreddie.com\u002Fdarknet\u002Fyolo\u002F)，找到原始代码（C语言实现）及论文。\n  \n### ii.使用方法\n设置好参数后，我们就可以继续运行脚本了：\n  \n  ```python\n    python VID_yolo.py --path_video video.mp4\n  ```\n您将会看到类似如下的终端输出：\n\n![alt tag](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FDrewNF_Tensorflow_Object_Tracking_Video_readme_a7201df8762c.png)\n\n您会看到实时的帧输出（如下所示），最终这些帧会被嵌入到视频输出中（我已经将前两次测试上传到了\u002Fvideo_result文件夹中，您可以下载并查看最终结果。第一次测试存在帧顺序问题，因此视频画面会出现明显的闪烁现象；而第二次测试已经解决了这个问题，没有出现帧闪烁的情况）：\n\n![alt tag](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FDrewNF_Tensorflow_Object_Tracking_Video_readme_58d74cfdc6da.jpg)\n\n## 4.VID TENSORBOX脚本使用方法\n### i.设置参数\n以下是脚本中使用的命令行参数，其中大多数并非必需。与之前一样，只有视频路径**必须**在调用脚本时指定：\n        \n  ```python      \n    parser.add_argument('--output_name', default='output.mp4', type=str)\n    parser.add_argument('--hypes', default='.\u002Fhypes\u002Foverfeat_rezoom.json', type=str)\n    parser.add_argument('--weights', default='.\u002Foutput\u002Fsave.ckpt-1090000', type=str)\n    parser.add_argument('--perc', default=2, type=int)\n    parser.add_argument('--path_video', required=True, type=str)\n  ```\n我很快会提供一个权重文件供下载。关于多类别实现的训练和规范说明，我将在毕业论文完成后补充上去。\n  \n### ii.使用方法\n  \n  下载“下载”部分中提供的.zip文件，并替换相应的文件夹。\n      \n  设置好参数后，我们就可以继续运行脚本了：\n  \n  ```python\n    python VID_tensorbox_multi_class.py --path_video video.mp4\n  ```  \n\n## 5.Tensorbox测试\n在video_result_OVT文件夹中，您可以找到VID TENSOBOX脚本运行后的结果文件。\n\n## 6.数据集脚本\n以下所有脚本均针对VID类别设计，如果您希望将其应用于其他类别，只需修改Classes.py文件，该文件定义了代码与名称之间的对应关系。所有图像数据都遵循特定的宽高比，因为TENSORBOX仅支持640x480的PNG格式图像，您需要对代码稍作修改以适应您的需求。\n我将提供四份脚本：\n  1. **Process_Dataset_heavy.py**：采用暴力方式处理您的数据集，这样每个类别的边界框和文件数量会更多；\n  2. **Process_Dataset_lightweight.py**：采用轻量级方法处理您的数据集，这样每个类别的边界框和文件数量会更少；\n  3. **Resize_Dataset.py**：将您的数据集调整为640x480的PNG格式图像；\n  4. **Test_Processed_Data.py**：用于测试处理过程是否顺利完成且无错误。\n\n此外，我还添加了一些用于预处理和准备数据集以便训练最后一部分——Inception模型的脚本，您可以在数据集脚本文件夹的子文件夹中找到它们。\n\n## 7. 版权\n\n根据原始代码的 LICENSE 文件：\n\n- 我与原作者对任何损害不承担任何责任；\n- 请勿将本项目用于商业用途！\n\n## 8. 项目状态\n\n- 支持 YOLO（单类）目标检测算法；\n- 仅支持 **TensorBox 和 Inception** 的训练；\n- **利用时间信息** [这些信息通过我在 Utils_Video.py 文件中实现的一些后处理算法获取，**不可训练**]；\n- 模块化架构由以下组件级联组成：TensorBox（作为通用目标检测器）、跟踪器与平滑器，以及 Inception（作为目标分类器）；\n\n## 9. 下载\n\n以下是我在重新训练实验中得到的 Inception 和 TensorBox 权重文件的下载链接：\n- [INCEPTION](https:\u002F\u002Fmega.nz\u002F#!rtkD2TzA!iDoBGzAFC69b8VE2wlJOoRg7kJ6XnayMcagrzidZGxw)\n- [TENSORBOX](https:\u002F\u002Fmega.nz\u002F#!WpdSUArZ!8-E3YIvpfBHUoBc1QGDyiWA0CKbIXxOyVqJWMeSE6-g)\n\n## 10. 致谢\n\n感谢以下教授：\n\n- 都灵理工大学自动化与信息学系的 **Elena Baralis** 教授；\n- 巴塞罗那超级计算中心计算机科学系的 **Jordi Torres** 教授；\n- 加泰罗尼亚理工大学图像处理系的 **Xavi Giro ”I” Nieto** 教授。\n\n## 11. 参考文献\n### i. 课程\n- [巴塞罗那计算机视觉深度学习课程](http:\u002F\u002Fimatge-upc.github.io\u002Ftelecombcn-2016-dlcv\u002F)\n- [使用 TensorFlow、Python 和 OpenCV 构建深度学习环境](https:\u002F\u002Fgithub.com\u002FDrewNF\u002FBuild-Deep-Learning-Env-with-Tensorflow-Python-OpenCV)\n### ii. 分类\n- [Alex Krizhevsky、Ilya Sutskever 和 Geoffrey E. Hinton. “基于深度卷积神经网络的 ImageNet 分类”。](https:\u002F\u002Fpapers.nips.cc\u002Fpaper\u002F4824-imagenet-classification-with-deep-convolutional-neural-networks)\n- [Christian Szegedy 等人. “更深层次的卷积网络”。](https:\u002F\u002Farxiv.org\u002Fabs\u002F1409.4842)\n- [Christian Szegedy 等人. “重新思考用于计算机视觉的 Inception 架构”。](https:\u002F\u002Farxiv.org\u002Fabs\u002F1512.00567)\n- [Kaiming He 等人. “深入研究 ReLU：在 ImageNet 分类任务上超越人类水平性能”。](https:\u002F\u002Farxiv.org\u002Fabs\u002F1502.01852)\n### iii. 目标检测\n- [Russell Stewart 和 Mykhaylo Andriluka. “拥挤场景中的端到端人群检测”。](https:\u002F\u002Farxiv.org\u002Fabs\u002F1506.04878)\n- [Pierre Sermanet 等人. “OverFeat：基于卷积网络的集成识别、定位与检测”。](https:\u002F\u002Farxiv.org\u002Fabs\u002F1312.6229)\n- [S. Ren 等人. “Faster R-CNN：基于区域建议网络的实时目标检测”。](https:\u002F\u002Farxiv.org\u002Fabs\u002F1506.01497)\n### iv. 目标跟踪\n- [Dinesh Jayaraman 和 Kristen Grauman. “缓慢而稳定的特征分析：视频中的高阶时间一致性”。](https:\u002F\u002Farxiv.org\u002Fabs\u002F1506.04714)\n- [K. Kang 等人. “T-CNN：基于卷积神经网络的 Tubelets 技术，用于从视频中进行目标检测”。](https:\u002F\u002Farxiv.org\u002Fabs\u002F1604.02532)\n- [W. Han 等人. “用于视频目标检测的 Seq-NMS”。](https:\u002F\u002Farxiv.org\u002Fabs\u002F1602.08465)\n- [J. Redmon 等人. “你只看一次：统一的实时目标检测”。](https:\u002F\u002Farxiv.org\u002Fabs\u002F1506.02640)","# Tensorflow_Object_Tracking_Video 快速上手指南\n\n本指南基于开源项目 `Tensorflow_Object_Tracking_Video` 整理，旨在帮助开发者快速搭建基于 TensorFlow 的视频目标跟踪环境。该项目结合了 YOLO 和 TensorBox 架构，并引入了时序信息处理策略（参考 T-CNN 论文）。\n\n## 1. 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n\n*   **操作系统**：Linux \u002F macOS (Windows 需配置相应兼容环境)\n*   **核心依赖**：\n    *   Python (建议 Python 2.7 或 3.5+，视具体 TensorFlow 版本而定，原项目较老，需注意兼容性)\n    *   TensorFlow\n    *   OpenCV\n    *   NumPy, SciPy 等常用科学计算库\n\n### 安装依赖\n您可以使用 `pip` 安装必要的 Python 库。国内用户推荐使用清华或阿里镜像源以加速下载：\n\n```bash\npip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple tensorflow opencv-python numpy scipy\n```\n\n> **注意**：由于该项目最后更新于 2017 年，若使用新版 TensorFlow (2.x+) 可能会遇到 API 不兼容问题。建议参考原作者提供的 [深度学习环境搭建教程](https:\u002F\u002Fgithub.com\u002FDrewNF\u002FBuild-Deep-Learning-Env-with-Tensorflow-Python-OpenCV) 配置兼容的旧版环境，或在 Docker 容器中运行。\n\n## 2. 安装步骤\n\n### 2.1 克隆项目\n首先下载源代码仓库：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fgliese581gg\u002FTensorflow_Object_Tracking_Video.git\ncd Tensorflow_Object_Tracking_Video\n```\n\n### 2.2 下载模型权重\n脚本运行需要预训练的权重文件。根据您选择的检测算法（YOLO 或 TensorBox），请下载对应的权重并放置到指定目录。\n\n#### 方案 A：使用 YOLO 检测器\n1.  下载 YOLO 权重文件：[Google Drive 链接](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F0B2JbaJSrWLpza08yS2FSUnV2dlE\u002Fview?usp=sharing)\n    *   *注：若无法访问 Google Drive，请自行寻找 YOLO v1\u002Fv2 的 `.weights` 文件。*\n2.  将下载的文件放入项目目录：\n    ```bash\n    # 假设下载的文件名为 yolo.weights\n    mkdir -p YOLO_DET_Alg\u002Fweights\n    mv yolo.weights YOLO_DET_Alg\u002Fweights\u002F\n    ```\n\n#### 方案 B：使用 TensorBox 检测器\n1.  下载 TensorBox 权重文件：[MEGA 链接](https:\u002F\u002Fmega.nz\u002F#!WpdSUArZ!8-E3YIvpfBHUoBc1QGDyiWA0CKbIXxOyVqJWMeSE6-g)\n2.  解压并将文件夹替换到项目对应目录中（参考原文 \"Downloads\" 章节说明）。\n\n## 3. 基本使用\n\n本项目主要提供两个脚本用于视频目标跟踪：`VID_yolo.py` 和 `VID_tensorbox_multi_class.py`。以下以最常用的 **YOLO** 方案为例。\n\n### 3.1 参数说明\n脚本支持多种命令行参数，其中只有视频路径是必须的：\n\n*   `--path_video`: **必填**，输入视频文件的路径。\n*   `--output_name`: 输出视频文件名 (默认: `output.mp4`)。\n*   `--perc`: 置信度阈值百分比 (默认: 5)。\n*   `--det_frames_folder`: 检测帧保存目录。\n*   `--result_folder`: 最终结果汇总目录。\n\n### 3.2 运行示例\n确保当前目录下有一个名为 `video.mp4` 的测试视频，然后执行以下命令：\n\n```bash\npython VID_yolo.py --path_video video.mp4\n```\n\n**运行过程：**\n1.  终端会实时输出检测日志。\n2.  程序会逐帧处理视频，并在屏幕上显示实时检测结果（可选）。\n3.  处理完成后，生成的跟踪视频将保存为 `output.mp4`（或通过 `--output_name` 指定的名称）。\n\n### 3.3 使用 TensorBox (多类别)\n如果您已下载好 TensorBox 权重并希望使用多类别检测，可使用以下命令：\n\n```bash\npython VID_tensorbox_multi_class.py --path_video video.mp4\n```\n\n## 4. 数据集处理（可选）\n如果您需要用自己的数据训练模型或调整数据集格式，项目提供了以下脚本位于 `Dataset Scripts` 相关目录：\n\n*   `Process_Dataset_heavy.py`: 暴力处理模式，生成更多边界框。\n*   `Process_Dataset_lightweight.py`: 轻量处理模式。\n*   `Resize_Dataset.py`: 将数据集图像调整为 TensorBox 要求的 640x480 PNG 格式。\n*   `Test_Processed_Data.py`: 验证数据处理是否无误。\n\n> **提示**：修改 `Classes.py` 文件可以适配不同的物体类别定义。","某安防监控团队正在处理一段长达数小时的仓库夜间录像，需要从中精准提取所有移动叉车的轨迹以分析作业效率。\n\n### 没有 Tensorflow_Object_Tracking_Video 时\n- **人工标注成本极高**：开发人员不得不逐帧手动框选叉车位置，面对每秒 30 帧的视频，耗时数天且极易疲劳出错。\n- **目标身份频繁丢失**：传统检测算法仅能识别单帧物体，当叉车被货架短暂遮挡后，系统将其误判为新物体，导致轨迹断裂。\n- **缺乏时空上下文关联**：无法利用视频的时间连续性信息，难以区分静止货物与缓慢移动的叉车，误报率居高不下。\n- **部署整合困难**：现有的检测模型（如纯 YOLO）未针对视频流优化，缺乏将检测结果串联成完整轨迹的后处理模块。\n\n### 使用 Tensorflow_Object_Tracking_Video 后\n- **自动化轨迹生成**：利用其级联架构自动完成“定位 - 分类 - 跟踪”，一键输入视频路径即可输出带 ID 标记的完整叉车运动轨迹。\n- **鲁棒的目标重识别**：通过引入时间信息检测组件，即使叉车经过遮挡区域，系统也能基于历史特征恢复其唯一 ID，保持轨迹连续。\n- **上下文增强精度**：借助上下文信息检测模块，有效结合前后帧环境特征，大幅降低将阴影或静止物体误判为移动目标的概率。\n- **端到端流程闭环**：直接复用项目中集成的 YOLO 与 TensorBox 组件，从原始视频到最终的分析报表（results.txt）实现全流程自动化。\n\nTensorflow_Object_Tracking_Video 通过将单帧检测升级为具备时空感知能力的视频跟踪系统，将原本需数天的人工分析工作缩短至分钟级，并显著提升了复杂场景下的轨迹准确性。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FDrewNF_Tensorflow_Object_Tracking_Video_8bf317df.png","DrewNF","Andrea Ferri","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FDrewNF_e5018eb3.jpg","Creative Dreamer of the Digital Era, I love challenges and learn from experience, travel and discover new horizons.","VTEX | Politecnico di Torino | UPC Barcelona Tech","Torino & Barcelona",null,"https:\u002F\u002Fwww.linkedin.com\u002Fin\u002Fferriand\u002F","https:\u002F\u002Fgithub.com\u002FDrewNF",[83,87,91],{"name":84,"color":85,"percentage":86},"Python","#3572A5",90.9,{"name":88,"color":89,"percentage":90},"C++","#f34b7d",9,{"name":92,"color":93,"percentage":94},"Makefile","#427819",0,504,198,"2026-02-19T07:30:48","MIT",4,"未说明","未说明 (基于 TensorFlow 和 YOLO\u002FTensorBox 架构，通常建议配备支持 CUDA 的 NVIDIA GPU，但文中未指定具体型号或显存要求)",{"notes":103,"python":104,"dependencies":105},"该项目最后更新于 2017 年，版本为 0.3，属于较旧的硕士论文项目。主要依赖 TensorFlow、OpenCV 和 Python。运行前需手动下载 YOLO 权重文件（约几百 MB）以及可选的 TensorBox 和 Inception 重训练权重文件。代码中包含针对特定数据集（640x480 PNG）的处理脚本，若使用其他数据需修改代码。项目明确禁止商业用途。","未说明 (仅提及需要安装 Python)",[106,107,108],"TensorFlow","OpenCV","argparse",[14,16,110,15],"视频",[112,113,114,115,116,117,118,119,120,121],"detection","video","yolo","tensorflow","inception","imagenet","object-detection","classification","tensorbox","dataset","2026-03-27T02:49:30.150509","2026-04-14T12:34:21.759789",[125,130,135],{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},33072,"权重检查点文件的下载链接失效了怎么办？","项目中指向 YOLO 权重文件的 Google Drive 链接已损坏（特别是在文档的第 3i 节）。由于维护者尚未在 Issue 中提供更新后的链接，建议用户自行寻找对应的 YOLO 权重文件，或查看项目是否有更新的分支\u002F发布版本来获取有效资源。","https:\u002F\u002Fgithub.com\u002FDrewNF\u002FTensorflow_Object_Tracking_Video\u002Fissues\u002F7",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},33073,"代码中 'reregress' 选项的缩进错误如何修复？","在构建图时存在缩进错误，'reregress' 应该是 'use_rezoom' 的子选项。请将相关代码块修改为：在 `if H['use_rezoom']:` 块内部嵌套 `if H['reregress']:` 判断，而不是将其放在外部。修正后的逻辑应确保只有在启用 rezoom 时才执行回归框的微调操作（`pred_boxes = pred_boxes + pred_boxes_deltas`）。","https:\u002F\u002Fgithub.com\u002FDrewNF\u002FTensorflow_Object_Tracking_Video\u002Fissues\u002F4",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},33074,"该项目支持 Python 3 吗？","根据现有信息，该仓库主要基于 Python 2 编写。虽然许多用户（包括维护者在其他场合的回应暗示）希望有 Python 3 版本，但官方尚未提供直接的原生支持。建议用户如需在 Python 3 环境下运行，可能需要自行 fork 仓库并进行代码迁移，或使用虚拟环境兼容运行。","https:\u002F\u002Fgithub.com\u002FDrewNF\u002FTensorflow_Object_Tracking_Video\u002Fissues\u002F19",[]]