[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-pathak22--noreward-rl":3,"tool-pathak22--noreward-rl":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",144730,2,"2026-04-07T23:26:32",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":78,"owner_email":79,"owner_twitter":80,"owner_website":81,"owner_url":82,"languages":83,"stars":92,"forks":93,"last_commit_at":94,"license":95,"difficulty_score":96,"env_os":97,"env_gpu":98,"env_ram":99,"env_deps":100,"category_tags":113,"github_topics":114,"view_count":32,"oss_zip_url":79,"oss_zip_packed_at":79,"status":17,"created_at":125,"updated_at":126,"faqs":127,"releases":158},5382,"pathak22\u002Fnoreward-rl","noreward-rl","[ICML 2017] TensorFlow code for Curiosity-driven Exploration for Deep Reinforcement Learning","noreward-rl 是一个基于 TensorFlow 实现的开源强化学习框架，源自加州大学伯克利分校发表在 ICML 2017 上的研究成果。它核心解决了传统强化学习在环境奖励极其稀疏甚至完全缺失时，智能体难以有效探索和学习的问题。\n\n通过引入“好奇心驱动探索”（Curiosity-driven Exploration）机制，noreward-rl 让智能体具备内在动机：利用自监督预测模型，将“对未知状态的好奇心”转化为内部奖励信号。这意味着即使没有外部得分或任务目标，智能体也能主动探索环境、学习技能，实现真正的“无奖励强化学习”。项目提供了在 Doom 和超级马里奥等经典游戏环境中的完整训练与演示代码，复现了论文中智能体仅凭好奇心就能掌握复杂操作的效果。\n\n该工具特别适合人工智能研究人员、算法工程师及高校师生使用，尤其是那些致力于探索无监督学习、稀疏奖励场景或希望深入理解内在动机机制的开发者。其技术亮点在于巧妙地将预测误差作为好奇心的量化指标，无需人工设计奖励函数即可驱动智能体自主发现新策略。如果你正在研究如何让 AI 在缺乏明确指导的环境中自我进化，noreward-rl 提供","noreward-rl 是一个基于 TensorFlow 实现的开源强化学习框架，源自加州大学伯克利分校发表在 ICML 2017 上的研究成果。它核心解决了传统强化学习在环境奖励极其稀疏甚至完全缺失时，智能体难以有效探索和学习的问题。\n\n通过引入“好奇心驱动探索”（Curiosity-driven Exploration）机制，noreward-rl 让智能体具备内在动机：利用自监督预测模型，将“对未知状态的好奇心”转化为内部奖励信号。这意味着即使没有外部得分或任务目标，智能体也能主动探索环境、学习技能，实现真正的“无奖励强化学习”。项目提供了在 Doom 和超级马里奥等经典游戏环境中的完整训练与演示代码，复现了论文中智能体仅凭好奇心就能掌握复杂操作的效果。\n\n该工具特别适合人工智能研究人员、算法工程师及高校师生使用，尤其是那些致力于探索无监督学习、稀疏奖励场景或希望深入理解内在动机机制的开发者。其技术亮点在于巧妙地将预测误差作为好奇心的量化指标，无需人工设计奖励函数即可驱动智能体自主发现新策略。如果你正在研究如何让 AI 在缺乏明确指导的环境中自我进化，noreward-rl 提供了一个经过验证的高质量基准实现。","## Curiosity-driven Exploration by Self-supervised Prediction ##\n#### In ICML 2017 [[Project Website]](http:\u002F\u002Fpathak22.github.io\u002Fnoreward-rl\u002F) [[Demo Video]](http:\u002F\u002Fpathak22.github.io\u002Fnoreward-rl\u002Findex.html#demoVideo)\n\n[Deepak Pathak](https:\u002F\u002Fpeople.eecs.berkeley.edu\u002F~pathak\u002F), [Pulkit Agrawal](https:\u002F\u002Fpeople.eecs.berkeley.edu\u002F~pulkitag\u002F), [Alexei A. Efros](https:\u002F\u002Fpeople.eecs.berkeley.edu\u002F~efros\u002F), [Trevor Darrell](https:\u002F\u002Fpeople.eecs.berkeley.edu\u002F~trevor\u002F)\u003Cbr\u002F>\nUniversity of California, Berkeley\u003Cbr\u002F>\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fpathak22_noreward-rl_readme_82c633c38a0d.gif\" width=\"300\">    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fpathak22_noreward-rl_readme_af5a2ce6949c.gif\" width=\"351\">\n\nThis is a tensorflow based implementation for our [ICML 2017 paper on curiosity-driven exploration for reinforcement learning](http:\u002F\u002Fpathak22.github.io\u002Fnoreward-rl\u002F). Idea is to train agent with intrinsic curiosity-based motivation (ICM) when external rewards from environment are sparse. Surprisingly, you can use ICM even when there are no rewards available from the environment, in which case, agent learns to explore only out of curiosity: 'RL without rewards'. If you find this work useful in your research, please cite:\n\n    @inproceedings{pathakICMl17curiosity,\n        Author = {Pathak, Deepak and Agrawal, Pulkit and\n                  Efros, Alexei A. and Darrell, Trevor},\n        Title = {Curiosity-driven Exploration by Self-supervised Prediction},\n        Booktitle = {International Conference on Machine Learning ({ICML})},\n        Year = {2017}\n    }\n\n### 1) Installation and Usage\n1.  This code is based on [TensorFlow](https:\u002F\u002Fwww.tensorflow.org\u002F). To install, run these commands:\n  ```Shell\n  # you might not need many of these, e.g., fceux is only for mario\n  sudo apt-get install -y python-numpy python-dev cmake zlib1g-dev libjpeg-dev xvfb \\\n  libav-tools xorg-dev python-opengl libboost-all-dev libsdl2-dev swig python3-dev \\\n  python3-venv make golang libjpeg-turbo8-dev gcc wget unzip git fceux virtualenv \\\n  tmux\n\n  # install the code\n  git clone -b master --single-branch https:\u002F\u002Fgithub.com\u002Fpathak22\u002Fnoreward-rl.git\n  cd noreward-rl\u002F\n  virtualenv curiosity\n  source $PWD\u002Fcuriosity\u002Fbin\u002Factivate\n  pip install numpy\n  pip install -r src\u002Frequirements.txt\n  python curiosity\u002Fsrc\u002Fgo-vncdriver\u002Fbuild.py\n\n  # download models\n  bash models\u002Fdownload_models.sh\n\n  # setup customized doom environment\n  cd doomFiles\u002F\n  # then follow commands in doomFiles\u002FREADME.md\n  ```\n\n2. Running demo\n  ```Shell\n  cd noreward-rl\u002Fsrc\u002F\n  python demo.py --ckpt ..\u002Fmodels\u002Fdoom\u002Fdoom_ICM\n  python demo.py --env-id SuperMarioBros-1-1-v0 --ckpt ..\u002Fmodels\u002Fmario\u002Fmario_ICM\n  ```\n\n3. Training code\n  ```Shell\n  cd noreward-rl\u002Fsrc\u002F\n  # For Doom: doom or doomSparse or doomVerySparse\n  python train.py --default --env-id doom\n\n  # For Mario, change src\u002Fconstants.py as follows:\n  # PREDICTION_BETA = 0.2\n  # ENTROPY_BETA = 0.0005\n  python train.py --default --env-id mario --noReward\n\n  xvfb-run -s \"-screen 0 1400x900x24\" bash  # only for remote desktops\n  # useful xvfb link: http:\u002F\u002Fstackoverflow.com\u002Fa\u002F30336424\n  python inference.py --default --env-id doom --record\n  ```\n\n### 2) Other helpful pointers\n- [Paper](https:\u002F\u002Fpathak22.github.io\u002Fnoreward-rl\u002Fresources\u002Ficml17.pdf)\n- [Project Website](http:\u002F\u002Fpathak22.github.io\u002Fnoreward-rl\u002F)\n- [Demo Video](http:\u002F\u002Fpathak22.github.io\u002Fnoreward-rl\u002Findex.html#demoVideo)\n- [Reddit Discussion](https:\u002F\u002Fredd.it\u002F6bc8ul)\n- [Media Articles (New Scientist, MIT Tech Review and others)](http:\u002F\u002Fpathak22.github.io\u002Fnoreward-rl\u002Findex.html#media)\n\n### 3) Acknowledgement\nVanilla A3C code is based on the open source implementation of [universe-starter-agent](https:\u002F\u002Fgithub.com\u002Fopenai\u002Funiverse-starter-agent).\n","## 自监督预测驱动的好奇心探索 ##\n#### 2017年国际机器学习大会（ICML）[[项目官网]](http:\u002F\u002Fpathak22.github.io\u002Fnoreward-rl\u002F) [[演示视频]](http:\u002F\u002Fpathak22.github.io\u002Fnoreward-rl\u002Findex.html#demoVideo)\n\n[迪帕克·帕塔克](https:\u002F\u002Fpeople.eecs.berkeley.edu\u002F~pathak\u002F)、[普尔基特·阿格拉瓦尔](https:\u002F\u002Fpeople.eecs.berkeley.edu\u002F~pulkitag\u002F)、[阿列克谢·A·埃夫罗斯](https:\u002F\u002Fpeople.eecs.berkeley.edu\u002F~efros\u002F)、[特雷弗·达雷尔](https:\u002F\u002Fpeople.eecs.berkeley.edu\u002F~trevor\u002F)\u003Cbr\u002F>\n加州大学伯克利分校\u003Cbr\u002F>\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fpathak22_noreward-rl_readme_82c633c38a0d.gif\" width=\"300\">    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fpathak22_noreward-rl_readme_af5a2ce6949c.gif\" width=\"351\">\n\n这是基于TensorFlow的实现，用于我们发表在2017年ICML上的关于强化学习中好奇心驱动探索的论文（[链接](http:\u002F\u002Fpathak22.github.io\u002Fnoreward-rl\u002F)）。其核心思想是在环境提供的外部奖励稀疏时，通过内在的好奇心驱动机制（ICM）来训练智能体。令人惊讶的是，即使环境中完全没有奖励，仍然可以使用ICM，此时智能体仅凭好奇心进行探索：“无奖励的强化学习”。如果您觉得这项工作对您的研究有帮助，请引用以下文献：\n\n    @inproceedings{pathakICMl17curiosity,\n        Author = {Pathak, Deepak and Agrawal, Pulkit and\n                  Efros, Alexei A. and Darrell, Trevor},\n        Title = {Curiosity-driven Exploration by Self-supervised Prediction},\n        Booktitle = {International Conference on Machine Learning ({ICML})},\n        Year = {2017}\n    }\n\n### 1) 安装与使用\n1. 本代码基于[TensorFlow](https:\u002F\u002Fwww.tensorflow.org\u002F)。安装步骤如下：\n  ```Shell\n  # 您可能不需要其中许多软件包，例如fceux仅用于马里奥游戏\n  sudo apt-get install -y python-numpy python-dev cmake zlib1g-dev libjpeg-dev xvfb \\\n  libav-tools xorg-dev python-opengl libboost-all-dev libsdl2-dev swig python3-dev \\\n  python3-venv make golang libjpeg-turbo8-dev gcc wget unzip git fceux virtualenv \\\n  tmux\n\n  # 克隆代码库\n  git clone -b master --single-branch https:\u002F\u002Fgithub.com\u002Fpathak22\u002Fnoreward-rl.git\n  cd noreward-rl\u002F\n  virtualenv curiosity\n  source $PWD\u002Fcuriosity\u002Fbin\u002Factivate\n  pip install numpy\n  pip install -r src\u002Frequirements.txt\n  python curiosity\u002Fsrc\u002Fgo-vncdriver\u002Fbuild.py\n\n  # 下载预训练模型\n  bash models\u002Fdownload_models.sh\n\n  # 设置自定义的Doom环境\n  cd doomFiles\u002F\n  # 然后按照doomFiles\u002FREADME.md中的说明操作\n  ```\n\n2. 运行演示\n  ```Shell\n  cd noreward-rl\u002Fsrc\u002F\n  python demo.py --ckpt ..\u002Fmodels\u002Fdoom\u002Fdoom_ICM\n  python demo.py --env-id SuperMarioBros-1-1-v0 --ckpt ..\u002Fmodels\u002Fmario\u002Fmario_ICM\n  ```\n\n3. 训练代码\n  ```Shell\n  cd noreward-rl\u002Fsrc\u002F\n  # 对于Doom：doom、doomSparse或doomVerySparse\n  python train.py --default --env-id doom\n\n  # 对于马里奥，修改src\u002Fconstants.py如下：\n  # PREDICTION_BETA = 0.2\n  # ENTROPY_BETA = 0.0005\n  python train.py --default --env-id mario --noReward\n\n  xvfb-run -s \"-screen 0 1400x900x24\" bash  # 仅适用于远程桌面\n  # 有用的xvfb链接：http:\u002F\u002Fstackoverflow.com\u002Fa\u002F30336424\n  python inference.py --default --env-id doom --record\n  ```\n\n### 2) 其他有用的信息\n- [论文](https:\u002F\u002Fpathak22.github.io\u002Fnoreward-rl\u002Fresources\u002Ficml17.pdf)\n- [项目官网](http:\u002F\u002Fpathak22.github.io\u002Fnoreward-rl\u002F)\n- [演示视频](http:\u002F\u002Fpathak22.github.io\u002Fnoreward-rl\u002Findex.html#demoVideo)\n- [Reddit讨论](https:\u002F\u002Fredd.it\u002F6bc8ul)\n- [媒体报道（新科学家、MIT技术评论等）](http:\u002F\u002Fpathak22.github.io\u002Fnoreward-rl\u002Findex.html#media)\n\n### 3) 致谢\nVanilla A3C代码基于[universe-starter-agent](https:\u002F\u002Fgithub.com\u002Fopenai\u002Funiverse-starter-agent)的开源实现。","# noreward-rl 快速上手指南\n\n**noreward-rl** 是一个基于 TensorFlow 的实现，源自 ICML 2017 论文《Curiosity-driven Exploration by Self-supervised Prediction》。该工具旨在通过**内在好奇心驱动（Intrinsic Curiosity Module, ICM）**训练智能体，特别适用于环境外部奖励稀疏甚至完全无奖励（RL without rewards）的场景。\n\n## 1. 环境准备\n\n本项目主要在 Linux 环境下开发，依赖较多系统级库。请确保你的系统满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu)\n*   **核心框架**: TensorFlow (代码基于旧版 TF，建议使用 Python 3.5\u002F3.6 配合对应版本的 TensorFlow)\n*   **游戏模拟器**: FCEUX (用于 Mario), ViZDoom (用于 Doom)\n\n### 前置依赖安装\n在开始之前，请运行以下命令安装必要的系统包和开发库：\n\n```Shell\nsudo apt-get install -y python-numpy python-dev cmake zlib1g-dev libjpeg-dev xvfb \\\nlibav-tools xorg-dev python-opengl libboost-all-dev libsdl2-dev swig python3-dev \\\npython3-venv make golang libjpeg-turbo8-dev gcc wget unzip git fceux virtualenv \\\ntmux\n```\n\n> **提示**：国内用户若遇到 `apt-get` 下载速度慢的问题，建议先替换为阿里云或清华大学的镜像源。\n\n## 2. 安装步骤\n\n请严格按照以下步骤克隆代码、配置虚拟环境并构建必要组件：\n\n1.  **克隆仓库**\n    ```Shell\n    git clone -b master --single-branch https:\u002F\u002Fgithub.com\u002Fpathak22\u002Fnoreward-rl.git\n    cd noreward-rl\u002F\n    ```\n\n2.  **创建并激活虚拟环境**\n    ```Shell\n    virtualenv curiosity\n    source $PWD\u002Fcuriosity\u002Fbin\u002Factivate\n    ```\n\n3.  **安装 Python 依赖**\n    > **加速建议**：国内用户推荐使用清华源加速 pip 安装：`pip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple \u003Cpackage>`\n    \n    ```Shell\n    pip install numpy\n    pip install -r src\u002Frequirements.txt\n    ```\n\n4.  **构建 VNC 驱动**\n    ```Shell\n    python curiosity\u002Fsrc\u002Fgo-vncdriver\u002Fbuild.py\n    ```\n\n5.  **下载预训练模型**\n    ```Shell\n    bash models\u002Fdownload_models.sh\n    ```\n    *(注：若下载失败，可手动访问项目官网或 GitHub Release 页面下载模型文件并放入对应目录)*\n\n6.  **配置 Doom 环境**\n    ```Shell\n    cd doomFiles\u002F\n    # 请根据 doomFiles\u002FREADME.md 中的指示完成后续配置\n    # 通常涉及下载 ViZDoom 二进制文件和场景文件\n    ```\n\n## 3. 基本使用\n\n安装完成后，你可以直接运行演示脚本查看效果，或开始训练自己的模型。\n\n### 运行演示 (Demo)\n进入源码目录，加载预训练模型运行演示：\n\n**运行 Doom 演示：**\n```Shell\ncd noreward-rl\u002Fsrc\u002F\npython demo.py --ckpt ..\u002Fmodels\u002Fdoom\u002Fdoom_ICM\n```\n\n**运行 Super Mario Bros 演示：**\n```Shell\npython demo.py --env-id SuperMarioBros-1-1-v0 --ckpt ..\u002Fmodels\u002Fmario\u002Fmario_ICM\n```\n\n### 开始训练 (Training)\n\n**训练 Doom 模型：**\n支持 `doom` (标准), `doomSparse` (稀疏奖励), `doomVerySparse` (极稀疏奖励) 模式。\n```Shell\ncd noreward-rl\u002Fsrc\u002F\npython train.py --default --env-id doom\n```\n\n**训练 Mario 模型（无奖励模式）：**\n对于 Mario 环境，需先修改 `src\u002Fconstants.py` 中的参数：\n*   设置 `PREDICTION_BETA = 0.2`\n*   设置 `ENTROPY_BETA = 0.0005`\n\n然后执行训练命令：\n```Shell\npython train.py --default --env-id mario --noReward\n```\n\n### 远程服务器运行提示\n如果在无显示器的远程服务器上运行可视化或训练，请使用 `xvfb-run`：\n\n```Shell\nxvfb-run -s \"-screen 0 1400x900x24\" bash\n# 之后在生成的会话中运行训练或推理脚本\npython inference.py --default --env-id doom --record\n```","某机器人研发团队正在训练一个智能体在未知的大型仓库中自主探索并绘制地图，但环境中缺乏明确的任务奖励信号。\n\n### 没有 noreward-rl 时\n- 智能体因无法获得外部奖励反馈，很快陷入“停滞”状态，只会原地打转或重复无效动作。\n- 开发人员被迫手动设计复杂的伪奖励函数（如基于移动距离），但这往往导致智能体只学会刷分而非真正探索。\n- 在稀疏奖励场景下，传统强化学习算法需要数周时间才能偶然发现关键路径，训练效率极低。\n- 智能体对陌生区域充满“恐惧”，倾向于待在已知的安全角落，无法覆盖仓库的盲区。\n\n### 使用 noreward-rl 后\n- 智能体通过内在好奇心机制（ICM）自我驱动，即使零外部奖励也能主动前往未访问过的区域。\n- 团队无需再绞尽脑汁设计人工奖励规则，直接利用环境自身的预测误差作为探索动力，大幅降低工程成本。\n- 借助自监督预测能力，智能体在极短时间内即可遍历复杂迷宫结构，将原本数周的探索过程缩短至数小时。\n- 智能体表现出类似生物的求知欲，主动测试各种交互可能性，成功构建了完整的仓库全景地图。\n\nnoreward-rl 通过赋予 AI“好奇心”，彻底解决了无奖励环境下智能体不愿探索的核心难题，让自主学习成为可能。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fpathak22_noreward-rl_82c633c3.gif","pathak22","Deepak Pathak","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fpathak22_31ed8329.jpg","CEO & Co-Founder @ Skild AI and Faculty @ CMU;\r\n(PhD @ UC Berkeley and BTech CS @ IIT Kanpur)","Skild AI, CMU","Pittsburgh, PA",null,"pathak2206","https:\u002F\u002Fwww.cs.cmu.edu\u002F~dpathak\u002F","https:\u002F\u002Fgithub.com\u002Fpathak22",[84,88],{"name":85,"color":86,"percentage":87},"Python","#3572A5",99.4,{"name":89,"color":90,"percentage":91},"Shell","#89e051",0.6,1479,304,"2026-04-06T03:08:33","NOASSERTION",4,"Linux","未说明 (基于 TensorFlow，通常建议 NVIDIA GPU，但 README 未明确具体型号或 CUDA 版本)","未说明",{"notes":101,"python":102,"dependencies":103},"该工具主要面向 Linux 环境（安装命令使用 apt-get）。运行 Mario 环境需要安装 fceux 模拟器；运行 Doom 环境需要额外配置自定义的 VizDoom 环境（需参考 doomFiles\u002FREADME.md）。在远程服务器或无显示器环境下运行时，需使用 xvfb-run 创建虚拟显示屏幕。代码基于较旧的 TensorFlow 版本和 A3C 实现，可能与现代 Python 环境存在兼容性挑战。","Python 3 (通过 python3-dev, python3-venv 推断)",[104,105,106,107,108,109,110,111,112],"tensorflow","numpy","fceux","libsdl2-dev","libjpeg-dev","libboost-all-dev","swig","xvfb","virtualenv",[14],[115,116,117,118,119,120,121,122,123,104,124],"deep-reinforcement-learning","curiosity","exploration","deep-learning","rl","deep-neural-networks","mario","doom","self-supervised","openai-gym","2026-03-27T02:49:30.150509","2026-04-08T13:00:42.493158",[128,133,138,143,148,153],{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},24407,"在哪里可以找到下载模型的脚本（download_models.sh）？","维护者已发布完整的训练代码，其中包含了用于在 VizDoom 和 Super Mario Bros. 上进行训练的脚本、推理脚本以及自定义 VizDoom 环境的脚本。允许在 Mario 和 Doom 中更快训练的包装器也已发布。您可以查看项目最新发布的代码库以获取这些文件。","https:\u002F\u002Fgithub.com\u002Fpathak22\u002Fnoreward-rl\u002Fissues\u002F2",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},24408,"安装 doom-py 时遇到 cmake 构建错误如何解决？","该错误通常是因为缺少系统依赖库或 cmake 未安装。请尝试运行以下命令安装必要的依赖项：\napt-get install -y python-numpy cmake zlib1g-dev libjpeg-dev libboost-all-dev gcc libsdl2-dev wget unzip\n此外，请确保您的虚拟环境使用的是 Python 2.x（如 Python 2.7），因为该项目对版本有特定要求。","https:\u002F\u002Fgithub.com\u002Fpathak22\u002Fnoreward-rl\u002Fissues\u002F26",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},24409,"如何在服务器上使用多个 worker 运行 Mario 训练而不出现图形界面（GUI）卡顿？","每个 worker 需要独立的 xvfb 实例。您需要在同一台机器上同时运行多个 xvfb。具体操作方法参考：http:\u002F\u002Fstackoverflow.com\u002Fa\u002F30336424。\n如果不为每个 worker 配置独立的 xvfb 屏幕，程序可能会卡在 env.reset() 或导致 fceux 模拟器不断打开新窗口而不关闭旧窗口，最终导致进程挂起。","https:\u002F\u002Fgithub.com\u002Fpathak22\u002Fnoreward-rl\u002Fissues\u002F14",{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},24410,"训练 Mario 时如何禁用 fceux 图形界面以提高速度并在无头服务器上运行？","需要使用 xvfb-run 来运行代码以隐藏 GUI。同时，必须确保每个 A3C worker 都在不同的 xvfb 屏幕上运行。如果配置正确，可以在服务器上运行。注意：如果重置环境时旧进程未被杀死，会导致积累大量 fceux 进程，这通常是因为没有正确为每个 worker 分配独立的 xvfb 实例。","https:\u002F\u002Fgithub.com\u002Fpathak22\u002Fnoreward-rl\u002Fissues\u002F10",{"id":149,"question_zh":150,"answer_zh":151,"source_url":152},24411,"如何复现论文中 Figure 5(a) 的结果（A3C 与 ICM+A3C 效果相似）？","尝试在项目提供的虚拟环境中使用 'child mode' 运行。如果宿主机安装的包与 `curiosity` 虚拟环境一致，tmux 模式和 child 模式之间可能没有明显区别。有用户反馈即使只使用 3 个 worker，在正确配置模式下也能复现论文结果。主要区别在于 train.py 中的 --unsup 参数（ICM+A3C 为 action，A3C 为 None）。","https:\u002F\u002Fgithub.com\u002Fpathak22\u002Fnoreward-rl\u002Fissues\u002F21",{"id":154,"question_zh":155,"answer_zh":156,"source_url":157},24412,"运行单个 worker 时程序挂起且无法通过 Ctrl-C 中断怎么办？","当使用 --num-workers 1 运行时，如果程序卡在初始化 GrpcChannelCache 或环境变量设置后无响应，通常是因为环境渲染或进程通信问题。建议检查是否在没有图形界面的服务器上正确配置了 xvfb。如果是多 worker 场景，必须确保每个 worker 有独立的显示屏幕（xvfb），单 worker 模式下也需确保环境变量（如 DISPLAY）设置正确，避免程序在等待渲染时死锁。","https:\u002F\u002Fgithub.com\u002Fpathak22\u002Fnoreward-rl\u002Fissues\u002F33",[]]