[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-jannerm--trajectory-transformer":3,"tool-jannerm--trajectory-transformer":65},[4,23,32,40,49,57],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":22},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85092,2,"2026-04-10T11:13:16",[13,14,15,16,17,18,19,20,21],"图像","数据工具","视频","插件","Agent","其他","语言模型","开发框架","音频","ready",{"id":24,"name":25,"github_repo":26,"description_zh":27,"stars":28,"difficulty_score":29,"last_commit_at":30,"category_tags":31,"status":22},5784,"funNLP","fighting41love\u002FfunNLP","funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为\"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。\n\n面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。\n\n无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。",79857,1,"2026-04-08T20:11:31",[19,14,18],{"id":33,"name":34,"github_repo":35,"description_zh":36,"stars":37,"difficulty_score":29,"last_commit_at":38,"category_tags":39,"status":22},5773,"cs-video-courses","Developer-Y\u002Fcs-video-courses","cs-video-courses 是一个精心整理的计算机科学视频课程清单，旨在为自学者提供系统化的学习路径。它汇集了全球知名高校（如加州大学伯克利分校、新南威尔士大学等）的完整课程录像，涵盖从编程基础、数据结构与算法，到操作系统、分布式系统、数据库等核心领域，并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。\n\n面对网络上零散且质量参差不齐的教学资源，cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容，仅收录真正的大学层级课程，排除了碎片化的简短教程或商业广告，确保用户能接触到严谨的学术内容。\n\n这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员，以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽，不仅包含传统的软件工程与网络安全，还细分了生成式 AI、大语言模型、计算生物学等新兴学科，并直接链接至官方视频播放列表，让用户能一站式获取高质量的教育资源，免费享受世界顶尖大学的课堂体验。",79792,"2026-04-08T22:03:59",[18,13,14,20],{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":46,"last_commit_at":47,"category_tags":48,"status":22},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,3,"2026-04-04T04:44:48",[17,13,20,19,18],{"id":50,"name":51,"github_repo":52,"description_zh":53,"stars":54,"difficulty_score":46,"last_commit_at":55,"category_tags":56,"status":22},519,"PaddleOCR","PaddlePaddle\u002FPaddleOCR","PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。\n\n面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。\n\nPaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。",75812,"2026-04-17T10:36:11",[19,13,20,18],{"id":58,"name":59,"github_repo":60,"description_zh":61,"stars":62,"difficulty_score":29,"last_commit_at":63,"category_tags":64,"status":22},3215,"awesome-machine-learning","josephmisiti\u002Fawesome-machine-learning","awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。\n\n它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。\n\n其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。",72149,"2026-04-03T21:50:24",[20,18],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":71,"readme_en":72,"readme_zh":73,"quickstart_zh":74,"use_case_zh":75,"hero_image_url":76,"owner_login":77,"owner_name":78,"owner_avatar_url":79,"owner_bio":80,"owner_company":81,"owner_location":80,"owner_email":80,"owner_twitter":80,"owner_website":82,"owner_url":83,"languages":84,"stars":97,"forks":98,"last_commit_at":99,"license":100,"difficulty_score":46,"env_os":101,"env_gpu":102,"env_ram":103,"env_deps":104,"category_tags":115,"github_topics":80,"view_count":10,"oss_zip_url":80,"oss_zip_packed_at":80,"status":22,"created_at":116,"updated_at":117,"faqs":118,"releases":148},8522,"jannerm\u002Ftrajectory-transformer","trajectory-transformer","Code for the paper \"Offline Reinforcement Learning as One Big Sequence Modeling Problem\"","Trajectory Transformer 是一个将离线强化学习转化为序列建模问题的开源项目。传统强化学习通常依赖复杂的动态规划或价值函数估计，而该工具创新性地利用 Transformer 架构，直接将智能体的状态、动作和奖励视为一个长序列进行建模。这种方法有效解决了在无法与环境实时交互的“离线”场景下，如何从静态数据集中高效学习最优策略的难题，避免了分布偏移带来的性能下降。\n\n该项目特别适合人工智能研究人员和算法开发者使用，尤其是那些关注强化学习、序列模型或希望复现论文《Offline Reinforcement Learning as One Big Sequence Modeling Problem》成果的群体。其核心技术亮点在于打破了传统 RL 算法的框架限制，证明了强大的序列模型（如 GPT 类架构）可以直接胜任复杂的决策任务。代码库提供了完整的训练与规划脚本，支持包括 HalfCheetah、Hopper 在内的多种标准数据集，并预置了 16 个数据集的预训练模型，方便用户快速验证效果或作为基线进行二次开发。此外，社区还提供了引入注意力缓存机制的加速版本，进一步提升了推理","Trajectory Transformer 是一个将离线强化学习转化为序列建模问题的开源项目。传统强化学习通常依赖复杂的动态规划或价值函数估计，而该工具创新性地利用 Transformer 架构，直接将智能体的状态、动作和奖励视为一个长序列进行建模。这种方法有效解决了在无法与环境实时交互的“离线”场景下，如何从静态数据集中高效学习最优策略的难题，避免了分布偏移带来的性能下降。\n\n该项目特别适合人工智能研究人员和算法开发者使用，尤其是那些关注强化学习、序列模型或希望复现论文《Offline Reinforcement Learning as One Big Sequence Modeling Problem》成果的群体。其核心技术亮点在于打破了传统 RL 算法的框架限制，证明了强大的序列模型（如 GPT 类架构）可以直接胜任复杂的决策任务。代码库提供了完整的训练与规划脚本，支持包括 HalfCheetah、Hopper 在内的多种标准数据集，并预置了 16 个数据集的预训练模型，方便用户快速验证效果或作为基线进行二次开发。此外，社区还提供了引入注意力缓存机制的加速版本，进一步提升了推理效率。","# Trajectory Transformer\n\nCode release for [Offline Reinforcement Learning as One Big Sequence Modeling Problem](https:\u002F\u002Farxiv.org\u002Fabs\u002F2106.02039).\n\n**New:** Also see [Alexander Nikulin's fork](https:\u002F\u002Fgithub.com\u002FHowuhh\u002Ffaster-trajectory-transformer) with attention caching and vectorized rollouts!\n\n## Installation\n\nAll python dependencies are in [`environment.yml`](environment.yml). Install with:\n\n```\nconda env create -f environment.yml\nconda activate trajectory\npip install -e .\n```\n\nFor reproducibility, we have also included system requirements in a [`Dockerfile`](azure\u002FDockerfile) (see [installation instructions](#Docker)), but the conda installation should work on most standard Linux machines.\n\n## Usage\n\nTrain a transformer with: `python scripts\u002Ftrain.py --dataset halfcheetah-medium-v2`\n\nTo reproduce the offline RL results: `python scripts\u002Fplan.py --dataset halfcheetah-medium-v2`\n\nBy default, these commands will use the hyperparameters in [`config\u002Foffline.py`](config\u002Foffline.py). You can override them with runtime flags:\n```\npython scripts\u002Fplan.py --dataset halfcheetah-medium-v2 \\\n\t--horizon 5 --beam_width 32\n```\n\nA few hyperparameters are different from those listed in the paper because of changes to the discretization strategy. These hyperparameters will be updated in the next arxiv version to match what is currently in the codebase.\n\n## Pretrained models\n\nWe have provided [pretrained models](https:\u002F\u002Fwww.dropbox.com\u002Fsh\u002Fr09lkdoj66kx43w\u002FAACbXjMhcI6YNsn1qU4LParja?dl=0) for 16 datasets: `{halfcheetah, hopper, walker2d, ant}-{expert-v2, medium-expert-v2, medium-v2, medium-replay-v2}`. Download them with `.\u002Fpretrained.sh`\n\nThe models will be saved in `logs\u002F$DATASET\u002Fgpt\u002Fpretrained`. To plan with these models, refer to them using the `gpt_loadpath` flag:\n```\npython scripts\u002Fplan.py --dataset halfcheetah-medium-v2 \\\n\t--gpt_loadpath gpt\u002Fpretrained\n```\n\n`pretrained.sh` will also download 15 [plans](https:\u002F\u002Fwww.dropbox.com\u002Fsh\u002Fpo0nul2u6qk8r2i\u002FAABPDrOEJplQ8JT13DASdOWWa?dl=0) from each model, saved to `logs\u002F$DATASET\u002Fplans\u002Fpretrained`. Read them with `\npython plotting\u002Fread_results.py`.\n\n\u003Cdetails>\n\u003Csummary>To create the table of offline RL results from the paper, run \u003Ccode>python plotting\u002Ftable.py\u003C\u002Fcode>. This will print a table that can be copied into a Latex document. (Expand to view table source.)\u003C\u002Fsummary>\n\n```\n\\begin{table*}[h]\n\\centering\n\\small\n\\begin{tabular}{llrrrrrr}\n\\toprule\n\\multicolumn{1}{c}{\\bf Dataset} & \\multicolumn{1}{c}{\\bf Environment} & \\multicolumn{1}{c}{\\bf BC} & \\multicolumn{1}{c}{\\bf MBOP} & \\multicolumn{1}{c}{\\bf BRAC} & \\multicolumn{1}{c}{\\bf CQL} & \\multicolumn{1}{c}{\\bf DT} & \\multicolumn{1}{c}{\\bf TT (Ours)} \\\\\n\\midrule\nMedium-Expert & HalfCheetah & $59.9$ & $105.9$ & $41.9$ & $91.6$ & $86.8$ & $95.0$ \\scriptsize{\\raisebox{1pt}{$\\pm 0.2$}} \\\\\nMedium-Expert & Hopper & $79.6$ & $55.1$ & $0.9$ & $105.4$ & $107.6$ & $110.0$ \\scriptsize{\\raisebox{1pt}{$\\pm 2.7$}} \\\\\nMedium-Expert & Walker2d & $36.6$ & $70.2$ & $81.6$ & $108.8$ & $108.1$ & $101.9$ \\scriptsize{\\raisebox{1pt}{$\\pm 6.8$}} \\\\\nMedium-Expert & Ant & $-$ & $-$ & $-$ & $-$ & $-$ & $116.1$ \\scriptsize{\\raisebox{1pt}{$\\pm 9.0$}} \\\\\n\\midrule\nMedium & HalfCheetah & $43.1$ & $44.6$ & $46.3$ & $44.0$ & $42.6$ & $46.9$ \\scriptsize{\\raisebox{1pt}{$\\pm 0.4$}} \\\\\nMedium & Hopper & $63.9$ & $48.8$ & $31.3$ & $58.5$ & $67.6$ & $61.1$ \\scriptsize{\\raisebox{1pt}{$\\pm 3.6$}} \\\\\nMedium & Walker2d & $77.3$ & $41.0$ & $81.1$ & $72.5$ & $74.0$ & $79.0$ \\scriptsize{\\raisebox{1pt}{$\\pm 2.8$}} \\\\\nMedium & Ant & $-$ & $-$ & $-$ & $-$ & $-$ & $83.1$ \\scriptsize{\\raisebox{1pt}{$\\pm 7.3$}} \\\\\n\\midrule\nMedium-Replay & HalfCheetah & $4.3$ & $42.3$ & $47.7$ & $45.5$ & $36.6$ & $41.9$ \\scriptsize{\\raisebox{1pt}{$\\pm 2.5$}} \\\\\nMedium-Replay & Hopper & $27.6$ & $12.4$ & $0.6$ & $95.0$ & $82.7$ & $91.5$ \\scriptsize{\\raisebox{1pt}{$\\pm 3.6$}} \\\\\nMedium-Replay & Walker2d & $36.9$ & $9.7$ & $0.9$ & $77.2$ & $66.6$ & $82.6$ \\scriptsize{\\raisebox{1pt}{$\\pm 6.9$}} \\\\\nMedium-Replay & Ant & $-$ & $-$ & $-$ & $-$ & $-$ & $77.0$ \\scriptsize{\\raisebox{1pt}{$\\pm 6.8$}} \\\\\n\\midrule\n\\multicolumn{2}{c}{\\bf Average (without Ant)} & 47.7 & 47.8 & 36.9 & 77.6 & 74.7 & 78.9 \\hspace{.6cm} \\\\\n\\multicolumn{2}{c}{\\bf Average (all settings)} & $-$ & $-$ & $-$ & $-$ & $-$ & 82.2 \\hspace{.6cm} \\\\\n\\bottomrule\n\\end{tabular}\n\\label{table:d4rl}\n\\end{table*}\n```\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjannerm_trajectory-transformer_readme_9bb2f3c0ff48.png)\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>\nTo create the average performance plot, run \u003Ccode>python plotting\u002Fplot.py\u003C\u002Fcode>.\n\u003C!-- The plot will be saved to \u003Ca href=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjannerm_trajectory-transformer_readme_4590a6fe1bc6.png\">\u003Ccode>https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjannerm_trajectory-transformer_readme_4590a6fe1bc6.png\u003C\u002Fcode>\u003C\u002Fa>. -->\n(Expand to view plot.)\u003C\u002Fsummary>\n\u003Cbr>\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjannerm_trajectory-transformer_readme_4590a6fe1bc6.png)\n\u003C\u002Fdetails>\n\n## Docker\n\nCopy your MuJoCo key to the Docker build context and build the container:\n```\ncp ~\u002F.mujoco\u002Fmjkey.txt azure\u002Ffiles\u002F\ndocker build -f azure\u002FDockerfile . -t trajectory\n```\n\nTest the container:\n```\ndocker run -it --rm --gpus all \\\n\t--mount type=bind,source=$PWD,target=\u002Fhome\u002Fcode \\\n\t--mount type=bind,source=$HOME\u002F.d4rl,target=\u002Froot\u002F.d4rl \\\n\ttrajectory \\\n\tbash -c \\\n\t\"export PYTHONPATH=$PYTHONPATH:\u002Fhome\u002Fcode && \\\n\tpython \u002Fhome\u002Fcode\u002Fscripts\u002Ftrain.py --dataset hopper-medium-expert-v2 --exp_name docker\u002F\"\n```\n\n## Running on Azure\n\n#### Setup\n\n1. Launching jobs on Azure requires one more python dependency:\n```\npip install git+https:\u002F\u002Fgithub.com\u002FJannerM\u002Fdoodad.git@janner\n```\n\n2. Tag the image built in [the previous section](#Docker) and push it to Docker Hub:\n```\nexport DOCKER_USERNAME=$(docker info | sed '\u002FUsername:\u002F!d;s\u002F.* \u002F\u002F')\ndocker tag trajectory ${DOCKER_USERNAME}\u002Ftrajectory:latest\ndocker image push ${DOCKER_USERNAME}\u002Ftrajectory\n```\n\n3. Update [`azure\u002Fconfig.py`](azure\u002Fconfig.py), either by modifying the file directly or setting the relevant [environment variables](azure\u002Fconfig.py#L47-L52). To set the `AZURE_STORAGE_CONNECTION` variable, navigate to the `Access keys` section of your storage account. Click `Show keys` and copy the `Connection string`.\n\n4. Download [`azcopy`](https:\u002F\u002Fdocs.microsoft.com\u002Fen-us\u002Fazure\u002Fstorage\u002Fcommon\u002Fstorage-use-azcopy-v10): `.\u002Fazure\u002Fdownload.sh`\n\n#### Usage\n\nLaunch training jobs with `python azure\u002Flaunch_train.py` and planning jobs with `python azure\u002Flaunch_plan.py`.\n\nThese scripts do not take runtime arguments. Instead, they run the corresponding scripts ([`scripts\u002Ftrain.py`](scripts\u002Ftrain.py) and [`scripts\u002Fplan.py`](scripts\u002Fplan.py), respectively) using the Cartesian product of the parameters in [`params_to_sweep`](azure\u002Flaunch_train.py#L36-L38).\n\n#### Viewing results\n\nTo rsync the results from the Azure storage container, run `.\u002Fazure\u002Fsync.sh`.\n\nTo mount the storage container:\n1. Create a blobfuse config with `.\u002Fazure\u002Fmake_fuse_config.sh`\n2. Run `.\u002Fazure\u002Fmount.sh` to mount the storage container to `~\u002Fazure_mount`\n\nTo unmount the container, run `sudo umount -f ~\u002Fazure_mount; rm -r ~\u002Fazure_mount`\n\n## Reference\n```\n@inproceedings{janner2021sequence,\n  title = {Offline Reinforcement Learning as One Big Sequence Modeling Problem},\n  author = {Michael Janner and Qiyang Li and Sergey Levine},\n  booktitle = {Advances in Neural Information Processing Systems},\n  year = {2021},\n}\n```\n\n## Acknowledgements\n\nThe GPT implementation is from Andrej Karpathy's [minGPT](https:\u002F\u002Fgithub.com\u002Fkarpathy\u002FminGPT) repo.\n","# 轨迹 Transformer\n\n针对 [将离线强化学习视为一个大型序列建模问题](https:\u002F\u002Farxiv.org\u002Fabs\u002F2106.02039) 的代码已发布。\n\n**新增：** 也请查看 [Alexander Nikulin 的分支](https:\u002F\u002Fgithub.com\u002FHowuhh\u002Ffaster-trajectory-transformer)，其中包含了注意力缓存和向量化回放缓冲区！\n\n## 安装\n\n所有 Python 依赖项均列在 [`environment.yml`](environment.yml) 中。可通过以下命令安装：\n\n```\nconda env create -f environment.yml\nconda activate trajectory\npip install -e .\n```\n\n为确保可复现性，我们还在 [`Dockerfile`](azure\u002FDockerfile) 中包含了系统要求（参见 [安装说明](#Docker)），不过 Conda 安装通常适用于大多数标准的 Linux 机器。\n\n## 使用\n\n使用以下命令训练 Transformer：`python scripts\u002Ftrain.py --dataset halfcheetah-medium-v2`\n\n要复现离线强化学习结果：`python scripts\u002Fplan.py --dataset halfcheetah-medium-v2`\n\n默认情况下，这些命令将使用 [`config\u002Foffline.py`](config\u002Foffline.py) 中的超参数。您也可以通过运行时参数覆盖它们：\n```\npython scripts\u002Fplan.py --dataset halfcheetah-medium-v2 \\\n\t--horizon 5 --beam_width 32\n```\n\n由于离散化策略的变化，部分超参数与论文中列出的不同。这些超参数将在下一版 arXiv 论文中更新，以匹配当前代码库中的设置。\n\n## 预训练模型\n\n我们提供了 16 个数据集的预训练模型：`{halfcheetah, hopper, walker2d, ant}-{expert-v2, medium-expert-v2, medium-v2, medium-replay-v2}`。可通过 `.\u002Fpretrained.sh` 下载这些模型。\n\n模型将保存在 `logs\u002F$DATASET\u002Fgpt\u002Fpretrained` 目录下。要使用这些模型进行规划，可以使用 `gpt_loadpath` 标志指定：\n```\npython scripts\u002Fplan.py --dataset halfcheetah-medium-v2 \\\n\t--gpt_loadpath gpt\u002Fpretrained\n```\n\n`pretrained.sh` 还会从每个模型下载 15 个 [规划方案](https:\u002F\u002Fwww.dropbox.com\u002Fsh\u002Fpo0nul2u6qk8r2i\u002FAABPDrOEJplQ8JT13DASdOWWa?dl=0)，保存到 `logs\u002F$DATASET\u002Fplans\u002Fpretrained`。您可以使用 `python plotting\u002Fread_results.py` 来读取这些规划方案。\n\n\u003Cdetails>\n\u003Csummary>要生成论文中的离线强化学习结果表格，请运行 \u003Ccode>python plotting\u002Ftable.py\u003C\u002Fcode>。这将输出一个可复制到 LaTeX 文档中的表格。（展开查看表格源码。）\u003C\u002Fsummary>\n\n```\n\\begin{table*}[h]\n\\centering\n\\small\n\\begin{tabular}{llrrrrrr}\n\\toprule\n\\multicolumn{1}{c}{\\bf 数据集} & \\multicolumn{1}{c}{\\bf 环境} & \\multicolumn{1}{c}{\\bf BC} & \\multicolumn{1}{c}{\\bf MBOP} & \\multicolumn{1}{c}{\\bf BRAC} & \\multicolumn{1}{c}{\\bf CQL} & \\multicolumn{1}{c}{\\bf DT} & \\multicolumn{1}{c}{\\bf TT (我们的方法)} \\\\\n\\midrule\nMedium-Expert & HalfCheetah & $59.9$ & $105.9$ & $41.9$ & $91.6$ & $86.8$ & $95.0$ \\scriptsize{\\raisebox{1pt}{$\\pm 0.2$}} \\\\\nMedium-Expert & Hopper & $79.6$ & $55.1$ & $0.9$ & $105.4$ & $107.6$ & $110.0$ \\scriptsize{\\raisebox{1pt}{$\\pm 2.7$}} \\\\\nMedium-Expert & Walker2d & $36.6$ & $70.2$ & $81.6$ & $108.8$ & $108.1$ & $101.9$ \\scriptsize{\\raisebox{1pt}{$\\pm 6.8$}} \\\\\nMedium-Expert & Ant & $-$ & $-$ & $-$ & $-$ & $-$ & $116.1$ \\scriptsize{\\raisebox{1pt}{$\\pm 9.0$}} \\\\\n\\midrule\nMedium & HalfCheetah & $43.1$ & $44.6$ & $46.3$ & $44.0$ & $42.6$ & $46.9$ \\scriptsize{\\raisebox{1pt}{$\\pm 0.4$}} \\\\\nMedium & Hopper & $63.9$ & $48.8$ & $31.3$ & $58.5$ & $67.6$ & $61.1$ \\scriptsize{\\raisebox{1pt}{$\\pm 3.6$}} \\\\\nMedium & Walker2d & $77.3$ & $41.0$ & $81.1$ & $72.5$ & $74.0$ & $79.0$ \\scriptsize{\\raisebox{1pt}{$\\pm 2.8$}} \\\\\nMedium & Ant & $-$ & $-$ & $-$ & $-$ & $-$ & $83.1$ \\scriptsize{\\raisebox{1pt}{$\\pm 7.3$}} \\\\\n\\midrule\nMedium-Replay & HalfCheetah & $4.3$ & $42.3$ & $47.7$ & $45.5$ & $36.6$ & $41.9$ \\scriptsize{\\raisebox{1pt}{$\\pm 2.5$}} \\\\\nMedium-Replay & Hopper & $27.6$ & $12.4$ & $0.6$ & $95.0$ & $82.7$ & $91.5$ \\scriptsize{\\raisebox{1pt}{$\\pm 3.6$}} \\\\\nMedium-Replay & Walker2d & $36.9$ & $9.7$ & $0.9$ & $77.2$ & $66.6$ & $82.6$ \\scriptsize{\\raisebox{1pt}{$\\pm 6.9$}} \\\\\nMedium-Replay & Ant & $-$ & $-$ & $-$ & $-$ & $-$ & $77.0$ \\scriptsize{\\raisebox{1pt}{$\\pm 6.8$}} \\\\\n\\midrule\n\\multicolumn{2}{c}{\\bf 平均值（不包括 Ant）} & 47.7 & 47.8 & 36.9 & 77.6 & 74.7 & 78.9 \\hspace{.6cm} \\\\\n\\multicolumn{2}{c}{\\bf 平均值（所有设置）} & $-$ & $-$ & $-$ & $-$ & $-$ & 82.2 \\hspace{.6cm} \\\\\n\\bottomrule\n\\end{tabular}\n\\label{table:d4rl}\n\\end{table*}\n```\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjannerm_trajectory-transformer_readme_9bb2f3c0ff48.png)\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>\n要生成平均性能图，请运行 \u003Ccode>python plotting\u002Fplot.py\u003C\u002Fcode>。\n\u003C!-- 图表将保存到 \u003Ca href=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjannerm_trajectory-transformer_readme_4590a6fe1bc6.png\">\u003Ccode>https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjannerm_trajectory-transformer_readme_4590a6fe1bc6.png\u003C\u002Fcode>\u003C\u002Fa>。 -->\n（展开查看图表。）\u003C\u002Fsummary>\n\u003Cbr>\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjannerm_trajectory-transformer_readme_4590a6fe1bc6.png)\n\u003C\u002Fdetails>\n\n## Docker\n\n将您的 MuJoCo 密钥复制到 Docker 构建上下文中，并构建容器：\n```\ncp ~\u002F.mujoco\u002Fmjkey.txt azure\u002Ffiles\u002F\ndocker build -f azure\u002FDockerfile . -t trajectory\n```\n\n测试容器：\n```\ndocker run -it --rm --gpus all \\\n\t--mount type=bind,source=$PWD,target=\u002Fhome\u002Fcode \\\n\t--mount type=bind,source=$HOME\u002F.d4rl,target=\u002Froot\u002F.d4rl \\\n\ttrajectory \\\n\tbash -c \\\n\t\"export PYTHONPATH=$PYTHONPATH:\u002Fhome\u002Fcode && \\\n\tpython \u002Fhome\u002Fcode\u002Fscripts\u002Ftrain.py --dataset hopper-medium-expert-v2 --exp_name docker\u002F\"\n```\n\n## 在 Azure 上运行\n\n#### 设置\n\n1. 在 Azure 上启动作业还需要一个额外的 Python 依赖项：\n```\npip install git+https:\u002F\u002Fgithub.com\u002FJannerM\u002Fdoodad.git@janner\n```\n\n2. 将上一节 [Docker] 中构建的镜像打标签并推送到 Docker Hub：\n```\nexport DOCKER_USERNAME=$(docker info | sed '\u002FUsername:\u002F!d;s\u002F.* \u002F\u002F')\ndocker tag trajectory ${DOCKER_USERNAME}\u002Ftrajectory:latest\ndocker image push ${DOCKER_USERNAME}\u002Ftrajectory\n```\n\n3. 更新 [`azure\u002Fconfig.py`](azure\u002Fconfig.py)，可以直接修改文件，也可以设置相应的 [环境变量](azure\u002Fconfig.py#L47-L52)。要设置 `AZURE_STORAGE_CONNECTION` 变量，需前往您的存储账户的“访问密钥”部分，单击“显示密钥”，然后复制“连接字符串”。\n\n4. 下载 [`azcopy`](https:\u002F\u002Fdocs.microsoft.com\u002Fen-us\u002Fazure\u002Fstorage\u002Fcommon\u002Fstorage-use-azcopy-v10)：`.\u002Fazure\u002Fdownload.sh`\n\n#### 使用\n\n使用 `python azure\u002Flaunch_train.py` 启动训练作业，使用 `python azure\u002Flaunch_plan.py` 启动规划作业。\n\n这些脚本不接受运行时参数，而是通过 [`params_to_sweep`](azure\u002Flaunch_train.py#L36-L38) 中的参数组合来运行对应的脚本（分别为 [`scripts\u002Ftrain.py`](scripts\u002Ftrain.py) 和 [`scripts\u002Fplan.py`](scripts\u002Fplan.py)）。\n\n#### 查看结果\n\n要将结果从 Azure 存储容器同步到本地，运行 `.\u002Fazure\u002Fsync.sh`。\n\n挂载存储容器的步骤如下：\n1. 使用 `.\u002Fazure\u002Fmake_fuse_config.sh` 创建 blobfuse 配置文件。\n2. 运行 `.\u002Fazure\u002Fmount.sh` 将存储容器挂载到 `~\u002Fazure_mount`。\n\n卸载容器时，请运行 `sudo umount -f ~\u002Fazure_mount; rm -r ~\u002Fazure_mount`。\n\n## 参考文献\n```\n@inproceedings{janner2021sequence,\n  title = {将离线强化学习视为一个大型序列建模问题},\n  author = {迈克尔·詹纳和李启阳和谢尔盖·列文},\n  booktitle = {神经信息处理系统进展},\n  year = {2021},\n}\n```\n\n## 致谢\n\nGPT 的实现源自安德烈·卡帕西的 [minGPT](https:\u002F\u002Fgithub.com\u002Fkarpathy\u002FminGPT) 仓库。","# Trajectory Transformer 快速上手指南\n\nTrajectory Transformer 是将离线强化学习（Offline RL）转化为序列建模问题的开源实现。本指南帮助开发者快速搭建环境并运行基础示例。\n\n## 环境准备\n\n*   **操作系统**: 推荐 Linux (Ubuntu\u002FCentOS)，Windows 用户建议使用 WSL2 或 Docker。\n*   **核心依赖**:\n    *   [Conda](https:\u002F\u002Fdocs.conda.io\u002F) (推荐 Miniconda)\n    *   GPU 驱动及 CUDA 工具包 (用于加速训练，可选但推荐)\n    *   MuJoCo 许可证 (运行 D4RL 数据集必需)\n*   **前置知识**: 熟悉 Python 虚拟环境管理及基础的强化学习概念。\n\n> **注意**：国内用户若遇到 `conda` 或 `pip` 下载缓慢，可临时切换至清华或阿里镜像源：\n> ```bash\n> conda config --add channels https:\u002F\u002Fmirrors.tuna.tsinghua.edu.cn\u002Fanaconda\u002Fpkgs\u002Fmain\u002F\n> pip config set global.index-url https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> ```\n\n## 安装步骤\n\n1.  **克隆仓库**\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002Fjannerm\u002Ftrajectory-transformer.git\n    cd trajectory-transformer\n    ```\n\n2.  **创建并激活 Conda 环境**\n    使用项目提供的配置文件安装所有 Python 依赖：\n    ```bash\n    conda env create -f environment.yml\n    conda activate trajectory\n    ```\n\n3.  **安装本地包**\n    以可编辑模式安装当前项目：\n    ```bash\n    pip install -e .\n    ```\n\n4.  **配置 MuJoCo (关键)**\n    确保已将 MuJoCo 密钥文件 (`mjkey.txt`) 放置在 `~\u002F.mujoco\u002F` 目录下。若未安装 MuJoCo，请先完成其官方安装流程。\n\n## 基本使用\n\n### 1. 训练模型\n使用默认超参数在 `halfcheetah-medium-v2` 数据集上训练 Transformer 模型：\n\n```bash\npython scripts\u002Ftrain.py --dataset halfcheetah-medium-v2\n```\n\n### 2. 执行规划 (推理)\n加载训练好的模型进行离线策略规划，复现论文结果：\n\n```bash\npython scripts\u002Fplan.py --dataset halfcheetah-medium-v2\n```\n\n### 3. 自定义参数\n可通过命令行标志覆盖默认配置（例如修改预测步长和束搜索宽度）：\n\n```bash\npython scripts\u002Fplan.py --dataset halfcheetah-medium-v2 \\\n\t--horizon 5 --beam_width 32\n```\n\n### 4. 使用预训练模型 (可选)\n若不想从头训练，可下载作者提供的 16 个数据集预训练权重：\n\n```bash\n# 下载预训练模型和示例计划\n.\u002Fpretrained.sh\n\n# 使用预训练模型进行规划\npython scripts\u002Fplan.py --dataset halfcheetah-medium-v2 \\\n\t--gpt_loadpath gpt\u002Fpretrained\n```\n\n模型文件将保存至 `logs\u002F$DATASET\u002Fgpt\u002Fpretrained`，生成的计划数据位于 `logs\u002F$DATASET\u002Fplans\u002Fpretrained`。","某自动驾驶初创公司的算法团队正试图利用历史路测数据训练决策模型，以在无需实车交互的情况下优化复杂路况下的车辆控制策略。\n\n### 没有 trajectory-transformer 时\n- **离线数据利用率低**：传统强化学习算法难以直接从静态历史数据中学习，往往需要大量昂贵的在线试错来微调策略，导致研发成本高昂且存在安全风险。\n- **长序列决策能力弱**：面对需要多步规划的连续控制任务（如高速变道），现有模型难以捕捉长距离的时间依赖关系，容易导致动作短视或震荡。\n- **泛化性能受限**：在不同数据集（如“中等专家”混合数据）上表现不稳定，一旦遇到训练分布之外的场景，模型极易失效甚至产生危险操作。\n- **调参复现困难**：缺乏统一的序列建模范式，每次更换环境或数据集都需要重新设计网络结构和超参数，工程迭代效率极低。\n\n### 使用 trajectory-transformer 后\n- **纯离线高效训练**：trajectory-transformer 将离线强化学习转化为单一的序列建模问题，直接利用历史轨迹数据即可训练出高性能策略，完全消除了在线探索的需求。\n- **卓越的长程规划**：基于 Transformer 架构，该工具能精准捕捉长达数百步的状态 - 动作依赖，使车辆在复杂博弈场景中展现出连贯且平滑的驾驶行为。\n- **跨数据集稳健性**：在 HalfCheetah、Hopper 等多种基准测试中，trajectory-transformer 均超越了 CQL 和 DT 等主流算法，特别是在高难度的“中等 - 专家”混合数据上表现优异。\n- **标准化开发流程**：通过统一的配置文件和预训练模型接口，团队可快速在不同任务间迁移成果，大幅缩短了从数据到部署的验证周期。\n\ntrajectory-transformer 通过将复杂的决策过程简化为序列预测，成功打破了离线数据与高性能控制之间的壁垒，让安全、高效的自动驾驶策略训练成为可能。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjannerm_trajectory-transformer_4590a6fe.png","jannerm","Michael Janner","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fjannerm_eb297ee6.png",null,"UC Berkeley","jannerm.github.io","https:\u002F\u002Fgithub.com\u002Fjannerm",[85,89,93],{"name":86,"color":87,"percentage":88},"Python","#3572A5",66.6,{"name":90,"color":91,"percentage":92},"Shell","#89e051",31.3,{"name":94,"color":95,"percentage":96},"Dockerfile","#384d54",2.1,531,72,"2026-03-08T09:30:19","MIT","Linux","需要 NVIDIA GPU (Docker 运行参数包含 --gpus all)，具体型号和显存未说明","未说明",{"notes":105,"python":106,"dependencies":107},"1. 官方推荐使用 Conda 创建环境 (environment.yml) 或在标准 Linux 机器上运行。\n2. 提供了 Dockerfile 以确保复现性，构建 Docker 镜像需要将 MuJoCo 密钥 (mjkey.txt) 复制到构建上下文。\n3. 依赖 MuJoCo 物理引擎和 D4RL 数据集，需自行配置相关 License 和数据。\n4. 若需在 Azure 上运行，需额外安装 doodad 库并配置 Azure 存储连接字符串。\n5. 预训练模型托管在 Dropbox，需运行脚本下载。","未说明 (需通过 environment.yml 安装)",[108,109,110,111,112,113,114],"MuJoCo","d4rl","minGPT (代码实现来源)","conda","docker","azcopy (Azure 部署用)","blobfuse (Azure 挂载用)",[18],"2026-03-27T02:49:30.150509","2026-04-18T00:45:29.316143",[119,124,129,134,139,144],{"id":120,"question_zh":121,"answer_zh":122,"source_url":123},38154,"运行训练脚本时出现 'KeyError: halfcheetah-medium-v2' 或 'No registered env' 错误，如何解决？","这通常是 D4RL 环境未正确注册导致的。建议优先使用 Docker 运行项目以避免依赖问题。如果在不使用 Docker 的情况下遇到此问题，请尝试运行以下命令检查 D4RL 是否正常导入：\npython -c \"import gym, d4rl; print(d4rl); gym.make('halfcheetah-medium-v2')\"\n如果报错提示缺少 'mjrl' 模块，请手动安装特定版本的 mjrl：\npip install git+https:\u002F\u002Fgithub.com\u002Faravindr93\u002Fmjrl@3871d93763d3b49c4741e6daeaebbc605fe140dc\n此外，忽略关于 CARLA 和 Flow 的警告通常不影响核心功能，它们只是可选包。","https:\u002F\u002Fgithub.com\u002Fjannerm\u002Ftrajectory-transformer\u002Fissues\u002F6",{"id":125,"question_zh":126,"answer_zh":127,"source_url":128},38155,"导入时报错 'No module named mjrl' 或 Mujoco 环境导入失败怎么办？","虽然 'mjrl' 应该是 'd4rl' 的依赖项，但有时需要手动安装。请运行以下命令安装指定版本的 mjrl 即可解决：\npip install git+https:\u002F\u002Fgithub.com\u002Faravindr93\u002Fmjrl@3871d93763d3b49c4741e6daeaebbc605fe140dc","https:\u002F\u002Fgithub.com\u002Fjannerm\u002Ftrajectory-transformer\u002Fissues\u002F14",{"id":130,"question_zh":131,"answer_zh":132,"source_url":133},38156,"如何获取 AntMaze 任务的预训练模型？","目前仓库中未直接提供 AntMaze 的预训练模型。作者表示可以通过电子邮件分享这些模型。如果您需要，可以联系作者（通常在 Issue 中回复您的邮箱地址），作者会将模型文件及运行说明发送给您。","https:\u002F\u002Fgithub.com\u002Fjannerm\u002Ftrajectory-transformer\u002Fissues\u002F11",{"id":135,"question_zh":136,"answer_zh":137,"source_url":138},38157,"创建 Conda 环境时遇到 'Could not find a version that satisfies the requirement dm-control' 错误如何解决？","这是由于 'dm-control' 或 'mujoco-py' 的特定版本在默认源中不可用或构建失败导致的。最推荐的解决方案是使用项目提供的 Docker 配置来运行代码，这样可以避免复杂的本地依赖编译问题。如果必须本地安装，可能需要手动调整 requirements.txt 中的版本或使用预编译的二进制包，但官方建议首选 Docker 方案。","https:\u002F\u002Fgithub.com\u002Fjannerm\u002Ftrajectory-transformer\u002Fissues\u002F12",{"id":140,"question_zh":141,"answer_zh":142,"source_url":143},38158,"运行时出现 'ModuleNotFoundError: No module named memcacheConstants' 错误怎么办？","这是一个依赖冲突问题，通常发生在 'tap' 库试图调用 'mc_bin_client' 时。解决方法是检查当前的 conda 和 pip 环境列表（运行 `conda list` 和 `pip freeze`），确认是否安装了不兼容版本的 memcache 相关包。通常重新创建一个干净的虚拟环境并严格按照项目的安装指南操作可以解决此问题。如果问题依旧，可能需要手动安装或升级相关的 memcache 客户端库。","https:\u002F\u002Fgithub.com\u002Fjannerm\u002Ftrajectory-transformer\u002Fissues\u002F13",{"id":145,"question_zh":146,"answer_zh":147,"source_url":128},38159,"不想使用 Docker，如何在 VSCode 等本地环境中运行该项目？","可以在本地运行，但需要确保所有依赖项正确安装。主要步骤包括：\n1. 创建 Python 环境（如 conda）。\n2. 安装 d4rl 及其依赖。如果遇到 'mjrl' 缺失，手动运行：pip install git+https:\u002F\u002Fgithub.com\u002Faravindr93\u002Fmjrl@3871d93763d3b49c4741e6daeaebbc605fe140dc。\n3. 忽略关于 CARLA、Flow 等非必要模块的导入警告（可通过设置环境变量 D4RL_SUPPRESS_IMPORT_ERROR=1 屏蔽）。\n4. 确保 gym 能正确识别 d4rl 注册的环境（通过测试命令 python -c \"import gym, d4rl; gym.make('halfcheetah-medium-v2')\" 验证）。",[]]