trajectory-transformer
Trajectory Transformer 是一个将离线强化学习转化为序列建模问题的开源项目。传统强化学习通常依赖复杂的动态规划或价值函数估计,而该工具创新性地利用 Transformer 架构,直接将智能体的状态、动作和奖励视为一个长序列进行建模。这种方法有效解决了在无法与环境实时交互的“离线”场景下,如何从静态数据集中高效学习最优策略的难题,避免了分布偏移带来的性能下降。
该项目特别适合人工智能研究人员和算法开发者使用,尤其是那些关注强化学习、序列模型或希望复现论文《Offline Reinforcement Learning as One Big Sequence Modeling Problem》成果的群体。其核心技术亮点在于打破了传统 RL 算法的框架限制,证明了强大的序列模型(如 GPT 类架构)可以直接胜任复杂的决策任务。代码库提供了完整的训练与规划脚本,支持包括 HalfCheetah、Hopper 在内的多种标准数据集,并预置了 16 个数据集的预训练模型,方便用户快速验证效果或作为基线进行二次开发。此外,社区还提供了引入注意力缓存机制的加速版本,进一步提升了推理效率。
使用场景
某自动驾驶初创公司的算法团队正试图利用历史路测数据训练决策模型,以在无需实车交互的情况下优化复杂路况下的车辆控制策略。
没有 trajectory-transformer 时
- 离线数据利用率低:传统强化学习算法难以直接从静态历史数据中学习,往往需要大量昂贵的在线试错来微调策略,导致研发成本高昂且存在安全风险。
- 长序列决策能力弱:面对需要多步规划的连续控制任务(如高速变道),现有模型难以捕捉长距离的时间依赖关系,容易导致动作短视或震荡。
- 泛化性能受限:在不同数据集(如“中等专家”混合数据)上表现不稳定,一旦遇到训练分布之外的场景,模型极易失效甚至产生危险操作。
- 调参复现困难:缺乏统一的序列建模范式,每次更换环境或数据集都需要重新设计网络结构和超参数,工程迭代效率极低。
使用 trajectory-transformer 后
- 纯离线高效训练:trajectory-transformer 将离线强化学习转化为单一的序列建模问题,直接利用历史轨迹数据即可训练出高性能策略,完全消除了在线探索的需求。
- 卓越的长程规划:基于 Transformer 架构,该工具能精准捕捉长达数百步的状态 - 动作依赖,使车辆在复杂博弈场景中展现出连贯且平滑的驾驶行为。
- 跨数据集稳健性:在 HalfCheetah、Hopper 等多种基准测试中,trajectory-transformer 均超越了 CQL 和 DT 等主流算法,特别是在高难度的“中等 - 专家”混合数据上表现优异。
- 标准化开发流程:通过统一的配置文件和预训练模型接口,团队可快速在不同任务间迁移成果,大幅缩短了从数据到部署的验证周期。
trajectory-transformer 通过将复杂的决策过程简化为序列预测,成功打破了离线数据与高性能控制之间的壁垒,让安全、高效的自动驾驶策略训练成为可能。
运行环境要求
- Linux
需要 NVIDIA GPU (Docker 运行参数包含 --gpus all),具体型号和显存未说明
未说明

快速开始
轨迹 Transformer
针对 将离线强化学习视为一个大型序列建模问题 的代码已发布。
新增: 也请查看 Alexander Nikulin 的分支,其中包含了注意力缓存和向量化回放缓冲区!
安装
所有 Python 依赖项均列在 environment.yml 中。可通过以下命令安装:
conda env create -f environment.yml
conda activate trajectory
pip install -e .
为确保可复现性,我们还在 Dockerfile 中包含了系统要求(参见 安装说明),不过 Conda 安装通常适用于大多数标准的 Linux 机器。
使用
使用以下命令训练 Transformer:python scripts/train.py --dataset halfcheetah-medium-v2
要复现离线强化学习结果:python scripts/plan.py --dataset halfcheetah-medium-v2
默认情况下,这些命令将使用 config/offline.py 中的超参数。您也可以通过运行时参数覆盖它们:
python scripts/plan.py --dataset halfcheetah-medium-v2 \
--horizon 5 --beam_width 32
由于离散化策略的变化,部分超参数与论文中列出的不同。这些超参数将在下一版 arXiv 论文中更新,以匹配当前代码库中的设置。
预训练模型
我们提供了 16 个数据集的预训练模型:{halfcheetah, hopper, walker2d, ant}-{expert-v2, medium-expert-v2, medium-v2, medium-replay-v2}。可通过 ./pretrained.sh 下载这些模型。
模型将保存在 logs/$DATASET/gpt/pretrained 目录下。要使用这些模型进行规划,可以使用 gpt_loadpath 标志指定:
python scripts/plan.py --dataset halfcheetah-medium-v2 \
--gpt_loadpath gpt/pretrained
pretrained.sh 还会从每个模型下载 15 个 规划方案,保存到 logs/$DATASET/plans/pretrained。您可以使用 python plotting/read_results.py 来读取这些规划方案。
要生成论文中的离线强化学习结果表格,请运行 python plotting/table.py。这将输出一个可复制到 LaTeX 文档中的表格。(展开查看表格源码。)
\begin{table*}[h]
\centering
\small
\begin{tabular}{llrrrrrr}
\toprule
\multicolumn{1}{c}{\bf 数据集} & \multicolumn{1}{c}{\bf 环境} & \multicolumn{1}{c}{\bf BC} & \multicolumn{1}{c}{\bf MBOP} & \multicolumn{1}{c}{\bf BRAC} & \multicolumn{1}{c}{\bf CQL} & \multicolumn{1}{c}{\bf DT} & \multicolumn{1}{c}{\bf TT (我们的方法)} \\
\midrule
Medium-Expert & HalfCheetah & $59.9$ & $105.9$ & $41.9$ & $91.6$ & $86.8$ & $95.0$ \scriptsize{\raisebox{1pt}{$\pm 0.2$}} \\
Medium-Expert & Hopper & $79.6$ & $55.1$ & $0.9$ & $105.4$ & $107.6$ & $110.0$ \scriptsize{\raisebox{1pt}{$\pm 2.7$}} \\
Medium-Expert & Walker2d & $36.6$ & $70.2$ & $81.6$ & $108.8$ & $108.1$ & $101.9$ \scriptsize{\raisebox{1pt}{$\pm 6.8$}} \\
Medium-Expert & Ant & $-$ & $-$ & $-$ & $-$ & $-$ & $116.1$ \scriptsize{\raisebox{1pt}{$\pm 9.0$}} \\
\midrule
Medium & HalfCheetah & $43.1$ & $44.6$ & $46.3$ & $44.0$ & $42.6$ & $46.9$ \scriptsize{\raisebox{1pt}{$\pm 0.4$}} \\
Medium & Hopper & $63.9$ & $48.8$ & $31.3$ & $58.5$ & $67.6$ & $61.1$ \scriptsize{\raisebox{1pt}{$\pm 3.6$}} \\
Medium & Walker2d & $77.3$ & $41.0$ & $81.1$ & $72.5$ & $74.0$ & $79.0$ \scriptsize{\raisebox{1pt}{$\pm 2.8$}} \\
Medium & Ant & $-$ & $-$ & $-$ & $-$ & $-$ & $83.1$ \scriptsize{\raisebox{1pt}{$\pm 7.3$}} \\
\midrule
Medium-Replay & HalfCheetah & $4.3$ & $42.3$ & $47.7$ & $45.5$ & $36.6$ & $41.9$ \scriptsize{\raisebox{1pt}{$\pm 2.5$}} \\
Medium-Replay & Hopper & $27.6$ & $12.4$ & $0.6$ & $95.0$ & $82.7$ & $91.5$ \scriptsize{\raisebox{1pt}{$\pm 3.6$}} \\
Medium-Replay & Walker2d & $36.9$ & $9.7$ & $0.9$ & $77.2$ & $66.6$ & $82.6$ \scriptsize{\raisebox{1pt}{$\pm 6.9$}} \\
Medium-Replay & Ant & $-$ & $-$ & $-$ & $-$ & $-$ & $77.0$ \scriptsize{\raisebox{1pt}{$\pm 6.8$}} \\
\midrule
\multicolumn{2}{c}{\bf 平均值(不包括 Ant)} & 47.7 & 47.8 & 36.9 & 77.6 & 74.7 & 78.9 \hspace{.6cm} \\
\multicolumn{2}{c}{\bf 平均值(所有设置)} & $-$ & $-$ & $-$ & $-$ & $-$ & 82.2 \hspace{.6cm} \\
\bottomrule
\end{tabular}
\label{table:d4rl}
\end{table*}

要生成平均性能图,请运行 python plotting/plot.py。
(展开查看图表。)

Docker
将您的 MuJoCo 密钥复制到 Docker 构建上下文中,并构建容器:
cp ~/.mujoco/mjkey.txt azure/files/
docker build -f azure/Dockerfile . -t trajectory
测试容器:
docker run -it --rm --gpus all \
--mount type=bind,source=$PWD,target=/home/code \
--mount type=bind,source=$HOME/.d4rl,target=/root/.d4rl \
trajectory \
bash -c \
"export PYTHONPATH=$PYTHONPATH:/home/code && \
python /home/code/scripts/train.py --dataset hopper-medium-expert-v2 --exp_name docker/"
在 Azure 上运行
设置
- 在 Azure 上启动作业还需要一个额外的 Python 依赖项:
pip install git+https://github.com/JannerM/doodad.git@janner
- 将上一节 [Docker] 中构建的镜像打标签并推送到 Docker Hub:
export DOCKER_USERNAME=$(docker info | sed '/Username:/!d;s/.* //')
docker tag trajectory ${DOCKER_USERNAME}/trajectory:latest
docker image push ${DOCKER_USERNAME}/trajectory
更新
azure/config.py,可以直接修改文件,也可以设置相应的 环境变量。要设置AZURE_STORAGE_CONNECTION变量,需前往您的存储账户的“访问密钥”部分,单击“显示密钥”,然后复制“连接字符串”。下载
azcopy:./azure/download.sh
使用
使用 python azure/launch_train.py 启动训练作业,使用 python azure/launch_plan.py 启动规划作业。
这些脚本不接受运行时参数,而是通过 params_to_sweep 中的参数组合来运行对应的脚本(分别为 scripts/train.py 和 scripts/plan.py)。
查看结果
要将结果从 Azure 存储容器同步到本地,运行 ./azure/sync.sh。
挂载存储容器的步骤如下:
- 使用
./azure/make_fuse_config.sh创建 blobfuse 配置文件。 - 运行
./azure/mount.sh将存储容器挂载到~/azure_mount。
卸载容器时,请运行 sudo umount -f ~/azure_mount; rm -r ~/azure_mount。
参考文献
@inproceedings{janner2021sequence,
title = {将离线强化学习视为一个大型序列建模问题},
author = {迈克尔·詹纳和李启阳和谢尔盖·列文},
booktitle = {神经信息处理系统进展},
year = {2021},
}
致谢
GPT 的实现源自安德烈·卡帕西的 minGPT 仓库。
常见问题
相似工具推荐
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
funNLP
funNLP 是一个专为中文自然语言处理(NLP)打造的超级资源库,被誉为"NLP 民工的乐园”。它并非单一的软件工具,而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。 面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点,funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具,还独特地收录了丰富的垂直领域资源,如法律、医疗、金融行业的专用词库与数据集,甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性,从基础的字典词典到前沿的 BERT、GPT-2 模型代码,再到高质量的标注数据和竞赛方案,应有尽有。 无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师,还是从事人工智能研究的学者,都能在这里找到急需的“武器弹药”。对于开发者而言,它能大幅减少寻找数据和复现模型的时间;对于研究者,它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神,极大地降低了中文自然语言处理的开发与研究成本,是中文 AI 社区不可或缺的宝藏仓库。
cs-video-courses
cs-video-courses 是一个精心整理的计算机科学视频课程清单,旨在为自学者提供系统化的学习路径。它汇集了全球知名高校(如加州大学伯克利分校、新南威尔士大学等)的完整课程录像,涵盖从编程基础、数据结构与算法,到操作系统、分布式系统、数据库等核心领域,并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。 面对网络上零散且质量参差不齐的教学资源,cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容,仅收录真正的大学层级课程,排除了碎片化的简短教程或商业广告,确保用户能接触到严谨的学术内容。 这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员,以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽,不仅包含传统的软件工程与网络安全,还细分了生成式 AI、大语言模型、计算生物学等新兴学科,并直接链接至官方视频播放列表,让用户能一站式获取高质量的教育资源,免费享受世界顶尖大学的课堂体验。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。
PaddleOCR
PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来,转换成计算机可读取的结构化数据,让机器真正“看懂”图文内容。 面对海量纸质或电子文档,PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域,它扮演着连接图像与大型语言模型(LLM)的桥梁角色,能将视觉信息直接转化为文本输入,助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显:不仅支持全球 100 多种语言的识别,还能在 Windows、Linux、macOS 等多个系统上运行,并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目,PaddleOCR 既能满足快速集成的需求,也能支撑前沿的视觉语言研究,是处理文字识别任务的理想选择。
awesome-machine-learning
awesome-machine-learning 是一份精心整理的机器学习资源清单,汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点,这份清单按编程语言(如 Python、C++、Go 等)和应用场景(如计算机视觉、自然语言处理、深度学习等)进行了系统化分类,帮助使用者快速定位高质量项目。 它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库,还是资深工程师对比不同语言的技术选型,都能从中获得极具价值的参考。此外,清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源,构建了从学习到实践的全链路支持体系。 其独特亮点在于严格的维护标准:明确标记已停止维护或长期未更新的项目,确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”,awesome-machine-learning 以开源协作的方式持续更新,旨在降低技术探索门槛,让每一位从业者都能高效地站在巨人的肩膀上创新。