LearningHumanoidWalking

1.1k 128 中等 1 次阅读 3天前BSD-2-Clause其他

AI 解读由 AI 自动生成，仅供参考

LearningHumanoidWalking 是一个基于深度强化学习训练人形机器人行走能力的开源项目。它旨在解决机器人在复杂、非结构化地形（如松软或不平整地面）上保持平衡和稳定行走的难题，让机器人能够像人类一样灵活迈步。

该项目不仅支持基础的站立与行走任务，还引入了电流反馈机制和规划步态技术，显著提升了机器人在动态环境中的鲁棒性。代码架构清晰，基于 MuJoCo 物理引擎构建，并提供了针对 JVRC 和宇树 H1 等主流人形机器人的现成环境配置。其模块化设计允许用户轻松定义奖励函数、调整任务逻辑，甚至快速适配新的机器人模型。

LearningHumanoidWalking 特别适合机器人领域的研究人员、算法工程师以及高校开发者使用。如果你正在探索双足机器人的运动控制，或者需要一套可复现、易扩展的强化学习基准框架来验证新算法，这个项目将提供极大的便利。通过简单的命令行指令，用户即可启动分布式训练或评估已训练的模型，高效地推进从仿真到实机的研究进程。

使用场景

某机器人研发团队正致力于让 Unitree H1 人形机器人在工厂复杂的非结构化地面（如带有电缆沟盖板或轻微斜坡的车间）实现稳定自主巡检。

没有 LearningHumanoidWalking 时

开发周期漫长：工程师需手动编写数百行基于模型预测控制（MPC）的代码来调整步态，每次修改参数都需重新编译仿真，迭代一次耗时数天。
地形适应性差：传统算法在平整地面表现尚可，但一旦遇到松软地毯或不规则凸起，机器人极易因受力估算偏差而摔倒。
调试成本高昂：缺乏高效的强化学习闭环，团队不得不频繁进行真机测试，导致电机过热甚至硬件损坏的风险显著增加。
泛化能力受限：针对特定地形训练的步态无法迁移到新场景，每更换一种地面材质就需要重新设计整套控制逻辑。

使用 LearningHumanoidWalking 后

训练效率飞跃：利用其内置的 MuJoCo 仿真环境和并行训练架构，团队仅需配置 YAML 文件即可启动大规模强化学习，将步态收敛时间从数周缩短至数小时。
鲁棒性显著增强：通过深度强化学习生成的策略，机器人能像人类一样感知地面反作用力变化，在湿滑或凹凸不平的路面上自动调整重心保持平衡。
安全验证前置：绝大部分极端工况（如意外推搡、脚下打滑）均在仿真环境中完成“试错”与优化，真机部署时已具备极高的安全性。
策略灵活复用：基于 BaseHumanoidEnv 抽象层开发的行走策略具有良好的泛化性，稍作微调即可适配 JVRC 或其他双足机器人平台。

LearningHumanoidWalking 通过将复杂的动力学控制转化为数据驱动的自我进化过程，让人形机器人真正具备了在现实世界中稳健行走的能力。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该项目使用 'uv' 作为包管理器进行依赖同步（运行 'uv sync'）。基于 MuJoCo 物理引擎进行人形机器人仿真训练。支持的环境包括 JVRC、Unitree H1 及 Cartpole 测试任务。训练和评估通过 'uv run' 命令执行，并支持使用 Ray 进行多进程并行训练。

python>=3.10

快速开始

学习类人机器人行走

论文相关代码：

基于深度强化学习的柔性不平地面上稳健的类人步行 罗汉·P·辛格 (Rohan P. Singh)、森澤光治 (Mitsuharu Morisawa)、梅迪·贝纳莱古 (Mehdi Benallegue)、谢兆明 (Zhaoming Xie)、金弘文夫 (Fumio Kanehiro)
利用电流反馈学习类人机器人的双足行走 罗汉·P·辛格 (Rohan P. Singh)、谢兆明 (Zhaoming Xie)、皮埃尔·热贡代 (Pierre Gergondet)、金弘文夫 (Fumio Kanehiro)
为类人机器人学习基于规划步态的双足行走 罗汉·P·辛格 (Rohan P. Singh)、梅迪·贝纳莱古 (Mehdi Benallegue)、森澤光治 (Mitsuharu Morisawa)、拉斐尔·西斯内罗斯 (Rafael Cisneros)、金弘文夫 (Fumio Kanehiro)

代码结构：

仓库的大致框架，可能对添加您自己的机器人有所帮助：

LearningHumanoidWalking/
├── envs/                      <-- 环境实现
│   ├── common/
│   │   ├── base_humanoid_env.py   <-- 所有类人环境的基类
│   │   ├── mujoco_env.py          <-- MuJoCo仿真封装
│   │   └── robot_interface.py     <-- 机器人状态/控制抽象
│   ├── jvrc/                      <-- JVRC机器人环境
│   └── h1/                        <-- Unitree H1机器人环境
├── tasks/                     <-- 任务定义（奖励、终止条件）
├── rl/                        <-- 强化学习
├── robots/                    <-- 机器人抽象（PD控制、步态逻辑）
├── models/                    <-- MuJoCo模型文件
└── tests/                     <-- 测试套件

关键抽象：

BaseHumanoidEnv：类人环境的通用功能（观测历史、动作平滑、重置逻辑）
BaseTask：任务实现的接口（重置、步骤、计算奖励、是否结束）
奖励函数：在tasks/rewards.py中以显式参数形式定义，便于测试。

需求：

Python版本：>= 3.10
uv 包管理器

$ uv sync

使用方法：

支持的环境名称：

任务描述	环境名称
基本站立任务	'h1'
基本行走任务	'jvrc_walk'
基于步态规划的行走任务	'jvrc_step'
单摆倒立任务	'cartpole'

训练：

$ uv run run_experiment.py train --logdir <实验目录路径> --num_procs <CPU核心数> --env <环境名称>

注意：设置RAY_ADDRESS=可确保Ray启动一个新的本地集群，而不是连接到现有的集群。

运行：

$ uv run run_experiment.py eval --logdir <actor权重文件路径>

或者，我们可以为每个环境编写专门的回放脚本。

Cartpole

一个用于测试RL流程的最小化倒立摆任务。目标是将摆杆从下垂状态摆动至直立平衡。

$ uv run run_experiment.py train --env cartpole --n-itr 500 --gamma 0.95 --std-dev 0.15 --learn-std

配置

环境行为通过envs/<robot>/configs/中的YAML文件进行配置。关键参数如下：

# 模拟
sim_dt: 0.001              # 物理时间步长
control_dt: 0.025          # 控制循环周期
obs_history_len: 1         # 观测历史长度
action_smoothing: 0.5      # 动作滤波系数

# 任务参数
task:
  goal_height: 0.80        # 目标站立高度
  swing_duration: 0.75     # 步态摆动阶段持续时间
  stance_duration: 0.35    # 步态支撑阶段持续时间

# 奖励权重（总和为1.0）
reward_weights:
  足部力得分: 0.225
  足部速度得分: 0.225
  # ... 完整列表见配置文件

添加新机器人

创建envs/<robot>/目录，包含以下内容：
- gen_xml.py：从URDF生成MJCF
- configs/base.yaml：配置文件
- <robot>_env.py：环境类

继承自BaseHumanoidEnv并实现：

class MyRobotEnv(BaseHumanoidEnv):
    def _get_default_config_path(self) -> str: ...
    def _build_xml(self) -> str: ...
    def _setup_robot(self) -> None: ...
    def _setup_spaces(self) -> None: ...
    def _get_robot_state(self) -> np.ndarray: ...
    def _get_external_state(self) -> np.ndarray: ...

在envs/__init__.py中注册：

ENVIRONMENTS = {
    "my_robot": (MyRobotEnv, "my_robot"),
    # ...
}

运行测试：uv run pytest tests/ -v

预期效果：

上楼梯： climb_up

下楼梯： climb_down

曲线行走： curve

引用

如果您在自己的研究中使用了本工作，请引用以下文献：

关于全向行走：

@inproceedings{singh2024robust,
  title={基于深度强化学习的仿人机器人在柔性不平地面上的鲁棒行走},
  author={Singh, Rohan P 和 Morisawa, Mitsuharu 和 Benallegue, Mehdi 和 Xie, Zhaoming 和 Kanehiro, Fumio},
  booktitle={2024 IEEE-RAS 第23届国际仿人机器人会议（Humanoids）},
  pages={497--504},
  year={2024},
  organization={IEEE}
}

关于模拟“反电动势”效应及其他随机化处理：

@article{xie2023learning,
  title={利用电流反馈学习仿人机器人的双足行走},
  author={Singh, Rohan Pratap 和 Xie, Zhaoming 和 Gergondet, Pierre 和 Kanehiro, Fumio},
  journal={IEEE Access},
  volume={11},
  pages={82013--82023},
  year={2023},
  publisher={IEEE}
}

关于沿足迹行走：

@inproceedings{singh2022learning,
  title={为仿人机器人学习基于规划足迹的双足行走},
  author={Singh, Rohan P 和 Benallegue, Mehdi 和 Morisawa, Mitsuharu 和 Cisneros, Rafael 和 Kanehiro, Fumio},
  booktitle={2022 IEEE-RAS 第21届国际仿人机器人会议（Humanoids）},
  pages={686--693},
  year={2022},
  organization={IEEE}
}

致谢

本仓库中的代码深受 apex 的启发。基于时钟的奖励项及其他一些想法最初由俄亥俄州立大学强化学习团队为 Cassie 机器人提出，因此也请考虑引用 Jonah Siekmann、Helei Duan、Jeremy Dao 等人的相关工作。

LearningHumanoidWalking 快速上手指南

本指南帮助中国开发者快速部署并运行基于深度强化学习的人形机器人行走训练框架。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux (推荐 Ubuntu 20.04/22.04)
Python 版本: >= 3.10
包管理器: uv (高性能 Python 包安装工具)
硬件建议: 配备 NVIDIA GPU 的机器用于加速训练（虽然基础训练可在 CPU 进行，但效率较低）

提示：国内用户若下载 uv 或 PyPI 包速度较慢，可配置国内镜像源。

安装 uv: curl -LsSf https://astral.sh/uv/install.sh | sh (如遇网络问题，可尝试通过国内镜像站下载二进制文件)

配置 pip 镜像 (uv 兼容 pip 配置): 在项目根目录创建 .pip.conf 或在命令中指定 --index-url https://pypi.tuna.tsinghua.edu.cn/simple

安装步骤

本项目使用 uv 进行依赖管理，安装过程非常简洁。

克隆仓库

git clone https://github.com/osudrl/LearningHumanoidWalking.git
cd LearningHumanoidWalking

同步依赖 使用 uv 自动创建虚拟环境并安装所有必要的依赖包（包括 MuJoCo, Ray, PyTorch 等）。
```
uv sync
```
注：若需使用国内源加速，可执行 uv sync --index-url https://pypi.tuna.tsinghua.edu.cn/simple

基本使用

本框架支持多种任务环境，包括站立、行走、踏步以及经典的 Cartpole 平衡测试。

1. 训练模型 (Train)

使用 run_experiment.py 脚本启动训练。以下是最基础的训练命令示例，以训练 Unitree H1 机器人站立 任务为例：

uv run run_experiment.py train --logdir ./logs/h1_stand --num_procs 4 --env h1

参数说明：

--logdir: 模型日志和检查点的保存路径。
--num_procs: 并行采集数据的 CPU 进程数（根据机器核心数调整）。
--env: 环境名称。

支持的环境名称 (--env)：

任务描述	环境名称	备注
基础站立任务	`h1`	Unitree H1 机器人
基础行走任务	`jvrc_walk`	JVRC 机器人
踏步任务 (基于脚印规划)	`jvrc_step`	JVRC 机器人
倒立摆摆起任务	`cartpole`	用于测试 RL 流程的最小示例

Cartpole 测试示例（快速验证环境是否正常工作）：

uv run run_experiment.py train --env cartpole --n-itr 500 --gamma 0.95 --std-dev 0.15 --learn-std

注意：如果希望 Ray 启动一个新的本地集群而不是连接现有集群，请在命令前设置环境变量： RAY_ADDRESS= uv run ...

2. 评估/演示模型 (Eval)

训练完成后，可以使用保存的策略网络进行可视化评估：

uv run run_experiment.py eval --logdir <path_to_actor_pt>

将 <path_to_actor_pt> 替换为训练生成的模型文件路径（通常在 --logdir 指定的目录下）。

3. 配置文件修改

如需调整物理仿真步长、奖励权重或任务目标，请编辑 envs/<robot>/configs/ 目录下的 YAML 文件。

示例 (envs/h1/configs/base.yaml)：

# Simulation
sim_dt: 0.001              # 物理仿真步长
control_dt: 0.025          # 控制循环周期
obs_history_len: 1         # 观测历史长度
action_smoothing: 0.5      # 动作平滑系数

# Task parameters
task:
  goal_height: 0.80        # 目标站立高度
  swing_duration: 0.75     # 摆动相持续时间
  stance_duration: 0.35    # 支撑相持续时间

完成上述步骤后，您即可开始探索人形机器人在复杂地形下的鲁棒行走策略。

版本历史

v1.0.02025/02/25

v0.0.12025/02/19

常见问题

训练时出现 'Too many contacts' 警告怎么办？

运行时提示找不到 'models/jvrc_mj_description/xml/scene.xml' 文件如何解决？

机器人在下楼梯的最后一步会摔倒，或者无法正确上下楼梯怎么办？

仓库中提供的预训练模型（.pt 文件）在哪里下载？

如何固定机器人的运动模式（如只让它上楼梯或只下楼梯），而不是随机生成？

如何监控机器人的实时速度？

训练日志中的 Return、Mean Eplen 和 Loss 各项指标代表什么？怎样的趋势是正常的？

使用新版 MuJoCo（如 3.2.8）时遇到兼容性问题该怎么办？

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架

awesome-machine-learning

awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。

★ 72.1k|★☆☆☆☆|2天前

开发框架其他

scikit-learn

scikit-learn 是一个基于 Python 构建的开源机器学习库，依托于 SciPy、NumPy 等科学计算生态，旨在让机器学习变得简单高效。它提供了一套统一且简洁的接口，涵盖了从数据预处理、特征工程到模型训练、评估及选择的全流程工具，内置了包括线性回归、支持向量机、随机森林、聚类等在内的丰富经典算法。对于希望快速验证想法或构建原型的数据科学家、研究人员以及 Python 开发者而言，scikit-learn 是不可或缺的基础设施。它有效解决了机器学习入门门槛高、算法实现复杂以及不同模型间调用方式不统一的痛点，让用户无需重复造轮子，只需几行代码即可调用成熟的算法解决分类、回归、聚类等实际问题。其核心技术亮点在于高度一致的 API 设计风格，所有估算器（Estimator）均遵循相同的调用逻辑，极大地降低了学习成本并提升了代码的可读性与可维护性。此外，它还提供了强大的模型选择与评估工具，如交叉验证和网格搜索，帮助用户系统地优化模型性能。作为一个由全球志愿者共同维护的成熟项目，scikit-learn 以其稳定性、详尽的文档和活跃的社区支持，成为连接理论学习与工业级应用的最

★ 65.6k|★☆☆☆☆|今天

开发框架其他数据工具

keras

Keras 是一个专为人类设计的深度学习框架，旨在让构建和训练神经网络变得简单直观。它解决了开发者在不同深度学习后端之间切换困难、模型开发效率低以及难以兼顾调试便捷性与运行性能的痛点。无论是刚入门的学生、专注算法的研究人员，还是需要快速落地产品的工程师，都能通过 Keras 轻松上手。它支持计算机视觉、自然语言处理、音频分析及时间序列预测等多种任务。 Keras 3 的核心亮点在于其独特的“多后端”架构。用户只需编写一套代码，即可灵活选择 TensorFlow、JAX、PyTorch 或 OpenVINO 作为底层运行引擎。这一特性不仅保留了 Keras 一贯的高层易用性，还允许开发者根据需求自由选择：利用 JAX 或 PyTorch 的即时执行模式进行高效调试，或切换至速度最快的后端以获得最高 350% 的性能提升。此外，Keras 具备强大的扩展能力，能无缝从本地笔记本电脑扩展至大规模 GPU 或 TPU 集群，是连接原型开发与生产部署的理想桥梁。

★ 63.9k|★★☆☆☆|昨天

开发框架数据工具其他