nematus

802 265 中等 1 次阅读 2个月前BSD-3-Clause语言模型

AI 解读由 AI 自动生成，仅供参考

Nematus 是一款基于 TensorFlow 构建的开源神经机器翻译工具，专注于提供高性能的编码器 - 解码器模型。它主要解决了研究人员和开发者在构建、训练及部署高质量翻译系统时面临的架构选择与工程实现难题，让用户无需从零搭建底层框架即可开展前沿实验。

这款工具特别适合自然语言处理领域的研究人员、算法工程师以及需要定制化翻译解决方案的开发团队使用。其核心亮点在于极高的灵活性：不仅支持经典的 RNN 和先进的 Transformer 架构，还集成了因子化神经机器翻译、深度模型、混合软最大（Mixture of Softmaxes）以及针对 Transformer 的 DropHead 等多种高级技术特性。此外，Nematus 提供了完善的多 GPU 训练加速、最小风险训练（MRT）、批量解码及服务器模式等实用功能，并预置了多个在 WMT 国际评测中表现优异的模型供直接调用或微调。无论是进行学术探索还是构建生产级翻译服务，Nematus 都能提供稳定且高效的技术支持。

使用场景

某跨境电商技术团队需要为平台构建一套支持多语言（如英译法、英译德）的自动商品描述翻译系统，以应对海量 SKU 的快速上架需求。

没有 nematus 时

架构迭代困难：团队若想从传统的 RNN 模型升级到更高效的 Transformer 架构，往往需要重写大量底层代码，研发周期长达数周。
训练效率低下：缺乏原生的多 GPU 训练支持，单卡训练大规模平行语料耗时极长，且无法利用混合精度或高级正则化技术加速收敛。
特征扩展受限：难以灵活引入词性标注等额外输入特征（Factored NMT），导致模型在处理复杂语法结构时翻译生硬、准确率遭遇瓶颈。
部署维护繁琐：缺少统一的命令行接口和服务器模式，每次模型更新都需要手动编写复杂的推理脚本，难以实现自动化流水线。

使用 nematus 后

架构无缝切换：借助 nematus 对 RNN 和 Transformer 的统一支持，团队仅需修改配置文件即可在两种架构间自由切换并对比效果，新模型上线时间缩短至几天。
训练大幅加速：利用其内置的多 GPU 并行训练及 DropHead 等先进丢弃策略，模型训练速度提升数倍，并能通过早停机制自动防止过拟合。
模型精度跃升：轻松启用任意输入特征支持和词汇模型优化，显著提升了长难句和专业术语的翻译流畅度，WMT 基准测试得分明显提高。
工程落地便捷：通过自带的命令行工具和 Server 模式，团队快速搭建了高并发翻译服务，并直接复用官方预训练模型进行微调，极大降低了运维成本。

nematus 让团队无需重复造轮子，即可低成本拥有工业级、可灵活定制的高性能神经机器翻译能力。

运行环境要求

操作系统

未说明 (通常支持 Linux，Docker 可用)

GPU

非必需但强烈推荐用于训练
需要 NVIDIA GPU (测试环境为 GTX Titan X)，需安装 CUDA >= 7 和 cuDNN >= 4 (测试环境为 CUDA 9.0)
仅 CPU 训练速度较慢

内存

未说明

依赖

notes该工具主要基于 TensorFlow 构建。虽然支持 CPU 运行，但文档明确指出只有 GPU 训练才具有足够的速度。提供了 Docker 镜像构建脚本以简化环境配置（支持 CPU 和 GPU 版本）。若需使用旧版 Theano 训练的模型，可使用提供的脚本转换为 TensorFlow 格式。

python3.5+ (测试版本 3.5.2)

TensorFlow 1.15 或 2.X (测试版本 2.0)

CUDA >= 7 (可选但推荐)

cuDNN >= 4 (可选但推荐)

nvidia-docker (如需使用 GPU Docker)

快速开始

NEMATUS

基于注意力机制的编码器-解码器模型，用于神经机器翻译，使用 TensorFlow 构建。

显著特性包括：

支持 RNN 和 Transformer 架构
支持高级 RNN 架构：
- 任意输入特征（因子化神经机器翻译）http://www.statmt.org/wmt16/pdf/W16-2209.pdf
- 深度模型（Miceli Barone 等，2017 年）https://arxiv.org/abs/1707.07631
- 所有层上的 Dropout（Gal，2015 年）http://arxiv.org/abs/1512.05287
- 嵌入共享（Press 和 Wolf，2016 年）https://arxiv.org/abs/1608.05859
- 层归一化（Ba 等，2016 年）https://arxiv.org/abs/1607.06450
- Softmax 混合（Yang 等，2017 年）https://arxiv.org/abs/1711.03953
- 词汇模型（Nguyen 和 Chiang，2018 年）https://www.aclweb.org/anthology/N18-1031
支持高级 Transformer 架构：
- 任意输入特征（因子化神经机器翻译）http://www.statmt.org/wmt16/pdf/W16-2209.pdf
- DropHead：整个注意力头的 Dropout（Zhou 等，2020 年）https://arxiv.org/abs/2004.13342
训练特性：
- 多 GPU 支持文档
- 标签平滑
- 带用户自定义停止条件的早停
- 恢复训练（可选地带有向原始模型的 MAP-L2 正则化）
- 最小风险训练（MRT）
评分和解码特性：
- 批量解码
- n-best 输出
- 用于评分（给定平行语料库）和重新评分（n-best 输出）的脚本
- 服务器模式
其他易用性特性：
- 用于训练、评分和解码的命令行界面
- 模型超参数、词汇表文件和训练进度的 JSON 格式存储
- 预训练模型适用于 13 种翻译方向（许多在相应年份的 WMT 共享任务中表现优异）：
  - http://data.statmt.org/rsennrich/wmt16_systems/
  - http://data.statmt.org/wmt17_systems/
- 向后兼容：可以继续使用公开发布的模型与当前代码库一起使用（提供了从 Theano 转换到 TensorFlow 风格模型的脚本）

支持

对于一般的支持请求，有一个 Google Groups 邮件列表，地址是 https://groups.google.com/d/forum/nematus-support 。您也可以发送电子邮件至 nematus-support@googlegroups.com .

安装

Nematus 需要以下软件包：

Python 3（已在版本 3.5.2 上测试过）
TensorFlow 1.15 / 2.X（已在版本 2.0 上测试过）

要安装 TensorFlow，我们建议按照以下步骤操作： ( https://www.tensorflow.org/install/ )

以下软件包是可选的，但强烈推荐：

CUDA >= 7（只有 GPU 训练才足够快）
cuDNN >= 4（显著加快训练速度）

旧版 Theano

Nematus 最初是 Kyunghyun Cho 等人 dl4mt-tutorial 的一个分支（ https://github.com/nyu-dl/dl4mt-tutorial ），并使用 Theano 实现。有关这个基于 Theano 的 Nematus 版本，请参阅 https://github.com/EdinburghNLP/nematus/tree/theano 。

要将使用 Theano 训练的模型与当前的 TensorFlow 代码库一起使用，可以使用脚本 nematus/theano_tf_convert.py。

Docker 使用

您也可以通过运行以下命令来创建 Docker 镜像，其中将 suffix 更改为 cpu 或 gpu：

docker build -t nematus-docker -f Dockerfile.suffix .

要运行一个 CPU Docker 实例，并将当前工作目录与 Docker 容器共享，可以执行：

docker run -v `pwd`:/playground -it nematus-docker

对于 GPU，您需要安装 nvidia-docker，然后运行：

nvidia-docker run -v `pwd`:/playground -it nematus-docker

训练速度

训练速度在很大程度上取决于是否拥有合适的硬件（理想情况下是较新的 NVIDIA GPU），以及是否安装了相应的软件包。

为了测试您的设置，我们提供了一些速度基准测试，使用 test/test_train.sh，在 Intel Xeon CPU E5-2620 v4 上，配备 Nvidia GeForce GTX Titan X（Pascal）和 CUDA 9.0：

GPU，CuDNN 5.1，TensorFlow 1.0.1：

CUDA_VISIBLE_DEVICES=0 ./test_train.sh

225.25 句子/秒

使用说明

以下所有脚本都可以使用 --help 标志来获取使用信息。

test 目录中提供了带有玩具示例的命令；对于训练一个全规模的 RNN 系统，可以参考 http://data.statmt.org/wmt17_systems/training/ 中的训练脚本。

这些脚本的更新版本，使用 Transformer 模型，可以在 https://github.com/EdinburghNLP/wmt17-transformer-scripts 上找到。

`nematus/train.py`：用于训练新模型

数据集；模型加载和保存

参数	描述
--source_dataset PATH	平行训练语料库（源端）
--target_dataset PATH	平行训练语料库（目标端）
--dictionaries PATH [PATH ...]	网络词汇表（每个源因素一个，加上目标词汇表）
--save_freq INT	保存频率（默认：30000）
--model PATH	模型文件名（默认：model）
--reload PATH	从该路径加载现有模型。设置为“latest_checkpoint”以重新加载 --model 所在目录中的最新检查点
--no_reload_training_progress	不重新加载训练进度（仅在启用 --reload 时使用）
--summary_dir PATH	用于保存摘要的目录（默认：与 --model 文件相同的目录）
--summary_freq INT	每 INT 次更新保存摘要，若为 0 则不保存摘要（默认：0）

网络参数（所有模型类型）

参数	描述
--model_type {rnn,transformer}	模型类型（默认：rnn）
--embedding_size INT	嵌入层大小（默认：512）
--state_size INT	隐藏状态大小（默认：1000）
--source_vocab_sizes INT [INT ...]	源端词汇表大小（每个输入因素一个）（默认：无）
--target_vocab_size INT	目标端词汇表大小（默认：-1）
--factors INT	输入因素的数量（默认：1）——目前仅适用于“rnn”模型
--dim_per_factor INT [INT ...]	单词向量维度列表（每个因素一个）：“--dim_per_factor 250 200 50”表示总维度为 500（默认：无）
--tie_encoder_decoder_embeddings	将编码器和解码器的输入嵌入绑定在一起（仅第一个因素）。源端和目标端的词汇表大小必须相同
--tie_decoder_embeddings	将解码器的输入嵌入与 softmax 输出嵌入绑定在一起
--output_hidden_activation {tanh,relu,prelu,linear}	输出网络隐藏层的激活函数（默认：tanh）——目前仅适用于“rnn”模型
--softmax_mixture_size INT	要使用的 softmax 组件数量（默认：1）——目前仅适用于“rnn”模型

网络参数（RNN 特定）

参数	描述
--rnn_enc_depth INT	编码器层数（默认：1）
--rnn_enc_transition_depth INT	在编码器中应用的 GRU 转移操作次数。最小值为 1。（仅适用于 GRU）（默认：1）
--rnn_dec_depth INT	解码器层数（默认：1）
--rnn_dec_base_transition_depth INT	在解码器第一层中应用的 GRU 转移操作次数。最小值为 2。（仅适用于 gru_cond）（默认：2）
--rnn_dec_high_transition_depth INT	在解码器高层中应用的 GRU 转移操作次数。最小值为 1。（仅适用于 GRU）（默认：1）
--rnn_dec_deep_context	将上下文向量（来自第一层）传递到深层解码器层
--rnn_dropout_embedding FLOAT	输入嵌入的 dropout 概率（0：不使用 dropout）（默认：0.0）
--rnn_dropout_hidden FLOAT	隐藏层的 dropout 概率（0：不使用 dropout）（默认：0.0）
--rnn_dropout_source FLOAT	源端词的 dropout 概率（0：不使用 dropout）（默认：0.0）
--rnn_dropout_target FLOAT	目标端词的 dropout 概率（0：不使用 dropout）（默认：0.0）
--rnn_layer_normalisation	设置在编码器和解码器中使用层归一化
--rnn_lexical_model	启用前馈词汇模型（Nguyen 和 Chiang，2018）

网络参数（Transformer 特定）

参数	描述
--transformer_enc_depth INT	编码器层数（默认：6）
--transformer_dec_depth INT	解码器层数（默认：6）
--transformer_ffn_hidden_size INT	前馈子层的内部维度（默认：2048）
--transformer_num_heads INT	多头注意力机制中使用的注意力头数（默认：8）
--transformer_dropout_embeddings FLOAT	应用于词嵌入和位置编码之和的 dropout 概率（默认：0.1）
--transformer_dropout_residual FLOAT	应用于残差连接的 dropout 概率（默认：0.1）
--transformer_dropout_relu FLOAT	应用于前馈子层内部激活的 dropout 概率（默认：0.1）
--transformer_dropout_attn FLOAT	应用于注意力权重的 dropout 概率（默认：0.1）
--transformer_drophead FLOAT	整个注意力头的 dropout 概率（默认：0.0）

训练参数

参数	描述
--loss_function {cross-entropy,per-token-cross-entropy, MRT}	损失函数。MRT：最小风险训练 https://www.aclweb.org/anthology/P/P16/P16-1159.pdf)（默认：交叉熵）
--decay_c FLOAT	L2 正则化惩罚项（默认：0.0）
--map_decay_c FLOAT	针对原始权重的 MAP-L2 正则化惩罚项（默认：0.0）
--prior_model PATH	用于 MAP-L2 正则化的先验模型。除非使用“--reload”，否则该模型也将用于初始化。
--clip_c FLOAT	梯度裁剪阈值（默认：1.0）
--label_smoothing FLOAT	标签平滑（默认：0.0）
--exponential_smoothing FLOAT	指数平滑因子；设为 0 可禁用（默认：0.0）
--optimizer {adam}	优化器（默认：adam）
--adam_beta1 FLOAT	第一矩估计的指数衰减率（默认：0.9）
--adam_beta2 FLOAT	第二矩估计的指数衰减率（默认：0.999）
--adam_epsilon FLOAT	用于数值稳定性的常数（默认：1e-08）
--learning_schedule {constant,transformer,warmup-plateau-decay}	学习率调度策略（默认：常数）
--learning_rate FLOAT	学习率（默认：0.0001）
--warmup_steps INT	学习率线性增加的初始更新步数，在学习率调度过程中使用（默认：8000）
--plateau_steps INT	预热期后开始降低学习率之前的更新步数。仅适用于“warmup-plateau-decay”学习率调度策略。（默认：0）
--maxlen INT	训练和验证的最大序列长度（默认：100）
--batch_size INT	小批量大小（默认：80）
--token_batch_size INT	以源端或目标端词数表示的小批量大小。句子级别的小批量大小将动态调整。如果启用此选项，batch_size 仅影响按长度排序。（默认：0）
--max_sentences_per_device INT	单个设备上运行的小批量子集的最大句子数量（默认：0）
--max_tokens_per_device INT	单个设备上运行的小批量子集的最大词数（以源端或目标端中较高者为准）（默认：0）
--gradient_aggregation_steps INT	在聚合和应用梯度之前累积梯度的次数。小批量会在各步骤之间拆分，因此增加步骤数可以使用更大的小批量。（默认：1）
--maxibatch_size INT	最大批次的大小（按长度排序的小批量数量）（默认：20）
--no_sort_by_length	不按长度对最大批次中的句子进行排序
--no_shuffle	禁用每轮训练数据的随机打乱
--keep_train_set_in_memory	在训练过程中将训练数据行保留在内存中
--max_epochs INT	最大训练轮数（默认：5000）
--finish_after INT	最大更新次数（小批量）（默认：10000000）
--print_per_token_pro PATH	用于存储训练数据集中每个目标词在给定源句条件下的概率路径（无需训练）。若设置为 False，则该功能不会触发。（默认：False）。请删除每个列表末尾的 1.0，它们代表填充的概率。

最小风险训练参数（MRT）

参数	描述
--mrt_reference	在 MRT 候选句子中加入参考译文（默认：False）
--mrt_alpha FLOAT	MRT 的 alpha 参数，用于控制采样子空间分布的尖锐程度（默认：0.005）
--samplesN INT	每个源句采样的候选句子数量（默认：100）
--mrt_loss	用于计算候选译文与参考译文之间损失的评估指标（默认：SENTENCEBLEU n=4）
--mrt_ml_mix FLOAT	在 MRT 训练中混合 MLE 目标函数，通过此缩放因子进行调整（默认：0）
--sample_way {beam_search, randomly_sample}	生成候选句子的采样策略（默认：束搜索）
--max_len_a INT	生成候选句子的最大长度公式为 ax + b，其中 x 为源句长度（默认：1.5）
--max_len_b INT	生成候选句子的最大长度公式为 ax + b，其中 x 为源句长度（默认：5）
--max_sentences_of_sampling INT	一次最多可生成候选句子的源句数量（受设备内存容量限制）（默认：0）

验证参数

参数	描述
--valid_source_dataset PATH	源端验证语料（默认：无）
--valid_target_dataset PATH	目标端验证语料（默认：无）
--valid_batch_size INT	验证时的小批量大小（默认：80）
--valid_token_batch_size INT	以源端或目标端词数表示的验证小批量大小。句子级别的小批量大小将动态调整。若启用此选项，valid_batch_size 仅影响按长度排序。（默认：0）
--valid_freq INT	验证频率（默认：10000）
--valid_script PATH	外部验证脚本路径（默认：无）。该脚本会接收一个参数，指定包含源端验证语料翻译结果的文件路径，并需将单一评分写入标准输出。
--valid_bleu_source_dataset PATH	用于外部 BLEU 评分的源端验证语料（默认：无）。若设为无，则使用计算验证损失的语料（valid_source_dataset）。
--patience INT	早停耐心值（默认：10）

显示参数

参数	描述
--disp_freq INT	每更新 INT 次后显示一次损失（默认：1000）
--sample_freq INT	每更新 INT 次后显示一些样本（默认：10000）
--beam_freq INT	每更新 INT 次后显示一些束搜索样本（默认：10000）
--beam_size INT	束宽度（默认：12）

翻译参数

参数	描述
--normalization_alpha [ALPHA]	根据句子长度归一化得分（带参数时，对长度进行 ALPHA 次方运算）
--n_best	输出完整束搜索结果
--translation_maxlen INT	翻译输出句子的最大长度（默认：200）
--translation_strategy {beam_search,sampling}	翻译策略，可选束搜索或采样（默认：束搜索）

`nematus/translate.py`：使用现有模型翻译源文本

参数	描述
-v, --verbose	详细模式
-m PATH [PATH ...], --models PATH [PATH ...]	要使用的模型；可提供多个具有相同词汇表的模型进行集成解码
-b INT, --minibatch_size INT	小批量大小（默认：80）
-i PATH, --input PATH	输入文件（默认：标准输入）
-o PATH, --output PATH	输出文件（默认：标准输出）
-k INT, --beam_size INT	束宽度（默认：5）
-n [ALPHA], --normalization_alpha [ALPHA]	根据句子长度归一化得分（带参数时，对长度进行 ALPHA 次方运算）
--n_best	输出 n-best 列表（大小为 k）
--maxibatch_size INT	最大批次大小（按长度排序的小批量数量）（默认：20）

`nematus/score.py`：使用现有模型对平行语料进行评分

参数	描述
-v, --verbose	详细模式
-m PATH [PATH ...], --models PATH [PATH ...]	要使用的模型；可提供多个具有相同词汇表的模型进行集成解码
-b INT, --minibatch_size INT	小批量大小（默认：80）
-n [ALPHA], --normalization_alpha [ALPHA]	根据句子长度归一化得分（带参数时，对长度进行 ALPHA 次方运算）
-o PATH, --output PATH	输出文件（默认：标准输出）
-s PATH, --source PATH	源端文本文件
-t PATH, --target PATH	目标端文本文件

`nematus/rescore.py`：使用现有模型对 n-best 列表重新评分。

假设 n-best 列表采用与 Moses 相同的格式：

句子ID（从0开始） ||| 翻译 ||| 得分

新得分将追加到末尾。rescore.py 的参数与 score.py 相同，但额外增加了一个参数：

参数	描述
-i PATH, --input PATH	输入 n-best 列表文件（默认：标准输入）

`nematus/theano_tf_convert.py`：将现有 Theano 模型转换为 TensorFlow 模型

如果您拥有一个支持当前功能的网络架构的 Theano 模型（model.npz），则可以使用 nematus/theano_tf_convert.py 将其转换为 TensorFlow 模型。

参数	描述
--from_theano	从 Theano 格式转换为 TensorFlow 格式
--from_tf	从 TensorFlow 格式转换为 Theano 格式
--in PATH	输入模型路径
--out PATH	输出模型路径

出版物

如果您使用 Nematus，请引用以下论文：

Rico Sennrich、Orhan Firat、Kyunghyun Cho、Alexandra Birch、Barry Haddow、Julian Hitschler、Marcin Junczys-Dowmunt、Samuel Läubli、Antonio Valerio Miceli Barone、Jozef Mokry 和 Maria Nadejde（2017）：Nematus：神经机器翻译工具包。载于第15届欧洲计算语言学协会大会软件演示文集，西班牙瓦伦西亚，第65–68页。

@InProceedings{sennrich-EtAl:2017:EACLDemo,
  author    = {Sennrich, Rico  and  Firat, Orhan  and  Cho, Kyunghyun  and  Birch, Alexandra  and  Haddow, Barry  and  Hitschler, Julian  and  Junczys-Dowmunt, Marcin  and  L\"{a}ubli, Samuel  and  Miceli Barone, Antonio Valerio  and  Mokry, Jozef  and  Nadejde, Maria},
  title     = {Nematus: a Toolkit for Neural Machine Translation},
  booktitle = {Proceedings of the Software Demonstrations of the 15th Conference of the European Chapter of the Association for Computational Linguistics},
  month     = {April},
  year      = {2017},
  address   = {Valencia, Spain},
  publisher = {Association for Computational Linguistics},
  pages     = {65--68},
  url       = {http://aclweb.org/anthology/E17-3017}
}

该代码基于以下模型：

Dzmitry Bahdanau、Kyunghyun Cho、Yoshua Bengio（2015）：通过联合学习对齐与翻译实现神经机器翻译，国际表征学习会议（ICLR）论文。

Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan N. Gomez、Lukasz Kaiser、Illia Polosukhin（2017）：注意力即一切，神经信息处理系统进展（NIPS）论文。

有关与 RNN 模型实现差异的描述，请参阅 Nematus 论文。

致谢

本项目获得了欧盟“地平线2020”研究与创新计划的资助，资助协议编号分别为645452（QT21）、644333（TraMOOC）、644402（HimL）和688139（SUMMA）。

Nematus 快速上手指南

Nematus 是一个基于 TensorFlow 构建的神经机器翻译（NMT）工具，支持 RNN 和 Transformer 架构，具备多 GPU 训练、高级正则化及多种解码功能。

环境准备

在开始之前，请确保您的系统满足以下要求：

操作系统：Linux 或 macOS（Windows 需通过 WSL 或 Docker 运行）
Python：Python 3.5 或更高版本（推荐 3.6+）
深度学习框架：TensorFlow 1.15 或 TensorFlow 2.x（官方测试版本为 2.0）
硬件加速（强烈推荐）：
- NVIDIA GPU（近期型号效果最佳）
- CUDA >= 7.0
- cuDNN >= 4.0
- 注：仅使用 CPU 训练速度较慢，生产环境建议使用 GPU。

安装步骤

1. 安装依赖

首先安装 Python 包管理工具所需的依赖，并安装 TensorFlow。

pip install --upgrade pip
pip install tensorflow
# 若使用 GPU 版本，建议安装 tensorflow-gpu (TF 1.x) 或直接安装包含 GPU 支持的 tensorflow (TF 2.x+)

国内加速提示：如果下载速度慢，可使用清华或阿里镜像源： pip install -i https://pypi.tuna.tsinghua.edu.cn/simple tensorflow

2. 获取源码

克隆 Nematus 仓库：

git clone https://github.com/EdinburghNLP/nematus.git
cd nematus

3. (可选) Docker 部署

如果您希望避免环境配置冲突，可以使用 Docker 快速构建环境。

构建镜像：

# 将 suffix 替换为 cpu 或 gpu
docker build -t nematus-docker -f Dockerfile.gpu .

运行容器：

# GPU 运行示例 (需安装 nvidia-docker)
nvidia-docker run -v $(pwd):/playground -it nematus-docker

基本使用

Nematus 的核心功能通过命令行脚本调用。以下是训练一个新模型的最简流程。

1. 准备数据

您需要准备源语言和目标语言的平行语料库（每行一个句子），以及对应的词汇表文件。

2. 训练模型

使用 nematus/train.py 启动训练。以下是一个基于 Transformer 架构的最小化训练示例：

python nematus/train.py \
    --model_type transformer \
    --source_dataset data/train.src \
    --target_dataset data/train.trg \
    --dictionaries data/vocab.src.json data/vocab.trg.json \
    --model models/my_first_model \
    --batch_size 80 \
    --maxlen 100 \
    --transformer_enc_depth 6 \
    --transformer_dec_depth 6 \
    --transformer_num_heads 8 \
    --learning_rate 0.0001

关键参数说明：

--source_dataset / --target_dataset: 平行语料路径。
--dictionaries: 词汇表文件路径（JSON 格式）。
--model: 模型保存路径前缀。
--model_type: 选择 rnn 或 transformer。
--reload: 如需断点续训，添加此参数并指向已有模型路径（例如 --reload latest_checkpoint）。

3. 解码与翻译

训练完成后，使用 nematus/translate.py 进行翻译：

python nematus/translate.py \
    --models models/my_first_model \
    --input data/test.src \
    --output data/test.pred \
    --beam-size 5

4. 查看帮助

所有脚本均支持 --help 参数以查看详细用法和完整参数列表：

python nematus/train.py --help
python nematus/translate.py --help

常见问题

运行 score.py 时出现 'KeyError: n_words_src' 错误，原因是什么？

Transformer 模型的解码过程是串行的还是并行的？训练和推理时的注意力矩阵有何不同？

为什么训练时的采样结果正常，但使用 translate.py 翻译时结果很差（如空白或重复单词）？

使用 translate.py 处理大量数据时，日志长时间无输出且输出文件为空，是否正常？

Theano 版本的 Nematus 模型可以直接在 TensorFlow 版本的 Nematus 或 Marian 中加载吗？

运行 score.py 时遇到 'TypeError: float() argument must be a string or a number' 错误怎么办？

如何理解 Transformer 解码器在推理时每次只接收上一个词，但在代码中看到输入似乎是整个句子？

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 149.5k|★★☆☆☆|今天

开发框架Agent语言模型

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|4天前

语言模型图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|5天前

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|今天

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|2天前

语言模型数据工具其他

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|6天前

Agent图像开发框架