diff --git a/chapter_attention-and-transformers/bahdanau-attention.md b/chapter_attention-and-transformers/bahdanau-attention.md
index 1318770a65..72f222f7bc 100644
--- a/chapter_attention-and-transformers/bahdanau-attention.md
+++ b/chapter_attention-and-transformers/bahdanau-attention.md
@@ -348,7 +348,7 @@ if tab.selected('mxnet', 'pytorch'):
     decoder = Seq2SeqAttentionDecoder(
         len(data.tgt_vocab), embed_size, num_hiddens, num_layers, dropout)
     model = d2l.Seq2Seq(encoder, decoder, tgt_pad=data.tgt_vocab['<pad>'],
-                        lr=0.001)
+                        lr=0.005)
     trainer = d2l.Trainer(max_epochs=50, gradient_clip_val=1, num_gpus=1)
 if tab.selected('tensorflow'):
     with d2l.try_gpu():
@@ -357,7 +357,7 @@ if tab.selected('tensorflow'):
         decoder = Seq2SeqAttentionDecoder(
             len(data.tgt_vocab), embed_size, num_hiddens, num_layers, dropout)
         model = d2l.Seq2Seq(encoder, decoder, tgt_pad=data.tgt_vocab['<pad>'],
-                            lr=0.001)
+                            lr=0.005)
     trainer = d2l.Trainer(max_epochs=50, gradient_clip_val=1)
 trainer.fit(model, data)
 ```