large in one shard

Browse files

Files changed (3) hide show

pytorch_model-00002-of-00002.bin +0 -3
pytorch_model-00001-of-00002.bin → pytorch_model.bin +2 -2
pytorch_model.bin.index.json +230 -230

pytorch_model-00002-of-00002.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:4dc921fe35459b4c2d0da49f6f14e3aeccb8e7eac26cf73ac162e854e89f508e
-size 1180724112

pytorch_model-00001-of-00002.bin → pytorch_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c1f74e8e89a719bb75630eb1535c03ee1c1fae738e70e4a8dacc7d8d6fe5f0d7
-size 4993672129

 version https://git-lfs.github.com/spec/v1
+oid sha256:f1682ff604dd299a54f3678b026874b678f86577e3fca047f51803d52b4655fd
+size 6174380865

pytorch_model.bin.index.json CHANGED Viewed

@@ -330,10 +330,10 @@
     "model.decoder.layers.20.encoder_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
     "model.decoder.layers.20.fc1.bias": "pytorch_model-00001-of-00002.bin",
     "model.decoder.layers.20.fc1.weight": "pytorch_model-00001-of-00002.bin",
-    "model.decoder.layers.20.fc2.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.20.fc2.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.20.final_layer_norm.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.20.final_layer_norm.weight": "pytorch_model-00002-of-00002.bin",
     "model.decoder.layers.20.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
     "model.decoder.layers.20.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
     "model.decoder.layers.20.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
@@ -343,222 +343,222 @@
     "model.decoder.layers.20.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
     "model.decoder.layers.20.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
     "model.decoder.layers.20.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
-    "model.decoder.layers.21.encoder_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.21.encoder_attn.out_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.21.encoder_attn.out_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.21.encoder_attn.q_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.21.encoder_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.21.encoder_attn.v_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.21.encoder_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.21.encoder_attn_layer_norm.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.21.encoder_attn_layer_norm.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.21.fc1.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.21.fc1.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.21.fc2.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.21.fc2.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.21.final_layer_norm.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.21.final_layer_norm.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.21.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.21.self_attn.out_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.21.self_attn.out_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.21.self_attn.q_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.21.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.21.self_attn.v_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.21.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.21.self_attn_layer_norm.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.21.self_attn_layer_norm.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.22.encoder_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.22.encoder_attn.out_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.22.encoder_attn.out_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.22.encoder_attn.q_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.22.encoder_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.22.encoder_attn.v_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.22.encoder_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.22.encoder_attn_layer_norm.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.22.encoder_attn_layer_norm.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.22.fc1.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.22.fc1.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.22.fc2.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.22.fc2.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.22.final_layer_norm.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.22.final_layer_norm.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.22.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.22.self_attn.out_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.22.self_attn.out_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.22.self_attn.q_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.22.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.22.self_attn.v_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.22.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.22.self_attn_layer_norm.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.22.self_attn_layer_norm.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.23.encoder_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.23.encoder_attn.out_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.23.encoder_attn.out_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.23.encoder_attn.q_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.23.encoder_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.23.encoder_attn.v_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.23.encoder_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.23.encoder_attn_layer_norm.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.23.encoder_attn_layer_norm.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.23.fc1.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.23.fc1.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.23.fc2.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.23.fc2.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.23.final_layer_norm.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.23.final_layer_norm.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.23.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.23.self_attn.out_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.23.self_attn.out_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.23.self_attn.q_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.23.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.23.self_attn.v_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.23.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.23.self_attn_layer_norm.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.23.self_attn_layer_norm.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.24.encoder_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.24.encoder_attn.out_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.24.encoder_attn.out_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.24.encoder_attn.q_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.24.encoder_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.24.encoder_attn.v_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.24.encoder_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.24.encoder_attn_layer_norm.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.24.encoder_attn_layer_norm.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.24.fc1.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.24.fc1.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.24.fc2.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.24.fc2.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.24.final_layer_norm.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.24.final_layer_norm.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.24.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.24.self_attn.out_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.24.self_attn.out_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.24.self_attn.q_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.24.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.24.self_attn.v_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.24.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.24.self_attn_layer_norm.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.24.self_attn_layer_norm.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.25.encoder_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.25.encoder_attn.out_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.25.encoder_attn.out_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.25.encoder_attn.q_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.25.encoder_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.25.encoder_attn.v_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.25.encoder_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.25.encoder_attn_layer_norm.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.25.encoder_attn_layer_norm.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.25.fc1.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.25.fc1.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.25.fc2.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.25.fc2.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.25.final_layer_norm.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.25.final_layer_norm.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.25.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.25.self_attn.out_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.25.self_attn.out_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.25.self_attn.q_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.25.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.25.self_attn.v_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.25.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.25.self_attn_layer_norm.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.25.self_attn_layer_norm.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.26.encoder_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.26.encoder_attn.out_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.26.encoder_attn.out_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.26.encoder_attn.q_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.26.encoder_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.26.encoder_attn.v_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.26.encoder_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.26.encoder_attn_layer_norm.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.26.encoder_attn_layer_norm.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.26.fc1.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.26.fc1.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.26.fc2.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.26.fc2.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.26.final_layer_norm.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.26.final_layer_norm.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.26.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.26.self_attn.out_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.26.self_attn.out_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.26.self_attn.q_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.26.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.26.self_attn.v_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.26.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.26.self_attn_layer_norm.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.26.self_attn_layer_norm.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.27.encoder_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.27.encoder_attn.out_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.27.encoder_attn.out_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.27.encoder_attn.q_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.27.encoder_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.27.encoder_attn.v_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.27.encoder_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.27.encoder_attn_layer_norm.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.27.encoder_attn_layer_norm.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.27.fc1.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.27.fc1.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.27.fc2.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.27.fc2.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.27.final_layer_norm.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.27.final_layer_norm.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.27.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.27.self_attn.out_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.27.self_attn.out_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.27.self_attn.q_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.27.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.27.self_attn.v_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.27.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.27.self_attn_layer_norm.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.27.self_attn_layer_norm.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.28.encoder_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.28.encoder_attn.out_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.28.encoder_attn.out_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.28.encoder_attn.q_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.28.encoder_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.28.encoder_attn.v_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.28.encoder_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.28.encoder_attn_layer_norm.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.28.encoder_attn_layer_norm.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.28.fc1.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.28.fc1.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.28.fc2.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.28.fc2.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.28.final_layer_norm.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.28.final_layer_norm.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.28.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.28.self_attn.out_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.28.self_attn.out_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.28.self_attn.q_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.28.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.28.self_attn.v_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.28.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.28.self_attn_layer_norm.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.28.self_attn_layer_norm.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.29.encoder_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.29.encoder_attn.out_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.29.encoder_attn.out_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.29.encoder_attn.q_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.29.encoder_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.29.encoder_attn.v_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.29.encoder_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.29.encoder_attn_layer_norm.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.29.encoder_attn_layer_norm.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.29.fc1.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.29.fc1.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.29.fc2.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.29.fc2.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.29.final_layer_norm.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.29.final_layer_norm.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.29.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.29.self_attn.out_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.29.self_attn.out_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.29.self_attn.q_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.29.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.29.self_attn.v_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.29.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.29.self_attn_layer_norm.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.29.self_attn_layer_norm.weight": "pytorch_model-00002-of-00002.bin",
     "model.decoder.layers.3.encoder_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
     "model.decoder.layers.3.encoder_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
     "model.decoder.layers.3.encoder_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
@@ -583,7 +583,7 @@
     "model.decoder.layers.3.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
     "model.decoder.layers.3.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
     "model.decoder.layers.3.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
-    "model.decoder.layers.30.encoder_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
     "model.decoder.layers.30.encoder_attn.out_proj.bias": "pytorch_model-00002-of-00002.bin",
     "model.decoder.layers.30.encoder_attn.out_proj.weight": "pytorch_model-00002-of-00002.bin",
     "model.decoder.layers.30.encoder_attn.q_proj.bias": "pytorch_model-00002-of-00002.bin",
@@ -598,15 +598,15 @@
     "model.decoder.layers.30.fc2.weight": "pytorch_model-00002-of-00002.bin",
     "model.decoder.layers.30.final_layer_norm.bias": "pytorch_model-00002-of-00002.bin",
     "model.decoder.layers.30.final_layer_norm.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.30.self_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.30.self_attn.out_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.30.self_attn.out_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.30.self_attn.q_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.30.self_attn.q_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.30.self_attn.v_proj.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.30.self_attn.v_proj.weight": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.30.self_attn_layer_norm.bias": "pytorch_model-00002-of-00002.bin",
-    "model.decoder.layers.30.self_attn_layer_norm.weight": "pytorch_model-00002-of-00002.bin",
     "model.decoder.layers.31.encoder_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
     "model.decoder.layers.31.encoder_attn.out_proj.bias": "pytorch_model-00002-of-00002.bin",
     "model.decoder.layers.31.encoder_attn.out_proj.weight": "pytorch_model-00002-of-00002.bin",

     "model.decoder.layers.20.encoder_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
     "model.decoder.layers.20.fc1.bias": "pytorch_model-00001-of-00002.bin",
     "model.decoder.layers.20.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.20.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.20.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.20.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.20.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
     "model.decoder.layers.20.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
     "model.decoder.layers.20.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
     "model.decoder.layers.20.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
     "model.decoder.layers.20.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
     "model.decoder.layers.20.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
     "model.decoder.layers.20.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.encoder_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.encoder_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.encoder_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.encoder_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.encoder_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.encoder_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.encoder_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.encoder_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.encoder_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.21.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.encoder_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.encoder_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.encoder_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.encoder_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.encoder_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.encoder_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.encoder_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.encoder_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.encoder_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.22.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.encoder_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.encoder_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.encoder_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.encoder_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.encoder_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.encoder_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.encoder_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.encoder_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.encoder_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.23.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.encoder_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.encoder_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.encoder_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.encoder_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.encoder_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.encoder_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.encoder_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.encoder_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.encoder_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.24.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.encoder_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.encoder_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.encoder_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.encoder_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.encoder_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.encoder_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.encoder_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.encoder_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.encoder_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.25.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.encoder_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.encoder_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.encoder_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.encoder_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.encoder_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.encoder_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.encoder_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.encoder_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.encoder_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.26.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.encoder_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.encoder_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.encoder_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.encoder_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.encoder_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.encoder_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.encoder_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.encoder_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.encoder_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.27.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.encoder_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.encoder_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.encoder_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.encoder_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.encoder_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.encoder_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.encoder_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.encoder_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.encoder_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.28.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.encoder_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.encoder_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.encoder_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.encoder_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.encoder_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.encoder_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.encoder_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.encoder_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.encoder_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.fc1.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.fc1.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.fc2.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.fc2.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.final_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.29.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
     "model.decoder.layers.3.encoder_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
     "model.decoder.layers.3.encoder_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
     "model.decoder.layers.3.encoder_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
     "model.decoder.layers.3.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
     "model.decoder.layers.3.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
     "model.decoder.layers.3.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.30.encoder_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
     "model.decoder.layers.30.encoder_attn.out_proj.bias": "pytorch_model-00002-of-00002.bin",
     "model.decoder.layers.30.encoder_attn.out_proj.weight": "pytorch_model-00002-of-00002.bin",
     "model.decoder.layers.30.encoder_attn.q_proj.bias": "pytorch_model-00002-of-00002.bin",
     "model.decoder.layers.30.fc2.weight": "pytorch_model-00002-of-00002.bin",
     "model.decoder.layers.30.final_layer_norm.bias": "pytorch_model-00002-of-00002.bin",
     "model.decoder.layers.30.final_layer_norm.weight": "pytorch_model-00002-of-00002.bin",
+    "model.decoder.layers.30.self_attn.k_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.30.self_attn.out_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.30.self_attn.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.30.self_attn.q_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.30.self_attn.q_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.30.self_attn.v_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.30.self_attn.v_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.30.self_attn_layer_norm.bias": "pytorch_model-00001-of-00002.bin",
+    "model.decoder.layers.30.self_attn_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
     "model.decoder.layers.31.encoder_attn.k_proj.weight": "pytorch_model-00002-of-00002.bin",
     "model.decoder.layers.31.encoder_attn.out_proj.bias": "pytorch_model-00002-of-00002.bin",
     "model.decoder.layers.31.encoder_attn.out_proj.weight": "pytorch_model-00002-of-00002.bin",