ManyingZ commited on
Commit
dafd7be
·
verified ·
1 Parent(s): 00cd1f8

Upload folder using huggingface_hub

Browse files
Files changed (5) hide show
  1. adapter_model.safetensors +1 -1
  2. optimizer.pt +1 -1
  3. rng_state.pth +1 -1
  4. scheduler.pt +1 -1
  5. trainer_state.json +3503 -3
adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c1f9959e154b330ec4a66f05e56439f6091f43852d40064916851a834a958401
3
  size 1852600
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:763a2e6211692a29489c663be78e38405ddeebee7123cf422bef0897660522b5
3
  size 1852600
optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:9a9521db2eeb25f9e67fca70886b58e2ce2684b82b50ffe05a1aa03c715c5c66
3
  size 1108346
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f2e89a0b2817e3604c09bf67f0d4eb755faa1736d27ad6237f97d28a1b19ceb5
3
  size 1108346
rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:db8150ac6b75f60d4310bd86efc9349b0ff92c7df507e7c9260e6b511a7c7526
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:80f2397b349c3d7d219331d0f9f17be72806daa1aedfdb0787087c6d5818527b
3
  size 14244
scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:4fb75d6e1818a81bcc3d53f94d5a831be0e0f045ebba32887861936e527dc932
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7c26800e6aad79542c71a265990c35470e0f0c258d88e99aef73f16b83c77e16
3
  size 1064
trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 97.62050030506407,
5
  "eval_steps": 500,
6
- "global_step": 20000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -7007,6 +7007,3506 @@
7007
  "learning_rate": 6.950819672131148e-05,
7008
  "loss": 0.2519,
7009
  "step": 20000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7010
  }
7011
  ],
7012
  "logging_steps": 20,
@@ -7026,7 +10526,7 @@
7026
  "attributes": {}
7027
  }
7028
  },
7029
- "total_flos": 2.573499153809326e+17,
7030
  "train_batch_size": 1,
7031
  "trial_name": null,
7032
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 146.4307504575961,
5
  "eval_steps": 500,
6
+ "global_step": 30000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
7007
  "learning_rate": 6.950819672131148e-05,
7008
  "loss": 0.2519,
7009
  "step": 20000
7010
+ },
7011
+ {
7012
+ "epoch": 97.71812080536913,
7013
+ "grad_norm": 3.771855592727661,
7014
+ "learning_rate": 6.937704918032787e-05,
7015
+ "loss": 0.1967,
7016
+ "step": 20020
7017
+ },
7018
+ {
7019
+ "epoch": 97.8157413056742,
7020
+ "grad_norm": 4.431488990783691,
7021
+ "learning_rate": 6.924590163934427e-05,
7022
+ "loss": 0.2112,
7023
+ "step": 20040
7024
+ },
7025
+ {
7026
+ "epoch": 97.91336180597925,
7027
+ "grad_norm": 3.970080852508545,
7028
+ "learning_rate": 6.911475409836066e-05,
7029
+ "loss": 0.2295,
7030
+ "step": 20060
7031
+ },
7032
+ {
7033
+ "epoch": 98.01098230628432,
7034
+ "grad_norm": 2.521176338195801,
7035
+ "learning_rate": 6.898360655737705e-05,
7036
+ "loss": 0.2495,
7037
+ "step": 20080
7038
+ },
7039
+ {
7040
+ "epoch": 98.10860280658939,
7041
+ "grad_norm": 3.8167226314544678,
7042
+ "learning_rate": 6.885245901639344e-05,
7043
+ "loss": 0.2123,
7044
+ "step": 20100
7045
+ },
7046
+ {
7047
+ "epoch": 98.20622330689444,
7048
+ "grad_norm": 3.245234727859497,
7049
+ "learning_rate": 6.872131147540984e-05,
7050
+ "loss": 0.229,
7051
+ "step": 20120
7052
+ },
7053
+ {
7054
+ "epoch": 98.30384380719951,
7055
+ "grad_norm": 3.270099401473999,
7056
+ "learning_rate": 6.859016393442623e-05,
7057
+ "loss": 0.1986,
7058
+ "step": 20140
7059
+ },
7060
+ {
7061
+ "epoch": 98.40146430750458,
7062
+ "grad_norm": 3.133777379989624,
7063
+ "learning_rate": 6.845901639344262e-05,
7064
+ "loss": 0.2407,
7065
+ "step": 20160
7066
+ },
7067
+ {
7068
+ "epoch": 98.49908480780964,
7069
+ "grad_norm": 4.500607490539551,
7070
+ "learning_rate": 6.832786885245903e-05,
7071
+ "loss": 0.223,
7072
+ "step": 20180
7073
+ },
7074
+ {
7075
+ "epoch": 98.59670530811471,
7076
+ "grad_norm": 3.4543895721435547,
7077
+ "learning_rate": 6.819672131147542e-05,
7078
+ "loss": 0.2373,
7079
+ "step": 20200
7080
+ },
7081
+ {
7082
+ "epoch": 98.69432580841976,
7083
+ "grad_norm": 3.2081384658813477,
7084
+ "learning_rate": 6.80655737704918e-05,
7085
+ "loss": 0.2262,
7086
+ "step": 20220
7087
+ },
7088
+ {
7089
+ "epoch": 98.79194630872483,
7090
+ "grad_norm": 4.9004926681518555,
7091
+ "learning_rate": 6.79344262295082e-05,
7092
+ "loss": 0.2335,
7093
+ "step": 20240
7094
+ },
7095
+ {
7096
+ "epoch": 98.8895668090299,
7097
+ "grad_norm": 3.9303877353668213,
7098
+ "learning_rate": 6.78032786885246e-05,
7099
+ "loss": 0.2061,
7100
+ "step": 20260
7101
+ },
7102
+ {
7103
+ "epoch": 98.98718730933496,
7104
+ "grad_norm": 3.722957134246826,
7105
+ "learning_rate": 6.767213114754099e-05,
7106
+ "loss": 0.2518,
7107
+ "step": 20280
7108
+ },
7109
+ {
7110
+ "epoch": 99.08480780964003,
7111
+ "grad_norm": 4.127925872802734,
7112
+ "learning_rate": 6.754098360655739e-05,
7113
+ "loss": 0.2133,
7114
+ "step": 20300
7115
+ },
7116
+ {
7117
+ "epoch": 99.1824283099451,
7118
+ "grad_norm": 4.3639726638793945,
7119
+ "learning_rate": 6.740983606557378e-05,
7120
+ "loss": 0.2119,
7121
+ "step": 20320
7122
+ },
7123
+ {
7124
+ "epoch": 99.28004881025015,
7125
+ "grad_norm": 3.288351058959961,
7126
+ "learning_rate": 6.727868852459017e-05,
7127
+ "loss": 0.2307,
7128
+ "step": 20340
7129
+ },
7130
+ {
7131
+ "epoch": 99.37766931055522,
7132
+ "grad_norm": 3.5033068656921387,
7133
+ "learning_rate": 6.714754098360656e-05,
7134
+ "loss": 0.2227,
7135
+ "step": 20360
7136
+ },
7137
+ {
7138
+ "epoch": 99.47528981086027,
7139
+ "grad_norm": 3.1117262840270996,
7140
+ "learning_rate": 6.701639344262295e-05,
7141
+ "loss": 0.2257,
7142
+ "step": 20380
7143
+ },
7144
+ {
7145
+ "epoch": 99.57291031116534,
7146
+ "grad_norm": 4.022121906280518,
7147
+ "learning_rate": 6.688524590163935e-05,
7148
+ "loss": 0.2336,
7149
+ "step": 20400
7150
+ },
7151
+ {
7152
+ "epoch": 99.67053081147041,
7153
+ "grad_norm": 3.4611172676086426,
7154
+ "learning_rate": 6.675409836065574e-05,
7155
+ "loss": 0.2192,
7156
+ "step": 20420
7157
+ },
7158
+ {
7159
+ "epoch": 99.76815131177547,
7160
+ "grad_norm": 3.3648264408111572,
7161
+ "learning_rate": 6.662295081967214e-05,
7162
+ "loss": 0.2482,
7163
+ "step": 20440
7164
+ },
7165
+ {
7166
+ "epoch": 99.86577181208054,
7167
+ "grad_norm": 3.8535125255584717,
7168
+ "learning_rate": 6.649180327868853e-05,
7169
+ "loss": 0.2314,
7170
+ "step": 20460
7171
+ },
7172
+ {
7173
+ "epoch": 99.96339231238561,
7174
+ "grad_norm": 3.8780901432037354,
7175
+ "learning_rate": 6.636065573770492e-05,
7176
+ "loss": 0.2203,
7177
+ "step": 20480
7178
+ },
7179
+ {
7180
+ "epoch": 100.06101281269066,
7181
+ "grad_norm": 3.479278326034546,
7182
+ "learning_rate": 6.622950819672131e-05,
7183
+ "loss": 0.2003,
7184
+ "step": 20500
7185
+ },
7186
+ {
7187
+ "epoch": 100.15863331299573,
7188
+ "grad_norm": 3.530697822570801,
7189
+ "learning_rate": 6.609836065573771e-05,
7190
+ "loss": 0.2084,
7191
+ "step": 20520
7192
+ },
7193
+ {
7194
+ "epoch": 100.25625381330079,
7195
+ "grad_norm": 3.3677327632904053,
7196
+ "learning_rate": 6.59672131147541e-05,
7197
+ "loss": 0.2394,
7198
+ "step": 20540
7199
+ },
7200
+ {
7201
+ "epoch": 100.35387431360586,
7202
+ "grad_norm": 2.9369733333587646,
7203
+ "learning_rate": 6.58360655737705e-05,
7204
+ "loss": 0.2553,
7205
+ "step": 20560
7206
+ },
7207
+ {
7208
+ "epoch": 100.45149481391093,
7209
+ "grad_norm": 3.9915401935577393,
7210
+ "learning_rate": 6.57049180327869e-05,
7211
+ "loss": 0.2393,
7212
+ "step": 20580
7213
+ },
7214
+ {
7215
+ "epoch": 100.54911531421598,
7216
+ "grad_norm": 3.6804075241088867,
7217
+ "learning_rate": 6.557377049180327e-05,
7218
+ "loss": 0.2266,
7219
+ "step": 20600
7220
+ },
7221
+ {
7222
+ "epoch": 100.64673581452105,
7223
+ "grad_norm": 4.8830156326293945,
7224
+ "learning_rate": 6.544262295081967e-05,
7225
+ "loss": 0.19,
7226
+ "step": 20620
7227
+ },
7228
+ {
7229
+ "epoch": 100.74435631482612,
7230
+ "grad_norm": 4.2519731521606445,
7231
+ "learning_rate": 6.531147540983606e-05,
7232
+ "loss": 0.2416,
7233
+ "step": 20640
7234
+ },
7235
+ {
7236
+ "epoch": 100.84197681513118,
7237
+ "grad_norm": 3.413914203643799,
7238
+ "learning_rate": 6.518032786885247e-05,
7239
+ "loss": 0.2026,
7240
+ "step": 20660
7241
+ },
7242
+ {
7243
+ "epoch": 100.93959731543625,
7244
+ "grad_norm": 3.642609119415283,
7245
+ "learning_rate": 6.504918032786886e-05,
7246
+ "loss": 0.2227,
7247
+ "step": 20680
7248
+ },
7249
+ {
7250
+ "epoch": 101.0372178157413,
7251
+ "grad_norm": 4.770230770111084,
7252
+ "learning_rate": 6.491803278688526e-05,
7253
+ "loss": 0.2277,
7254
+ "step": 20700
7255
+ },
7256
+ {
7257
+ "epoch": 101.13483831604637,
7258
+ "grad_norm": 4.115867614746094,
7259
+ "learning_rate": 6.478688524590165e-05,
7260
+ "loss": 0.205,
7261
+ "step": 20720
7262
+ },
7263
+ {
7264
+ "epoch": 101.23245881635144,
7265
+ "grad_norm": 4.3617048263549805,
7266
+ "learning_rate": 6.465573770491804e-05,
7267
+ "loss": 0.2048,
7268
+ "step": 20740
7269
+ },
7270
+ {
7271
+ "epoch": 101.3300793166565,
7272
+ "grad_norm": 3.818500518798828,
7273
+ "learning_rate": 6.452459016393443e-05,
7274
+ "loss": 0.2245,
7275
+ "step": 20760
7276
+ },
7277
+ {
7278
+ "epoch": 101.42769981696156,
7279
+ "grad_norm": 3.3728935718536377,
7280
+ "learning_rate": 6.439344262295083e-05,
7281
+ "loss": 0.2342,
7282
+ "step": 20780
7283
+ },
7284
+ {
7285
+ "epoch": 101.52532031726662,
7286
+ "grad_norm": 3.2103302478790283,
7287
+ "learning_rate": 6.426229508196722e-05,
7288
+ "loss": 0.2024,
7289
+ "step": 20800
7290
+ },
7291
+ {
7292
+ "epoch": 101.62294081757169,
7293
+ "grad_norm": 3.5993459224700928,
7294
+ "learning_rate": 6.413114754098361e-05,
7295
+ "loss": 0.2272,
7296
+ "step": 20820
7297
+ },
7298
+ {
7299
+ "epoch": 101.72056131787676,
7300
+ "grad_norm": 3.478533983230591,
7301
+ "learning_rate": 6.400000000000001e-05,
7302
+ "loss": 0.236,
7303
+ "step": 20840
7304
+ },
7305
+ {
7306
+ "epoch": 101.81818181818181,
7307
+ "grad_norm": 4.245722770690918,
7308
+ "learning_rate": 6.386885245901639e-05,
7309
+ "loss": 0.2246,
7310
+ "step": 20860
7311
+ },
7312
+ {
7313
+ "epoch": 101.91580231848688,
7314
+ "grad_norm": 3.5051097869873047,
7315
+ "learning_rate": 6.373770491803279e-05,
7316
+ "loss": 0.2194,
7317
+ "step": 20880
7318
+ },
7319
+ {
7320
+ "epoch": 102.01342281879195,
7321
+ "grad_norm": 2.882301092147827,
7322
+ "learning_rate": 6.360655737704918e-05,
7323
+ "loss": 0.2196,
7324
+ "step": 20900
7325
+ },
7326
+ {
7327
+ "epoch": 102.111043319097,
7328
+ "grad_norm": 3.080702066421509,
7329
+ "learning_rate": 6.347540983606558e-05,
7330
+ "loss": 0.2109,
7331
+ "step": 20920
7332
+ },
7333
+ {
7334
+ "epoch": 102.20866381940208,
7335
+ "grad_norm": 2.9892094135284424,
7336
+ "learning_rate": 6.334426229508197e-05,
7337
+ "loss": 0.2086,
7338
+ "step": 20940
7339
+ },
7340
+ {
7341
+ "epoch": 102.30628431970713,
7342
+ "grad_norm": 3.401524782180786,
7343
+ "learning_rate": 6.321311475409837e-05,
7344
+ "loss": 0.202,
7345
+ "step": 20960
7346
+ },
7347
+ {
7348
+ "epoch": 102.4039048200122,
7349
+ "grad_norm": 3.0444400310516357,
7350
+ "learning_rate": 6.308196721311475e-05,
7351
+ "loss": 0.2071,
7352
+ "step": 20980
7353
+ },
7354
+ {
7355
+ "epoch": 102.50152532031727,
7356
+ "grad_norm": 3.028918743133545,
7357
+ "learning_rate": 6.295081967213115e-05,
7358
+ "loss": 0.226,
7359
+ "step": 21000
7360
+ },
7361
+ {
7362
+ "epoch": 102.59914582062233,
7363
+ "grad_norm": 3.2344133853912354,
7364
+ "learning_rate": 6.281967213114754e-05,
7365
+ "loss": 0.2417,
7366
+ "step": 21020
7367
+ },
7368
+ {
7369
+ "epoch": 102.6967663209274,
7370
+ "grad_norm": 3.1719000339508057,
7371
+ "learning_rate": 6.268852459016393e-05,
7372
+ "loss": 0.2363,
7373
+ "step": 21040
7374
+ },
7375
+ {
7376
+ "epoch": 102.79438682123246,
7377
+ "grad_norm": 3.474695920944214,
7378
+ "learning_rate": 6.255737704918033e-05,
7379
+ "loss": 0.2278,
7380
+ "step": 21060
7381
+ },
7382
+ {
7383
+ "epoch": 102.89200732153752,
7384
+ "grad_norm": 4.550293445587158,
7385
+ "learning_rate": 6.242622950819672e-05,
7386
+ "loss": 0.2087,
7387
+ "step": 21080
7388
+ },
7389
+ {
7390
+ "epoch": 102.98962782184259,
7391
+ "grad_norm": 3.7696001529693604,
7392
+ "learning_rate": 6.229508196721313e-05,
7393
+ "loss": 0.2305,
7394
+ "step": 21100
7395
+ },
7396
+ {
7397
+ "epoch": 103.08724832214764,
7398
+ "grad_norm": 3.388397216796875,
7399
+ "learning_rate": 6.21639344262295e-05,
7400
+ "loss": 0.2133,
7401
+ "step": 21120
7402
+ },
7403
+ {
7404
+ "epoch": 103.18486882245271,
7405
+ "grad_norm": 4.243392467498779,
7406
+ "learning_rate": 6.20327868852459e-05,
7407
+ "loss": 0.213,
7408
+ "step": 21140
7409
+ },
7410
+ {
7411
+ "epoch": 103.28248932275778,
7412
+ "grad_norm": 2.646786689758301,
7413
+ "learning_rate": 6.19016393442623e-05,
7414
+ "loss": 0.2132,
7415
+ "step": 21160
7416
+ },
7417
+ {
7418
+ "epoch": 103.38010982306284,
7419
+ "grad_norm": 3.157848596572876,
7420
+ "learning_rate": 6.17704918032787e-05,
7421
+ "loss": 0.1941,
7422
+ "step": 21180
7423
+ },
7424
+ {
7425
+ "epoch": 103.47773032336791,
7426
+ "grad_norm": 3.383357286453247,
7427
+ "learning_rate": 6.163934426229509e-05,
7428
+ "loss": 0.2211,
7429
+ "step": 21200
7430
+ },
7431
+ {
7432
+ "epoch": 103.57535082367298,
7433
+ "grad_norm": 2.940901279449463,
7434
+ "learning_rate": 6.150819672131148e-05,
7435
+ "loss": 0.1934,
7436
+ "step": 21220
7437
+ },
7438
+ {
7439
+ "epoch": 103.67297132397803,
7440
+ "grad_norm": 4.2973103523254395,
7441
+ "learning_rate": 6.137704918032787e-05,
7442
+ "loss": 0.2516,
7443
+ "step": 21240
7444
+ },
7445
+ {
7446
+ "epoch": 103.7705918242831,
7447
+ "grad_norm": 3.586219310760498,
7448
+ "learning_rate": 6.124590163934426e-05,
7449
+ "loss": 0.262,
7450
+ "step": 21260
7451
+ },
7452
+ {
7453
+ "epoch": 103.86821232458816,
7454
+ "grad_norm": 3.7726240158081055,
7455
+ "learning_rate": 6.111475409836066e-05,
7456
+ "loss": 0.1876,
7457
+ "step": 21280
7458
+ },
7459
+ {
7460
+ "epoch": 103.96583282489323,
7461
+ "grad_norm": 3.5038113594055176,
7462
+ "learning_rate": 6.098360655737705e-05,
7463
+ "loss": 0.2156,
7464
+ "step": 21300
7465
+ },
7466
+ {
7467
+ "epoch": 104.0634533251983,
7468
+ "grad_norm": 3.6055893898010254,
7469
+ "learning_rate": 6.085245901639345e-05,
7470
+ "loss": 0.2386,
7471
+ "step": 21320
7472
+ },
7473
+ {
7474
+ "epoch": 104.16107382550335,
7475
+ "grad_norm": 4.037646770477295,
7476
+ "learning_rate": 6.072131147540984e-05,
7477
+ "loss": 0.229,
7478
+ "step": 21340
7479
+ },
7480
+ {
7481
+ "epoch": 104.25869432580842,
7482
+ "grad_norm": 3.209284543991089,
7483
+ "learning_rate": 6.0590163934426236e-05,
7484
+ "loss": 0.2204,
7485
+ "step": 21360
7486
+ },
7487
+ {
7488
+ "epoch": 104.35631482611349,
7489
+ "grad_norm": 3.388456106185913,
7490
+ "learning_rate": 6.0459016393442625e-05,
7491
+ "loss": 0.2155,
7492
+ "step": 21380
7493
+ },
7494
+ {
7495
+ "epoch": 104.45393532641855,
7496
+ "grad_norm": 2.9914731979370117,
7497
+ "learning_rate": 6.032786885245902e-05,
7498
+ "loss": 0.2205,
7499
+ "step": 21400
7500
+ },
7501
+ {
7502
+ "epoch": 104.55155582672361,
7503
+ "grad_norm": 3.4753572940826416,
7504
+ "learning_rate": 6.019672131147541e-05,
7505
+ "loss": 0.226,
7506
+ "step": 21420
7507
+ },
7508
+ {
7509
+ "epoch": 104.64917632702867,
7510
+ "grad_norm": 3.400149345397949,
7511
+ "learning_rate": 6.00655737704918e-05,
7512
+ "loss": 0.2117,
7513
+ "step": 21440
7514
+ },
7515
+ {
7516
+ "epoch": 104.74679682733374,
7517
+ "grad_norm": 3.2313406467437744,
7518
+ "learning_rate": 5.99344262295082e-05,
7519
+ "loss": 0.216,
7520
+ "step": 21460
7521
+ },
7522
+ {
7523
+ "epoch": 104.84441732763881,
7524
+ "grad_norm": 4.102112770080566,
7525
+ "learning_rate": 5.9803278688524586e-05,
7526
+ "loss": 0.1962,
7527
+ "step": 21480
7528
+ },
7529
+ {
7530
+ "epoch": 104.94203782794386,
7531
+ "grad_norm": 3.6872830390930176,
7532
+ "learning_rate": 5.967213114754099e-05,
7533
+ "loss": 0.2212,
7534
+ "step": 21500
7535
+ },
7536
+ {
7537
+ "epoch": 105.03965832824893,
7538
+ "grad_norm": 3.1488096714019775,
7539
+ "learning_rate": 5.954098360655738e-05,
7540
+ "loss": 0.1919,
7541
+ "step": 21520
7542
+ },
7543
+ {
7544
+ "epoch": 105.137278828554,
7545
+ "grad_norm": 3.4388973712921143,
7546
+ "learning_rate": 5.9409836065573774e-05,
7547
+ "loss": 0.247,
7548
+ "step": 21540
7549
+ },
7550
+ {
7551
+ "epoch": 105.23489932885906,
7552
+ "grad_norm": 3.776465892791748,
7553
+ "learning_rate": 5.927868852459016e-05,
7554
+ "loss": 0.1856,
7555
+ "step": 21560
7556
+ },
7557
+ {
7558
+ "epoch": 105.33251982916413,
7559
+ "grad_norm": 3.552684783935547,
7560
+ "learning_rate": 5.9147540983606566e-05,
7561
+ "loss": 0.2042,
7562
+ "step": 21580
7563
+ },
7564
+ {
7565
+ "epoch": 105.43014032946918,
7566
+ "grad_norm": 2.8810436725616455,
7567
+ "learning_rate": 5.9016393442622956e-05,
7568
+ "loss": 0.2353,
7569
+ "step": 21600
7570
+ },
7571
+ {
7572
+ "epoch": 105.52776082977425,
7573
+ "grad_norm": 3.2408454418182373,
7574
+ "learning_rate": 5.888524590163935e-05,
7575
+ "loss": 0.2148,
7576
+ "step": 21620
7577
+ },
7578
+ {
7579
+ "epoch": 105.62538133007932,
7580
+ "grad_norm": 3.5531325340270996,
7581
+ "learning_rate": 5.875409836065574e-05,
7582
+ "loss": 0.2106,
7583
+ "step": 21640
7584
+ },
7585
+ {
7586
+ "epoch": 105.72300183038438,
7587
+ "grad_norm": 4.188174247741699,
7588
+ "learning_rate": 5.862295081967213e-05,
7589
+ "loss": 0.2211,
7590
+ "step": 21660
7591
+ },
7592
+ {
7593
+ "epoch": 105.82062233068945,
7594
+ "grad_norm": 4.232003688812256,
7595
+ "learning_rate": 5.849180327868853e-05,
7596
+ "loss": 0.2139,
7597
+ "step": 21680
7598
+ },
7599
+ {
7600
+ "epoch": 105.91824283099452,
7601
+ "grad_norm": 3.7038660049438477,
7602
+ "learning_rate": 5.8360655737704916e-05,
7603
+ "loss": 0.2048,
7604
+ "step": 21700
7605
+ },
7606
+ {
7607
+ "epoch": 106.01586333129957,
7608
+ "grad_norm": 2.9898719787597656,
7609
+ "learning_rate": 5.822950819672132e-05,
7610
+ "loss": 0.2184,
7611
+ "step": 21720
7612
+ },
7613
+ {
7614
+ "epoch": 106.11348383160464,
7615
+ "grad_norm": 3.482365846633911,
7616
+ "learning_rate": 5.80983606557377e-05,
7617
+ "loss": 0.2171,
7618
+ "step": 21740
7619
+ },
7620
+ {
7621
+ "epoch": 106.2111043319097,
7622
+ "grad_norm": 3.3595712184906006,
7623
+ "learning_rate": 5.7967213114754104e-05,
7624
+ "loss": 0.2041,
7625
+ "step": 21760
7626
+ },
7627
+ {
7628
+ "epoch": 106.30872483221476,
7629
+ "grad_norm": 3.7470903396606445,
7630
+ "learning_rate": 5.7836065573770494e-05,
7631
+ "loss": 0.1946,
7632
+ "step": 21780
7633
+ },
7634
+ {
7635
+ "epoch": 106.40634533251983,
7636
+ "grad_norm": 3.418549060821533,
7637
+ "learning_rate": 5.770491803278689e-05,
7638
+ "loss": 0.2013,
7639
+ "step": 21800
7640
+ },
7641
+ {
7642
+ "epoch": 106.50396583282489,
7643
+ "grad_norm": 3.115424394607544,
7644
+ "learning_rate": 5.757377049180328e-05,
7645
+ "loss": 0.2064,
7646
+ "step": 21820
7647
+ },
7648
+ {
7649
+ "epoch": 106.60158633312996,
7650
+ "grad_norm": 3.2718710899353027,
7651
+ "learning_rate": 5.744262295081968e-05,
7652
+ "loss": 0.2266,
7653
+ "step": 21840
7654
+ },
7655
+ {
7656
+ "epoch": 106.69920683343503,
7657
+ "grad_norm": 2.9478771686553955,
7658
+ "learning_rate": 5.731147540983607e-05,
7659
+ "loss": 0.2321,
7660
+ "step": 21860
7661
+ },
7662
+ {
7663
+ "epoch": 106.79682733374008,
7664
+ "grad_norm": 3.479456663131714,
7665
+ "learning_rate": 5.7180327868852454e-05,
7666
+ "loss": 0.2317,
7667
+ "step": 21880
7668
+ },
7669
+ {
7670
+ "epoch": 106.89444783404515,
7671
+ "grad_norm": 3.934882879257202,
7672
+ "learning_rate": 5.704918032786886e-05,
7673
+ "loss": 0.2074,
7674
+ "step": 21900
7675
+ },
7676
+ {
7677
+ "epoch": 106.99206833435021,
7678
+ "grad_norm": 3.40720272064209,
7679
+ "learning_rate": 5.6918032786885246e-05,
7680
+ "loss": 0.2123,
7681
+ "step": 21920
7682
+ },
7683
+ {
7684
+ "epoch": 107.08968883465528,
7685
+ "grad_norm": 2.825427770614624,
7686
+ "learning_rate": 5.678688524590164e-05,
7687
+ "loss": 0.1897,
7688
+ "step": 21940
7689
+ },
7690
+ {
7691
+ "epoch": 107.18730933496035,
7692
+ "grad_norm": 3.6434717178344727,
7693
+ "learning_rate": 5.665573770491803e-05,
7694
+ "loss": 0.207,
7695
+ "step": 21960
7696
+ },
7697
+ {
7698
+ "epoch": 107.2849298352654,
7699
+ "grad_norm": 4.119269847869873,
7700
+ "learning_rate": 5.6524590163934435e-05,
7701
+ "loss": 0.2086,
7702
+ "step": 21980
7703
+ },
7704
+ {
7705
+ "epoch": 107.38255033557047,
7706
+ "grad_norm": 2.835963487625122,
7707
+ "learning_rate": 5.639344262295082e-05,
7708
+ "loss": 0.1942,
7709
+ "step": 22000
7710
+ },
7711
+ {
7712
+ "epoch": 107.48017083587554,
7713
+ "grad_norm": 3.175858736038208,
7714
+ "learning_rate": 5.626229508196722e-05,
7715
+ "loss": 0.2089,
7716
+ "step": 22020
7717
+ },
7718
+ {
7719
+ "epoch": 107.5777913361806,
7720
+ "grad_norm": 3.6265509128570557,
7721
+ "learning_rate": 5.613114754098361e-05,
7722
+ "loss": 0.2164,
7723
+ "step": 22040
7724
+ },
7725
+ {
7726
+ "epoch": 107.67541183648567,
7727
+ "grad_norm": 2.90639591217041,
7728
+ "learning_rate": 5.6000000000000006e-05,
7729
+ "loss": 0.2121,
7730
+ "step": 22060
7731
+ },
7732
+ {
7733
+ "epoch": 107.77303233679072,
7734
+ "grad_norm": 4.155264377593994,
7735
+ "learning_rate": 5.5868852459016395e-05,
7736
+ "loss": 0.219,
7737
+ "step": 22080
7738
+ },
7739
+ {
7740
+ "epoch": 107.87065283709579,
7741
+ "grad_norm": 3.730433940887451,
7742
+ "learning_rate": 5.5737704918032785e-05,
7743
+ "loss": 0.2369,
7744
+ "step": 22100
7745
+ },
7746
+ {
7747
+ "epoch": 107.96827333740086,
7748
+ "grad_norm": 2.8690969944000244,
7749
+ "learning_rate": 5.560655737704919e-05,
7750
+ "loss": 0.2189,
7751
+ "step": 22120
7752
+ },
7753
+ {
7754
+ "epoch": 108.06589383770591,
7755
+ "grad_norm": 3.061427116394043,
7756
+ "learning_rate": 5.547540983606557e-05,
7757
+ "loss": 0.2203,
7758
+ "step": 22140
7759
+ },
7760
+ {
7761
+ "epoch": 108.16351433801098,
7762
+ "grad_norm": 3.6155471801757812,
7763
+ "learning_rate": 5.534426229508197e-05,
7764
+ "loss": 0.2043,
7765
+ "step": 22160
7766
+ },
7767
+ {
7768
+ "epoch": 108.26113483831605,
7769
+ "grad_norm": 3.1074283123016357,
7770
+ "learning_rate": 5.521311475409836e-05,
7771
+ "loss": 0.2095,
7772
+ "step": 22180
7773
+ },
7774
+ {
7775
+ "epoch": 108.35875533862111,
7776
+ "grad_norm": 3.6168534755706787,
7777
+ "learning_rate": 5.508196721311476e-05,
7778
+ "loss": 0.2339,
7779
+ "step": 22200
7780
+ },
7781
+ {
7782
+ "epoch": 108.45637583892618,
7783
+ "grad_norm": 2.9254798889160156,
7784
+ "learning_rate": 5.495081967213115e-05,
7785
+ "loss": 0.214,
7786
+ "step": 22220
7787
+ },
7788
+ {
7789
+ "epoch": 108.55399633923123,
7790
+ "grad_norm": 3.2898197174072266,
7791
+ "learning_rate": 5.481967213114755e-05,
7792
+ "loss": 0.1981,
7793
+ "step": 22240
7794
+ },
7795
+ {
7796
+ "epoch": 108.6516168395363,
7797
+ "grad_norm": 3.0724892616271973,
7798
+ "learning_rate": 5.4688524590163933e-05,
7799
+ "loss": 0.1997,
7800
+ "step": 22260
7801
+ },
7802
+ {
7803
+ "epoch": 108.74923733984137,
7804
+ "grad_norm": 3.3344459533691406,
7805
+ "learning_rate": 5.4557377049180336e-05,
7806
+ "loss": 0.2243,
7807
+ "step": 22280
7808
+ },
7809
+ {
7810
+ "epoch": 108.84685784014643,
7811
+ "grad_norm": 4.20386266708374,
7812
+ "learning_rate": 5.4426229508196726e-05,
7813
+ "loss": 0.1973,
7814
+ "step": 22300
7815
+ },
7816
+ {
7817
+ "epoch": 108.9444783404515,
7818
+ "grad_norm": 3.0647547245025635,
7819
+ "learning_rate": 5.4295081967213115e-05,
7820
+ "loss": 0.1984,
7821
+ "step": 22320
7822
+ },
7823
+ {
7824
+ "epoch": 109.04209884075657,
7825
+ "grad_norm": 3.2792584896087646,
7826
+ "learning_rate": 5.416393442622951e-05,
7827
+ "loss": 0.2209,
7828
+ "step": 22340
7829
+ },
7830
+ {
7831
+ "epoch": 109.13971934106162,
7832
+ "grad_norm": 2.900493860244751,
7833
+ "learning_rate": 5.40327868852459e-05,
7834
+ "loss": 0.2123,
7835
+ "step": 22360
7836
+ },
7837
+ {
7838
+ "epoch": 109.23733984136669,
7839
+ "grad_norm": 2.754514217376709,
7840
+ "learning_rate": 5.3901639344262304e-05,
7841
+ "loss": 0.2049,
7842
+ "step": 22380
7843
+ },
7844
+ {
7845
+ "epoch": 109.33496034167175,
7846
+ "grad_norm": 2.955946445465088,
7847
+ "learning_rate": 5.3770491803278686e-05,
7848
+ "loss": 0.2164,
7849
+ "step": 22400
7850
+ },
7851
+ {
7852
+ "epoch": 109.43258084197682,
7853
+ "grad_norm": 3.0447773933410645,
7854
+ "learning_rate": 5.363934426229509e-05,
7855
+ "loss": 0.1903,
7856
+ "step": 22420
7857
+ },
7858
+ {
7859
+ "epoch": 109.53020134228188,
7860
+ "grad_norm": 2.8788065910339355,
7861
+ "learning_rate": 5.350819672131148e-05,
7862
+ "loss": 0.2018,
7863
+ "step": 22440
7864
+ },
7865
+ {
7866
+ "epoch": 109.62782184258694,
7867
+ "grad_norm": 3.766073703765869,
7868
+ "learning_rate": 5.3377049180327875e-05,
7869
+ "loss": 0.2092,
7870
+ "step": 22460
7871
+ },
7872
+ {
7873
+ "epoch": 109.72544234289201,
7874
+ "grad_norm": 4.014832973480225,
7875
+ "learning_rate": 5.3245901639344264e-05,
7876
+ "loss": 0.2138,
7877
+ "step": 22480
7878
+ },
7879
+ {
7880
+ "epoch": 109.82306284319706,
7881
+ "grad_norm": 2.987813949584961,
7882
+ "learning_rate": 5.311475409836065e-05,
7883
+ "loss": 0.2253,
7884
+ "step": 22500
7885
+ },
7886
+ {
7887
+ "epoch": 109.92068334350213,
7888
+ "grad_norm": 2.980419158935547,
7889
+ "learning_rate": 5.298360655737705e-05,
7890
+ "loss": 0.2159,
7891
+ "step": 22520
7892
+ },
7893
+ {
7894
+ "epoch": 110.0183038438072,
7895
+ "grad_norm": 3.1005942821502686,
7896
+ "learning_rate": 5.285245901639344e-05,
7897
+ "loss": 0.1907,
7898
+ "step": 22540
7899
+ },
7900
+ {
7901
+ "epoch": 110.11592434411226,
7902
+ "grad_norm": 3.2539725303649902,
7903
+ "learning_rate": 5.272131147540984e-05,
7904
+ "loss": 0.2023,
7905
+ "step": 22560
7906
+ },
7907
+ {
7908
+ "epoch": 110.21354484441733,
7909
+ "grad_norm": 3.4975571632385254,
7910
+ "learning_rate": 5.259016393442623e-05,
7911
+ "loss": 0.2101,
7912
+ "step": 22580
7913
+ },
7914
+ {
7915
+ "epoch": 110.3111653447224,
7916
+ "grad_norm": 4.542675018310547,
7917
+ "learning_rate": 5.245901639344263e-05,
7918
+ "loss": 0.2071,
7919
+ "step": 22600
7920
+ },
7921
+ {
7922
+ "epoch": 110.40878584502745,
7923
+ "grad_norm": 2.5775978565216064,
7924
+ "learning_rate": 5.2327868852459017e-05,
7925
+ "loss": 0.2027,
7926
+ "step": 22620
7927
+ },
7928
+ {
7929
+ "epoch": 110.50640634533252,
7930
+ "grad_norm": 2.964486598968506,
7931
+ "learning_rate": 5.219672131147541e-05,
7932
+ "loss": 0.2281,
7933
+ "step": 22640
7934
+ },
7935
+ {
7936
+ "epoch": 110.60402684563758,
7937
+ "grad_norm": 3.883513927459717,
7938
+ "learning_rate": 5.20655737704918e-05,
7939
+ "loss": 0.2083,
7940
+ "step": 22660
7941
+ },
7942
+ {
7943
+ "epoch": 110.70164734594265,
7944
+ "grad_norm": 3.696744441986084,
7945
+ "learning_rate": 5.1934426229508205e-05,
7946
+ "loss": 0.2044,
7947
+ "step": 22680
7948
+ },
7949
+ {
7950
+ "epoch": 110.79926784624772,
7951
+ "grad_norm": 3.104335308074951,
7952
+ "learning_rate": 5.1803278688524594e-05,
7953
+ "loss": 0.216,
7954
+ "step": 22700
7955
+ },
7956
+ {
7957
+ "epoch": 110.89688834655277,
7958
+ "grad_norm": 3.6240875720977783,
7959
+ "learning_rate": 5.1672131147540984e-05,
7960
+ "loss": 0.2086,
7961
+ "step": 22720
7962
+ },
7963
+ {
7964
+ "epoch": 110.99450884685784,
7965
+ "grad_norm": 4.600063323974609,
7966
+ "learning_rate": 5.154098360655738e-05,
7967
+ "loss": 0.1983,
7968
+ "step": 22740
7969
+ },
7970
+ {
7971
+ "epoch": 111.09212934716291,
7972
+ "grad_norm": 4.165120601654053,
7973
+ "learning_rate": 5.140983606557377e-05,
7974
+ "loss": 0.207,
7975
+ "step": 22760
7976
+ },
7977
+ {
7978
+ "epoch": 111.18974984746797,
7979
+ "grad_norm": 3.1178033351898193,
7980
+ "learning_rate": 5.1278688524590165e-05,
7981
+ "loss": 0.1836,
7982
+ "step": 22780
7983
+ },
7984
+ {
7985
+ "epoch": 111.28737034777303,
7986
+ "grad_norm": 3.8547523021698,
7987
+ "learning_rate": 5.1147540983606555e-05,
7988
+ "loss": 0.213,
7989
+ "step": 22800
7990
+ },
7991
+ {
7992
+ "epoch": 111.38499084807809,
7993
+ "grad_norm": 3.626835346221924,
7994
+ "learning_rate": 5.101639344262296e-05,
7995
+ "loss": 0.1901,
7996
+ "step": 22820
7997
+ },
7998
+ {
7999
+ "epoch": 111.48261134838316,
8000
+ "grad_norm": 3.89408540725708,
8001
+ "learning_rate": 5.088524590163935e-05,
8002
+ "loss": 0.2151,
8003
+ "step": 22840
8004
+ },
8005
+ {
8006
+ "epoch": 111.58023184868823,
8007
+ "grad_norm": 3.3434460163116455,
8008
+ "learning_rate": 5.075409836065574e-05,
8009
+ "loss": 0.2165,
8010
+ "step": 22860
8011
+ },
8012
+ {
8013
+ "epoch": 111.67785234899328,
8014
+ "grad_norm": 3.1831305027008057,
8015
+ "learning_rate": 5.062295081967213e-05,
8016
+ "loss": 0.1911,
8017
+ "step": 22880
8018
+ },
8019
+ {
8020
+ "epoch": 111.77547284929835,
8021
+ "grad_norm": 3.6153972148895264,
8022
+ "learning_rate": 5.049180327868853e-05,
8023
+ "loss": 0.2076,
8024
+ "step": 22900
8025
+ },
8026
+ {
8027
+ "epoch": 111.87309334960342,
8028
+ "grad_norm": 2.87998628616333,
8029
+ "learning_rate": 5.036065573770492e-05,
8030
+ "loss": 0.2121,
8031
+ "step": 22920
8032
+ },
8033
+ {
8034
+ "epoch": 111.97071384990848,
8035
+ "grad_norm": 2.9351823329925537,
8036
+ "learning_rate": 5.022950819672131e-05,
8037
+ "loss": 0.2126,
8038
+ "step": 22940
8039
+ },
8040
+ {
8041
+ "epoch": 112.06833435021355,
8042
+ "grad_norm": 3.098568916320801,
8043
+ "learning_rate": 5.009836065573771e-05,
8044
+ "loss": 0.2169,
8045
+ "step": 22960
8046
+ },
8047
+ {
8048
+ "epoch": 112.1659548505186,
8049
+ "grad_norm": 4.321131229400635,
8050
+ "learning_rate": 4.99672131147541e-05,
8051
+ "loss": 0.2028,
8052
+ "step": 22980
8053
+ },
8054
+ {
8055
+ "epoch": 112.26357535082367,
8056
+ "grad_norm": 2.1096384525299072,
8057
+ "learning_rate": 4.9836065573770496e-05,
8058
+ "loss": 0.2041,
8059
+ "step": 23000
8060
+ },
8061
+ {
8062
+ "epoch": 112.36119585112874,
8063
+ "grad_norm": 3.537277936935425,
8064
+ "learning_rate": 4.970491803278689e-05,
8065
+ "loss": 0.1988,
8066
+ "step": 23020
8067
+ },
8068
+ {
8069
+ "epoch": 112.4588163514338,
8070
+ "grad_norm": 4.58275842666626,
8071
+ "learning_rate": 4.957377049180328e-05,
8072
+ "loss": 0.1855,
8073
+ "step": 23040
8074
+ },
8075
+ {
8076
+ "epoch": 112.55643685173887,
8077
+ "grad_norm": 3.290548086166382,
8078
+ "learning_rate": 4.944262295081967e-05,
8079
+ "loss": 0.2041,
8080
+ "step": 23060
8081
+ },
8082
+ {
8083
+ "epoch": 112.65405735204394,
8084
+ "grad_norm": 4.11199951171875,
8085
+ "learning_rate": 4.931147540983607e-05,
8086
+ "loss": 0.2062,
8087
+ "step": 23080
8088
+ },
8089
+ {
8090
+ "epoch": 112.75167785234899,
8091
+ "grad_norm": 4.122567176818848,
8092
+ "learning_rate": 4.918032786885246e-05,
8093
+ "loss": 0.2003,
8094
+ "step": 23100
8095
+ },
8096
+ {
8097
+ "epoch": 112.84929835265406,
8098
+ "grad_norm": 2.775681495666504,
8099
+ "learning_rate": 4.904918032786885e-05,
8100
+ "loss": 0.2201,
8101
+ "step": 23120
8102
+ },
8103
+ {
8104
+ "epoch": 112.94691885295912,
8105
+ "grad_norm": 2.8952252864837646,
8106
+ "learning_rate": 4.891803278688525e-05,
8107
+ "loss": 0.2068,
8108
+ "step": 23140
8109
+ },
8110
+ {
8111
+ "epoch": 113.04453935326418,
8112
+ "grad_norm": 2.8353431224823,
8113
+ "learning_rate": 4.8786885245901645e-05,
8114
+ "loss": 0.2087,
8115
+ "step": 23160
8116
+ },
8117
+ {
8118
+ "epoch": 113.14215985356925,
8119
+ "grad_norm": 4.125601768493652,
8120
+ "learning_rate": 4.8655737704918034e-05,
8121
+ "loss": 0.1973,
8122
+ "step": 23180
8123
+ },
8124
+ {
8125
+ "epoch": 113.23978035387431,
8126
+ "grad_norm": 3.5090670585632324,
8127
+ "learning_rate": 4.852459016393443e-05,
8128
+ "loss": 0.1847,
8129
+ "step": 23200
8130
+ },
8131
+ {
8132
+ "epoch": 113.33740085417938,
8133
+ "grad_norm": 2.688890218734741,
8134
+ "learning_rate": 4.8393442622950826e-05,
8135
+ "loss": 0.1842,
8136
+ "step": 23220
8137
+ },
8138
+ {
8139
+ "epoch": 113.43502135448445,
8140
+ "grad_norm": 4.937670707702637,
8141
+ "learning_rate": 4.8262295081967216e-05,
8142
+ "loss": 0.214,
8143
+ "step": 23240
8144
+ },
8145
+ {
8146
+ "epoch": 113.5326418547895,
8147
+ "grad_norm": 4.070579528808594,
8148
+ "learning_rate": 4.8131147540983605e-05,
8149
+ "loss": 0.2203,
8150
+ "step": 23260
8151
+ },
8152
+ {
8153
+ "epoch": 113.63026235509457,
8154
+ "grad_norm": 3.052457809448242,
8155
+ "learning_rate": 4.8e-05,
8156
+ "loss": 0.2116,
8157
+ "step": 23280
8158
+ },
8159
+ {
8160
+ "epoch": 113.72788285539963,
8161
+ "grad_norm": 3.2423150539398193,
8162
+ "learning_rate": 4.78688524590164e-05,
8163
+ "loss": 0.192,
8164
+ "step": 23300
8165
+ },
8166
+ {
8167
+ "epoch": 113.8255033557047,
8168
+ "grad_norm": 2.9941837787628174,
8169
+ "learning_rate": 4.773770491803279e-05,
8170
+ "loss": 0.1916,
8171
+ "step": 23320
8172
+ },
8173
+ {
8174
+ "epoch": 113.92312385600977,
8175
+ "grad_norm": 3.3031139373779297,
8176
+ "learning_rate": 4.760655737704918e-05,
8177
+ "loss": 0.2261,
8178
+ "step": 23340
8179
+ },
8180
+ {
8181
+ "epoch": 114.02074435631482,
8182
+ "grad_norm": 3.531646490097046,
8183
+ "learning_rate": 4.747540983606558e-05,
8184
+ "loss": 0.2186,
8185
+ "step": 23360
8186
+ },
8187
+ {
8188
+ "epoch": 114.11836485661989,
8189
+ "grad_norm": 2.753261089324951,
8190
+ "learning_rate": 4.734426229508197e-05,
8191
+ "loss": 0.1979,
8192
+ "step": 23380
8193
+ },
8194
+ {
8195
+ "epoch": 114.21598535692496,
8196
+ "grad_norm": 3.2900078296661377,
8197
+ "learning_rate": 4.7213114754098365e-05,
8198
+ "loss": 0.1892,
8199
+ "step": 23400
8200
+ },
8201
+ {
8202
+ "epoch": 114.31360585723002,
8203
+ "grad_norm": 3.6558027267456055,
8204
+ "learning_rate": 4.708196721311476e-05,
8205
+ "loss": 0.2202,
8206
+ "step": 23420
8207
+ },
8208
+ {
8209
+ "epoch": 114.41122635753509,
8210
+ "grad_norm": 2.9026436805725098,
8211
+ "learning_rate": 4.695081967213115e-05,
8212
+ "loss": 0.2193,
8213
+ "step": 23440
8214
+ },
8215
+ {
8216
+ "epoch": 114.50884685784014,
8217
+ "grad_norm": 3.0958666801452637,
8218
+ "learning_rate": 4.681967213114754e-05,
8219
+ "loss": 0.1861,
8220
+ "step": 23460
8221
+ },
8222
+ {
8223
+ "epoch": 114.60646735814521,
8224
+ "grad_norm": 3.4162192344665527,
8225
+ "learning_rate": 4.6688524590163936e-05,
8226
+ "loss": 0.1813,
8227
+ "step": 23480
8228
+ },
8229
+ {
8230
+ "epoch": 114.70408785845028,
8231
+ "grad_norm": 3.4320363998413086,
8232
+ "learning_rate": 4.655737704918033e-05,
8233
+ "loss": 0.1849,
8234
+ "step": 23500
8235
+ },
8236
+ {
8237
+ "epoch": 114.80170835875533,
8238
+ "grad_norm": 3.931405544281006,
8239
+ "learning_rate": 4.642622950819672e-05,
8240
+ "loss": 0.2091,
8241
+ "step": 23520
8242
+ },
8243
+ {
8244
+ "epoch": 114.8993288590604,
8245
+ "grad_norm": 2.463747024536133,
8246
+ "learning_rate": 4.629508196721312e-05,
8247
+ "loss": 0.2013,
8248
+ "step": 23540
8249
+ },
8250
+ {
8251
+ "epoch": 114.99694935936547,
8252
+ "grad_norm": 3.4332265853881836,
8253
+ "learning_rate": 4.616393442622951e-05,
8254
+ "loss": 0.2224,
8255
+ "step": 23560
8256
+ },
8257
+ {
8258
+ "epoch": 115.09456985967053,
8259
+ "grad_norm": 4.516382217407227,
8260
+ "learning_rate": 4.60327868852459e-05,
8261
+ "loss": 0.191,
8262
+ "step": 23580
8263
+ },
8264
+ {
8265
+ "epoch": 115.1921903599756,
8266
+ "grad_norm": 3.7761762142181396,
8267
+ "learning_rate": 4.59016393442623e-05,
8268
+ "loss": 0.1972,
8269
+ "step": 23600
8270
+ },
8271
+ {
8272
+ "epoch": 115.28981086028065,
8273
+ "grad_norm": 3.425079584121704,
8274
+ "learning_rate": 4.5770491803278695e-05,
8275
+ "loss": 0.2053,
8276
+ "step": 23620
8277
+ },
8278
+ {
8279
+ "epoch": 115.38743136058572,
8280
+ "grad_norm": 3.098958969116211,
8281
+ "learning_rate": 4.5639344262295084e-05,
8282
+ "loss": 0.1994,
8283
+ "step": 23640
8284
+ },
8285
+ {
8286
+ "epoch": 115.48505186089079,
8287
+ "grad_norm": 4.242363452911377,
8288
+ "learning_rate": 4.550819672131148e-05,
8289
+ "loss": 0.2062,
8290
+ "step": 23660
8291
+ },
8292
+ {
8293
+ "epoch": 115.58267236119585,
8294
+ "grad_norm": 3.9641380310058594,
8295
+ "learning_rate": 4.537704918032787e-05,
8296
+ "loss": 0.1892,
8297
+ "step": 23680
8298
+ },
8299
+ {
8300
+ "epoch": 115.68029286150092,
8301
+ "grad_norm": 3.817915678024292,
8302
+ "learning_rate": 4.524590163934426e-05,
8303
+ "loss": 0.2076,
8304
+ "step": 23700
8305
+ },
8306
+ {
8307
+ "epoch": 115.77791336180599,
8308
+ "grad_norm": 4.9167680740356445,
8309
+ "learning_rate": 4.5114754098360655e-05,
8310
+ "loss": 0.1991,
8311
+ "step": 23720
8312
+ },
8313
+ {
8314
+ "epoch": 115.87553386211104,
8315
+ "grad_norm": 4.05020809173584,
8316
+ "learning_rate": 4.498360655737705e-05,
8317
+ "loss": 0.2154,
8318
+ "step": 23740
8319
+ },
8320
+ {
8321
+ "epoch": 115.97315436241611,
8322
+ "grad_norm": 5.213686466217041,
8323
+ "learning_rate": 4.485245901639345e-05,
8324
+ "loss": 0.1893,
8325
+ "step": 23760
8326
+ },
8327
+ {
8328
+ "epoch": 116.07077486272117,
8329
+ "grad_norm": 2.9788458347320557,
8330
+ "learning_rate": 4.472131147540984e-05,
8331
+ "loss": 0.2015,
8332
+ "step": 23780
8333
+ },
8334
+ {
8335
+ "epoch": 116.16839536302624,
8336
+ "grad_norm": 3.5112173557281494,
8337
+ "learning_rate": 4.459016393442623e-05,
8338
+ "loss": 0.2058,
8339
+ "step": 23800
8340
+ },
8341
+ {
8342
+ "epoch": 116.2660158633313,
8343
+ "grad_norm": 3.3048148155212402,
8344
+ "learning_rate": 4.445901639344263e-05,
8345
+ "loss": 0.2107,
8346
+ "step": 23820
8347
+ },
8348
+ {
8349
+ "epoch": 116.36363636363636,
8350
+ "grad_norm": 3.895615339279175,
8351
+ "learning_rate": 4.432786885245902e-05,
8352
+ "loss": 0.1744,
8353
+ "step": 23840
8354
+ },
8355
+ {
8356
+ "epoch": 116.46125686394143,
8357
+ "grad_norm": 3.7658941745758057,
8358
+ "learning_rate": 4.4196721311475415e-05,
8359
+ "loss": 0.1935,
8360
+ "step": 23860
8361
+ },
8362
+ {
8363
+ "epoch": 116.5588773642465,
8364
+ "grad_norm": 3.4818522930145264,
8365
+ "learning_rate": 4.406557377049181e-05,
8366
+ "loss": 0.2028,
8367
+ "step": 23880
8368
+ },
8369
+ {
8370
+ "epoch": 116.65649786455155,
8371
+ "grad_norm": 2.971785068511963,
8372
+ "learning_rate": 4.3934426229508194e-05,
8373
+ "loss": 0.1993,
8374
+ "step": 23900
8375
+ },
8376
+ {
8377
+ "epoch": 116.75411836485662,
8378
+ "grad_norm": 4.34529447555542,
8379
+ "learning_rate": 4.380327868852459e-05,
8380
+ "loss": 0.1887,
8381
+ "step": 23920
8382
+ },
8383
+ {
8384
+ "epoch": 116.85173886516168,
8385
+ "grad_norm": 3.1781437397003174,
8386
+ "learning_rate": 4.3672131147540986e-05,
8387
+ "loss": 0.2241,
8388
+ "step": 23940
8389
+ },
8390
+ {
8391
+ "epoch": 116.94935936546675,
8392
+ "grad_norm": 3.8372061252593994,
8393
+ "learning_rate": 4.3540983606557375e-05,
8394
+ "loss": 0.2103,
8395
+ "step": 23960
8396
+ },
8397
+ {
8398
+ "epoch": 117.04697986577182,
8399
+ "grad_norm": 3.981776237487793,
8400
+ "learning_rate": 4.340983606557377e-05,
8401
+ "loss": 0.1859,
8402
+ "step": 23980
8403
+ },
8404
+ {
8405
+ "epoch": 117.14460036607687,
8406
+ "grad_norm": 4.0308685302734375,
8407
+ "learning_rate": 4.327868852459017e-05,
8408
+ "loss": 0.1841,
8409
+ "step": 24000
8410
+ },
8411
+ {
8412
+ "epoch": 117.24222086638194,
8413
+ "grad_norm": 3.2919681072235107,
8414
+ "learning_rate": 4.3147540983606564e-05,
8415
+ "loss": 0.1964,
8416
+ "step": 24020
8417
+ },
8418
+ {
8419
+ "epoch": 117.33984136668701,
8420
+ "grad_norm": 4.155374050140381,
8421
+ "learning_rate": 4.301639344262295e-05,
8422
+ "loss": 0.1896,
8423
+ "step": 24040
8424
+ },
8425
+ {
8426
+ "epoch": 117.43746186699207,
8427
+ "grad_norm": 3.5654046535491943,
8428
+ "learning_rate": 4.288524590163935e-05,
8429
+ "loss": 0.1913,
8430
+ "step": 24060
8431
+ },
8432
+ {
8433
+ "epoch": 117.53508236729714,
8434
+ "grad_norm": 2.805769681930542,
8435
+ "learning_rate": 4.2754098360655745e-05,
8436
+ "loss": 0.1995,
8437
+ "step": 24080
8438
+ },
8439
+ {
8440
+ "epoch": 117.63270286760219,
8441
+ "grad_norm": 2.990482807159424,
8442
+ "learning_rate": 4.262295081967213e-05,
8443
+ "loss": 0.2034,
8444
+ "step": 24100
8445
+ },
8446
+ {
8447
+ "epoch": 117.73032336790726,
8448
+ "grad_norm": 3.236433506011963,
8449
+ "learning_rate": 4.2491803278688524e-05,
8450
+ "loss": 0.1948,
8451
+ "step": 24120
8452
+ },
8453
+ {
8454
+ "epoch": 117.82794386821233,
8455
+ "grad_norm": 4.235846996307373,
8456
+ "learning_rate": 4.236065573770492e-05,
8457
+ "loss": 0.2014,
8458
+ "step": 24140
8459
+ },
8460
+ {
8461
+ "epoch": 117.92556436851739,
8462
+ "grad_norm": 3.238041400909424,
8463
+ "learning_rate": 4.222950819672131e-05,
8464
+ "loss": 0.2106,
8465
+ "step": 24160
8466
+ },
8467
+ {
8468
+ "epoch": 118.02318486882245,
8469
+ "grad_norm": 3.18979811668396,
8470
+ "learning_rate": 4.2098360655737706e-05,
8471
+ "loss": 0.1918,
8472
+ "step": 24180
8473
+ },
8474
+ {
8475
+ "epoch": 118.12080536912751,
8476
+ "grad_norm": 2.699910879135132,
8477
+ "learning_rate": 4.19672131147541e-05,
8478
+ "loss": 0.2121,
8479
+ "step": 24200
8480
+ },
8481
+ {
8482
+ "epoch": 118.21842586943258,
8483
+ "grad_norm": 3.6096503734588623,
8484
+ "learning_rate": 4.183606557377049e-05,
8485
+ "loss": 0.2165,
8486
+ "step": 24220
8487
+ },
8488
+ {
8489
+ "epoch": 118.31604636973765,
8490
+ "grad_norm": 3.384746789932251,
8491
+ "learning_rate": 4.170491803278689e-05,
8492
+ "loss": 0.1884,
8493
+ "step": 24240
8494
+ },
8495
+ {
8496
+ "epoch": 118.4136668700427,
8497
+ "grad_norm": 3.606003761291504,
8498
+ "learning_rate": 4.1573770491803283e-05,
8499
+ "loss": 0.1932,
8500
+ "step": 24260
8501
+ },
8502
+ {
8503
+ "epoch": 118.51128737034777,
8504
+ "grad_norm": 2.9768433570861816,
8505
+ "learning_rate": 4.144262295081967e-05,
8506
+ "loss": 0.1802,
8507
+ "step": 24280
8508
+ },
8509
+ {
8510
+ "epoch": 118.60890787065284,
8511
+ "grad_norm": 3.784608840942383,
8512
+ "learning_rate": 4.131147540983607e-05,
8513
+ "loss": 0.1919,
8514
+ "step": 24300
8515
+ },
8516
+ {
8517
+ "epoch": 118.7065283709579,
8518
+ "grad_norm": 3.2883870601654053,
8519
+ "learning_rate": 4.118032786885246e-05,
8520
+ "loss": 0.2015,
8521
+ "step": 24320
8522
+ },
8523
+ {
8524
+ "epoch": 118.80414887126297,
8525
+ "grad_norm": 4.078542232513428,
8526
+ "learning_rate": 4.1049180327868854e-05,
8527
+ "loss": 0.1994,
8528
+ "step": 24340
8529
+ },
8530
+ {
8531
+ "epoch": 118.90176937156802,
8532
+ "grad_norm": 3.7962749004364014,
8533
+ "learning_rate": 4.0918032786885244e-05,
8534
+ "loss": 0.1958,
8535
+ "step": 24360
8536
+ },
8537
+ {
8538
+ "epoch": 118.99938987187309,
8539
+ "grad_norm": 3.4484541416168213,
8540
+ "learning_rate": 4.078688524590164e-05,
8541
+ "loss": 0.1926,
8542
+ "step": 24380
8543
+ },
8544
+ {
8545
+ "epoch": 119.09701037217816,
8546
+ "grad_norm": 2.9271483421325684,
8547
+ "learning_rate": 4.0655737704918036e-05,
8548
+ "loss": 0.1818,
8549
+ "step": 24400
8550
+ },
8551
+ {
8552
+ "epoch": 119.19463087248322,
8553
+ "grad_norm": 5.304340839385986,
8554
+ "learning_rate": 4.0524590163934425e-05,
8555
+ "loss": 0.192,
8556
+ "step": 24420
8557
+ },
8558
+ {
8559
+ "epoch": 119.29225137278829,
8560
+ "grad_norm": 4.88720178604126,
8561
+ "learning_rate": 4.039344262295082e-05,
8562
+ "loss": 0.1975,
8563
+ "step": 24440
8564
+ },
8565
+ {
8566
+ "epoch": 119.38987187309336,
8567
+ "grad_norm": 3.7572522163391113,
8568
+ "learning_rate": 4.026229508196722e-05,
8569
+ "loss": 0.1856,
8570
+ "step": 24460
8571
+ },
8572
+ {
8573
+ "epoch": 119.48749237339841,
8574
+ "grad_norm": 3.3659627437591553,
8575
+ "learning_rate": 4.013114754098361e-05,
8576
+ "loss": 0.1961,
8577
+ "step": 24480
8578
+ },
8579
+ {
8580
+ "epoch": 119.58511287370348,
8581
+ "grad_norm": 3.1397533416748047,
8582
+ "learning_rate": 4e-05,
8583
+ "loss": 0.1991,
8584
+ "step": 24500
8585
+ },
8586
+ {
8587
+ "epoch": 119.68273337400854,
8588
+ "grad_norm": 3.9070587158203125,
8589
+ "learning_rate": 3.98688524590164e-05,
8590
+ "loss": 0.1946,
8591
+ "step": 24520
8592
+ },
8593
+ {
8594
+ "epoch": 119.7803538743136,
8595
+ "grad_norm": 3.3265631198883057,
8596
+ "learning_rate": 3.973770491803279e-05,
8597
+ "loss": 0.194,
8598
+ "step": 24540
8599
+ },
8600
+ {
8601
+ "epoch": 119.87797437461867,
8602
+ "grad_norm": 3.5021114349365234,
8603
+ "learning_rate": 3.960655737704918e-05,
8604
+ "loss": 0.2084,
8605
+ "step": 24560
8606
+ },
8607
+ {
8608
+ "epoch": 119.97559487492373,
8609
+ "grad_norm": 3.7133572101593018,
8610
+ "learning_rate": 3.9475409836065574e-05,
8611
+ "loss": 0.2102,
8612
+ "step": 24580
8613
+ },
8614
+ {
8615
+ "epoch": 120.0732153752288,
8616
+ "grad_norm": 3.27691912651062,
8617
+ "learning_rate": 3.934426229508197e-05,
8618
+ "loss": 0.1864,
8619
+ "step": 24600
8620
+ },
8621
+ {
8622
+ "epoch": 120.17083587553387,
8623
+ "grad_norm": 4.74030065536499,
8624
+ "learning_rate": 3.921311475409836e-05,
8625
+ "loss": 0.1967,
8626
+ "step": 24620
8627
+ },
8628
+ {
8629
+ "epoch": 120.26845637583892,
8630
+ "grad_norm": 4.080429553985596,
8631
+ "learning_rate": 3.9081967213114756e-05,
8632
+ "loss": 0.1888,
8633
+ "step": 24640
8634
+ },
8635
+ {
8636
+ "epoch": 120.36607687614399,
8637
+ "grad_norm": 3.5443646907806396,
8638
+ "learning_rate": 3.895081967213115e-05,
8639
+ "loss": 0.199,
8640
+ "step": 24660
8641
+ },
8642
+ {
8643
+ "epoch": 120.46369737644905,
8644
+ "grad_norm": 4.0403923988342285,
8645
+ "learning_rate": 3.881967213114754e-05,
8646
+ "loss": 0.2002,
8647
+ "step": 24680
8648
+ },
8649
+ {
8650
+ "epoch": 120.56131787675412,
8651
+ "grad_norm": 4.144064426422119,
8652
+ "learning_rate": 3.868852459016394e-05,
8653
+ "loss": 0.193,
8654
+ "step": 24700
8655
+ },
8656
+ {
8657
+ "epoch": 120.65893837705919,
8658
+ "grad_norm": 5.478573799133301,
8659
+ "learning_rate": 3.8557377049180334e-05,
8660
+ "loss": 0.19,
8661
+ "step": 24720
8662
+ },
8663
+ {
8664
+ "epoch": 120.75655887736424,
8665
+ "grad_norm": 3.799931287765503,
8666
+ "learning_rate": 3.842622950819672e-05,
8667
+ "loss": 0.1876,
8668
+ "step": 24740
8669
+ },
8670
+ {
8671
+ "epoch": 120.85417937766931,
8672
+ "grad_norm": 3.1754050254821777,
8673
+ "learning_rate": 3.829508196721311e-05,
8674
+ "loss": 0.1881,
8675
+ "step": 24760
8676
+ },
8677
+ {
8678
+ "epoch": 120.95179987797438,
8679
+ "grad_norm": 3.4417614936828613,
8680
+ "learning_rate": 3.816393442622951e-05,
8681
+ "loss": 0.2023,
8682
+ "step": 24780
8683
+ },
8684
+ {
8685
+ "epoch": 121.04942037827944,
8686
+ "grad_norm": 2.689237594604492,
8687
+ "learning_rate": 3.8032786885245905e-05,
8688
+ "loss": 0.1918,
8689
+ "step": 24800
8690
+ },
8691
+ {
8692
+ "epoch": 121.1470408785845,
8693
+ "grad_norm": 2.6631858348846436,
8694
+ "learning_rate": 3.7901639344262294e-05,
8695
+ "loss": 0.1681,
8696
+ "step": 24820
8697
+ },
8698
+ {
8699
+ "epoch": 121.24466137888956,
8700
+ "grad_norm": 4.315155982971191,
8701
+ "learning_rate": 3.777049180327869e-05,
8702
+ "loss": 0.2037,
8703
+ "step": 24840
8704
+ },
8705
+ {
8706
+ "epoch": 121.34228187919463,
8707
+ "grad_norm": 3.0183377265930176,
8708
+ "learning_rate": 3.7639344262295086e-05,
8709
+ "loss": 0.1901,
8710
+ "step": 24860
8711
+ },
8712
+ {
8713
+ "epoch": 121.4399023794997,
8714
+ "grad_norm": 2.389106035232544,
8715
+ "learning_rate": 3.7508196721311476e-05,
8716
+ "loss": 0.2162,
8717
+ "step": 24880
8718
+ },
8719
+ {
8720
+ "epoch": 121.53752287980475,
8721
+ "grad_norm": 3.5406622886657715,
8722
+ "learning_rate": 3.737704918032787e-05,
8723
+ "loss": 0.1887,
8724
+ "step": 24900
8725
+ },
8726
+ {
8727
+ "epoch": 121.63514338010982,
8728
+ "grad_norm": 3.272151231765747,
8729
+ "learning_rate": 3.724590163934427e-05,
8730
+ "loss": 0.2156,
8731
+ "step": 24920
8732
+ },
8733
+ {
8734
+ "epoch": 121.7327638804149,
8735
+ "grad_norm": 3.1407511234283447,
8736
+ "learning_rate": 3.711475409836066e-05,
8737
+ "loss": 0.1833,
8738
+ "step": 24940
8739
+ },
8740
+ {
8741
+ "epoch": 121.83038438071995,
8742
+ "grad_norm": 3.3532192707061768,
8743
+ "learning_rate": 3.698360655737705e-05,
8744
+ "loss": 0.1858,
8745
+ "step": 24960
8746
+ },
8747
+ {
8748
+ "epoch": 121.92800488102502,
8749
+ "grad_norm": 3.1784684658050537,
8750
+ "learning_rate": 3.685245901639344e-05,
8751
+ "loss": 0.2,
8752
+ "step": 24980
8753
+ },
8754
+ {
8755
+ "epoch": 122.02562538133007,
8756
+ "grad_norm": 3.5837671756744385,
8757
+ "learning_rate": 3.672131147540984e-05,
8758
+ "loss": 0.2073,
8759
+ "step": 25000
8760
+ },
8761
+ {
8762
+ "epoch": 122.12324588163514,
8763
+ "grad_norm": 3.2040927410125732,
8764
+ "learning_rate": 3.659016393442623e-05,
8765
+ "loss": 0.1712,
8766
+ "step": 25020
8767
+ },
8768
+ {
8769
+ "epoch": 122.22086638194021,
8770
+ "grad_norm": 3.3119306564331055,
8771
+ "learning_rate": 3.6459016393442625e-05,
8772
+ "loss": 0.1879,
8773
+ "step": 25040
8774
+ },
8775
+ {
8776
+ "epoch": 122.31848688224527,
8777
+ "grad_norm": 3.2154297828674316,
8778
+ "learning_rate": 3.632786885245902e-05,
8779
+ "loss": 0.1976,
8780
+ "step": 25060
8781
+ },
8782
+ {
8783
+ "epoch": 122.41610738255034,
8784
+ "grad_norm": 2.9070613384246826,
8785
+ "learning_rate": 3.619672131147541e-05,
8786
+ "loss": 0.2077,
8787
+ "step": 25080
8788
+ },
8789
+ {
8790
+ "epoch": 122.5137278828554,
8791
+ "grad_norm": 3.866682529449463,
8792
+ "learning_rate": 3.6065573770491806e-05,
8793
+ "loss": 0.1673,
8794
+ "step": 25100
8795
+ },
8796
+ {
8797
+ "epoch": 122.61134838316046,
8798
+ "grad_norm": 4.236519813537598,
8799
+ "learning_rate": 3.59344262295082e-05,
8800
+ "loss": 0.2096,
8801
+ "step": 25120
8802
+ },
8803
+ {
8804
+ "epoch": 122.70896888346553,
8805
+ "grad_norm": 3.386503219604492,
8806
+ "learning_rate": 3.580327868852459e-05,
8807
+ "loss": 0.1962,
8808
+ "step": 25140
8809
+ },
8810
+ {
8811
+ "epoch": 122.80658938377059,
8812
+ "grad_norm": 2.7001540660858154,
8813
+ "learning_rate": 3.567213114754099e-05,
8814
+ "loss": 0.1731,
8815
+ "step": 25160
8816
+ },
8817
+ {
8818
+ "epoch": 122.90420988407566,
8819
+ "grad_norm": 3.281818389892578,
8820
+ "learning_rate": 3.554098360655738e-05,
8821
+ "loss": 0.2225,
8822
+ "step": 25180
8823
+ },
8824
+ {
8825
+ "epoch": 123.00183038438072,
8826
+ "grad_norm": 4.1742095947265625,
8827
+ "learning_rate": 3.5409836065573773e-05,
8828
+ "loss": 0.1947,
8829
+ "step": 25200
8830
+ },
8831
+ {
8832
+ "epoch": 123.09945088468578,
8833
+ "grad_norm": 3.328521490097046,
8834
+ "learning_rate": 3.527868852459016e-05,
8835
+ "loss": 0.1607,
8836
+ "step": 25220
8837
+ },
8838
+ {
8839
+ "epoch": 123.19707138499085,
8840
+ "grad_norm": 4.815507888793945,
8841
+ "learning_rate": 3.514754098360656e-05,
8842
+ "loss": 0.1977,
8843
+ "step": 25240
8844
+ },
8845
+ {
8846
+ "epoch": 123.29469188529592,
8847
+ "grad_norm": 3.736438512802124,
8848
+ "learning_rate": 3.5016393442622955e-05,
8849
+ "loss": 0.2105,
8850
+ "step": 25260
8851
+ },
8852
+ {
8853
+ "epoch": 123.39231238560097,
8854
+ "grad_norm": 3.4552454948425293,
8855
+ "learning_rate": 3.4885245901639344e-05,
8856
+ "loss": 0.2002,
8857
+ "step": 25280
8858
+ },
8859
+ {
8860
+ "epoch": 123.48993288590604,
8861
+ "grad_norm": 2.3649439811706543,
8862
+ "learning_rate": 3.475409836065574e-05,
8863
+ "loss": 0.1823,
8864
+ "step": 25300
8865
+ },
8866
+ {
8867
+ "epoch": 123.5875533862111,
8868
+ "grad_norm": 3.0043177604675293,
8869
+ "learning_rate": 3.462295081967214e-05,
8870
+ "loss": 0.1922,
8871
+ "step": 25320
8872
+ },
8873
+ {
8874
+ "epoch": 123.68517388651617,
8875
+ "grad_norm": 4.2065253257751465,
8876
+ "learning_rate": 3.4491803278688526e-05,
8877
+ "loss": 0.1943,
8878
+ "step": 25340
8879
+ },
8880
+ {
8881
+ "epoch": 123.78279438682124,
8882
+ "grad_norm": 3.961331605911255,
8883
+ "learning_rate": 3.436065573770492e-05,
8884
+ "loss": 0.1859,
8885
+ "step": 25360
8886
+ },
8887
+ {
8888
+ "epoch": 123.88041488712629,
8889
+ "grad_norm": 4.434045791625977,
8890
+ "learning_rate": 3.422950819672131e-05,
8891
+ "loss": 0.1985,
8892
+ "step": 25380
8893
+ },
8894
+ {
8895
+ "epoch": 123.97803538743136,
8896
+ "grad_norm": 2.87196946144104,
8897
+ "learning_rate": 3.409836065573771e-05,
8898
+ "loss": 0.2046,
8899
+ "step": 25400
8900
+ },
8901
+ {
8902
+ "epoch": 124.07565588773643,
8903
+ "grad_norm": 2.9702465534210205,
8904
+ "learning_rate": 3.39672131147541e-05,
8905
+ "loss": 0.1665,
8906
+ "step": 25420
8907
+ },
8908
+ {
8909
+ "epoch": 124.17327638804149,
8910
+ "grad_norm": 4.106092929840088,
8911
+ "learning_rate": 3.383606557377049e-05,
8912
+ "loss": 0.1966,
8913
+ "step": 25440
8914
+ },
8915
+ {
8916
+ "epoch": 124.27089688834656,
8917
+ "grad_norm": 3.1091065406799316,
8918
+ "learning_rate": 3.370491803278689e-05,
8919
+ "loss": 0.2078,
8920
+ "step": 25460
8921
+ },
8922
+ {
8923
+ "epoch": 124.36851738865161,
8924
+ "grad_norm": 3.4036500453948975,
8925
+ "learning_rate": 3.357377049180328e-05,
8926
+ "loss": 0.1814,
8927
+ "step": 25480
8928
+ },
8929
+ {
8930
+ "epoch": 124.46613788895668,
8931
+ "grad_norm": 3.7814347743988037,
8932
+ "learning_rate": 3.3442622950819675e-05,
8933
+ "loss": 0.195,
8934
+ "step": 25500
8935
+ },
8936
+ {
8937
+ "epoch": 124.56375838926175,
8938
+ "grad_norm": 4.475528240203857,
8939
+ "learning_rate": 3.331147540983607e-05,
8940
+ "loss": 0.1984,
8941
+ "step": 25520
8942
+ },
8943
+ {
8944
+ "epoch": 124.6613788895668,
8945
+ "grad_norm": 3.35787296295166,
8946
+ "learning_rate": 3.318032786885246e-05,
8947
+ "loss": 0.1809,
8948
+ "step": 25540
8949
+ },
8950
+ {
8951
+ "epoch": 124.75899938987187,
8952
+ "grad_norm": 3.594639301300049,
8953
+ "learning_rate": 3.3049180327868857e-05,
8954
+ "loss": 0.1844,
8955
+ "step": 25560
8956
+ },
8957
+ {
8958
+ "epoch": 124.85661989017694,
8959
+ "grad_norm": 3.5354974269866943,
8960
+ "learning_rate": 3.291803278688525e-05,
8961
+ "loss": 0.1953,
8962
+ "step": 25580
8963
+ },
8964
+ {
8965
+ "epoch": 124.954240390482,
8966
+ "grad_norm": 2.810798168182373,
8967
+ "learning_rate": 3.2786885245901635e-05,
8968
+ "loss": 0.1911,
8969
+ "step": 25600
8970
+ },
8971
+ {
8972
+ "epoch": 125.05186089078707,
8973
+ "grad_norm": 3.3332059383392334,
8974
+ "learning_rate": 3.265573770491803e-05,
8975
+ "loss": 0.1593,
8976
+ "step": 25620
8977
+ },
8978
+ {
8979
+ "epoch": 125.14948139109212,
8980
+ "grad_norm": 2.8333628177642822,
8981
+ "learning_rate": 3.252459016393443e-05,
8982
+ "loss": 0.1709,
8983
+ "step": 25640
8984
+ },
8985
+ {
8986
+ "epoch": 125.2471018913972,
8987
+ "grad_norm": 2.9144675731658936,
8988
+ "learning_rate": 3.2393442622950824e-05,
8989
+ "loss": 0.2073,
8990
+ "step": 25660
8991
+ },
8992
+ {
8993
+ "epoch": 125.34472239170226,
8994
+ "grad_norm": 3.185001850128174,
8995
+ "learning_rate": 3.226229508196721e-05,
8996
+ "loss": 0.1665,
8997
+ "step": 25680
8998
+ },
8999
+ {
9000
+ "epoch": 125.44234289200732,
9001
+ "grad_norm": 2.8228659629821777,
9002
+ "learning_rate": 3.213114754098361e-05,
9003
+ "loss": 0.163,
9004
+ "step": 25700
9005
+ },
9006
+ {
9007
+ "epoch": 125.53996339231239,
9008
+ "grad_norm": 2.8857967853546143,
9009
+ "learning_rate": 3.2000000000000005e-05,
9010
+ "loss": 0.2057,
9011
+ "step": 25720
9012
+ },
9013
+ {
9014
+ "epoch": 125.63758389261746,
9015
+ "grad_norm": 2.9855597019195557,
9016
+ "learning_rate": 3.1868852459016395e-05,
9017
+ "loss": 0.1872,
9018
+ "step": 25740
9019
+ },
9020
+ {
9021
+ "epoch": 125.73520439292251,
9022
+ "grad_norm": 3.5702884197235107,
9023
+ "learning_rate": 3.173770491803279e-05,
9024
+ "loss": 0.1992,
9025
+ "step": 25760
9026
+ },
9027
+ {
9028
+ "epoch": 125.83282489322758,
9029
+ "grad_norm": 5.302943706512451,
9030
+ "learning_rate": 3.160655737704919e-05,
9031
+ "loss": 0.1995,
9032
+ "step": 25780
9033
+ },
9034
+ {
9035
+ "epoch": 125.93044539353264,
9036
+ "grad_norm": 3.9966931343078613,
9037
+ "learning_rate": 3.1475409836065576e-05,
9038
+ "loss": 0.2046,
9039
+ "step": 25800
9040
+ },
9041
+ {
9042
+ "epoch": 126.0280658938377,
9043
+ "grad_norm": 2.6985690593719482,
9044
+ "learning_rate": 3.1344262295081966e-05,
9045
+ "loss": 0.2084,
9046
+ "step": 25820
9047
+ },
9048
+ {
9049
+ "epoch": 126.12568639414278,
9050
+ "grad_norm": 3.317439079284668,
9051
+ "learning_rate": 3.121311475409836e-05,
9052
+ "loss": 0.1971,
9053
+ "step": 25840
9054
+ },
9055
+ {
9056
+ "epoch": 126.22330689444783,
9057
+ "grad_norm": 3.718867301940918,
9058
+ "learning_rate": 3.108196721311475e-05,
9059
+ "loss": 0.1759,
9060
+ "step": 25860
9061
+ },
9062
+ {
9063
+ "epoch": 126.3209273947529,
9064
+ "grad_norm": 3.7418856620788574,
9065
+ "learning_rate": 3.095081967213115e-05,
9066
+ "loss": 0.2067,
9067
+ "step": 25880
9068
+ },
9069
+ {
9070
+ "epoch": 126.41854789505797,
9071
+ "grad_norm": 3.9287869930267334,
9072
+ "learning_rate": 3.0819672131147544e-05,
9073
+ "loss": 0.2032,
9074
+ "step": 25900
9075
+ },
9076
+ {
9077
+ "epoch": 126.51616839536302,
9078
+ "grad_norm": 1.9036474227905273,
9079
+ "learning_rate": 3.068852459016393e-05,
9080
+ "loss": 0.1905,
9081
+ "step": 25920
9082
+ },
9083
+ {
9084
+ "epoch": 126.6137888956681,
9085
+ "grad_norm": 2.602092981338501,
9086
+ "learning_rate": 3.055737704918033e-05,
9087
+ "loss": 0.1851,
9088
+ "step": 25940
9089
+ },
9090
+ {
9091
+ "epoch": 126.71140939597315,
9092
+ "grad_norm": 3.2280685901641846,
9093
+ "learning_rate": 3.0426229508196725e-05,
9094
+ "loss": 0.1938,
9095
+ "step": 25960
9096
+ },
9097
+ {
9098
+ "epoch": 126.80902989627822,
9099
+ "grad_norm": 4.606971263885498,
9100
+ "learning_rate": 3.0295081967213118e-05,
9101
+ "loss": 0.1644,
9102
+ "step": 25980
9103
+ },
9104
+ {
9105
+ "epoch": 126.90665039658329,
9106
+ "grad_norm": 3.755833864212036,
9107
+ "learning_rate": 3.016393442622951e-05,
9108
+ "loss": 0.1836,
9109
+ "step": 26000
9110
+ },
9111
+ {
9112
+ "epoch": 127.00427089688834,
9113
+ "grad_norm": 3.572577953338623,
9114
+ "learning_rate": 3.00327868852459e-05,
9115
+ "loss": 0.1733,
9116
+ "step": 26020
9117
+ },
9118
+ {
9119
+ "epoch": 127.10189139719341,
9120
+ "grad_norm": 3.1435470581054688,
9121
+ "learning_rate": 2.9901639344262293e-05,
9122
+ "loss": 0.1815,
9123
+ "step": 26040
9124
+ },
9125
+ {
9126
+ "epoch": 127.19951189749847,
9127
+ "grad_norm": 3.3165206909179688,
9128
+ "learning_rate": 2.977049180327869e-05,
9129
+ "loss": 0.183,
9130
+ "step": 26060
9131
+ },
9132
+ {
9133
+ "epoch": 127.29713239780354,
9134
+ "grad_norm": 3.269935131072998,
9135
+ "learning_rate": 2.963934426229508e-05,
9136
+ "loss": 0.1854,
9137
+ "step": 26080
9138
+ },
9139
+ {
9140
+ "epoch": 127.3947528981086,
9141
+ "grad_norm": 3.6275577545166016,
9142
+ "learning_rate": 2.9508196721311478e-05,
9143
+ "loss": 0.1798,
9144
+ "step": 26100
9145
+ },
9146
+ {
9147
+ "epoch": 127.49237339841366,
9148
+ "grad_norm": 3.3832483291625977,
9149
+ "learning_rate": 2.937704918032787e-05,
9150
+ "loss": 0.1722,
9151
+ "step": 26120
9152
+ },
9153
+ {
9154
+ "epoch": 127.58999389871873,
9155
+ "grad_norm": 3.828364610671997,
9156
+ "learning_rate": 2.9245901639344263e-05,
9157
+ "loss": 0.1853,
9158
+ "step": 26140
9159
+ },
9160
+ {
9161
+ "epoch": 127.6876143990238,
9162
+ "grad_norm": 3.7207860946655273,
9163
+ "learning_rate": 2.911475409836066e-05,
9164
+ "loss": 0.1948,
9165
+ "step": 26160
9166
+ },
9167
+ {
9168
+ "epoch": 127.78523489932886,
9169
+ "grad_norm": 3.281031847000122,
9170
+ "learning_rate": 2.8983606557377052e-05,
9171
+ "loss": 0.2063,
9172
+ "step": 26180
9173
+ },
9174
+ {
9175
+ "epoch": 127.88285539963393,
9176
+ "grad_norm": 3.1116421222686768,
9177
+ "learning_rate": 2.8852459016393445e-05,
9178
+ "loss": 0.191,
9179
+ "step": 26200
9180
+ },
9181
+ {
9182
+ "epoch": 127.98047589993898,
9183
+ "grad_norm": 4.254022121429443,
9184
+ "learning_rate": 2.872131147540984e-05,
9185
+ "loss": 0.202,
9186
+ "step": 26220
9187
+ },
9188
+ {
9189
+ "epoch": 128.07809640024405,
9190
+ "grad_norm": 3.1279819011688232,
9191
+ "learning_rate": 2.8590163934426227e-05,
9192
+ "loss": 0.1934,
9193
+ "step": 26240
9194
+ },
9195
+ {
9196
+ "epoch": 128.1757169005491,
9197
+ "grad_norm": 3.3977596759796143,
9198
+ "learning_rate": 2.8459016393442623e-05,
9199
+ "loss": 0.1807,
9200
+ "step": 26260
9201
+ },
9202
+ {
9203
+ "epoch": 128.2733374008542,
9204
+ "grad_norm": 5.261218070983887,
9205
+ "learning_rate": 2.8327868852459016e-05,
9206
+ "loss": 0.17,
9207
+ "step": 26280
9208
+ },
9209
+ {
9210
+ "epoch": 128.37095790115924,
9211
+ "grad_norm": 4.153654098510742,
9212
+ "learning_rate": 2.819672131147541e-05,
9213
+ "loss": 0.1891,
9214
+ "step": 26300
9215
+ },
9216
+ {
9217
+ "epoch": 128.4685784014643,
9218
+ "grad_norm": 3.449397563934326,
9219
+ "learning_rate": 2.8065573770491805e-05,
9220
+ "loss": 0.1846,
9221
+ "step": 26320
9222
+ },
9223
+ {
9224
+ "epoch": 128.56619890176938,
9225
+ "grad_norm": 3.43442702293396,
9226
+ "learning_rate": 2.7934426229508198e-05,
9227
+ "loss": 0.1807,
9228
+ "step": 26340
9229
+ },
9230
+ {
9231
+ "epoch": 128.66381940207444,
9232
+ "grad_norm": 2.9243948459625244,
9233
+ "learning_rate": 2.7803278688524594e-05,
9234
+ "loss": 0.1704,
9235
+ "step": 26360
9236
+ },
9237
+ {
9238
+ "epoch": 128.7614399023795,
9239
+ "grad_norm": 3.9830613136291504,
9240
+ "learning_rate": 2.7672131147540987e-05,
9241
+ "loss": 0.1909,
9242
+ "step": 26380
9243
+ },
9244
+ {
9245
+ "epoch": 128.85906040268458,
9246
+ "grad_norm": 3.0765368938446045,
9247
+ "learning_rate": 2.754098360655738e-05,
9248
+ "loss": 0.1954,
9249
+ "step": 26400
9250
+ },
9251
+ {
9252
+ "epoch": 128.95668090298963,
9253
+ "grad_norm": 2.540853977203369,
9254
+ "learning_rate": 2.7409836065573775e-05,
9255
+ "loss": 0.2116,
9256
+ "step": 26420
9257
+ },
9258
+ {
9259
+ "epoch": 129.0543014032947,
9260
+ "grad_norm": 3.55985689163208,
9261
+ "learning_rate": 2.7278688524590168e-05,
9262
+ "loss": 0.193,
9263
+ "step": 26440
9264
+ },
9265
+ {
9266
+ "epoch": 129.15192190359974,
9267
+ "grad_norm": 3.974700450897217,
9268
+ "learning_rate": 2.7147540983606558e-05,
9269
+ "loss": 0.1673,
9270
+ "step": 26460
9271
+ },
9272
+ {
9273
+ "epoch": 129.24954240390483,
9274
+ "grad_norm": 4.614022731781006,
9275
+ "learning_rate": 2.701639344262295e-05,
9276
+ "loss": 0.1968,
9277
+ "step": 26480
9278
+ },
9279
+ {
9280
+ "epoch": 129.34716290420988,
9281
+ "grad_norm": 3.9277889728546143,
9282
+ "learning_rate": 2.6885245901639343e-05,
9283
+ "loss": 0.1643,
9284
+ "step": 26500
9285
+ },
9286
+ {
9287
+ "epoch": 129.44478340451494,
9288
+ "grad_norm": 3.4351913928985596,
9289
+ "learning_rate": 2.675409836065574e-05,
9290
+ "loss": 0.1903,
9291
+ "step": 26520
9292
+ },
9293
+ {
9294
+ "epoch": 129.54240390482002,
9295
+ "grad_norm": 3.3347392082214355,
9296
+ "learning_rate": 2.6622950819672132e-05,
9297
+ "loss": 0.1789,
9298
+ "step": 26540
9299
+ },
9300
+ {
9301
+ "epoch": 129.64002440512508,
9302
+ "grad_norm": 3.970414161682129,
9303
+ "learning_rate": 2.6491803278688525e-05,
9304
+ "loss": 0.1994,
9305
+ "step": 26560
9306
+ },
9307
+ {
9308
+ "epoch": 129.73764490543013,
9309
+ "grad_norm": 3.648883819580078,
9310
+ "learning_rate": 2.636065573770492e-05,
9311
+ "loss": 0.1877,
9312
+ "step": 26580
9313
+ },
9314
+ {
9315
+ "epoch": 129.8352654057352,
9316
+ "grad_norm": 3.3394792079925537,
9317
+ "learning_rate": 2.6229508196721314e-05,
9318
+ "loss": 0.1838,
9319
+ "step": 26600
9320
+ },
9321
+ {
9322
+ "epoch": 129.93288590604027,
9323
+ "grad_norm": 2.924798011779785,
9324
+ "learning_rate": 2.6098360655737706e-05,
9325
+ "loss": 0.1913,
9326
+ "step": 26620
9327
+ },
9328
+ {
9329
+ "epoch": 130.03050640634532,
9330
+ "grad_norm": 3.448457717895508,
9331
+ "learning_rate": 2.5967213114754103e-05,
9332
+ "loss": 0.1993,
9333
+ "step": 26640
9334
+ },
9335
+ {
9336
+ "epoch": 130.1281269066504,
9337
+ "grad_norm": 2.458868980407715,
9338
+ "learning_rate": 2.5836065573770492e-05,
9339
+ "loss": 0.1996,
9340
+ "step": 26660
9341
+ },
9342
+ {
9343
+ "epoch": 130.22574740695546,
9344
+ "grad_norm": 4.39287805557251,
9345
+ "learning_rate": 2.5704918032786885e-05,
9346
+ "loss": 0.1894,
9347
+ "step": 26680
9348
+ },
9349
+ {
9350
+ "epoch": 130.32336790726052,
9351
+ "grad_norm": 3.347745180130005,
9352
+ "learning_rate": 2.5573770491803277e-05,
9353
+ "loss": 0.1642,
9354
+ "step": 26700
9355
+ },
9356
+ {
9357
+ "epoch": 130.4209884075656,
9358
+ "grad_norm": 3.0466248989105225,
9359
+ "learning_rate": 2.5442622950819674e-05,
9360
+ "loss": 0.1976,
9361
+ "step": 26720
9362
+ },
9363
+ {
9364
+ "epoch": 130.51860890787066,
9365
+ "grad_norm": 2.580834150314331,
9366
+ "learning_rate": 2.5311475409836066e-05,
9367
+ "loss": 0.1764,
9368
+ "step": 26740
9369
+ },
9370
+ {
9371
+ "epoch": 130.6162294081757,
9372
+ "grad_norm": 3.6775128841400146,
9373
+ "learning_rate": 2.518032786885246e-05,
9374
+ "loss": 0.1725,
9375
+ "step": 26760
9376
+ },
9377
+ {
9378
+ "epoch": 130.71384990848077,
9379
+ "grad_norm": 3.829058885574341,
9380
+ "learning_rate": 2.5049180327868855e-05,
9381
+ "loss": 0.1776,
9382
+ "step": 26780
9383
+ },
9384
+ {
9385
+ "epoch": 130.81147040878585,
9386
+ "grad_norm": 4.047943592071533,
9387
+ "learning_rate": 2.4918032786885248e-05,
9388
+ "loss": 0.1943,
9389
+ "step": 26800
9390
+ },
9391
+ {
9392
+ "epoch": 130.9090909090909,
9393
+ "grad_norm": 3.2828705310821533,
9394
+ "learning_rate": 2.478688524590164e-05,
9395
+ "loss": 0.1864,
9396
+ "step": 26820
9397
+ },
9398
+ {
9399
+ "epoch": 131.00671140939596,
9400
+ "grad_norm": 4.2563958168029785,
9401
+ "learning_rate": 2.4655737704918033e-05,
9402
+ "loss": 0.1838,
9403
+ "step": 26840
9404
+ },
9405
+ {
9406
+ "epoch": 131.10433190970105,
9407
+ "grad_norm": 3.279503583908081,
9408
+ "learning_rate": 2.4524590163934426e-05,
9409
+ "loss": 0.2027,
9410
+ "step": 26860
9411
+ },
9412
+ {
9413
+ "epoch": 131.2019524100061,
9414
+ "grad_norm": 3.8052897453308105,
9415
+ "learning_rate": 2.4393442622950822e-05,
9416
+ "loss": 0.1916,
9417
+ "step": 26880
9418
+ },
9419
+ {
9420
+ "epoch": 131.29957291031116,
9421
+ "grad_norm": 3.12294602394104,
9422
+ "learning_rate": 2.4262295081967215e-05,
9423
+ "loss": 0.1542,
9424
+ "step": 26900
9425
+ },
9426
+ {
9427
+ "epoch": 131.39719341061624,
9428
+ "grad_norm": 4.636548042297363,
9429
+ "learning_rate": 2.4131147540983608e-05,
9430
+ "loss": 0.1677,
9431
+ "step": 26920
9432
+ },
9433
+ {
9434
+ "epoch": 131.4948139109213,
9435
+ "grad_norm": 2.8608415126800537,
9436
+ "learning_rate": 2.4e-05,
9437
+ "loss": 0.194,
9438
+ "step": 26940
9439
+ },
9440
+ {
9441
+ "epoch": 131.59243441122635,
9442
+ "grad_norm": 3.7946908473968506,
9443
+ "learning_rate": 2.3868852459016393e-05,
9444
+ "loss": 0.1764,
9445
+ "step": 26960
9446
+ },
9447
+ {
9448
+ "epoch": 131.69005491153143,
9449
+ "grad_norm": 3.1568832397460938,
9450
+ "learning_rate": 2.373770491803279e-05,
9451
+ "loss": 0.1865,
9452
+ "step": 26980
9453
+ },
9454
+ {
9455
+ "epoch": 131.7876754118365,
9456
+ "grad_norm": 4.103198528289795,
9457
+ "learning_rate": 2.3606557377049182e-05,
9458
+ "loss": 0.1753,
9459
+ "step": 27000
9460
+ },
9461
+ {
9462
+ "epoch": 131.88529591214154,
9463
+ "grad_norm": 3.655327796936035,
9464
+ "learning_rate": 2.3475409836065575e-05,
9465
+ "loss": 0.1965,
9466
+ "step": 27020
9467
+ },
9468
+ {
9469
+ "epoch": 131.98291641244663,
9470
+ "grad_norm": 3.908200263977051,
9471
+ "learning_rate": 2.3344262295081968e-05,
9472
+ "loss": 0.1791,
9473
+ "step": 27040
9474
+ },
9475
+ {
9476
+ "epoch": 132.08053691275168,
9477
+ "grad_norm": 3.2557129859924316,
9478
+ "learning_rate": 2.321311475409836e-05,
9479
+ "loss": 0.1715,
9480
+ "step": 27060
9481
+ },
9482
+ {
9483
+ "epoch": 132.17815741305674,
9484
+ "grad_norm": 3.102268695831299,
9485
+ "learning_rate": 2.3081967213114757e-05,
9486
+ "loss": 0.191,
9487
+ "step": 27080
9488
+ },
9489
+ {
9490
+ "epoch": 132.2757779133618,
9491
+ "grad_norm": 2.7028493881225586,
9492
+ "learning_rate": 2.295081967213115e-05,
9493
+ "loss": 0.1802,
9494
+ "step": 27100
9495
+ },
9496
+ {
9497
+ "epoch": 132.37339841366688,
9498
+ "grad_norm": 2.5240046977996826,
9499
+ "learning_rate": 2.2819672131147542e-05,
9500
+ "loss": 0.1618,
9501
+ "step": 27120
9502
+ },
9503
+ {
9504
+ "epoch": 132.47101891397193,
9505
+ "grad_norm": 3.0410265922546387,
9506
+ "learning_rate": 2.2688524590163935e-05,
9507
+ "loss": 0.1833,
9508
+ "step": 27140
9509
+ },
9510
+ {
9511
+ "epoch": 132.568639414277,
9512
+ "grad_norm": 3.677824020385742,
9513
+ "learning_rate": 2.2557377049180328e-05,
9514
+ "loss": 0.1804,
9515
+ "step": 27160
9516
+ },
9517
+ {
9518
+ "epoch": 132.66625991458207,
9519
+ "grad_norm": 2.826828718185425,
9520
+ "learning_rate": 2.2426229508196724e-05,
9521
+ "loss": 0.1915,
9522
+ "step": 27180
9523
+ },
9524
+ {
9525
+ "epoch": 132.76388041488713,
9526
+ "grad_norm": 4.393260955810547,
9527
+ "learning_rate": 2.2295081967213117e-05,
9528
+ "loss": 0.1952,
9529
+ "step": 27200
9530
+ },
9531
+ {
9532
+ "epoch": 132.86150091519218,
9533
+ "grad_norm": 3.1146349906921387,
9534
+ "learning_rate": 2.216393442622951e-05,
9535
+ "loss": 0.1973,
9536
+ "step": 27220
9537
+ },
9538
+ {
9539
+ "epoch": 132.95912141549726,
9540
+ "grad_norm": 3.343693494796753,
9541
+ "learning_rate": 2.2032786885245905e-05,
9542
+ "loss": 0.1822,
9543
+ "step": 27240
9544
+ },
9545
+ {
9546
+ "epoch": 133.05674191580232,
9547
+ "grad_norm": 3.0667552947998047,
9548
+ "learning_rate": 2.1901639344262295e-05,
9549
+ "loss": 0.1807,
9550
+ "step": 27260
9551
+ },
9552
+ {
9553
+ "epoch": 133.15436241610738,
9554
+ "grad_norm": 3.497859001159668,
9555
+ "learning_rate": 2.1770491803278688e-05,
9556
+ "loss": 0.1525,
9557
+ "step": 27280
9558
+ },
9559
+ {
9560
+ "epoch": 133.25198291641246,
9561
+ "grad_norm": 3.295478343963623,
9562
+ "learning_rate": 2.1639344262295084e-05,
9563
+ "loss": 0.1971,
9564
+ "step": 27300
9565
+ },
9566
+ {
9567
+ "epoch": 133.3496034167175,
9568
+ "grad_norm": 3.3247010707855225,
9569
+ "learning_rate": 2.1508196721311476e-05,
9570
+ "loss": 0.1963,
9571
+ "step": 27320
9572
+ },
9573
+ {
9574
+ "epoch": 133.44722391702257,
9575
+ "grad_norm": 4.269167900085449,
9576
+ "learning_rate": 2.1377049180327873e-05,
9577
+ "loss": 0.1967,
9578
+ "step": 27340
9579
+ },
9580
+ {
9581
+ "epoch": 133.54484441732765,
9582
+ "grad_norm": 3.7575721740722656,
9583
+ "learning_rate": 2.1245901639344262e-05,
9584
+ "loss": 0.1788,
9585
+ "step": 27360
9586
+ },
9587
+ {
9588
+ "epoch": 133.6424649176327,
9589
+ "grad_norm": 4.189979553222656,
9590
+ "learning_rate": 2.1114754098360655e-05,
9591
+ "loss": 0.1922,
9592
+ "step": 27380
9593
+ },
9594
+ {
9595
+ "epoch": 133.74008541793776,
9596
+ "grad_norm": 3.48610782623291,
9597
+ "learning_rate": 2.098360655737705e-05,
9598
+ "loss": 0.1749,
9599
+ "step": 27400
9600
+ },
9601
+ {
9602
+ "epoch": 133.83770591824282,
9603
+ "grad_norm": 3.320037364959717,
9604
+ "learning_rate": 2.0852459016393444e-05,
9605
+ "loss": 0.1886,
9606
+ "step": 27420
9607
+ },
9608
+ {
9609
+ "epoch": 133.9353264185479,
9610
+ "grad_norm": 3.347099781036377,
9611
+ "learning_rate": 2.0721311475409836e-05,
9612
+ "loss": 0.1717,
9613
+ "step": 27440
9614
+ },
9615
+ {
9616
+ "epoch": 134.03294691885296,
9617
+ "grad_norm": 2.9406418800354004,
9618
+ "learning_rate": 2.059016393442623e-05,
9619
+ "loss": 0.1702,
9620
+ "step": 27460
9621
+ },
9622
+ {
9623
+ "epoch": 134.130567419158,
9624
+ "grad_norm": 2.3794620037078857,
9625
+ "learning_rate": 2.0459016393442622e-05,
9626
+ "loss": 0.1872,
9627
+ "step": 27480
9628
+ },
9629
+ {
9630
+ "epoch": 134.2281879194631,
9631
+ "grad_norm": 3.1150660514831543,
9632
+ "learning_rate": 2.0327868852459018e-05,
9633
+ "loss": 0.2023,
9634
+ "step": 27500
9635
+ },
9636
+ {
9637
+ "epoch": 134.32580841976815,
9638
+ "grad_norm": 3.679694414138794,
9639
+ "learning_rate": 2.019672131147541e-05,
9640
+ "loss": 0.1858,
9641
+ "step": 27520
9642
+ },
9643
+ {
9644
+ "epoch": 134.4234289200732,
9645
+ "grad_norm": 2.665882110595703,
9646
+ "learning_rate": 2.0065573770491804e-05,
9647
+ "loss": 0.1782,
9648
+ "step": 27540
9649
+ },
9650
+ {
9651
+ "epoch": 134.5210494203783,
9652
+ "grad_norm": 3.0053212642669678,
9653
+ "learning_rate": 1.99344262295082e-05,
9654
+ "loss": 0.1773,
9655
+ "step": 27560
9656
+ },
9657
+ {
9658
+ "epoch": 134.61866992068335,
9659
+ "grad_norm": 2.689307451248169,
9660
+ "learning_rate": 1.980327868852459e-05,
9661
+ "loss": 0.1588,
9662
+ "step": 27580
9663
+ },
9664
+ {
9665
+ "epoch": 134.7162904209884,
9666
+ "grad_norm": 4.318088054656982,
9667
+ "learning_rate": 1.9672131147540985e-05,
9668
+ "loss": 0.1436,
9669
+ "step": 27600
9670
+ },
9671
+ {
9672
+ "epoch": 134.81391092129348,
9673
+ "grad_norm": 3.3378102779388428,
9674
+ "learning_rate": 1.9540983606557378e-05,
9675
+ "loss": 0.1919,
9676
+ "step": 27620
9677
+ },
9678
+ {
9679
+ "epoch": 134.91153142159854,
9680
+ "grad_norm": 3.2355871200561523,
9681
+ "learning_rate": 1.940983606557377e-05,
9682
+ "loss": 0.1828,
9683
+ "step": 27640
9684
+ },
9685
+ {
9686
+ "epoch": 135.0091519219036,
9687
+ "grad_norm": 3.1335229873657227,
9688
+ "learning_rate": 1.9278688524590167e-05,
9689
+ "loss": 0.1982,
9690
+ "step": 27660
9691
+ },
9692
+ {
9693
+ "epoch": 135.10677242220865,
9694
+ "grad_norm": 4.066319465637207,
9695
+ "learning_rate": 1.9147540983606556e-05,
9696
+ "loss": 0.1526,
9697
+ "step": 27680
9698
+ },
9699
+ {
9700
+ "epoch": 135.20439292251373,
9701
+ "grad_norm": 3.631089925765991,
9702
+ "learning_rate": 1.9016393442622952e-05,
9703
+ "loss": 0.1776,
9704
+ "step": 27700
9705
+ },
9706
+ {
9707
+ "epoch": 135.3020134228188,
9708
+ "grad_norm": 3.5840327739715576,
9709
+ "learning_rate": 1.8885245901639345e-05,
9710
+ "loss": 0.1922,
9711
+ "step": 27720
9712
+ },
9713
+ {
9714
+ "epoch": 135.39963392312384,
9715
+ "grad_norm": 2.926558256149292,
9716
+ "learning_rate": 1.8754098360655738e-05,
9717
+ "loss": 0.1847,
9718
+ "step": 27740
9719
+ },
9720
+ {
9721
+ "epoch": 135.49725442342893,
9722
+ "grad_norm": 4.487957000732422,
9723
+ "learning_rate": 1.8622950819672134e-05,
9724
+ "loss": 0.1896,
9725
+ "step": 27760
9726
+ },
9727
+ {
9728
+ "epoch": 135.59487492373398,
9729
+ "grad_norm": 3.209500789642334,
9730
+ "learning_rate": 1.8491803278688523e-05,
9731
+ "loss": 0.1827,
9732
+ "step": 27780
9733
+ },
9734
+ {
9735
+ "epoch": 135.69249542403904,
9736
+ "grad_norm": 2.8735058307647705,
9737
+ "learning_rate": 1.836065573770492e-05,
9738
+ "loss": 0.1671,
9739
+ "step": 27800
9740
+ },
9741
+ {
9742
+ "epoch": 135.79011592434412,
9743
+ "grad_norm": 3.221266508102417,
9744
+ "learning_rate": 1.8229508196721312e-05,
9745
+ "loss": 0.1861,
9746
+ "step": 27820
9747
+ },
9748
+ {
9749
+ "epoch": 135.88773642464918,
9750
+ "grad_norm": 3.1269659996032715,
9751
+ "learning_rate": 1.8098360655737705e-05,
9752
+ "loss": 0.1857,
9753
+ "step": 27840
9754
+ },
9755
+ {
9756
+ "epoch": 135.98535692495423,
9757
+ "grad_norm": 3.3478143215179443,
9758
+ "learning_rate": 1.79672131147541e-05,
9759
+ "loss": 0.1853,
9760
+ "step": 27860
9761
+ },
9762
+ {
9763
+ "epoch": 136.08297742525932,
9764
+ "grad_norm": 2.8102643489837646,
9765
+ "learning_rate": 1.7836065573770494e-05,
9766
+ "loss": 0.1691,
9767
+ "step": 27880
9768
+ },
9769
+ {
9770
+ "epoch": 136.18059792556437,
9771
+ "grad_norm": 2.9172909259796143,
9772
+ "learning_rate": 1.7704918032786887e-05,
9773
+ "loss": 0.1805,
9774
+ "step": 27900
9775
+ },
9776
+ {
9777
+ "epoch": 136.27821842586943,
9778
+ "grad_norm": 3.6803557872772217,
9779
+ "learning_rate": 1.757377049180328e-05,
9780
+ "loss": 0.1808,
9781
+ "step": 27920
9782
+ },
9783
+ {
9784
+ "epoch": 136.3758389261745,
9785
+ "grad_norm": 3.6122121810913086,
9786
+ "learning_rate": 1.7442622950819672e-05,
9787
+ "loss": 0.1825,
9788
+ "step": 27940
9789
+ },
9790
+ {
9791
+ "epoch": 136.47345942647956,
9792
+ "grad_norm": 2.836901903152466,
9793
+ "learning_rate": 1.731147540983607e-05,
9794
+ "loss": 0.1762,
9795
+ "step": 27960
9796
+ },
9797
+ {
9798
+ "epoch": 136.57107992678462,
9799
+ "grad_norm": 4.931893348693848,
9800
+ "learning_rate": 1.718032786885246e-05,
9801
+ "loss": 0.2097,
9802
+ "step": 27980
9803
+ },
9804
+ {
9805
+ "epoch": 136.66870042708968,
9806
+ "grad_norm": 3.634223461151123,
9807
+ "learning_rate": 1.7049180327868854e-05,
9808
+ "loss": 0.1764,
9809
+ "step": 28000
9810
+ },
9811
+ {
9812
+ "epoch": 136.76632092739476,
9813
+ "grad_norm": 4.417370319366455,
9814
+ "learning_rate": 1.6918032786885247e-05,
9815
+ "loss": 0.1695,
9816
+ "step": 28020
9817
+ },
9818
+ {
9819
+ "epoch": 136.8639414276998,
9820
+ "grad_norm": 3.6770431995391846,
9821
+ "learning_rate": 1.678688524590164e-05,
9822
+ "loss": 0.1762,
9823
+ "step": 28040
9824
+ },
9825
+ {
9826
+ "epoch": 136.96156192800487,
9827
+ "grad_norm": 3.134272813796997,
9828
+ "learning_rate": 1.6655737704918036e-05,
9829
+ "loss": 0.1603,
9830
+ "step": 28060
9831
+ },
9832
+ {
9833
+ "epoch": 137.05918242830995,
9834
+ "grad_norm": 3.993882179260254,
9835
+ "learning_rate": 1.6524590163934428e-05,
9836
+ "loss": 0.1927,
9837
+ "step": 28080
9838
+ },
9839
+ {
9840
+ "epoch": 137.156802928615,
9841
+ "grad_norm": 3.1614527702331543,
9842
+ "learning_rate": 1.6393442622950818e-05,
9843
+ "loss": 0.1739,
9844
+ "step": 28100
9845
+ },
9846
+ {
9847
+ "epoch": 137.25442342892006,
9848
+ "grad_norm": 2.9293642044067383,
9849
+ "learning_rate": 1.6262295081967214e-05,
9850
+ "loss": 0.1916,
9851
+ "step": 28120
9852
+ },
9853
+ {
9854
+ "epoch": 137.35204392922515,
9855
+ "grad_norm": 3.292917251586914,
9856
+ "learning_rate": 1.6131147540983607e-05,
9857
+ "loss": 0.1638,
9858
+ "step": 28140
9859
+ },
9860
+ {
9861
+ "epoch": 137.4496644295302,
9862
+ "grad_norm": 3.048471212387085,
9863
+ "learning_rate": 1.6000000000000003e-05,
9864
+ "loss": 0.1877,
9865
+ "step": 28160
9866
+ },
9867
+ {
9868
+ "epoch": 137.54728492983526,
9869
+ "grad_norm": 3.398252487182617,
9870
+ "learning_rate": 1.5868852459016395e-05,
9871
+ "loss": 0.1685,
9872
+ "step": 28180
9873
+ },
9874
+ {
9875
+ "epoch": 137.64490543014034,
9876
+ "grad_norm": 3.906764268875122,
9877
+ "learning_rate": 1.5737704918032788e-05,
9878
+ "loss": 0.1772,
9879
+ "step": 28200
9880
+ },
9881
+ {
9882
+ "epoch": 137.7425259304454,
9883
+ "grad_norm": 3.1852598190307617,
9884
+ "learning_rate": 1.560655737704918e-05,
9885
+ "loss": 0.168,
9886
+ "step": 28220
9887
+ },
9888
+ {
9889
+ "epoch": 137.84014643075045,
9890
+ "grad_norm": 2.9285385608673096,
9891
+ "learning_rate": 1.5475409836065574e-05,
9892
+ "loss": 0.1733,
9893
+ "step": 28240
9894
+ },
9895
+ {
9896
+ "epoch": 137.93776693105553,
9897
+ "grad_norm": 3.9846913814544678,
9898
+ "learning_rate": 1.5344262295081966e-05,
9899
+ "loss": 0.1906,
9900
+ "step": 28260
9901
+ },
9902
+ {
9903
+ "epoch": 138.0353874313606,
9904
+ "grad_norm": 3.3251185417175293,
9905
+ "learning_rate": 1.5213114754098363e-05,
9906
+ "loss": 0.1872,
9907
+ "step": 28280
9908
+ },
9909
+ {
9910
+ "epoch": 138.13300793166565,
9911
+ "grad_norm": 3.7904114723205566,
9912
+ "learning_rate": 1.5081967213114755e-05,
9913
+ "loss": 0.1811,
9914
+ "step": 28300
9915
+ },
9916
+ {
9917
+ "epoch": 138.2306284319707,
9918
+ "grad_norm": 3.5363810062408447,
9919
+ "learning_rate": 1.4950819672131146e-05,
9920
+ "loss": 0.1803,
9921
+ "step": 28320
9922
+ },
9923
+ {
9924
+ "epoch": 138.32824893227578,
9925
+ "grad_norm": 3.430577516555786,
9926
+ "learning_rate": 1.481967213114754e-05,
9927
+ "loss": 0.1619,
9928
+ "step": 28340
9929
+ },
9930
+ {
9931
+ "epoch": 138.42586943258084,
9932
+ "grad_norm": 3.1190154552459717,
9933
+ "learning_rate": 1.4688524590163935e-05,
9934
+ "loss": 0.1909,
9935
+ "step": 28360
9936
+ },
9937
+ {
9938
+ "epoch": 138.5234899328859,
9939
+ "grad_norm": 2.656212091445923,
9940
+ "learning_rate": 1.455737704918033e-05,
9941
+ "loss": 0.1682,
9942
+ "step": 28380
9943
+ },
9944
+ {
9945
+ "epoch": 138.62111043319098,
9946
+ "grad_norm": 3.1637041568756104,
9947
+ "learning_rate": 1.4426229508196722e-05,
9948
+ "loss": 0.1729,
9949
+ "step": 28400
9950
+ },
9951
+ {
9952
+ "epoch": 138.71873093349603,
9953
+ "grad_norm": 3.313136100769043,
9954
+ "learning_rate": 1.4295081967213114e-05,
9955
+ "loss": 0.1853,
9956
+ "step": 28420
9957
+ },
9958
+ {
9959
+ "epoch": 138.8163514338011,
9960
+ "grad_norm": 3.63885498046875,
9961
+ "learning_rate": 1.4163934426229508e-05,
9962
+ "loss": 0.1783,
9963
+ "step": 28440
9964
+ },
9965
+ {
9966
+ "epoch": 138.91397193410617,
9967
+ "grad_norm": 4.251205921173096,
9968
+ "learning_rate": 1.4032786885245902e-05,
9969
+ "loss": 0.1703,
9970
+ "step": 28460
9971
+ },
9972
+ {
9973
+ "epoch": 139.01159243441123,
9974
+ "grad_norm": 3.76887583732605,
9975
+ "learning_rate": 1.3901639344262297e-05,
9976
+ "loss": 0.1871,
9977
+ "step": 28480
9978
+ },
9979
+ {
9980
+ "epoch": 139.10921293471628,
9981
+ "grad_norm": 3.2986671924591064,
9982
+ "learning_rate": 1.377049180327869e-05,
9983
+ "loss": 0.1728,
9984
+ "step": 28500
9985
+ },
9986
+ {
9987
+ "epoch": 139.20683343502137,
9988
+ "grad_norm": 2.5212690830230713,
9989
+ "learning_rate": 1.3639344262295084e-05,
9990
+ "loss": 0.175,
9991
+ "step": 28520
9992
+ },
9993
+ {
9994
+ "epoch": 139.30445393532642,
9995
+ "grad_norm": 4.492109298706055,
9996
+ "learning_rate": 1.3508196721311475e-05,
9997
+ "loss": 0.1838,
9998
+ "step": 28540
9999
+ },
10000
+ {
10001
+ "epoch": 139.40207443563148,
10002
+ "grad_norm": 3.0226120948791504,
10003
+ "learning_rate": 1.337704918032787e-05,
10004
+ "loss": 0.1753,
10005
+ "step": 28560
10006
+ },
10007
+ {
10008
+ "epoch": 139.49969493593656,
10009
+ "grad_norm": 2.4843361377716064,
10010
+ "learning_rate": 1.3245901639344262e-05,
10011
+ "loss": 0.1915,
10012
+ "step": 28580
10013
+ },
10014
+ {
10015
+ "epoch": 139.59731543624162,
10016
+ "grad_norm": 3.4304590225219727,
10017
+ "learning_rate": 1.3114754098360657e-05,
10018
+ "loss": 0.1703,
10019
+ "step": 28600
10020
+ },
10021
+ {
10022
+ "epoch": 139.69493593654667,
10023
+ "grad_norm": 3.242751121520996,
10024
+ "learning_rate": 1.2983606557377051e-05,
10025
+ "loss": 0.176,
10026
+ "step": 28620
10027
+ },
10028
+ {
10029
+ "epoch": 139.79255643685173,
10030
+ "grad_norm": 3.2713284492492676,
10031
+ "learning_rate": 1.2852459016393442e-05,
10032
+ "loss": 0.1838,
10033
+ "step": 28640
10034
+ },
10035
+ {
10036
+ "epoch": 139.8901769371568,
10037
+ "grad_norm": 2.9921929836273193,
10038
+ "learning_rate": 1.2721311475409837e-05,
10039
+ "loss": 0.1764,
10040
+ "step": 28660
10041
+ },
10042
+ {
10043
+ "epoch": 139.98779743746186,
10044
+ "grad_norm": 3.6933350563049316,
10045
+ "learning_rate": 1.259016393442623e-05,
10046
+ "loss": 0.1803,
10047
+ "step": 28680
10048
+ },
10049
+ {
10050
+ "epoch": 140.08541793776692,
10051
+ "grad_norm": 2.947892665863037,
10052
+ "learning_rate": 1.2459016393442624e-05,
10053
+ "loss": 0.1732,
10054
+ "step": 28700
10055
+ },
10056
+ {
10057
+ "epoch": 140.183038438072,
10058
+ "grad_norm": 3.5047738552093506,
10059
+ "learning_rate": 1.2327868852459017e-05,
10060
+ "loss": 0.1751,
10061
+ "step": 28720
10062
+ },
10063
+ {
10064
+ "epoch": 140.28065893837706,
10065
+ "grad_norm": 2.9315600395202637,
10066
+ "learning_rate": 1.2196721311475411e-05,
10067
+ "loss": 0.1879,
10068
+ "step": 28740
10069
+ },
10070
+ {
10071
+ "epoch": 140.3782794386821,
10072
+ "grad_norm": 3.6878082752227783,
10073
+ "learning_rate": 1.2065573770491804e-05,
10074
+ "loss": 0.1551,
10075
+ "step": 28760
10076
+ },
10077
+ {
10078
+ "epoch": 140.4758999389872,
10079
+ "grad_norm": 3.2162342071533203,
10080
+ "learning_rate": 1.1934426229508197e-05,
10081
+ "loss": 0.183,
10082
+ "step": 28780
10083
+ },
10084
+ {
10085
+ "epoch": 140.57352043929225,
10086
+ "grad_norm": 3.6583456993103027,
10087
+ "learning_rate": 1.1803278688524591e-05,
10088
+ "loss": 0.1784,
10089
+ "step": 28800
10090
+ },
10091
+ {
10092
+ "epoch": 140.6711409395973,
10093
+ "grad_norm": 2.780412435531616,
10094
+ "learning_rate": 1.1672131147540984e-05,
10095
+ "loss": 0.1885,
10096
+ "step": 28820
10097
+ },
10098
+ {
10099
+ "epoch": 140.7687614399024,
10100
+ "grad_norm": 2.3773672580718994,
10101
+ "learning_rate": 1.1540983606557378e-05,
10102
+ "loss": 0.1611,
10103
+ "step": 28840
10104
+ },
10105
+ {
10106
+ "epoch": 140.86638194020745,
10107
+ "grad_norm": 3.6276142597198486,
10108
+ "learning_rate": 1.1409836065573771e-05,
10109
+ "loss": 0.1806,
10110
+ "step": 28860
10111
+ },
10112
+ {
10113
+ "epoch": 140.9640024405125,
10114
+ "grad_norm": 3.3313121795654297,
10115
+ "learning_rate": 1.1278688524590164e-05,
10116
+ "loss": 0.1741,
10117
+ "step": 28880
10118
+ },
10119
+ {
10120
+ "epoch": 141.06162294081759,
10121
+ "grad_norm": 3.1109941005706787,
10122
+ "learning_rate": 1.1147540983606558e-05,
10123
+ "loss": 0.1747,
10124
+ "step": 28900
10125
+ },
10126
+ {
10127
+ "epoch": 141.15924344112264,
10128
+ "grad_norm": 2.3083291053771973,
10129
+ "learning_rate": 1.1016393442622953e-05,
10130
+ "loss": 0.16,
10131
+ "step": 28920
10132
+ },
10133
+ {
10134
+ "epoch": 141.2568639414277,
10135
+ "grad_norm": 3.6427536010742188,
10136
+ "learning_rate": 1.0885245901639344e-05,
10137
+ "loss": 0.1792,
10138
+ "step": 28940
10139
+ },
10140
+ {
10141
+ "epoch": 141.35448444173275,
10142
+ "grad_norm": 3.2836146354675293,
10143
+ "learning_rate": 1.0754098360655738e-05,
10144
+ "loss": 0.1921,
10145
+ "step": 28960
10146
+ },
10147
+ {
10148
+ "epoch": 141.45210494203783,
10149
+ "grad_norm": 3.712411642074585,
10150
+ "learning_rate": 1.0622950819672131e-05,
10151
+ "loss": 0.1834,
10152
+ "step": 28980
10153
+ },
10154
+ {
10155
+ "epoch": 141.5497254423429,
10156
+ "grad_norm": 2.6064016819000244,
10157
+ "learning_rate": 1.0491803278688525e-05,
10158
+ "loss": 0.1975,
10159
+ "step": 29000
10160
+ },
10161
+ {
10162
+ "epoch": 141.64734594264795,
10163
+ "grad_norm": 3.3907470703125,
10164
+ "learning_rate": 1.0360655737704918e-05,
10165
+ "loss": 0.172,
10166
+ "step": 29020
10167
+ },
10168
+ {
10169
+ "epoch": 141.74496644295303,
10170
+ "grad_norm": 3.0713050365448,
10171
+ "learning_rate": 1.0229508196721311e-05,
10172
+ "loss": 0.1547,
10173
+ "step": 29040
10174
+ },
10175
+ {
10176
+ "epoch": 141.84258694325808,
10177
+ "grad_norm": 5.218588352203369,
10178
+ "learning_rate": 1.0098360655737705e-05,
10179
+ "loss": 0.1712,
10180
+ "step": 29060
10181
+ },
10182
+ {
10183
+ "epoch": 141.94020744356314,
10184
+ "grad_norm": 3.205132007598877,
10185
+ "learning_rate": 9.9672131147541e-06,
10186
+ "loss": 0.1629,
10187
+ "step": 29080
10188
+ },
10189
+ {
10190
+ "epoch": 142.03782794386822,
10191
+ "grad_norm": 3.580003499984741,
10192
+ "learning_rate": 9.836065573770493e-06,
10193
+ "loss": 0.1877,
10194
+ "step": 29100
10195
+ },
10196
+ {
10197
+ "epoch": 142.13544844417328,
10198
+ "grad_norm": 3.393789529800415,
10199
+ "learning_rate": 9.704918032786885e-06,
10200
+ "loss": 0.1928,
10201
+ "step": 29120
10202
+ },
10203
+ {
10204
+ "epoch": 142.23306894447833,
10205
+ "grad_norm": 2.592445135116577,
10206
+ "learning_rate": 9.573770491803278e-06,
10207
+ "loss": 0.1638,
10208
+ "step": 29140
10209
+ },
10210
+ {
10211
+ "epoch": 142.33068944478342,
10212
+ "grad_norm": 4.577868938446045,
10213
+ "learning_rate": 9.442622950819673e-06,
10214
+ "loss": 0.1868,
10215
+ "step": 29160
10216
+ },
10217
+ {
10218
+ "epoch": 142.42830994508847,
10219
+ "grad_norm": 3.1620144844055176,
10220
+ "learning_rate": 9.311475409836067e-06,
10221
+ "loss": 0.1635,
10222
+ "step": 29180
10223
+ },
10224
+ {
10225
+ "epoch": 142.52593044539353,
10226
+ "grad_norm": 3.382749319076538,
10227
+ "learning_rate": 9.18032786885246e-06,
10228
+ "loss": 0.1469,
10229
+ "step": 29200
10230
+ },
10231
+ {
10232
+ "epoch": 142.6235509456986,
10233
+ "grad_norm": 3.314983606338501,
10234
+ "learning_rate": 9.049180327868853e-06,
10235
+ "loss": 0.1719,
10236
+ "step": 29220
10237
+ },
10238
+ {
10239
+ "epoch": 142.72117144600367,
10240
+ "grad_norm": 2.643578290939331,
10241
+ "learning_rate": 8.918032786885247e-06,
10242
+ "loss": 0.1587,
10243
+ "step": 29240
10244
+ },
10245
+ {
10246
+ "epoch": 142.81879194630872,
10247
+ "grad_norm": 2.4660592079162598,
10248
+ "learning_rate": 8.78688524590164e-06,
10249
+ "loss": 0.2031,
10250
+ "step": 29260
10251
+ },
10252
+ {
10253
+ "epoch": 142.91641244661378,
10254
+ "grad_norm": 3.2867209911346436,
10255
+ "learning_rate": 8.655737704918034e-06,
10256
+ "loss": 0.1679,
10257
+ "step": 29280
10258
+ },
10259
+ {
10260
+ "epoch": 143.01403294691886,
10261
+ "grad_norm": 3.2089104652404785,
10262
+ "learning_rate": 8.524590163934427e-06,
10263
+ "loss": 0.171,
10264
+ "step": 29300
10265
+ },
10266
+ {
10267
+ "epoch": 143.11165344722392,
10268
+ "grad_norm": 2.9183740615844727,
10269
+ "learning_rate": 8.39344262295082e-06,
10270
+ "loss": 0.1642,
10271
+ "step": 29320
10272
+ },
10273
+ {
10274
+ "epoch": 143.20927394752897,
10275
+ "grad_norm": 2.9158482551574707,
10276
+ "learning_rate": 8.262295081967214e-06,
10277
+ "loss": 0.1743,
10278
+ "step": 29340
10279
+ },
10280
+ {
10281
+ "epoch": 143.30689444783405,
10282
+ "grad_norm": 3.256065607070923,
10283
+ "learning_rate": 8.131147540983607e-06,
10284
+ "loss": 0.1816,
10285
+ "step": 29360
10286
+ },
10287
+ {
10288
+ "epoch": 143.4045149481391,
10289
+ "grad_norm": 2.916098117828369,
10290
+ "learning_rate": 8.000000000000001e-06,
10291
+ "loss": 0.1575,
10292
+ "step": 29380
10293
+ },
10294
+ {
10295
+ "epoch": 143.50213544844416,
10296
+ "grad_norm": 3.414485454559326,
10297
+ "learning_rate": 7.868852459016394e-06,
10298
+ "loss": 0.1584,
10299
+ "step": 29400
10300
+ },
10301
+ {
10302
+ "epoch": 143.59975594874925,
10303
+ "grad_norm": 3.5028018951416016,
10304
+ "learning_rate": 7.737704918032787e-06,
10305
+ "loss": 0.1731,
10306
+ "step": 29420
10307
+ },
10308
+ {
10309
+ "epoch": 143.6973764490543,
10310
+ "grad_norm": 2.7573652267456055,
10311
+ "learning_rate": 7.606557377049181e-06,
10312
+ "loss": 0.1848,
10313
+ "step": 29440
10314
+ },
10315
+ {
10316
+ "epoch": 143.79499694935936,
10317
+ "grad_norm": 3.1906893253326416,
10318
+ "learning_rate": 7.475409836065573e-06,
10319
+ "loss": 0.1842,
10320
+ "step": 29460
10321
+ },
10322
+ {
10323
+ "epoch": 143.89261744966444,
10324
+ "grad_norm": 2.384742021560669,
10325
+ "learning_rate": 7.344262295081968e-06,
10326
+ "loss": 0.1852,
10327
+ "step": 29480
10328
+ },
10329
+ {
10330
+ "epoch": 143.9902379499695,
10331
+ "grad_norm": 3.7481918334960938,
10332
+ "learning_rate": 7.213114754098361e-06,
10333
+ "loss": 0.1794,
10334
+ "step": 29500
10335
+ },
10336
+ {
10337
+ "epoch": 144.08785845027455,
10338
+ "grad_norm": 2.903989791870117,
10339
+ "learning_rate": 7.081967213114754e-06,
10340
+ "loss": 0.1745,
10341
+ "step": 29520
10342
+ },
10343
+ {
10344
+ "epoch": 144.1854789505796,
10345
+ "grad_norm": 3.4449713230133057,
10346
+ "learning_rate": 6.9508196721311484e-06,
10347
+ "loss": 0.1874,
10348
+ "step": 29540
10349
+ },
10350
+ {
10351
+ "epoch": 144.2830994508847,
10352
+ "grad_norm": 2.9290127754211426,
10353
+ "learning_rate": 6.819672131147542e-06,
10354
+ "loss": 0.1736,
10355
+ "step": 29560
10356
+ },
10357
+ {
10358
+ "epoch": 144.38071995118975,
10359
+ "grad_norm": 2.805908203125,
10360
+ "learning_rate": 6.688524590163935e-06,
10361
+ "loss": 0.187,
10362
+ "step": 29580
10363
+ },
10364
+ {
10365
+ "epoch": 144.4783404514948,
10366
+ "grad_norm": 2.9539241790771484,
10367
+ "learning_rate": 6.557377049180328e-06,
10368
+ "loss": 0.1856,
10369
+ "step": 29600
10370
+ },
10371
+ {
10372
+ "epoch": 144.57596095179989,
10373
+ "grad_norm": 2.8198204040527344,
10374
+ "learning_rate": 6.426229508196721e-06,
10375
+ "loss": 0.1733,
10376
+ "step": 29620
10377
+ },
10378
+ {
10379
+ "epoch": 144.67358145210494,
10380
+ "grad_norm": 3.3926849365234375,
10381
+ "learning_rate": 6.295081967213115e-06,
10382
+ "loss": 0.18,
10383
+ "step": 29640
10384
+ },
10385
+ {
10386
+ "epoch": 144.77120195241,
10387
+ "grad_norm": 4.100579261779785,
10388
+ "learning_rate": 6.163934426229508e-06,
10389
+ "loss": 0.1568,
10390
+ "step": 29660
10391
+ },
10392
+ {
10393
+ "epoch": 144.86882245271508,
10394
+ "grad_norm": 3.2875492572784424,
10395
+ "learning_rate": 6.032786885245902e-06,
10396
+ "loss": 0.1561,
10397
+ "step": 29680
10398
+ },
10399
+ {
10400
+ "epoch": 144.96644295302013,
10401
+ "grad_norm": 2.626185417175293,
10402
+ "learning_rate": 5.9016393442622956e-06,
10403
+ "loss": 0.1714,
10404
+ "step": 29700
10405
+ },
10406
+ {
10407
+ "epoch": 145.0640634533252,
10408
+ "grad_norm": 4.3447265625,
10409
+ "learning_rate": 5.770491803278689e-06,
10410
+ "loss": 0.1951,
10411
+ "step": 29720
10412
+ },
10413
+ {
10414
+ "epoch": 145.16168395363027,
10415
+ "grad_norm": 4.056821346282959,
10416
+ "learning_rate": 5.639344262295082e-06,
10417
+ "loss": 0.1621,
10418
+ "step": 29740
10419
+ },
10420
+ {
10421
+ "epoch": 145.25930445393533,
10422
+ "grad_norm": 3.4116666316986084,
10423
+ "learning_rate": 5.508196721311476e-06,
10424
+ "loss": 0.179,
10425
+ "step": 29760
10426
+ },
10427
+ {
10428
+ "epoch": 145.35692495424038,
10429
+ "grad_norm": 2.810452699661255,
10430
+ "learning_rate": 5.377049180327869e-06,
10431
+ "loss": 0.1723,
10432
+ "step": 29780
10433
+ },
10434
+ {
10435
+ "epoch": 145.45454545454547,
10436
+ "grad_norm": 3.708115816116333,
10437
+ "learning_rate": 5.245901639344263e-06,
10438
+ "loss": 0.1675,
10439
+ "step": 29800
10440
+ },
10441
+ {
10442
+ "epoch": 145.55216595485052,
10443
+ "grad_norm": 4.000546455383301,
10444
+ "learning_rate": 5.1147540983606555e-06,
10445
+ "loss": 0.1716,
10446
+ "step": 29820
10447
+ },
10448
+ {
10449
+ "epoch": 145.64978645515558,
10450
+ "grad_norm": 3.2421109676361084,
10451
+ "learning_rate": 4.98360655737705e-06,
10452
+ "loss": 0.1656,
10453
+ "step": 29840
10454
+ },
10455
+ {
10456
+ "epoch": 145.74740695546063,
10457
+ "grad_norm": 3.13706111907959,
10458
+ "learning_rate": 4.852459016393443e-06,
10459
+ "loss": 0.1822,
10460
+ "step": 29860
10461
+ },
10462
+ {
10463
+ "epoch": 145.84502745576572,
10464
+ "grad_norm": 3.364842176437378,
10465
+ "learning_rate": 4.721311475409836e-06,
10466
+ "loss": 0.1772,
10467
+ "step": 29880
10468
+ },
10469
+ {
10470
+ "epoch": 145.94264795607077,
10471
+ "grad_norm": 3.2013063430786133,
10472
+ "learning_rate": 4.59016393442623e-06,
10473
+ "loss": 0.1717,
10474
+ "step": 29900
10475
+ },
10476
+ {
10477
+ "epoch": 146.04026845637583,
10478
+ "grad_norm": 4.174123287200928,
10479
+ "learning_rate": 4.4590163934426235e-06,
10480
+ "loss": 0.1731,
10481
+ "step": 29920
10482
+ },
10483
+ {
10484
+ "epoch": 146.1378889566809,
10485
+ "grad_norm": 2.8885281085968018,
10486
+ "learning_rate": 4.327868852459017e-06,
10487
+ "loss": 0.1421,
10488
+ "step": 29940
10489
+ },
10490
+ {
10491
+ "epoch": 146.23550945698597,
10492
+ "grad_norm": 2.6078240871429443,
10493
+ "learning_rate": 4.19672131147541e-06,
10494
+ "loss": 0.1898,
10495
+ "step": 29960
10496
+ },
10497
+ {
10498
+ "epoch": 146.33312995729102,
10499
+ "grad_norm": 4.43600606918335,
10500
+ "learning_rate": 4.0655737704918034e-06,
10501
+ "loss": 0.1787,
10502
+ "step": 29980
10503
+ },
10504
+ {
10505
+ "epoch": 146.4307504575961,
10506
+ "grad_norm": 2.9905123710632324,
10507
+ "learning_rate": 3.934426229508197e-06,
10508
+ "loss": 0.1866,
10509
+ "step": 30000
10510
  }
10511
  ],
10512
  "logging_steps": 20,
 
10526
  "attributes": {}
10527
  }
10528
  },
10529
+ "total_flos": 3.859765296186163e+17,
10530
  "train_batch_size": 1,
10531
  "trial_name": null,
10532
  "trial_params": null