eageringdev commited on
Commit
d084300
·
verified ·
1 Parent(s): c31089a

Training in progress, step 1472, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c14477c439a945f86211657f7e4349f974df07c5853128cffa0a6abbc103b4f5
3
  size 144805440
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:199cdffee86eb37719656ecd5540378d5c9749f011284f740afd8b8bde9f425e
3
  size 144805440
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c5ab6beef80cd7fb59a9c90acc5cce59b00f24fbaa249f3e569717faffa7b653
3
  size 74292308
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d1c5c452f5bc6e446e4ebb411c36774631978965e1fd9ae5181b64d85dfed0f3
3
  size 74292308
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c8efa930a9c9cb068a49f0d425053395984a2e165a94288033fccee6e5cde4d8
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c6b81d6d271fca7a7f5d3e20c893651caf32f09b2ab3622300e7e002882bb168
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:cde2d36e902d746027cc06d5b473736c7fe110d40a364346bbeac42ea4778a3d
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ed371e0f8322f8f9632fd410d79b3b44054937f0f8ef4428d1d8675a960ce27d
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.07263516291922299,
5
  "eval_steps": 500,
6
- "global_step": 1104,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -7735,6 +7735,2582 @@
7735
  "learning_rate": 1.4739429690090533e-05,
7736
  "loss": 1.6115,
7737
  "step": 1104
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7738
  }
7739
  ],
7740
  "logging_steps": 1,
@@ -7749,12 +10325,12 @@
7749
  "should_evaluate": false,
7750
  "should_log": false,
7751
  "should_save": true,
7752
- "should_training_stop": false
7753
  },
7754
  "attributes": {}
7755
  }
7756
  },
7757
- "total_flos": 1.430555906373845e+18,
7758
  "train_batch_size": 4,
7759
  "trial_name": null,
7760
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.09684688389229731,
5
  "eval_steps": 500,
6
+ "global_step": 1472,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
7735
  "learning_rate": 1.4739429690090533e-05,
7736
  "loss": 1.6115,
7737
  "step": 1104
7738
+ },
7739
+ {
7740
+ "epoch": 0.07270095563925852,
7741
+ "grad_norm": 0.5422717928886414,
7742
+ "learning_rate": 1.4663594444569667e-05,
7743
+ "loss": 1.5951,
7744
+ "step": 1105
7745
+ },
7746
+ {
7747
+ "epoch": 0.07276674835929405,
7748
+ "grad_norm": 0.5676501989364624,
7749
+ "learning_rate": 1.4587921253782849e-05,
7750
+ "loss": 1.6266,
7751
+ "step": 1106
7752
+ },
7753
+ {
7754
+ "epoch": 0.07283254107932957,
7755
+ "grad_norm": 0.5662168264389038,
7756
+ "learning_rate": 1.4512410464771514e-05,
7757
+ "loss": 1.6486,
7758
+ "step": 1107
7759
+ },
7760
+ {
7761
+ "epoch": 0.0728983337993651,
7762
+ "grad_norm": 0.5962639451026917,
7763
+ "learning_rate": 1.4437062423832426e-05,
7764
+ "loss": 1.8598,
7765
+ "step": 1108
7766
+ },
7767
+ {
7768
+ "epoch": 0.07296412651940062,
7769
+ "grad_norm": 0.6214326620101929,
7770
+ "learning_rate": 1.4361877476515889e-05,
7771
+ "loss": 1.5881,
7772
+ "step": 1109
7773
+ },
7774
+ {
7775
+ "epoch": 0.07302991923943615,
7776
+ "grad_norm": 0.5972443222999573,
7777
+ "learning_rate": 1.428685596762429e-05,
7778
+ "loss": 1.6234,
7779
+ "step": 1110
7780
+ },
7781
+ {
7782
+ "epoch": 0.07309571195947169,
7783
+ "grad_norm": 0.5804590582847595,
7784
+ "learning_rate": 1.4211998241210484e-05,
7785
+ "loss": 1.7503,
7786
+ "step": 1111
7787
+ },
7788
+ {
7789
+ "epoch": 0.07316150467950722,
7790
+ "grad_norm": 0.6213569045066833,
7791
+ "learning_rate": 1.413730464057616e-05,
7792
+ "loss": 1.6576,
7793
+ "step": 1112
7794
+ },
7795
+ {
7796
+ "epoch": 0.07322729739954274,
7797
+ "grad_norm": 0.6171157360076904,
7798
+ "learning_rate": 1.406277550827037e-05,
7799
+ "loss": 1.6889,
7800
+ "step": 1113
7801
+ },
7802
+ {
7803
+ "epoch": 0.07329309011957827,
7804
+ "grad_norm": 0.63736891746521,
7805
+ "learning_rate": 1.3988411186087885e-05,
7806
+ "loss": 1.5542,
7807
+ "step": 1114
7808
+ },
7809
+ {
7810
+ "epoch": 0.0733588828396138,
7811
+ "grad_norm": 0.6111243367195129,
7812
+ "learning_rate": 1.3914212015067651e-05,
7813
+ "loss": 1.6043,
7814
+ "step": 1115
7815
+ },
7816
+ {
7817
+ "epoch": 0.07342467555964932,
7818
+ "grad_norm": 0.6354307532310486,
7819
+ "learning_rate": 1.3840178335491222e-05,
7820
+ "loss": 1.5426,
7821
+ "step": 1116
7822
+ },
7823
+ {
7824
+ "epoch": 0.07349046827968485,
7825
+ "grad_norm": 0.6276394128799438,
7826
+ "learning_rate": 1.376631048688119e-05,
7827
+ "loss": 1.5725,
7828
+ "step": 1117
7829
+ },
7830
+ {
7831
+ "epoch": 0.07355626099972037,
7832
+ "grad_norm": 0.6149314641952515,
7833
+ "learning_rate": 1.3692608807999652e-05,
7834
+ "loss": 1.6483,
7835
+ "step": 1118
7836
+ },
7837
+ {
7838
+ "epoch": 0.07362205371975591,
7839
+ "grad_norm": 0.6823477745056152,
7840
+ "learning_rate": 1.3619073636846625e-05,
7841
+ "loss": 1.6028,
7842
+ "step": 1119
7843
+ },
7844
+ {
7845
+ "epoch": 0.07368784643979144,
7846
+ "grad_norm": 0.6506856083869934,
7847
+ "learning_rate": 1.3545705310658529e-05,
7848
+ "loss": 1.5915,
7849
+ "step": 1120
7850
+ },
7851
+ {
7852
+ "epoch": 0.07375363915982697,
7853
+ "grad_norm": 0.6432639956474304,
7854
+ "learning_rate": 1.3472504165906613e-05,
7855
+ "loss": 1.5872,
7856
+ "step": 1121
7857
+ },
7858
+ {
7859
+ "epoch": 0.0738194318798625,
7860
+ "grad_norm": 0.6213419437408447,
7861
+ "learning_rate": 1.3399470538295434e-05,
7862
+ "loss": 1.5422,
7863
+ "step": 1122
7864
+ },
7865
+ {
7866
+ "epoch": 0.07388522459989802,
7867
+ "grad_norm": 0.6513727903366089,
7868
+ "learning_rate": 1.3326604762761258e-05,
7869
+ "loss": 1.6088,
7870
+ "step": 1123
7871
+ },
7872
+ {
7873
+ "epoch": 0.07395101731993355,
7874
+ "grad_norm": 0.6472317576408386,
7875
+ "learning_rate": 1.3253907173470648e-05,
7876
+ "loss": 1.5638,
7877
+ "step": 1124
7878
+ },
7879
+ {
7880
+ "epoch": 0.07401681003996907,
7881
+ "grad_norm": 0.6375536322593689,
7882
+ "learning_rate": 1.3181378103818814e-05,
7883
+ "loss": 1.4387,
7884
+ "step": 1125
7885
+ },
7886
+ {
7887
+ "epoch": 0.07408260276000461,
7888
+ "grad_norm": 0.6542819738388062,
7889
+ "learning_rate": 1.3109017886428122e-05,
7890
+ "loss": 1.5019,
7891
+ "step": 1126
7892
+ },
7893
+ {
7894
+ "epoch": 0.07414839548004014,
7895
+ "grad_norm": 0.6725215911865234,
7896
+ "learning_rate": 1.30368268531466e-05,
7897
+ "loss": 1.5493,
7898
+ "step": 1127
7899
+ },
7900
+ {
7901
+ "epoch": 0.07421418820007566,
7902
+ "grad_norm": 0.695514976978302,
7903
+ "learning_rate": 1.2964805335046332e-05,
7904
+ "loss": 1.7503,
7905
+ "step": 1128
7906
+ },
7907
+ {
7908
+ "epoch": 0.07427998092011119,
7909
+ "grad_norm": 0.6565685868263245,
7910
+ "learning_rate": 1.2892953662422047e-05,
7911
+ "loss": 1.4902,
7912
+ "step": 1129
7913
+ },
7914
+ {
7915
+ "epoch": 0.07434577364014672,
7916
+ "grad_norm": 0.7066967487335205,
7917
+ "learning_rate": 1.2821272164789544e-05,
7918
+ "loss": 1.5197,
7919
+ "step": 1130
7920
+ },
7921
+ {
7922
+ "epoch": 0.07441156636018224,
7923
+ "grad_norm": 0.686930239200592,
7924
+ "learning_rate": 1.2749761170884179e-05,
7925
+ "loss": 1.596,
7926
+ "step": 1131
7927
+ },
7928
+ {
7929
+ "epoch": 0.07447735908021777,
7930
+ "grad_norm": 0.7322065830230713,
7931
+ "learning_rate": 1.2678421008659375e-05,
7932
+ "loss": 1.5857,
7933
+ "step": 1132
7934
+ },
7935
+ {
7936
+ "epoch": 0.0745431518002533,
7937
+ "grad_norm": 0.6980546116828918,
7938
+ "learning_rate": 1.2607252005285109e-05,
7939
+ "loss": 1.5733,
7940
+ "step": 1133
7941
+ },
7942
+ {
7943
+ "epoch": 0.07460894452028884,
7944
+ "grad_norm": 0.7424272298812866,
7945
+ "learning_rate": 1.2536254487146415e-05,
7946
+ "loss": 1.6048,
7947
+ "step": 1134
7948
+ },
7949
+ {
7950
+ "epoch": 0.07467473724032436,
7951
+ "grad_norm": 0.708510160446167,
7952
+ "learning_rate": 1.2465428779841882e-05,
7953
+ "loss": 1.5323,
7954
+ "step": 1135
7955
+ },
7956
+ {
7957
+ "epoch": 0.07474052996035989,
7958
+ "grad_norm": 0.7060134410858154,
7959
+ "learning_rate": 1.2394775208182174e-05,
7960
+ "loss": 1.5616,
7961
+ "step": 1136
7962
+ },
7963
+ {
7964
+ "epoch": 0.07480632268039542,
7965
+ "grad_norm": 0.7687208652496338,
7966
+ "learning_rate": 1.2324294096188526e-05,
7967
+ "loss": 1.6314,
7968
+ "step": 1137
7969
+ },
7970
+ {
7971
+ "epoch": 0.07487211540043094,
7972
+ "grad_norm": 0.7260802388191223,
7973
+ "learning_rate": 1.2253985767091274e-05,
7974
+ "loss": 1.5503,
7975
+ "step": 1138
7976
+ },
7977
+ {
7978
+ "epoch": 0.07493790812046647,
7979
+ "grad_norm": 0.7328141331672668,
7980
+ "learning_rate": 1.2183850543328312e-05,
7981
+ "loss": 1.5422,
7982
+ "step": 1139
7983
+ },
7984
+ {
7985
+ "epoch": 0.075003700840502,
7986
+ "grad_norm": 0.7931233048439026,
7987
+ "learning_rate": 1.2113888746543738e-05,
7988
+ "loss": 1.4909,
7989
+ "step": 1140
7990
+ },
7991
+ {
7992
+ "epoch": 0.07506949356053752,
7993
+ "grad_norm": 0.7329046130180359,
7994
+ "learning_rate": 1.2044100697586263e-05,
7995
+ "loss": 1.4206,
7996
+ "step": 1141
7997
+ },
7998
+ {
7999
+ "epoch": 0.07513528628057306,
8000
+ "grad_norm": 0.8105408549308777,
8001
+ "learning_rate": 1.1974486716507783e-05,
8002
+ "loss": 1.6199,
8003
+ "step": 1142
8004
+ },
8005
+ {
8006
+ "epoch": 0.07520107900060859,
8007
+ "grad_norm": 0.8885856866836548,
8008
+ "learning_rate": 1.1905047122561924e-05,
8009
+ "loss": 1.7629,
8010
+ "step": 1143
8011
+ },
8012
+ {
8013
+ "epoch": 0.07526687172064411,
8014
+ "grad_norm": 0.8523672223091125,
8015
+ "learning_rate": 1.1835782234202525e-05,
8016
+ "loss": 1.505,
8017
+ "step": 1144
8018
+ },
8019
+ {
8020
+ "epoch": 0.07533266444067964,
8021
+ "grad_norm": 0.8462732434272766,
8022
+ "learning_rate": 1.1766692369082255e-05,
8023
+ "loss": 1.5047,
8024
+ "step": 1145
8025
+ },
8026
+ {
8027
+ "epoch": 0.07539845716071517,
8028
+ "grad_norm": 0.8410788178443909,
8029
+ "learning_rate": 1.1697777844051105e-05,
8030
+ "loss": 1.5502,
8031
+ "step": 1146
8032
+ },
8033
+ {
8034
+ "epoch": 0.07546424988075069,
8035
+ "grad_norm": 0.8786489367485046,
8036
+ "learning_rate": 1.1629038975154943e-05,
8037
+ "loss": 1.4928,
8038
+ "step": 1147
8039
+ },
8040
+ {
8041
+ "epoch": 0.07553004260078622,
8042
+ "grad_norm": 0.9621903896331787,
8043
+ "learning_rate": 1.156047607763407e-05,
8044
+ "loss": 1.4004,
8045
+ "step": 1148
8046
+ },
8047
+ {
8048
+ "epoch": 0.07559583532082174,
8049
+ "grad_norm": 1.068969488143921,
8050
+ "learning_rate": 1.1492089465921768e-05,
8051
+ "loss": 1.5004,
8052
+ "step": 1149
8053
+ },
8054
+ {
8055
+ "epoch": 0.07566162804085728,
8056
+ "grad_norm": 1.3039774894714355,
8057
+ "learning_rate": 1.1423879453642878e-05,
8058
+ "loss": 1.5061,
8059
+ "step": 1150
8060
+ },
8061
+ {
8062
+ "epoch": 0.07572742076089281,
8063
+ "grad_norm": 0.5217190384864807,
8064
+ "learning_rate": 1.135584635361232e-05,
8065
+ "loss": 1.8168,
8066
+ "step": 1151
8067
+ },
8068
+ {
8069
+ "epoch": 0.07579321348092834,
8070
+ "grad_norm": 0.5663981437683105,
8071
+ "learning_rate": 1.128799047783371e-05,
8072
+ "loss": 1.7287,
8073
+ "step": 1152
8074
+ },
8075
+ {
8076
+ "epoch": 0.07585900620096386,
8077
+ "grad_norm": 0.5568148493766785,
8078
+ "learning_rate": 1.122031213749789e-05,
8079
+ "loss": 1.611,
8080
+ "step": 1153
8081
+ },
8082
+ {
8083
+ "epoch": 0.07592479892099939,
8084
+ "grad_norm": 0.6089836359024048,
8085
+ "learning_rate": 1.115281164298153e-05,
8086
+ "loss": 1.5694,
8087
+ "step": 1154
8088
+ },
8089
+ {
8090
+ "epoch": 0.07599059164103492,
8091
+ "grad_norm": 0.5871589183807373,
8092
+ "learning_rate": 1.1085489303845637e-05,
8093
+ "loss": 1.6517,
8094
+ "step": 1155
8095
+ },
8096
+ {
8097
+ "epoch": 0.07605638436107044,
8098
+ "grad_norm": 0.5930696725845337,
8099
+ "learning_rate": 1.101834542883427e-05,
8100
+ "loss": 1.6933,
8101
+ "step": 1156
8102
+ },
8103
+ {
8104
+ "epoch": 0.07612217708110598,
8105
+ "grad_norm": 0.5683667659759521,
8106
+ "learning_rate": 1.0951380325872979e-05,
8107
+ "loss": 1.6172,
8108
+ "step": 1157
8109
+ },
8110
+ {
8111
+ "epoch": 0.07618796980114151,
8112
+ "grad_norm": 0.5930812954902649,
8113
+ "learning_rate": 1.088459430206748e-05,
8114
+ "loss": 1.7436,
8115
+ "step": 1158
8116
+ },
8117
+ {
8118
+ "epoch": 0.07625376252117703,
8119
+ "grad_norm": 0.5984984040260315,
8120
+ "learning_rate": 1.0817987663702229e-05,
8121
+ "loss": 1.8179,
8122
+ "step": 1159
8123
+ },
8124
+ {
8125
+ "epoch": 0.07631955524121256,
8126
+ "grad_norm": 0.6047726273536682,
8127
+ "learning_rate": 1.0751560716238967e-05,
8128
+ "loss": 1.5642,
8129
+ "step": 1160
8130
+ },
8131
+ {
8132
+ "epoch": 0.07638534796124809,
8133
+ "grad_norm": 0.6473960280418396,
8134
+ "learning_rate": 1.0685313764315413e-05,
8135
+ "loss": 1.7192,
8136
+ "step": 1161
8137
+ },
8138
+ {
8139
+ "epoch": 0.07645114068128361,
8140
+ "grad_norm": 0.6276887059211731,
8141
+ "learning_rate": 1.0619247111743797e-05,
8142
+ "loss": 1.532,
8143
+ "step": 1162
8144
+ },
8145
+ {
8146
+ "epoch": 0.07651693340131914,
8147
+ "grad_norm": 0.6259212493896484,
8148
+ "learning_rate": 1.055336106150948e-05,
8149
+ "loss": 1.5419,
8150
+ "step": 1163
8151
+ },
8152
+ {
8153
+ "epoch": 0.07658272612135467,
8154
+ "grad_norm": 0.6881235241889954,
8155
+ "learning_rate": 1.048765591576959e-05,
8156
+ "loss": 1.7839,
8157
+ "step": 1164
8158
+ },
8159
+ {
8160
+ "epoch": 0.0766485188413902,
8161
+ "grad_norm": 0.6311882138252258,
8162
+ "learning_rate": 1.0422131975851584e-05,
8163
+ "loss": 1.5377,
8164
+ "step": 1165
8165
+ },
8166
+ {
8167
+ "epoch": 0.07671431156142573,
8168
+ "grad_norm": 0.6650845408439636,
8169
+ "learning_rate": 1.0356789542251938e-05,
8170
+ "loss": 1.7409,
8171
+ "step": 1166
8172
+ },
8173
+ {
8174
+ "epoch": 0.07678010428146126,
8175
+ "grad_norm": 0.6411380767822266,
8176
+ "learning_rate": 1.0291628914634694e-05,
8177
+ "loss": 1.6915,
8178
+ "step": 1167
8179
+ },
8180
+ {
8181
+ "epoch": 0.07684589700149679,
8182
+ "grad_norm": 0.6582992672920227,
8183
+ "learning_rate": 1.022665039183015e-05,
8184
+ "loss": 1.5401,
8185
+ "step": 1168
8186
+ },
8187
+ {
8188
+ "epoch": 0.07691168972153231,
8189
+ "grad_norm": 0.6362737417221069,
8190
+ "learning_rate": 1.0161854271833443e-05,
8191
+ "loss": 1.5978,
8192
+ "step": 1169
8193
+ },
8194
+ {
8195
+ "epoch": 0.07697748244156784,
8196
+ "grad_norm": 0.6066959500312805,
8197
+ "learning_rate": 1.009724085180322e-05,
8198
+ "loss": 1.6114,
8199
+ "step": 1170
8200
+ },
8201
+ {
8202
+ "epoch": 0.07704327516160336,
8203
+ "grad_norm": 0.6722879409790039,
8204
+ "learning_rate": 1.0032810428060218e-05,
8205
+ "loss": 1.597,
8206
+ "step": 1171
8207
+ },
8208
+ {
8209
+ "epoch": 0.07710906788163889,
8210
+ "grad_norm": 0.6590387225151062,
8211
+ "learning_rate": 9.96856329608597e-06,
8212
+ "loss": 1.5352,
8213
+ "step": 1172
8214
+ },
8215
+ {
8216
+ "epoch": 0.07717486060167443,
8217
+ "grad_norm": 0.6803810000419617,
8218
+ "learning_rate": 9.90449975052144e-06,
8219
+ "loss": 1.5224,
8220
+ "step": 1173
8221
+ },
8222
+ {
8223
+ "epoch": 0.07724065332170996,
8224
+ "grad_norm": 0.6694747805595398,
8225
+ "learning_rate": 9.840620085165626e-06,
8226
+ "loss": 1.7062,
8227
+ "step": 1174
8228
+ },
8229
+ {
8230
+ "epoch": 0.07730644604174548,
8231
+ "grad_norm": 0.672380268573761,
8232
+ "learning_rate": 9.776924592974256e-06,
8233
+ "loss": 1.6693,
8234
+ "step": 1175
8235
+ },
8236
+ {
8237
+ "epoch": 0.07737223876178101,
8238
+ "grad_norm": 0.6489235162734985,
8239
+ "learning_rate": 9.713413566058405e-06,
8240
+ "loss": 1.5843,
8241
+ "step": 1176
8242
+ },
8243
+ {
8244
+ "epoch": 0.07743803148181654,
8245
+ "grad_norm": 0.6905193328857422,
8246
+ "learning_rate": 9.650087295683202e-06,
8247
+ "loss": 1.593,
8248
+ "step": 1177
8249
+ },
8250
+ {
8251
+ "epoch": 0.07750382420185206,
8252
+ "grad_norm": 0.7134239673614502,
8253
+ "learning_rate": 9.586946072266478e-06,
8254
+ "loss": 1.5109,
8255
+ "step": 1178
8256
+ },
8257
+ {
8258
+ "epoch": 0.07756961692188759,
8259
+ "grad_norm": 0.6946320533752441,
8260
+ "learning_rate": 9.523990185377413e-06,
8261
+ "loss": 1.5549,
8262
+ "step": 1179
8263
+ },
8264
+ {
8265
+ "epoch": 0.07763540964192311,
8266
+ "grad_norm": 0.6910642981529236,
8267
+ "learning_rate": 9.461219923735227e-06,
8268
+ "loss": 1.7573,
8269
+ "step": 1180
8270
+ },
8271
+ {
8272
+ "epoch": 0.07770120236195865,
8273
+ "grad_norm": 0.6611814498901367,
8274
+ "learning_rate": 9.398635575207854e-06,
8275
+ "loss": 1.5795,
8276
+ "step": 1181
8277
+ },
8278
+ {
8279
+ "epoch": 0.07776699508199418,
8280
+ "grad_norm": 0.6925032734870911,
8281
+ "learning_rate": 9.336237426810624e-06,
8282
+ "loss": 1.6087,
8283
+ "step": 1182
8284
+ },
8285
+ {
8286
+ "epoch": 0.07783278780202971,
8287
+ "grad_norm": 0.7224239706993103,
8288
+ "learning_rate": 9.274025764704936e-06,
8289
+ "loss": 1.5171,
8290
+ "step": 1183
8291
+ },
8292
+ {
8293
+ "epoch": 0.07789858052206523,
8294
+ "grad_norm": 0.696713387966156,
8295
+ "learning_rate": 9.212000874196953e-06,
8296
+ "loss": 1.4585,
8297
+ "step": 1184
8298
+ },
8299
+ {
8300
+ "epoch": 0.07796437324210076,
8301
+ "grad_norm": 0.7397194504737854,
8302
+ "learning_rate": 9.150163039736297e-06,
8303
+ "loss": 1.551,
8304
+ "step": 1185
8305
+ },
8306
+ {
8307
+ "epoch": 0.07803016596213629,
8308
+ "grad_norm": 0.696258008480072,
8309
+ "learning_rate": 9.08851254491475e-06,
8310
+ "loss": 1.5841,
8311
+ "step": 1186
8312
+ },
8313
+ {
8314
+ "epoch": 0.07809595868217181,
8315
+ "grad_norm": 0.7256150841712952,
8316
+ "learning_rate": 9.027049672464916e-06,
8317
+ "loss": 1.6002,
8318
+ "step": 1187
8319
+ },
8320
+ {
8321
+ "epoch": 0.07816175140220735,
8322
+ "grad_norm": 0.7567223906517029,
8323
+ "learning_rate": 8.965774704258956e-06,
8324
+ "loss": 1.6436,
8325
+ "step": 1188
8326
+ },
8327
+ {
8328
+ "epoch": 0.07822754412224288,
8329
+ "grad_norm": 0.7757462859153748,
8330
+ "learning_rate": 8.90468792130733e-06,
8331
+ "loss": 1.7119,
8332
+ "step": 1189
8333
+ },
8334
+ {
8335
+ "epoch": 0.0782933368422784,
8336
+ "grad_norm": 0.7670205235481262,
8337
+ "learning_rate": 8.843789603757446e-06,
8338
+ "loss": 1.6326,
8339
+ "step": 1190
8340
+ },
8341
+ {
8342
+ "epoch": 0.07835912956231393,
8343
+ "grad_norm": 0.8732237219810486,
8344
+ "learning_rate": 8.783080030892394e-06,
8345
+ "loss": 1.415,
8346
+ "step": 1191
8347
+ },
8348
+ {
8349
+ "epoch": 0.07842492228234946,
8350
+ "grad_norm": 0.8682703375816345,
8351
+ "learning_rate": 8.72255948112966e-06,
8352
+ "loss": 1.629,
8353
+ "step": 1192
8354
+ },
8355
+ {
8356
+ "epoch": 0.07849071500238498,
8357
+ "grad_norm": 0.7908897399902344,
8358
+ "learning_rate": 8.662228232019876e-06,
8359
+ "loss": 1.3307,
8360
+ "step": 1193
8361
+ },
8362
+ {
8363
+ "epoch": 0.07855650772242051,
8364
+ "grad_norm": 0.8436971306800842,
8365
+ "learning_rate": 8.602086560245537e-06,
8366
+ "loss": 1.5682,
8367
+ "step": 1194
8368
+ },
8369
+ {
8370
+ "epoch": 0.07862230044245604,
8371
+ "grad_norm": 0.8712666630744934,
8372
+ "learning_rate": 8.542134741619711e-06,
8373
+ "loss": 1.5686,
8374
+ "step": 1195
8375
+ },
8376
+ {
8377
+ "epoch": 0.07868809316249158,
8378
+ "grad_norm": 0.8938828110694885,
8379
+ "learning_rate": 8.48237305108479e-06,
8380
+ "loss": 1.5938,
8381
+ "step": 1196
8382
+ },
8383
+ {
8384
+ "epoch": 0.0787538858825271,
8385
+ "grad_norm": 0.8834605813026428,
8386
+ "learning_rate": 8.422801762711247e-06,
8387
+ "loss": 1.4887,
8388
+ "step": 1197
8389
+ },
8390
+ {
8391
+ "epoch": 0.07881967860256263,
8392
+ "grad_norm": 1.0207496881484985,
8393
+ "learning_rate": 8.363421149696332e-06,
8394
+ "loss": 1.576,
8395
+ "step": 1198
8396
+ },
8397
+ {
8398
+ "epoch": 0.07888547132259816,
8399
+ "grad_norm": 1.0710493326187134,
8400
+ "learning_rate": 8.304231484362868e-06,
8401
+ "loss": 1.6295,
8402
+ "step": 1199
8403
+ },
8404
+ {
8405
+ "epoch": 0.07895126404263368,
8406
+ "grad_norm": 1.221801996231079,
8407
+ "learning_rate": 8.245233038157962e-06,
8408
+ "loss": 1.6023,
8409
+ "step": 1200
8410
+ },
8411
+ {
8412
+ "epoch": 0.07901705676266921,
8413
+ "grad_norm": 0.517112672328949,
8414
+ "learning_rate": 8.186426081651804e-06,
8415
+ "loss": 1.6261,
8416
+ "step": 1201
8417
+ },
8418
+ {
8419
+ "epoch": 0.07908284948270473,
8420
+ "grad_norm": 0.5203869938850403,
8421
+ "learning_rate": 8.127810884536403e-06,
8422
+ "loss": 1.6803,
8423
+ "step": 1202
8424
+ },
8425
+ {
8426
+ "epoch": 0.07914864220274026,
8427
+ "grad_norm": 0.526978611946106,
8428
+ "learning_rate": 8.069387715624294e-06,
8429
+ "loss": 1.6658,
8430
+ "step": 1203
8431
+ },
8432
+ {
8433
+ "epoch": 0.0792144349227758,
8434
+ "grad_norm": 0.5750939249992371,
8435
+ "learning_rate": 8.011156842847412e-06,
8436
+ "loss": 1.6741,
8437
+ "step": 1204
8438
+ },
8439
+ {
8440
+ "epoch": 0.07928022764281133,
8441
+ "grad_norm": 0.5610478520393372,
8442
+ "learning_rate": 7.95311853325582e-06,
8443
+ "loss": 1.6639,
8444
+ "step": 1205
8445
+ },
8446
+ {
8447
+ "epoch": 0.07934602036284685,
8448
+ "grad_norm": 0.5532097816467285,
8449
+ "learning_rate": 7.89527305301645e-06,
8450
+ "loss": 1.6807,
8451
+ "step": 1206
8452
+ },
8453
+ {
8454
+ "epoch": 0.07941181308288238,
8455
+ "grad_norm": 0.5609330534934998,
8456
+ "learning_rate": 7.83762066741191e-06,
8457
+ "loss": 1.701,
8458
+ "step": 1207
8459
+ },
8460
+ {
8461
+ "epoch": 0.0794776058029179,
8462
+ "grad_norm": 0.5949382781982422,
8463
+ "learning_rate": 7.780161640839257e-06,
8464
+ "loss": 1.7165,
8465
+ "step": 1208
8466
+ },
8467
+ {
8468
+ "epoch": 0.07954339852295343,
8469
+ "grad_norm": 0.5886333584785461,
8470
+ "learning_rate": 7.722896236808807e-06,
8471
+ "loss": 1.5563,
8472
+ "step": 1209
8473
+ },
8474
+ {
8475
+ "epoch": 0.07960919124298896,
8476
+ "grad_norm": 0.6132276654243469,
8477
+ "learning_rate": 7.665824717942915e-06,
8478
+ "loss": 1.7714,
8479
+ "step": 1210
8480
+ },
8481
+ {
8482
+ "epoch": 0.0796749839630245,
8483
+ "grad_norm": 0.6169953942298889,
8484
+ "learning_rate": 7.60894734597476e-06,
8485
+ "loss": 1.6546,
8486
+ "step": 1211
8487
+ },
8488
+ {
8489
+ "epoch": 0.07974077668306002,
8490
+ "grad_norm": 0.6119076609611511,
8491
+ "learning_rate": 7.552264381747148e-06,
8492
+ "loss": 1.6585,
8493
+ "step": 1212
8494
+ },
8495
+ {
8496
+ "epoch": 0.07980656940309555,
8497
+ "grad_norm": 0.6173310279846191,
8498
+ "learning_rate": 7.495776085211331e-06,
8499
+ "loss": 1.4996,
8500
+ "step": 1213
8501
+ },
8502
+ {
8503
+ "epoch": 0.07987236212313108,
8504
+ "grad_norm": 0.590090811252594,
8505
+ "learning_rate": 7.439482715425805e-06,
8506
+ "loss": 1.5205,
8507
+ "step": 1214
8508
+ },
8509
+ {
8510
+ "epoch": 0.0799381548431666,
8511
+ "grad_norm": 0.6101630926132202,
8512
+ "learning_rate": 7.383384530555104e-06,
8513
+ "loss": 1.681,
8514
+ "step": 1215
8515
+ },
8516
+ {
8517
+ "epoch": 0.08000394756320213,
8518
+ "grad_norm": 0.6025815010070801,
8519
+ "learning_rate": 7.327481787868646e-06,
8520
+ "loss": 1.5154,
8521
+ "step": 1216
8522
+ },
8523
+ {
8524
+ "epoch": 0.08006974028323766,
8525
+ "grad_norm": 0.6469805240631104,
8526
+ "learning_rate": 7.271774743739545e-06,
8527
+ "loss": 1.7022,
8528
+ "step": 1217
8529
+ },
8530
+ {
8531
+ "epoch": 0.08013553300327318,
8532
+ "grad_norm": 0.8975655436515808,
8533
+ "learning_rate": 7.216263653643435e-06,
8534
+ "loss": 1.8082,
8535
+ "step": 1218
8536
+ },
8537
+ {
8538
+ "epoch": 0.08020132572330872,
8539
+ "grad_norm": 0.625879168510437,
8540
+ "learning_rate": 7.16094877215725e-06,
8541
+ "loss": 1.472,
8542
+ "step": 1219
8543
+ },
8544
+ {
8545
+ "epoch": 0.08026711844334425,
8546
+ "grad_norm": 0.6286988258361816,
8547
+ "learning_rate": 7.105830352958142e-06,
8548
+ "loss": 1.5377,
8549
+ "step": 1220
8550
+ },
8551
+ {
8552
+ "epoch": 0.08033291116337977,
8553
+ "grad_norm": 0.6680283546447754,
8554
+ "learning_rate": 7.050908648822291e-06,
8555
+ "loss": 1.6344,
8556
+ "step": 1221
8557
+ },
8558
+ {
8559
+ "epoch": 0.0803987038834153,
8560
+ "grad_norm": 0.650658130645752,
8561
+ "learning_rate": 6.996183911623688e-06,
8562
+ "loss": 1.6916,
8563
+ "step": 1222
8564
+ },
8565
+ {
8566
+ "epoch": 0.08046449660345083,
8567
+ "grad_norm": 0.6374256014823914,
8568
+ "learning_rate": 6.941656392333046e-06,
8569
+ "loss": 1.5798,
8570
+ "step": 1223
8571
+ },
8572
+ {
8573
+ "epoch": 0.08053028932348635,
8574
+ "grad_norm": 0.6473804116249084,
8575
+ "learning_rate": 6.887326341016636e-06,
8576
+ "loss": 1.433,
8577
+ "step": 1224
8578
+ },
8579
+ {
8580
+ "epoch": 0.08059608204352188,
8581
+ "grad_norm": 0.6380757689476013,
8582
+ "learning_rate": 6.833194006835081e-06,
8583
+ "loss": 1.5023,
8584
+ "step": 1225
8585
+ },
8586
+ {
8587
+ "epoch": 0.0806618747635574,
8588
+ "grad_norm": 0.6916465759277344,
8589
+ "learning_rate": 6.779259638042318e-06,
8590
+ "loss": 1.6726,
8591
+ "step": 1226
8592
+ },
8593
+ {
8594
+ "epoch": 0.08072766748359295,
8595
+ "grad_norm": 0.6720482707023621,
8596
+ "learning_rate": 6.725523481984375e-06,
8597
+ "loss": 1.7212,
8598
+ "step": 1227
8599
+ },
8600
+ {
8601
+ "epoch": 0.08079346020362847,
8602
+ "grad_norm": 0.6906450986862183,
8603
+ "learning_rate": 6.671985785098278e-06,
8604
+ "loss": 1.4751,
8605
+ "step": 1228
8606
+ },
8607
+ {
8608
+ "epoch": 0.080859252923664,
8609
+ "grad_norm": 0.685138463973999,
8610
+ "learning_rate": 6.618646792910893e-06,
8611
+ "loss": 1.5658,
8612
+ "step": 1229
8613
+ },
8614
+ {
8615
+ "epoch": 0.08092504564369953,
8616
+ "grad_norm": 0.7090581059455872,
8617
+ "learning_rate": 6.565506750037836e-06,
8618
+ "loss": 1.5718,
8619
+ "step": 1230
8620
+ },
8621
+ {
8622
+ "epoch": 0.08099083836373505,
8623
+ "grad_norm": 0.6716530919075012,
8624
+ "learning_rate": 6.512565900182305e-06,
8625
+ "loss": 1.4331,
8626
+ "step": 1231
8627
+ },
8628
+ {
8629
+ "epoch": 0.08105663108377058,
8630
+ "grad_norm": 0.6960655450820923,
8631
+ "learning_rate": 6.459824486134014e-06,
8632
+ "loss": 1.6364,
8633
+ "step": 1232
8634
+ },
8635
+ {
8636
+ "epoch": 0.0811224238038061,
8637
+ "grad_norm": 0.7236138582229614,
8638
+ "learning_rate": 6.407282749768029e-06,
8639
+ "loss": 1.5542,
8640
+ "step": 1233
8641
+ },
8642
+ {
8643
+ "epoch": 0.08118821652384163,
8644
+ "grad_norm": 0.6596976518630981,
8645
+ "learning_rate": 6.354940932043713e-06,
8646
+ "loss": 1.5349,
8647
+ "step": 1234
8648
+ },
8649
+ {
8650
+ "epoch": 0.08125400924387717,
8651
+ "grad_norm": 0.6876804232597351,
8652
+ "learning_rate": 6.302799273003546e-06,
8653
+ "loss": 1.442,
8654
+ "step": 1235
8655
+ },
8656
+ {
8657
+ "epoch": 0.0813198019639127,
8658
+ "grad_norm": 0.710265576839447,
8659
+ "learning_rate": 6.2508580117720985e-06,
8660
+ "loss": 1.515,
8661
+ "step": 1236
8662
+ },
8663
+ {
8664
+ "epoch": 0.08138559468394822,
8665
+ "grad_norm": 0.7719532251358032,
8666
+ "learning_rate": 6.199117386554926e-06,
8667
+ "loss": 1.7442,
8668
+ "step": 1237
8669
+ },
8670
+ {
8671
+ "epoch": 0.08145138740398375,
8672
+ "grad_norm": 0.7328771948814392,
8673
+ "learning_rate": 6.147577634637414e-06,
8674
+ "loss": 1.569,
8675
+ "step": 1238
8676
+ },
8677
+ {
8678
+ "epoch": 0.08151718012401928,
8679
+ "grad_norm": 0.7373148202896118,
8680
+ "learning_rate": 6.096238992383752e-06,
8681
+ "loss": 1.5404,
8682
+ "step": 1239
8683
+ },
8684
+ {
8685
+ "epoch": 0.0815829728440548,
8686
+ "grad_norm": 0.8095849752426147,
8687
+ "learning_rate": 6.045101695235844e-06,
8688
+ "loss": 1.5851,
8689
+ "step": 1240
8690
+ },
8691
+ {
8692
+ "epoch": 0.08164876556409033,
8693
+ "grad_norm": 0.7829951047897339,
8694
+ "learning_rate": 5.994165977712174e-06,
8695
+ "loss": 1.5866,
8696
+ "step": 1241
8697
+ },
8698
+ {
8699
+ "epoch": 0.08171455828412587,
8700
+ "grad_norm": 0.7352398633956909,
8701
+ "learning_rate": 5.943432073406796e-06,
8702
+ "loss": 1.5109,
8703
+ "step": 1242
8704
+ },
8705
+ {
8706
+ "epoch": 0.0817803510041614,
8707
+ "grad_norm": 0.7571715116500854,
8708
+ "learning_rate": 5.892900214988245e-06,
8709
+ "loss": 1.5424,
8710
+ "step": 1243
8711
+ },
8712
+ {
8713
+ "epoch": 0.08184614372419692,
8714
+ "grad_norm": 0.806236207485199,
8715
+ "learning_rate": 5.842570634198452e-06,
8716
+ "loss": 1.6222,
8717
+ "step": 1244
8718
+ },
8719
+ {
8720
+ "epoch": 0.08191193644423245,
8721
+ "grad_norm": 0.894612729549408,
8722
+ "learning_rate": 5.792443561851685e-06,
8723
+ "loss": 1.4945,
8724
+ "step": 1245
8725
+ },
8726
+ {
8727
+ "epoch": 0.08197772916426797,
8728
+ "grad_norm": 0.8263707756996155,
8729
+ "learning_rate": 5.742519227833509e-06,
8730
+ "loss": 1.5567,
8731
+ "step": 1246
8732
+ },
8733
+ {
8734
+ "epoch": 0.0820435218843035,
8735
+ "grad_norm": 0.8109045624732971,
8736
+ "learning_rate": 5.692797861099719e-06,
8737
+ "loss": 1.4979,
8738
+ "step": 1247
8739
+ },
8740
+ {
8741
+ "epoch": 0.08210931460433903,
8742
+ "grad_norm": 1.0256260633468628,
8743
+ "learning_rate": 5.643279689675279e-06,
8744
+ "loss": 1.528,
8745
+ "step": 1248
8746
+ },
8747
+ {
8748
+ "epoch": 0.08217510732437455,
8749
+ "grad_norm": 0.9840426445007324,
8750
+ "learning_rate": 5.593964940653296e-06,
8751
+ "loss": 1.6114,
8752
+ "step": 1249
8753
+ },
8754
+ {
8755
+ "epoch": 0.08224090004441009,
8756
+ "grad_norm": 1.197351098060608,
8757
+ "learning_rate": 5.544853840193981e-06,
8758
+ "loss": 1.2792,
8759
+ "step": 1250
8760
+ },
8761
+ {
8762
+ "epoch": 0.08230669276444562,
8763
+ "grad_norm": 0.5352635383605957,
8764
+ "learning_rate": 5.495946613523567e-06,
8765
+ "loss": 1.7328,
8766
+ "step": 1251
8767
+ },
8768
+ {
8769
+ "epoch": 0.08237248548448114,
8770
+ "grad_norm": 0.5567160248756409,
8771
+ "learning_rate": 5.4472434849333396e-06,
8772
+ "loss": 1.6491,
8773
+ "step": 1252
8774
+ },
8775
+ {
8776
+ "epoch": 0.08243827820451667,
8777
+ "grad_norm": 0.6188229918479919,
8778
+ "learning_rate": 5.398744677778594e-06,
8779
+ "loss": 1.6258,
8780
+ "step": 1253
8781
+ },
8782
+ {
8783
+ "epoch": 0.0825040709245522,
8784
+ "grad_norm": 0.565366804599762,
8785
+ "learning_rate": 5.3504504144775535e-06,
8786
+ "loss": 1.7164,
8787
+ "step": 1254
8788
+ },
8789
+ {
8790
+ "epoch": 0.08256986364458772,
8791
+ "grad_norm": 0.5582414269447327,
8792
+ "learning_rate": 5.302360916510424e-06,
8793
+ "loss": 1.6116,
8794
+ "step": 1255
8795
+ },
8796
+ {
8797
+ "epoch": 0.08263565636462325,
8798
+ "grad_norm": 0.5899804830551147,
8799
+ "learning_rate": 5.25447640441834e-06,
8800
+ "loss": 1.6297,
8801
+ "step": 1256
8802
+ },
8803
+ {
8804
+ "epoch": 0.08270144908465878,
8805
+ "grad_norm": 0.6136707067489624,
8806
+ "learning_rate": 5.206797097802341e-06,
8807
+ "loss": 1.8456,
8808
+ "step": 1257
8809
+ },
8810
+ {
8811
+ "epoch": 0.08276724180469432,
8812
+ "grad_norm": 0.5709074139595032,
8813
+ "learning_rate": 5.1593232153223984e-06,
8814
+ "loss": 1.5469,
8815
+ "step": 1258
8816
+ },
8817
+ {
8818
+ "epoch": 0.08283303452472984,
8819
+ "grad_norm": 0.5794378519058228,
8820
+ "learning_rate": 5.112054974696395e-06,
8821
+ "loss": 1.594,
8822
+ "step": 1259
8823
+ },
8824
+ {
8825
+ "epoch": 0.08289882724476537,
8826
+ "grad_norm": 0.6078215837478638,
8827
+ "learning_rate": 5.064992592699136e-06,
8828
+ "loss": 1.7557,
8829
+ "step": 1260
8830
+ },
8831
+ {
8832
+ "epoch": 0.0829646199648009,
8833
+ "grad_norm": 0.6244221925735474,
8834
+ "learning_rate": 5.018136285161329e-06,
8835
+ "loss": 1.6409,
8836
+ "step": 1261
8837
+ },
8838
+ {
8839
+ "epoch": 0.08303041268483642,
8840
+ "grad_norm": 0.6333777904510498,
8841
+ "learning_rate": 4.9714862669686335e-06,
8842
+ "loss": 1.6453,
8843
+ "step": 1262
8844
+ },
8845
+ {
8846
+ "epoch": 0.08309620540487195,
8847
+ "grad_norm": 0.6196883320808411,
8848
+ "learning_rate": 4.925042752060638e-06,
8849
+ "loss": 1.539,
8850
+ "step": 1263
8851
+ },
8852
+ {
8853
+ "epoch": 0.08316199812490747,
8854
+ "grad_norm": 0.6235030293464661,
8855
+ "learning_rate": 4.87880595342991e-06,
8856
+ "loss": 1.6992,
8857
+ "step": 1264
8858
+ },
8859
+ {
8860
+ "epoch": 0.083227790844943,
8861
+ "grad_norm": 0.6125441789627075,
8862
+ "learning_rate": 4.832776083120982e-06,
8863
+ "loss": 1.5375,
8864
+ "step": 1265
8865
+ },
8866
+ {
8867
+ "epoch": 0.08329358356497854,
8868
+ "grad_norm": 0.6090467572212219,
8869
+ "learning_rate": 4.7869533522294395e-06,
8870
+ "loss": 1.5203,
8871
+ "step": 1266
8872
+ },
8873
+ {
8874
+ "epoch": 0.08335937628501407,
8875
+ "grad_norm": 0.6368080377578735,
8876
+ "learning_rate": 4.741337970900866e-06,
8877
+ "loss": 1.6075,
8878
+ "step": 1267
8879
+ },
8880
+ {
8881
+ "epoch": 0.0834251690050496,
8882
+ "grad_norm": 0.6555090546607971,
8883
+ "learning_rate": 4.695930148329958e-06,
8884
+ "loss": 1.666,
8885
+ "step": 1268
8886
+ },
8887
+ {
8888
+ "epoch": 0.08349096172508512,
8889
+ "grad_norm": 0.6124194264411926,
8890
+ "learning_rate": 4.650730092759542e-06,
8891
+ "loss": 1.5002,
8892
+ "step": 1269
8893
+ },
8894
+ {
8895
+ "epoch": 0.08355675444512065,
8896
+ "grad_norm": 0.6861993670463562,
8897
+ "learning_rate": 4.605738011479604e-06,
8898
+ "loss": 1.8197,
8899
+ "step": 1270
8900
+ },
8901
+ {
8902
+ "epoch": 0.08362254716515617,
8903
+ "grad_norm": 0.6512139439582825,
8904
+ "learning_rate": 4.560954110826337e-06,
8905
+ "loss": 1.5302,
8906
+ "step": 1271
8907
+ },
8908
+ {
8909
+ "epoch": 0.0836883398851917,
8910
+ "grad_norm": 0.6771849393844604,
8911
+ "learning_rate": 4.516378596181237e-06,
8912
+ "loss": 1.5859,
8913
+ "step": 1272
8914
+ },
8915
+ {
8916
+ "epoch": 0.08375413260522724,
8917
+ "grad_norm": 0.6660013198852539,
8918
+ "learning_rate": 4.472011671970083e-06,
8919
+ "loss": 1.6946,
8920
+ "step": 1273
8921
+ },
8922
+ {
8923
+ "epoch": 0.08381992532526276,
8924
+ "grad_norm": 0.6350880861282349,
8925
+ "learning_rate": 4.427853541662091e-06,
8926
+ "loss": 1.5967,
8927
+ "step": 1274
8928
+ },
8929
+ {
8930
+ "epoch": 0.08388571804529829,
8931
+ "grad_norm": 0.6567019820213318,
8932
+ "learning_rate": 4.383904407768907e-06,
8933
+ "loss": 1.5232,
8934
+ "step": 1275
8935
+ },
8936
+ {
8937
+ "epoch": 0.08395151076533382,
8938
+ "grad_norm": 0.6577147245407104,
8939
+ "learning_rate": 4.340164471843722e-06,
8940
+ "loss": 1.5343,
8941
+ "step": 1276
8942
+ },
8943
+ {
8944
+ "epoch": 0.08401730348536934,
8945
+ "grad_norm": 0.7278039455413818,
8946
+ "learning_rate": 4.296633934480337e-06,
8947
+ "loss": 1.6968,
8948
+ "step": 1277
8949
+ },
8950
+ {
8951
+ "epoch": 0.08408309620540487,
8952
+ "grad_norm": 0.7200085520744324,
8953
+ "learning_rate": 4.253312995312231e-06,
8954
+ "loss": 1.5763,
8955
+ "step": 1278
8956
+ },
8957
+ {
8958
+ "epoch": 0.0841488889254404,
8959
+ "grad_norm": 0.6737844944000244,
8960
+ "learning_rate": 4.210201853011652e-06,
8961
+ "loss": 1.5614,
8962
+ "step": 1279
8963
+ },
8964
+ {
8965
+ "epoch": 0.08421468164547592,
8966
+ "grad_norm": 0.7159338593482971,
8967
+ "learning_rate": 4.167300705288718e-06,
8968
+ "loss": 1.7838,
8969
+ "step": 1280
8970
+ },
8971
+ {
8972
+ "epoch": 0.08428047436551146,
8973
+ "grad_norm": 0.7275623679161072,
8974
+ "learning_rate": 4.12460974889049e-06,
8975
+ "loss": 1.7268,
8976
+ "step": 1281
8977
+ },
8978
+ {
8979
+ "epoch": 0.08434626708554699,
8980
+ "grad_norm": 0.6852192878723145,
8981
+ "learning_rate": 4.082129179600097e-06,
8982
+ "loss": 1.4123,
8983
+ "step": 1282
8984
+ },
8985
+ {
8986
+ "epoch": 0.08441205980558251,
8987
+ "grad_norm": 0.7260058522224426,
8988
+ "learning_rate": 4.039859192235779e-06,
8989
+ "loss": 1.5387,
8990
+ "step": 1283
8991
+ },
8992
+ {
8993
+ "epoch": 0.08447785252561804,
8994
+ "grad_norm": 0.7276716828346252,
8995
+ "learning_rate": 3.99779998065008e-06,
8996
+ "loss": 1.6186,
8997
+ "step": 1284
8998
+ },
8999
+ {
9000
+ "epoch": 0.08454364524565357,
9001
+ "grad_norm": 0.8000338077545166,
9002
+ "learning_rate": 3.955951737728902e-06,
9003
+ "loss": 1.544,
9004
+ "step": 1285
9005
+ },
9006
+ {
9007
+ "epoch": 0.0846094379656891,
9008
+ "grad_norm": 0.7734615206718445,
9009
+ "learning_rate": 3.914314655390633e-06,
9010
+ "loss": 1.628,
9011
+ "step": 1286
9012
+ },
9013
+ {
9014
+ "epoch": 0.08467523068572462,
9015
+ "grad_norm": 0.742764949798584,
9016
+ "learning_rate": 3.872888924585255e-06,
9017
+ "loss": 1.5357,
9018
+ "step": 1287
9019
+ },
9020
+ {
9021
+ "epoch": 0.08474102340576015,
9022
+ "grad_norm": 0.7545043230056763,
9023
+ "learning_rate": 3.831674735293506e-06,
9024
+ "loss": 1.6103,
9025
+ "step": 1288
9026
+ },
9027
+ {
9028
+ "epoch": 0.08480681612579569,
9029
+ "grad_norm": 0.7599538564682007,
9030
+ "learning_rate": 3.790672276525936e-06,
9031
+ "loss": 1.5277,
9032
+ "step": 1289
9033
+ },
9034
+ {
9035
+ "epoch": 0.08487260884583121,
9036
+ "grad_norm": 0.7628370523452759,
9037
+ "learning_rate": 3.749881736322136e-06,
9038
+ "loss": 1.5536,
9039
+ "step": 1290
9040
+ },
9041
+ {
9042
+ "epoch": 0.08493840156586674,
9043
+ "grad_norm": 0.7717123031616211,
9044
+ "learning_rate": 3.7093033017497946e-06,
9045
+ "loss": 1.6771,
9046
+ "step": 1291
9047
+ },
9048
+ {
9049
+ "epoch": 0.08500419428590227,
9050
+ "grad_norm": 0.7848740220069885,
9051
+ "learning_rate": 3.668937158903901e-06,
9052
+ "loss": 1.4859,
9053
+ "step": 1292
9054
+ },
9055
+ {
9056
+ "epoch": 0.08506998700593779,
9057
+ "grad_norm": 0.8771865367889404,
9058
+ "learning_rate": 3.6287834929058295e-06,
9059
+ "loss": 1.5999,
9060
+ "step": 1293
9061
+ },
9062
+ {
9063
+ "epoch": 0.08513577972597332,
9064
+ "grad_norm": 0.8170807361602783,
9065
+ "learning_rate": 3.5888424879025495e-06,
9066
+ "loss": 1.4485,
9067
+ "step": 1294
9068
+ },
9069
+ {
9070
+ "epoch": 0.08520157244600884,
9071
+ "grad_norm": 0.8586212396621704,
9072
+ "learning_rate": 3.5491143270657446e-06,
9073
+ "loss": 1.6085,
9074
+ "step": 1295
9075
+ },
9076
+ {
9077
+ "epoch": 0.08526736516604437,
9078
+ "grad_norm": 0.8808199763298035,
9079
+ "learning_rate": 3.5095991925909845e-06,
9080
+ "loss": 1.4775,
9081
+ "step": 1296
9082
+ },
9083
+ {
9084
+ "epoch": 0.08533315788607991,
9085
+ "grad_norm": 0.8514795303344727,
9086
+ "learning_rate": 3.470297265696887e-06,
9087
+ "loss": 1.4806,
9088
+ "step": 1297
9089
+ },
9090
+ {
9091
+ "epoch": 0.08539895060611544,
9092
+ "grad_norm": 0.9353112578392029,
9093
+ "learning_rate": 3.4312087266242963e-06,
9094
+ "loss": 1.4445,
9095
+ "step": 1298
9096
+ },
9097
+ {
9098
+ "epoch": 0.08546474332615096,
9099
+ "grad_norm": 0.9689911007881165,
9100
+ "learning_rate": 3.3923337546354297e-06,
9101
+ "loss": 1.2047,
9102
+ "step": 1299
9103
+ },
9104
+ {
9105
+ "epoch": 0.08553053604618649,
9106
+ "grad_norm": 1.2559093236923218,
9107
+ "learning_rate": 3.3536725280130744e-06,
9108
+ "loss": 1.2073,
9109
+ "step": 1300
9110
+ },
9111
+ {
9112
+ "epoch": 0.08559632876622202,
9113
+ "grad_norm": 0.5083854794502258,
9114
+ "learning_rate": 3.315225224059809e-06,
9115
+ "loss": 1.5963,
9116
+ "step": 1301
9117
+ },
9118
+ {
9119
+ "epoch": 0.08566212148625754,
9120
+ "grad_norm": 0.5269922018051147,
9121
+ "learning_rate": 3.2769920190971027e-06,
9122
+ "loss": 1.5835,
9123
+ "step": 1302
9124
+ },
9125
+ {
9126
+ "epoch": 0.08572791420629307,
9127
+ "grad_norm": 0.5758770704269409,
9128
+ "learning_rate": 3.2389730884645807e-06,
9129
+ "loss": 1.6247,
9130
+ "step": 1303
9131
+ },
9132
+ {
9133
+ "epoch": 0.08579370692632861,
9134
+ "grad_norm": 0.5545147061347961,
9135
+ "learning_rate": 3.2011686065191895e-06,
9136
+ "loss": 1.6925,
9137
+ "step": 1304
9138
+ },
9139
+ {
9140
+ "epoch": 0.08585949964636413,
9141
+ "grad_norm": 0.5974170565605164,
9142
+ "learning_rate": 3.163578746634388e-06,
9143
+ "loss": 1.7166,
9144
+ "step": 1305
9145
+ },
9146
+ {
9147
+ "epoch": 0.08592529236639966,
9148
+ "grad_norm": 0.5378652215003967,
9149
+ "learning_rate": 3.1262036811993856e-06,
9150
+ "loss": 1.5484,
9151
+ "step": 1306
9152
+ },
9153
+ {
9154
+ "epoch": 0.08599108508643519,
9155
+ "grad_norm": 0.6244592666625977,
9156
+ "learning_rate": 3.0890435816183226e-06,
9157
+ "loss": 1.8135,
9158
+ "step": 1307
9159
+ },
9160
+ {
9161
+ "epoch": 0.08605687780647071,
9162
+ "grad_norm": 0.5631170272827148,
9163
+ "learning_rate": 3.0520986183095014e-06,
9164
+ "loss": 1.6121,
9165
+ "step": 1308
9166
+ },
9167
+ {
9168
+ "epoch": 0.08612267052650624,
9169
+ "grad_norm": 0.5755576491355896,
9170
+ "learning_rate": 3.0153689607045845e-06,
9171
+ "loss": 1.5121,
9172
+ "step": 1309
9173
+ },
9174
+ {
9175
+ "epoch": 0.08618846324654177,
9176
+ "grad_norm": 0.6194965839385986,
9177
+ "learning_rate": 2.9788547772478416e-06,
9178
+ "loss": 1.5921,
9179
+ "step": 1310
9180
+ },
9181
+ {
9182
+ "epoch": 0.08625425596657729,
9183
+ "grad_norm": 0.6144405603408813,
9184
+ "learning_rate": 2.9425562353953604e-06,
9185
+ "loss": 1.683,
9186
+ "step": 1311
9187
+ },
9188
+ {
9189
+ "epoch": 0.08632004868661283,
9190
+ "grad_norm": 0.6393880844116211,
9191
+ "learning_rate": 2.9064735016142873e-06,
9192
+ "loss": 1.6299,
9193
+ "step": 1312
9194
+ },
9195
+ {
9196
+ "epoch": 0.08638584140664836,
9197
+ "grad_norm": 0.6104136109352112,
9198
+ "learning_rate": 2.870606741382059e-06,
9199
+ "loss": 1.6589,
9200
+ "step": 1313
9201
+ },
9202
+ {
9203
+ "epoch": 0.08645163412668389,
9204
+ "grad_norm": 0.6379032135009766,
9205
+ "learning_rate": 2.83495611918565e-06,
9206
+ "loss": 1.5917,
9207
+ "step": 1314
9208
+ },
9209
+ {
9210
+ "epoch": 0.08651742684671941,
9211
+ "grad_norm": 0.6215010285377502,
9212
+ "learning_rate": 2.7995217985208098e-06,
9213
+ "loss": 1.5812,
9214
+ "step": 1315
9215
+ },
9216
+ {
9217
+ "epoch": 0.08658321956675494,
9218
+ "grad_norm": 0.6086938977241516,
9219
+ "learning_rate": 2.7643039418913e-06,
9220
+ "loss": 1.5549,
9221
+ "step": 1316
9222
+ },
9223
+ {
9224
+ "epoch": 0.08664901228679046,
9225
+ "grad_norm": 0.6653648018836975,
9226
+ "learning_rate": 2.729302710808196e-06,
9227
+ "loss": 1.4754,
9228
+ "step": 1317
9229
+ },
9230
+ {
9231
+ "epoch": 0.08671480500682599,
9232
+ "grad_norm": 0.6537653803825378,
9233
+ "learning_rate": 2.6945182657891034e-06,
9234
+ "loss": 1.7067,
9235
+ "step": 1318
9236
+ },
9237
+ {
9238
+ "epoch": 0.08678059772686152,
9239
+ "grad_norm": 0.6637395620346069,
9240
+ "learning_rate": 2.6599507663574384e-06,
9241
+ "loss": 1.5416,
9242
+ "step": 1319
9243
+ },
9244
+ {
9245
+ "epoch": 0.08684639044689706,
9246
+ "grad_norm": 0.6458157300949097,
9247
+ "learning_rate": 2.6256003710416864e-06,
9248
+ "loss": 1.5356,
9249
+ "step": 1320
9250
+ },
9251
+ {
9252
+ "epoch": 0.08691218316693258,
9253
+ "grad_norm": 0.6820713877677917,
9254
+ "learning_rate": 2.5914672373746674e-06,
9255
+ "loss": 1.797,
9256
+ "step": 1321
9257
+ },
9258
+ {
9259
+ "epoch": 0.08697797588696811,
9260
+ "grad_norm": 0.6089844107627869,
9261
+ "learning_rate": 2.5575515218928592e-06,
9262
+ "loss": 1.5584,
9263
+ "step": 1322
9264
+ },
9265
+ {
9266
+ "epoch": 0.08704376860700364,
9267
+ "grad_norm": 0.7012182474136353,
9268
+ "learning_rate": 2.5238533801356324e-06,
9269
+ "loss": 1.6888,
9270
+ "step": 1323
9271
+ },
9272
+ {
9273
+ "epoch": 0.08710956132703916,
9274
+ "grad_norm": 0.6670122742652893,
9275
+ "learning_rate": 2.490372966644544e-06,
9276
+ "loss": 1.6455,
9277
+ "step": 1324
9278
+ },
9279
+ {
9280
+ "epoch": 0.08717535404707469,
9281
+ "grad_norm": 0.6817238330841064,
9282
+ "learning_rate": 2.457110434962645e-06,
9283
+ "loss": 1.575,
9284
+ "step": 1325
9285
+ },
9286
+ {
9287
+ "epoch": 0.08724114676711021,
9288
+ "grad_norm": 0.6881915926933289,
9289
+ "learning_rate": 2.424065937633768e-06,
9290
+ "loss": 1.7438,
9291
+ "step": 1326
9292
+ },
9293
+ {
9294
+ "epoch": 0.08730693948714574,
9295
+ "grad_norm": 0.6820628643035889,
9296
+ "learning_rate": 2.3912396262018357e-06,
9297
+ "loss": 1.5352,
9298
+ "step": 1327
9299
+ },
9300
+ {
9301
+ "epoch": 0.08737273220718128,
9302
+ "grad_norm": 0.7019688487052917,
9303
+ "learning_rate": 2.3586316512101416e-06,
9304
+ "loss": 1.6225,
9305
+ "step": 1328
9306
+ },
9307
+ {
9308
+ "epoch": 0.0874385249272168,
9309
+ "grad_norm": 0.6856455206871033,
9310
+ "learning_rate": 2.3262421622006868e-06,
9311
+ "loss": 1.7121,
9312
+ "step": 1329
9313
+ },
9314
+ {
9315
+ "epoch": 0.08750431764725233,
9316
+ "grad_norm": 0.7237346768379211,
9317
+ "learning_rate": 2.29407130771348e-06,
9318
+ "loss": 1.6317,
9319
+ "step": 1330
9320
+ },
9321
+ {
9322
+ "epoch": 0.08757011036728786,
9323
+ "grad_norm": 0.728233814239502,
9324
+ "learning_rate": 2.26211923528587e-06,
9325
+ "loss": 1.5668,
9326
+ "step": 1331
9327
+ },
9328
+ {
9329
+ "epoch": 0.08763590308732339,
9330
+ "grad_norm": 0.6574517488479614,
9331
+ "learning_rate": 2.2303860914518306e-06,
9332
+ "loss": 1.496,
9333
+ "step": 1332
9334
+ },
9335
+ {
9336
+ "epoch": 0.08770169580735891,
9337
+ "grad_norm": 0.7108151912689209,
9338
+ "learning_rate": 2.1988720217413494e-06,
9339
+ "loss": 1.4753,
9340
+ "step": 1333
9341
+ },
9342
+ {
9343
+ "epoch": 0.08776748852739444,
9344
+ "grad_norm": 0.7035221457481384,
9345
+ "learning_rate": 2.1675771706797132e-06,
9346
+ "loss": 1.4783,
9347
+ "step": 1334
9348
+ },
9349
+ {
9350
+ "epoch": 0.08783328124742998,
9351
+ "grad_norm": 0.713604211807251,
9352
+ "learning_rate": 2.136501681786862e-06,
9353
+ "loss": 1.6723,
9354
+ "step": 1335
9355
+ },
9356
+ {
9357
+ "epoch": 0.0878990739674655,
9358
+ "grad_norm": 0.7584853768348694,
9359
+ "learning_rate": 2.10564569757673e-06,
9360
+ "loss": 1.457,
9361
+ "step": 1336
9362
+ },
9363
+ {
9364
+ "epoch": 0.08796486668750103,
9365
+ "grad_norm": 0.7580429911613464,
9366
+ "learning_rate": 2.0750093595565733e-06,
9367
+ "loss": 1.597,
9368
+ "step": 1337
9369
+ },
9370
+ {
9371
+ "epoch": 0.08803065940753656,
9372
+ "grad_norm": 0.7131192684173584,
9373
+ "learning_rate": 2.0445928082263645e-06,
9374
+ "loss": 1.5909,
9375
+ "step": 1338
9376
+ },
9377
+ {
9378
+ "epoch": 0.08809645212757208,
9379
+ "grad_norm": 0.7904130816459656,
9380
+ "learning_rate": 2.01439618307811e-06,
9381
+ "loss": 1.5464,
9382
+ "step": 1339
9383
+ },
9384
+ {
9385
+ "epoch": 0.08816224484760761,
9386
+ "grad_norm": 0.8404092192649841,
9387
+ "learning_rate": 1.984419622595224e-06,
9388
+ "loss": 1.616,
9389
+ "step": 1340
9390
+ },
9391
+ {
9392
+ "epoch": 0.08822803756764314,
9393
+ "grad_norm": 0.7262335419654846,
9394
+ "learning_rate": 1.954663264251888e-06,
9395
+ "loss": 1.5096,
9396
+ "step": 1341
9397
+ },
9398
+ {
9399
+ "epoch": 0.08829383028767866,
9400
+ "grad_norm": 0.8143447041511536,
9401
+ "learning_rate": 1.925127244512426e-06,
9402
+ "loss": 1.4777,
9403
+ "step": 1342
9404
+ },
9405
+ {
9406
+ "epoch": 0.0883596230077142,
9407
+ "grad_norm": 0.8100689053535461,
9408
+ "learning_rate": 1.895811698830685e-06,
9409
+ "loss": 1.4577,
9410
+ "step": 1343
9411
+ },
9412
+ {
9413
+ "epoch": 0.08842541572774973,
9414
+ "grad_norm": 0.8460294008255005,
9415
+ "learning_rate": 1.8667167616493896e-06,
9416
+ "loss": 1.5934,
9417
+ "step": 1344
9418
+ },
9419
+ {
9420
+ "epoch": 0.08849120844778526,
9421
+ "grad_norm": 0.8502865433692932,
9422
+ "learning_rate": 1.8378425663995559e-06,
9423
+ "loss": 1.435,
9424
+ "step": 1345
9425
+ },
9426
+ {
9427
+ "epoch": 0.08855700116782078,
9428
+ "grad_norm": 0.9002560377120972,
9429
+ "learning_rate": 1.8091892454998594e-06,
9430
+ "loss": 1.459,
9431
+ "step": 1346
9432
+ },
9433
+ {
9434
+ "epoch": 0.08862279388785631,
9435
+ "grad_norm": 0.8573265075683594,
9436
+ "learning_rate": 1.7807569303560367e-06,
9437
+ "loss": 1.5029,
9438
+ "step": 1347
9439
+ },
9440
+ {
9441
+ "epoch": 0.08868858660789183,
9442
+ "grad_norm": 0.8953090310096741,
9443
+ "learning_rate": 1.7525457513602683e-06,
9444
+ "loss": 1.4322,
9445
+ "step": 1348
9446
+ },
9447
+ {
9448
+ "epoch": 0.08875437932792736,
9449
+ "grad_norm": 0.9949759244918823,
9450
+ "learning_rate": 1.7245558378906013e-06,
9451
+ "loss": 1.4967,
9452
+ "step": 1349
9453
+ },
9454
+ {
9455
+ "epoch": 0.08882017204796289,
9456
+ "grad_norm": 1.1277623176574707,
9457
+ "learning_rate": 1.6967873183103556e-06,
9458
+ "loss": 1.0865,
9459
+ "step": 1350
9460
+ },
9461
+ {
9462
+ "epoch": 0.08888596476799843,
9463
+ "grad_norm": 0.5030365586280823,
9464
+ "learning_rate": 1.6692403199675078e-06,
9465
+ "loss": 1.6924,
9466
+ "step": 1351
9467
+ },
9468
+ {
9469
+ "epoch": 0.08895175748803395,
9470
+ "grad_norm": 0.5737792253494263,
9471
+ "learning_rate": 1.641914969194147e-06,
9472
+ "loss": 1.7576,
9473
+ "step": 1352
9474
+ },
9475
+ {
9476
+ "epoch": 0.08901755020806948,
9477
+ "grad_norm": 0.5396728515625,
9478
+ "learning_rate": 1.6148113913058427e-06,
9479
+ "loss": 1.4578,
9480
+ "step": 1353
9481
+ },
9482
+ {
9483
+ "epoch": 0.089083342928105,
9484
+ "grad_norm": 0.535679280757904,
9485
+ "learning_rate": 1.587929710601127e-06,
9486
+ "loss": 1.5822,
9487
+ "step": 1354
9488
+ },
9489
+ {
9490
+ "epoch": 0.08914913564814053,
9491
+ "grad_norm": 0.5770007371902466,
9492
+ "learning_rate": 1.5612700503608968e-06,
9493
+ "loss": 1.7699,
9494
+ "step": 1355
9495
+ },
9496
+ {
9497
+ "epoch": 0.08921492836817606,
9498
+ "grad_norm": 0.5972631573677063,
9499
+ "learning_rate": 1.5348325328478408e-06,
9500
+ "loss": 1.6394,
9501
+ "step": 1356
9502
+ },
9503
+ {
9504
+ "epoch": 0.08928072108821158,
9505
+ "grad_norm": 0.5818490386009216,
9506
+ "learning_rate": 1.5086172793059017e-06,
9507
+ "loss": 1.7062,
9508
+ "step": 1357
9509
+ },
9510
+ {
9511
+ "epoch": 0.08934651380824711,
9512
+ "grad_norm": 0.6017389893531799,
9513
+ "learning_rate": 1.4826244099596986e-06,
9514
+ "loss": 1.6664,
9515
+ "step": 1358
9516
+ },
9517
+ {
9518
+ "epoch": 0.08941230652828265,
9519
+ "grad_norm": 0.6041622161865234,
9520
+ "learning_rate": 1.4568540440139777e-06,
9521
+ "loss": 1.7427,
9522
+ "step": 1359
9523
+ },
9524
+ {
9525
+ "epoch": 0.08947809924831818,
9526
+ "grad_norm": 0.8328604698181152,
9527
+ "learning_rate": 1.4313062996530847e-06,
9528
+ "loss": 1.5239,
9529
+ "step": 1360
9530
+ },
9531
+ {
9532
+ "epoch": 0.0895438919683537,
9533
+ "grad_norm": 0.6048279404640198,
9534
+ "learning_rate": 1.4059812940404093e-06,
9535
+ "loss": 1.7337,
9536
+ "step": 1361
9537
+ },
9538
+ {
9539
+ "epoch": 0.08960968468838923,
9540
+ "grad_norm": 0.6227853894233704,
9541
+ "learning_rate": 1.3808791433178369e-06,
9542
+ "loss": 1.451,
9543
+ "step": 1362
9544
+ },
9545
+ {
9546
+ "epoch": 0.08967547740842476,
9547
+ "grad_norm": 0.5862622857093811,
9548
+ "learning_rate": 1.3559999626052477e-06,
9549
+ "loss": 1.4699,
9550
+ "step": 1363
9551
+ },
9552
+ {
9553
+ "epoch": 0.08974127012846028,
9554
+ "grad_norm": 0.6687149405479431,
9555
+ "learning_rate": 1.33134386599994e-06,
9556
+ "loss": 1.5708,
9557
+ "step": 1364
9558
+ },
9559
+ {
9560
+ "epoch": 0.08980706284849581,
9561
+ "grad_norm": 0.65779709815979,
9562
+ "learning_rate": 1.3069109665761693e-06,
9563
+ "loss": 1.6006,
9564
+ "step": 1365
9565
+ },
9566
+ {
9567
+ "epoch": 0.08987285556853135,
9568
+ "grad_norm": 0.6536720991134644,
9569
+ "learning_rate": 1.2827013763845707e-06,
9570
+ "loss": 1.6428,
9571
+ "step": 1366
9572
+ },
9573
+ {
9574
+ "epoch": 0.08993864828856687,
9575
+ "grad_norm": 0.6218163967132568,
9576
+ "learning_rate": 1.2587152064516827e-06,
9577
+ "loss": 1.5861,
9578
+ "step": 1367
9579
+ },
9580
+ {
9581
+ "epoch": 0.0900044410086024,
9582
+ "grad_norm": 0.6612845063209534,
9583
+ "learning_rate": 1.2349525667794293e-06,
9584
+ "loss": 1.7162,
9585
+ "step": 1368
9586
+ },
9587
+ {
9588
+ "epoch": 0.09007023372863793,
9589
+ "grad_norm": 0.6771432757377625,
9590
+ "learning_rate": 1.211413566344599e-06,
9591
+ "loss": 1.7318,
9592
+ "step": 1369
9593
+ },
9594
+ {
9595
+ "epoch": 0.09013602644867345,
9596
+ "grad_norm": 0.6161140203475952,
9597
+ "learning_rate": 1.1880983130983626e-06,
9598
+ "loss": 1.5076,
9599
+ "step": 1370
9600
+ },
9601
+ {
9602
+ "epoch": 0.09020181916870898,
9603
+ "grad_norm": 0.6894911527633667,
9604
+ "learning_rate": 1.1650069139657826e-06,
9605
+ "loss": 1.7694,
9606
+ "step": 1371
9607
+ },
9608
+ {
9609
+ "epoch": 0.0902676118887445,
9610
+ "grad_norm": 0.6760029196739197,
9611
+ "learning_rate": 1.1421394748453108e-06,
9612
+ "loss": 1.6852,
9613
+ "step": 1372
9614
+ },
9615
+ {
9616
+ "epoch": 0.09033340460878003,
9617
+ "grad_norm": 0.716984748840332,
9618
+ "learning_rate": 1.1194961006082972e-06,
9619
+ "loss": 1.4935,
9620
+ "step": 1373
9621
+ },
9622
+ {
9623
+ "epoch": 0.09039919732881557,
9624
+ "grad_norm": 0.6679751873016357,
9625
+ "learning_rate": 1.0970768950985199e-06,
9626
+ "loss": 1.7724,
9627
+ "step": 1374
9628
+ },
9629
+ {
9630
+ "epoch": 0.0904649900488511,
9631
+ "grad_norm": 0.6891523599624634,
9632
+ "learning_rate": 1.074881961131724e-06,
9633
+ "loss": 1.5886,
9634
+ "step": 1375
9635
+ },
9636
+ {
9637
+ "epoch": 0.09053078276888663,
9638
+ "grad_norm": 0.6760563254356384,
9639
+ "learning_rate": 1.0529114004951047e-06,
9640
+ "loss": 1.632,
9641
+ "step": 1376
9642
+ },
9643
+ {
9644
+ "epoch": 0.09059657548892215,
9645
+ "grad_norm": 0.6902234554290771,
9646
+ "learning_rate": 1.0311653139468969e-06,
9647
+ "loss": 1.6434,
9648
+ "step": 1377
9649
+ },
9650
+ {
9651
+ "epoch": 0.09066236820895768,
9652
+ "grad_norm": 0.6432000398635864,
9653
+ "learning_rate": 1.0096438012158539e-06,
9654
+ "loss": 1.5294,
9655
+ "step": 1378
9656
+ },
9657
+ {
9658
+ "epoch": 0.0907281609289932,
9659
+ "grad_norm": 0.6482113599777222,
9660
+ "learning_rate": 9.883469610008577e-07,
9661
+ "loss": 1.5759,
9662
+ "step": 1379
9663
+ },
9664
+ {
9665
+ "epoch": 0.09079395364902873,
9666
+ "grad_norm": 0.7423402070999146,
9667
+ "learning_rate": 9.672748909703934e-07,
9668
+ "loss": 1.697,
9669
+ "step": 1380
9670
+ },
9671
+ {
9672
+ "epoch": 0.09085974636906426,
9673
+ "grad_norm": 0.7108086943626404,
9674
+ "learning_rate": 9.46427687762158e-07,
9675
+ "loss": 1.6335,
9676
+ "step": 1381
9677
+ },
9678
+ {
9679
+ "epoch": 0.0909255390890998,
9680
+ "grad_norm": 0.6593964695930481,
9681
+ "learning_rate": 9.258054469825972e-07,
9682
+ "loss": 1.5451,
9683
+ "step": 1382
9684
+ },
9685
+ {
9686
+ "epoch": 0.09099133180913532,
9687
+ "grad_norm": 0.7182891964912415,
9688
+ "learning_rate": 9.054082632064642e-07,
9689
+ "loss": 1.4827,
9690
+ "step": 1383
9691
+ },
9692
+ {
9693
+ "epoch": 0.09105712452917085,
9694
+ "grad_norm": 0.7174695730209351,
9695
+ "learning_rate": 8.852362299763772e-07,
9696
+ "loss": 1.652,
9697
+ "step": 1384
9698
+ },
9699
+ {
9700
+ "epoch": 0.09112291724920638,
9701
+ "grad_norm": 0.7062637209892273,
9702
+ "learning_rate": 8.652894398024136e-07,
9703
+ "loss": 1.478,
9704
+ "step": 1385
9705
+ },
9706
+ {
9707
+ "epoch": 0.0911887099692419,
9708
+ "grad_norm": 0.737032949924469,
9709
+ "learning_rate": 8.455679841616659e-07,
9710
+ "loss": 1.6173,
9711
+ "step": 1386
9712
+ },
9713
+ {
9714
+ "epoch": 0.09125450268927743,
9715
+ "grad_norm": 0.8026255369186401,
9716
+ "learning_rate": 8.260719534978368e-07,
9717
+ "loss": 1.5671,
9718
+ "step": 1387
9719
+ },
9720
+ {
9721
+ "epoch": 0.09132029540931295,
9722
+ "grad_norm": 0.7752266526222229,
9723
+ "learning_rate": 8.06801437220811e-07,
9724
+ "loss": 1.7083,
9725
+ "step": 1388
9726
+ },
9727
+ {
9728
+ "epoch": 0.0913860881293485,
9729
+ "grad_norm": 0.7705795764923096,
9730
+ "learning_rate": 7.877565237062623e-07,
9731
+ "loss": 1.4577,
9732
+ "step": 1389
9733
+ },
9734
+ {
9735
+ "epoch": 0.09145188084938402,
9736
+ "grad_norm": 0.799823522567749,
9737
+ "learning_rate": 7.689373002952305e-07,
9738
+ "loss": 1.7553,
9739
+ "step": 1390
9740
+ },
9741
+ {
9742
+ "epoch": 0.09151767356941955,
9743
+ "grad_norm": 0.7618536353111267,
9744
+ "learning_rate": 7.503438532937168e-07,
9745
+ "loss": 1.4927,
9746
+ "step": 1391
9747
+ },
9748
+ {
9749
+ "epoch": 0.09158346628945507,
9750
+ "grad_norm": 0.9011740684509277,
9751
+ "learning_rate": 7.319762679723174e-07,
9752
+ "loss": 1.6078,
9753
+ "step": 1392
9754
+ },
9755
+ {
9756
+ "epoch": 0.0916492590094906,
9757
+ "grad_norm": 0.8119943737983704,
9758
+ "learning_rate": 7.138346285658071e-07,
9759
+ "loss": 1.3945,
9760
+ "step": 1393
9761
+ },
9762
+ {
9763
+ "epoch": 0.09171505172952613,
9764
+ "grad_norm": 0.8282358050346375,
9765
+ "learning_rate": 6.959190182727615e-07,
9766
+ "loss": 1.6105,
9767
+ "step": 1394
9768
+ },
9769
+ {
9770
+ "epoch": 0.09178084444956165,
9771
+ "grad_norm": 0.8864809274673462,
9772
+ "learning_rate": 6.782295192551691e-07,
9773
+ "loss": 1.6667,
9774
+ "step": 1395
9775
+ },
9776
+ {
9777
+ "epoch": 0.09184663716959718,
9778
+ "grad_norm": 0.8417677879333496,
9779
+ "learning_rate": 6.607662126380587e-07,
9780
+ "loss": 1.513,
9781
+ "step": 1396
9782
+ },
9783
+ {
9784
+ "epoch": 0.09191242988963272,
9785
+ "grad_norm": 0.8300901651382446,
9786
+ "learning_rate": 6.43529178509139e-07,
9787
+ "loss": 1.3415,
9788
+ "step": 1397
9789
+ },
9790
+ {
9791
+ "epoch": 0.09197822260966824,
9792
+ "grad_norm": 0.9474268555641174,
9793
+ "learning_rate": 6.265184959184101e-07,
9794
+ "loss": 1.56,
9795
+ "step": 1398
9796
+ },
9797
+ {
9798
+ "epoch": 0.09204401532970377,
9799
+ "grad_norm": 1.1085734367370605,
9800
+ "learning_rate": 6.097342428778185e-07,
9801
+ "loss": 1.4722,
9802
+ "step": 1399
9803
+ },
9804
+ {
9805
+ "epoch": 0.0921098080497393,
9806
+ "grad_norm": 1.2595409154891968,
9807
+ "learning_rate": 5.931764963608866e-07,
9808
+ "loss": 1.2695,
9809
+ "step": 1400
9810
+ },
9811
+ {
9812
+ "epoch": 0.09217560076977482,
9813
+ "grad_norm": 0.4739496409893036,
9814
+ "learning_rate": 5.768453323023615e-07,
9815
+ "loss": 1.5488,
9816
+ "step": 1401
9817
+ },
9818
+ {
9819
+ "epoch": 0.09224139348981035,
9820
+ "grad_norm": 0.550033688545227,
9821
+ "learning_rate": 5.60740825597883e-07,
9822
+ "loss": 1.761,
9823
+ "step": 1402
9824
+ },
9825
+ {
9826
+ "epoch": 0.09230718620984588,
9827
+ "grad_norm": 0.5993760824203491,
9828
+ "learning_rate": 5.448630501036112e-07,
9829
+ "loss": 1.8681,
9830
+ "step": 1403
9831
+ },
9832
+ {
9833
+ "epoch": 0.0923729789298814,
9834
+ "grad_norm": 0.5492662787437439,
9835
+ "learning_rate": 5.292120786359267e-07,
9836
+ "loss": 1.6244,
9837
+ "step": 1404
9838
+ },
9839
+ {
9840
+ "epoch": 0.09243877164991694,
9841
+ "grad_norm": 0.5324863195419312,
9842
+ "learning_rate": 5.137879829710424e-07,
9843
+ "loss": 1.579,
9844
+ "step": 1405
9845
+ },
9846
+ {
9847
+ "epoch": 0.09250456436995247,
9848
+ "grad_norm": 0.5814157724380493,
9849
+ "learning_rate": 4.985908338447476e-07,
9850
+ "loss": 1.6163,
9851
+ "step": 1406
9852
+ },
9853
+ {
9854
+ "epoch": 0.092570357089988,
9855
+ "grad_norm": 0.5995772480964661,
9856
+ "learning_rate": 4.836207009519977e-07,
9857
+ "loss": 1.657,
9858
+ "step": 1407
9859
+ },
9860
+ {
9861
+ "epoch": 0.09263614981002352,
9862
+ "grad_norm": 0.6003164649009705,
9863
+ "learning_rate": 4.688776529466754e-07,
9864
+ "loss": 1.6132,
9865
+ "step": 1408
9866
+ },
9867
+ {
9868
+ "epoch": 0.09270194253005905,
9869
+ "grad_norm": 0.5804505348205566,
9870
+ "learning_rate": 4.543617574412184e-07,
9871
+ "loss": 1.5816,
9872
+ "step": 1409
9873
+ },
9874
+ {
9875
+ "epoch": 0.09276773525009457,
9876
+ "grad_norm": 0.5852599143981934,
9877
+ "learning_rate": 4.4007308100633136e-07,
9878
+ "loss": 1.6799,
9879
+ "step": 1410
9880
+ },
9881
+ {
9882
+ "epoch": 0.0928335279701301,
9883
+ "grad_norm": 0.6366518139839172,
9884
+ "learning_rate": 4.2601168917069114e-07,
9885
+ "loss": 1.7649,
9886
+ "step": 1411
9887
+ },
9888
+ {
9889
+ "epoch": 0.09289932069016563,
9890
+ "grad_norm": 0.5954082608222961,
9891
+ "learning_rate": 4.121776464206251e-07,
9892
+ "loss": 1.6245,
9893
+ "step": 1412
9894
+ },
9895
+ {
9896
+ "epoch": 0.09296511341020117,
9897
+ "grad_norm": 0.6634638905525208,
9898
+ "learning_rate": 3.9857101619982797e-07,
9899
+ "loss": 1.7316,
9900
+ "step": 1413
9901
+ },
9902
+ {
9903
+ "epoch": 0.09303090613023669,
9904
+ "grad_norm": 0.6314533352851868,
9905
+ "learning_rate": 3.851918609090677e-07,
9906
+ "loss": 1.6691,
9907
+ "step": 1414
9908
+ },
9909
+ {
9910
+ "epoch": 0.09309669885027222,
9911
+ "grad_norm": 0.6321081519126892,
9912
+ "learning_rate": 3.720402419058966e-07,
9913
+ "loss": 1.4713,
9914
+ "step": 1415
9915
+ },
9916
+ {
9917
+ "epoch": 0.09316249157030775,
9918
+ "grad_norm": 0.6127361059188843,
9919
+ "learning_rate": 3.5911621950438514e-07,
9920
+ "loss": 1.5676,
9921
+ "step": 1416
9922
+ },
9923
+ {
9924
+ "epoch": 0.09322828429034327,
9925
+ "grad_norm": 0.6360514760017395,
9926
+ "learning_rate": 3.464198529748108e-07,
9927
+ "loss": 1.5381,
9928
+ "step": 1417
9929
+ },
9930
+ {
9931
+ "epoch": 0.0932940770103788,
9932
+ "grad_norm": 0.6701735258102417,
9933
+ "learning_rate": 3.339512005434309e-07,
9934
+ "loss": 1.6244,
9935
+ "step": 1418
9936
+ },
9937
+ {
9938
+ "epoch": 0.09335986973041432,
9939
+ "grad_norm": 0.6812663674354553,
9940
+ "learning_rate": 3.2171031939217666e-07,
9941
+ "loss": 1.6387,
9942
+ "step": 1419
9943
+ },
9944
+ {
9945
+ "epoch": 0.09342566245044986,
9946
+ "grad_norm": 0.6711384057998657,
9947
+ "learning_rate": 3.0969726565842074e-07,
9948
+ "loss": 1.5678,
9949
+ "step": 1420
9950
+ },
9951
+ {
9952
+ "epoch": 0.09349145517048539,
9953
+ "grad_norm": 0.7010900974273682,
9954
+ "learning_rate": 2.979120944346936e-07,
9955
+ "loss": 1.6543,
9956
+ "step": 1421
9957
+ },
9958
+ {
9959
+ "epoch": 0.09355724789052092,
9960
+ "grad_norm": 0.6457873582839966,
9961
+ "learning_rate": 2.863548597684562e-07,
9962
+ "loss": 1.6793,
9963
+ "step": 1422
9964
+ },
9965
+ {
9966
+ "epoch": 0.09362304061055644,
9967
+ "grad_norm": 0.6923664808273315,
9968
+ "learning_rate": 2.750256146618335e-07,
9969
+ "loss": 1.5873,
9970
+ "step": 1423
9971
+ },
9972
+ {
9973
+ "epoch": 0.09368883333059197,
9974
+ "grad_norm": 0.6824166178703308,
9975
+ "learning_rate": 2.639244110713701e-07,
9976
+ "loss": 1.5315,
9977
+ "step": 1424
9978
+ },
9979
+ {
9980
+ "epoch": 0.0937546260506275,
9981
+ "grad_norm": 0.6563824415206909,
9982
+ "learning_rate": 2.5305129990781387e-07,
9983
+ "loss": 1.604,
9984
+ "step": 1425
9985
+ },
9986
+ {
9987
+ "epoch": 0.09382041877066302,
9988
+ "grad_norm": 0.6801635026931763,
9989
+ "learning_rate": 2.424063310358604e-07,
9990
+ "loss": 1.5743,
9991
+ "step": 1426
9992
+ },
9993
+ {
9994
+ "epoch": 0.09388621149069855,
9995
+ "grad_norm": 0.7070457935333252,
9996
+ "learning_rate": 2.319895532739369e-07,
9997
+ "loss": 1.5733,
9998
+ "step": 1427
9999
+ },
10000
+ {
10001
+ "epoch": 0.09395200421073409,
10002
+ "grad_norm": 0.661389172077179,
10003
+ "learning_rate": 2.218010143939575e-07,
10004
+ "loss": 1.4381,
10005
+ "step": 1428
10006
+ },
10007
+ {
10008
+ "epoch": 0.09401779693076961,
10009
+ "grad_norm": 0.7122326493263245,
10010
+ "learning_rate": 2.1184076112114038e-07,
10011
+ "loss": 1.5635,
10012
+ "step": 1429
10013
+ },
10014
+ {
10015
+ "epoch": 0.09408358965080514,
10016
+ "grad_norm": 0.6946954131126404,
10017
+ "learning_rate": 2.0210883913376334e-07,
10018
+ "loss": 1.558,
10019
+ "step": 1430
10020
+ },
10021
+ {
10022
+ "epoch": 0.09414938237084067,
10023
+ "grad_norm": 0.7263256311416626,
10024
+ "learning_rate": 1.9260529306296404e-07,
10025
+ "loss": 1.6198,
10026
+ "step": 1431
10027
+ },
10028
+ {
10029
+ "epoch": 0.0942151750908762,
10030
+ "grad_norm": 0.7192728519439697,
10031
+ "learning_rate": 1.833301664925402e-07,
10032
+ "loss": 1.6123,
10033
+ "step": 1432
10034
+ },
10035
+ {
10036
+ "epoch": 0.09428096781091172,
10037
+ "grad_norm": 0.6984828114509583,
10038
+ "learning_rate": 1.742835019587441e-07,
10039
+ "loss": 1.5176,
10040
+ "step": 1433
10041
+ },
10042
+ {
10043
+ "epoch": 0.09434676053094725,
10044
+ "grad_norm": 0.7076666951179504,
10045
+ "learning_rate": 1.6546534095007172e-07,
10046
+ "loss": 1.5039,
10047
+ "step": 1434
10048
+ },
10049
+ {
10050
+ "epoch": 0.09441255325098277,
10051
+ "grad_norm": 0.7117300629615784,
10052
+ "learning_rate": 1.5687572390711835e-07,
10053
+ "loss": 1.5169,
10054
+ "step": 1435
10055
+ },
10056
+ {
10057
+ "epoch": 0.09447834597101831,
10058
+ "grad_norm": 0.7957559823989868,
10059
+ "learning_rate": 1.4851469022234e-07,
10060
+ "loss": 1.6177,
10061
+ "step": 1436
10062
+ },
10063
+ {
10064
+ "epoch": 0.09454413869105384,
10065
+ "grad_norm": 0.7519058585166931,
10066
+ "learning_rate": 1.403822782399089e-07,
10067
+ "loss": 1.5329,
10068
+ "step": 1437
10069
+ },
10070
+ {
10071
+ "epoch": 0.09460993141108937,
10072
+ "grad_norm": 0.7622172236442566,
10073
+ "learning_rate": 1.324785252555194e-07,
10074
+ "loss": 1.3998,
10075
+ "step": 1438
10076
+ },
10077
+ {
10078
+ "epoch": 0.09467572413112489,
10079
+ "grad_norm": 0.767694354057312,
10080
+ "learning_rate": 1.2480346751622686e-07,
10081
+ "loss": 1.5882,
10082
+ "step": 1439
10083
+ },
10084
+ {
10085
+ "epoch": 0.09474151685116042,
10086
+ "grad_norm": 0.7719693183898926,
10087
+ "learning_rate": 1.1735714022027555e-07,
10088
+ "loss": 1.3252,
10089
+ "step": 1440
10090
+ },
10091
+ {
10092
+ "epoch": 0.09480730957119594,
10093
+ "grad_norm": 0.7426503896713257,
10094
+ "learning_rate": 1.1013957751693782e-07,
10095
+ "loss": 1.5377,
10096
+ "step": 1441
10097
+ },
10098
+ {
10099
+ "epoch": 0.09487310229123147,
10100
+ "grad_norm": 0.7355154156684875,
10101
+ "learning_rate": 1.0315081250636405e-07,
10102
+ "loss": 1.424,
10103
+ "step": 1442
10104
+ },
10105
+ {
10106
+ "epoch": 0.094938895011267,
10107
+ "grad_norm": 0.8036089539527893,
10108
+ "learning_rate": 9.63908772394162e-08,
10109
+ "loss": 1.605,
10110
+ "step": 1443
10111
+ },
10112
+ {
10113
+ "epoch": 0.09500468773130254,
10114
+ "grad_norm": 0.878667950630188,
10115
+ "learning_rate": 8.985980271754013e-08,
10116
+ "loss": 1.5414,
10117
+ "step": 1444
10118
+ },
10119
+ {
10120
+ "epoch": 0.09507048045133806,
10121
+ "grad_norm": 0.9153657555580139,
10122
+ "learning_rate": 8.355761889260461e-08,
10123
+ "loss": 1.5492,
10124
+ "step": 1445
10125
+ },
10126
+ {
10127
+ "epoch": 0.09513627317137359,
10128
+ "grad_norm": 0.8688125014305115,
10129
+ "learning_rate": 7.748435466678471e-08,
10130
+ "loss": 1.525,
10131
+ "step": 1446
10132
+ },
10133
+ {
10134
+ "epoch": 0.09520206589140912,
10135
+ "grad_norm": 0.9009868502616882,
10136
+ "learning_rate": 7.164003789240648e-08,
10137
+ "loss": 1.4909,
10138
+ "step": 1447
10139
+ },
10140
+ {
10141
+ "epoch": 0.09526785861144464,
10142
+ "grad_norm": 0.947225034236908,
10143
+ "learning_rate": 6.602469537183021e-08,
10144
+ "loss": 1.4103,
10145
+ "step": 1448
10146
+ },
10147
+ {
10148
+ "epoch": 0.09533365133148017,
10149
+ "grad_norm": 1.0838871002197266,
10150
+ "learning_rate": 6.063835285733955e-08,
10151
+ "loss": 1.5726,
10152
+ "step": 1449
10153
+ },
10154
+ {
10155
+ "epoch": 0.0953994440515157,
10156
+ "grad_norm": 1.4739456176757812,
10157
+ "learning_rate": 5.5481035050991556e-08,
10158
+ "loss": 1.0046,
10159
+ "step": 1450
10160
+ },
10161
+ {
10162
+ "epoch": 0.09546523677155123,
10163
+ "grad_norm": 0.5145021677017212,
10164
+ "learning_rate": 5.0552765604544584e-08,
10165
+ "loss": 1.7385,
10166
+ "step": 1451
10167
+ },
10168
+ {
10169
+ "epoch": 0.09553102949158676,
10170
+ "grad_norm": 0.5236654877662659,
10171
+ "learning_rate": 4.585356711931388e-08,
10172
+ "loss": 1.7165,
10173
+ "step": 1452
10174
+ },
10175
+ {
10176
+ "epoch": 0.09559682221162229,
10177
+ "grad_norm": 0.5186619758605957,
10178
+ "learning_rate": 4.138346114608283e-08,
10179
+ "loss": 1.4829,
10180
+ "step": 1453
10181
+ },
10182
+ {
10183
+ "epoch": 0.09566261493165781,
10184
+ "grad_norm": 0.5814453959465027,
10185
+ "learning_rate": 3.7142468185014104e-08,
10186
+ "loss": 1.6926,
10187
+ "step": 1454
10188
+ },
10189
+ {
10190
+ "epoch": 0.09572840765169334,
10191
+ "grad_norm": 0.5442173480987549,
10192
+ "learning_rate": 3.313060768553866e-08,
10193
+ "loss": 1.6347,
10194
+ "step": 1455
10195
+ },
10196
+ {
10197
+ "epoch": 0.09579420037172887,
10198
+ "grad_norm": 0.5665310025215149,
10199
+ "learning_rate": 2.9347898046266918e-08,
10200
+ "loss": 1.5986,
10201
+ "step": 1456
10202
+ },
10203
+ {
10204
+ "epoch": 0.09585999309176439,
10205
+ "grad_norm": 0.5988601446151733,
10206
+ "learning_rate": 2.5794356614922134e-08,
10207
+ "loss": 1.8659,
10208
+ "step": 1457
10209
+ },
10210
+ {
10211
+ "epoch": 0.09592578581179992,
10212
+ "grad_norm": 0.5948224067687988,
10213
+ "learning_rate": 2.2469999688246035e-08,
10214
+ "loss": 1.7225,
10215
+ "step": 1458
10216
+ },
10217
+ {
10218
+ "epoch": 0.09599157853183546,
10219
+ "grad_norm": 0.6055050492286682,
10220
+ "learning_rate": 1.937484251192112e-08,
10221
+ "loss": 1.6482,
10222
+ "step": 1459
10223
+ },
10224
+ {
10225
+ "epoch": 0.09605737125187098,
10226
+ "grad_norm": 0.6156303286552429,
10227
+ "learning_rate": 1.6508899280515134e-08,
10228
+ "loss": 1.76,
10229
+ "step": 1460
10230
+ },
10231
+ {
10232
+ "epoch": 0.09612316397190651,
10233
+ "grad_norm": 0.5953572988510132,
10234
+ "learning_rate": 1.3872183137397799e-08,
10235
+ "loss": 1.6664,
10236
+ "step": 1461
10237
+ },
10238
+ {
10239
+ "epoch": 0.09618895669194204,
10240
+ "grad_norm": 0.6339824199676514,
10241
+ "learning_rate": 1.1464706174701967e-08,
10242
+ "loss": 1.5749,
10243
+ "step": 1462
10244
+ },
10245
+ {
10246
+ "epoch": 0.09625474941197756,
10247
+ "grad_norm": 0.598288357257843,
10248
+ "learning_rate": 9.286479433257e-09,
10249
+ "loss": 1.5851,
10250
+ "step": 1463
10251
+ },
10252
+ {
10253
+ "epoch": 0.09632054213201309,
10254
+ "grad_norm": 0.6078794002532959,
10255
+ "learning_rate": 7.337512902522159e-09,
10256
+ "loss": 1.6656,
10257
+ "step": 1464
10258
+ },
10259
+ {
10260
+ "epoch": 0.09638633485204862,
10261
+ "grad_norm": 0.6280359029769897,
10262
+ "learning_rate": 5.6178155205754975e-09,
10263
+ "loss": 1.6216,
10264
+ "step": 1465
10265
+ },
10266
+ {
10267
+ "epoch": 0.09645212757208414,
10268
+ "grad_norm": 0.5920078754425049,
10269
+ "learning_rate": 4.127395174036153e-09,
10270
+ "loss": 1.5143,
10271
+ "step": 1466
10272
+ },
10273
+ {
10274
+ "epoch": 0.09651792029211968,
10275
+ "grad_norm": 0.6147146224975586,
10276
+ "learning_rate": 2.866258698064339e-09,
10277
+ "loss": 1.559,
10278
+ "step": 1467
10279
+ },
10280
+ {
10281
+ "epoch": 0.09658371301215521,
10282
+ "grad_norm": 0.6601701974868774,
10283
+ "learning_rate": 1.8344118763002903e-09,
10284
+ "loss": 1.593,
10285
+ "step": 1468
10286
+ },
10287
+ {
10288
+ "epoch": 0.09664950573219074,
10289
+ "grad_norm": 0.6434551477432251,
10290
+ "learning_rate": 1.0318594408476045e-09,
10291
+ "loss": 1.5645,
10292
+ "step": 1469
10293
+ },
10294
+ {
10295
+ "epoch": 0.09671529845222626,
10296
+ "grad_norm": 0.6171491146087646,
10297
+ "learning_rate": 4.586050722621416e-10,
10298
+ "loss": 1.589,
10299
+ "step": 1470
10300
+ },
10301
+ {
10302
+ "epoch": 0.09678109117226179,
10303
+ "grad_norm": 0.6035428047180176,
10304
+ "learning_rate": 1.1465139951316595e-10,
10305
+ "loss": 1.5367,
10306
+ "step": 1471
10307
+ },
10308
+ {
10309
+ "epoch": 0.09684688389229731,
10310
+ "grad_norm": 0.6608728170394897,
10311
+ "learning_rate": 0.0,
10312
+ "loss": 1.517,
10313
+ "step": 1472
10314
  }
10315
  ],
10316
  "logging_steps": 1,
 
10325
  "should_evaluate": false,
10326
  "should_log": false,
10327
  "should_save": true,
10328
+ "should_training_stop": true
10329
  },
10330
  "attributes": {}
10331
  }
10332
  },
10333
+ "total_flos": 1.9072999168294257e+18,
10334
  "train_batch_size": 4,
10335
  "trial_name": null,
10336
  "trial_params": null