eageringdev commited on
Commit
461d237
·
verified ·
1 Parent(s): ce123be

Training in progress, step 1348, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:41df3b95efe411ce2e84e77c3372211fb820d18e6949708a5c2a62a2ab934fbb
3
  size 27024
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:40ee21f947c861f283979fc9002276136bca96cc9df1a7eca3efe53eff88d4aa
3
  size 27024
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b5f5d1ff59eb6dae1fde56188c61cda41a9ea653aacc54b5dd374b12343424d9
3
  size 64038
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:245d0993b8b552a2d4001ecfb38d11a8ea2c01c327875647fe1afab8460b08a4
3
  size 64038
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f4ac8dcb3957b7614e7bbab6e3835ff44db6b48f8bf05ec3aacb053acc777df6
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:df61d42dbf64890c146fc1b345e5825548bdc732960cf7184a20a2a496707abb
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b70c163b84cb933900958bdcdee6b2f3ed9dd9edc41c750b9c96253dbdd719fe
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:dbe6b681f982230cf148c02eb0c76204db7bc5c5c9dc78ffffd92b93ee47cc19
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.4281630492323981,
5
  "eval_steps": 337,
6
- "global_step": 1011,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -7116,6 +7116,2373 @@
7116
  "eval_samples_per_second": 284.832,
7117
  "eval_steps_per_second": 142.559,
7118
  "step": 1011
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7119
  }
7120
  ],
7121
  "logging_steps": 1,
@@ -7130,12 +9497,12 @@
7130
  "should_evaluate": false,
7131
  "should_log": false,
7132
  "should_save": true,
7133
- "should_training_stop": false
7134
  },
7135
  "attributes": {}
7136
  }
7137
  },
7138
- "total_flos": 21649572986880.0,
7139
  "train_batch_size": 2,
7140
  "trial_name": null,
7141
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.5708840656431975,
5
  "eval_steps": 337,
6
+ "global_step": 1348,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
7116
  "eval_samples_per_second": 284.832,
7117
  "eval_steps_per_second": 142.559,
7118
  "step": 1011
7119
+ },
7120
+ {
7121
+ "epoch": 0.4285865537321334,
7122
+ "grad_norm": 0.03415974974632263,
7123
+ "learning_rate": 2.9538800445457946e-05,
7124
+ "loss": 10.3323,
7125
+ "step": 1012
7126
+ },
7127
+ {
7128
+ "epoch": 0.4290100582318687,
7129
+ "grad_norm": 0.039172153919935226,
7130
+ "learning_rate": 2.9372384098526784e-05,
7131
+ "loss": 10.3347,
7132
+ "step": 1013
7133
+ },
7134
+ {
7135
+ "epoch": 0.42943356273160405,
7136
+ "grad_norm": 0.031853485852479935,
7137
+ "learning_rate": 2.9206357121038285e-05,
7138
+ "loss": 10.3338,
7139
+ "step": 1014
7140
+ },
7141
+ {
7142
+ "epoch": 0.4298570672313393,
7143
+ "grad_norm": 0.04923943430185318,
7144
+ "learning_rate": 2.904072042829775e-05,
7145
+ "loss": 10.3323,
7146
+ "step": 1015
7147
+ },
7148
+ {
7149
+ "epoch": 0.43028057173107465,
7150
+ "grad_norm": 0.03674182668328285,
7151
+ "learning_rate": 2.8875474933458847e-05,
7152
+ "loss": 10.3334,
7153
+ "step": 1016
7154
+ },
7155
+ {
7156
+ "epoch": 0.43070407623081,
7157
+ "grad_norm": 0.030546877533197403,
7158
+ "learning_rate": 2.871062154751858e-05,
7159
+ "loss": 10.3296,
7160
+ "step": 1017
7161
+ },
7162
+ {
7163
+ "epoch": 0.43112758073054525,
7164
+ "grad_norm": 0.030613403767347336,
7165
+ "learning_rate": 2.8546161179312248e-05,
7166
+ "loss": 10.3354,
7167
+ "step": 1018
7168
+ },
7169
+ {
7170
+ "epoch": 0.4315510852302806,
7171
+ "grad_norm": 0.030776720494031906,
7172
+ "learning_rate": 2.8382094735508457e-05,
7173
+ "loss": 10.3303,
7174
+ "step": 1019
7175
+ },
7176
+ {
7177
+ "epoch": 0.4319745897300159,
7178
+ "grad_norm": 0.03810757398605347,
7179
+ "learning_rate": 2.821842312060409e-05,
7180
+ "loss": 10.3334,
7181
+ "step": 1020
7182
+ },
7183
+ {
7184
+ "epoch": 0.4323980942297512,
7185
+ "grad_norm": 0.030035821720957756,
7186
+ "learning_rate": 2.8055147236919442e-05,
7187
+ "loss": 10.3345,
7188
+ "step": 1021
7189
+ },
7190
+ {
7191
+ "epoch": 0.4328215987294865,
7192
+ "grad_norm": 0.03650267794728279,
7193
+ "learning_rate": 2.789226798459298e-05,
7194
+ "loss": 10.3299,
7195
+ "step": 1022
7196
+ },
7197
+ {
7198
+ "epoch": 0.43324510322922183,
7199
+ "grad_norm": 0.030346672981977463,
7200
+ "learning_rate": 2.7729786261576617e-05,
7201
+ "loss": 10.334,
7202
+ "step": 1023
7203
+ },
7204
+ {
7205
+ "epoch": 0.4336686077289571,
7206
+ "grad_norm": 0.0330539271235466,
7207
+ "learning_rate": 2.7567702963630803e-05,
7208
+ "loss": 10.3316,
7209
+ "step": 1024
7210
+ },
7211
+ {
7212
+ "epoch": 0.43409211222869243,
7213
+ "grad_norm": 0.03174733370542526,
7214
+ "learning_rate": 2.740601898431925e-05,
7215
+ "loss": 10.3278,
7216
+ "step": 1025
7217
+ },
7218
+ {
7219
+ "epoch": 0.43451561672842776,
7220
+ "grad_norm": 0.03628386929631233,
7221
+ "learning_rate": 2.7244735215004446e-05,
7222
+ "loss": 10.3274,
7223
+ "step": 1026
7224
+ },
7225
+ {
7226
+ "epoch": 0.43493912122816303,
7227
+ "grad_norm": 0.024906015023589134,
7228
+ "learning_rate": 2.7083852544842436e-05,
7229
+ "loss": 10.3332,
7230
+ "step": 1027
7231
+ },
7232
+ {
7233
+ "epoch": 0.43536262572789836,
7234
+ "grad_norm": 0.043956976383924484,
7235
+ "learning_rate": 2.692337186077791e-05,
7236
+ "loss": 10.3266,
7237
+ "step": 1028
7238
+ },
7239
+ {
7240
+ "epoch": 0.4357861302276337,
7241
+ "grad_norm": 0.032996706664562225,
7242
+ "learning_rate": 2.67632940475396e-05,
7243
+ "loss": 10.3346,
7244
+ "step": 1029
7245
+ },
7246
+ {
7247
+ "epoch": 0.43620963472736896,
7248
+ "grad_norm": 0.044276829808950424,
7249
+ "learning_rate": 2.6603619987635086e-05,
7250
+ "loss": 10.3274,
7251
+ "step": 1030
7252
+ },
7253
+ {
7254
+ "epoch": 0.4366331392271043,
7255
+ "grad_norm": 0.038449618965387344,
7256
+ "learning_rate": 2.64443505613461e-05,
7257
+ "loss": 10.3341,
7258
+ "step": 1031
7259
+ },
7260
+ {
7261
+ "epoch": 0.4370566437268396,
7262
+ "grad_norm": 0.03220584616065025,
7263
+ "learning_rate": 2.6285486646723634e-05,
7264
+ "loss": 10.3324,
7265
+ "step": 1032
7266
+ },
7267
+ {
7268
+ "epoch": 0.4374801482265749,
7269
+ "grad_norm": 0.03746611624956131,
7270
+ "learning_rate": 2.612702911958308e-05,
7271
+ "loss": 10.3354,
7272
+ "step": 1033
7273
+ },
7274
+ {
7275
+ "epoch": 0.4379036527263102,
7276
+ "grad_norm": 0.04333876073360443,
7277
+ "learning_rate": 2.5968978853499425e-05,
7278
+ "loss": 10.329,
7279
+ "step": 1034
7280
+ },
7281
+ {
7282
+ "epoch": 0.43832715722604554,
7283
+ "grad_norm": 0.03539913892745972,
7284
+ "learning_rate": 2.581133671980246e-05,
7285
+ "loss": 10.3324,
7286
+ "step": 1035
7287
+ },
7288
+ {
7289
+ "epoch": 0.4387506617257808,
7290
+ "grad_norm": 0.04690808430314064,
7291
+ "learning_rate": 2.565410358757189e-05,
7292
+ "loss": 10.3316,
7293
+ "step": 1036
7294
+ },
7295
+ {
7296
+ "epoch": 0.43917416622551614,
7297
+ "grad_norm": 0.038458049297332764,
7298
+ "learning_rate": 2.5497280323632654e-05,
7299
+ "loss": 10.3431,
7300
+ "step": 1037
7301
+ },
7302
+ {
7303
+ "epoch": 0.43959767072525147,
7304
+ "grad_norm": 0.03451355919241905,
7305
+ "learning_rate": 2.534086779255005e-05,
7306
+ "loss": 10.3296,
7307
+ "step": 1038
7308
+ },
7309
+ {
7310
+ "epoch": 0.44002117522498674,
7311
+ "grad_norm": 0.03873763233423233,
7312
+ "learning_rate": 2.5184866856625023e-05,
7313
+ "loss": 10.3273,
7314
+ "step": 1039
7315
+ },
7316
+ {
7317
+ "epoch": 0.44044467972472207,
7318
+ "grad_norm": 0.044388849288225174,
7319
+ "learning_rate": 2.5029278375889387e-05,
7320
+ "loss": 10.3324,
7321
+ "step": 1040
7322
+ },
7323
+ {
7324
+ "epoch": 0.4408681842244574,
7325
+ "grad_norm": 0.03534289821982384,
7326
+ "learning_rate": 2.4874103208101183e-05,
7327
+ "loss": 10.3343,
7328
+ "step": 1041
7329
+ },
7330
+ {
7331
+ "epoch": 0.4412916887241927,
7332
+ "grad_norm": 0.0375693254172802,
7333
+ "learning_rate": 2.4719342208739693e-05,
7334
+ "loss": 10.3323,
7335
+ "step": 1042
7336
+ },
7337
+ {
7338
+ "epoch": 0.441715193223928,
7339
+ "grad_norm": 0.03341260179877281,
7340
+ "learning_rate": 2.456499623100098e-05,
7341
+ "loss": 10.3318,
7342
+ "step": 1043
7343
+ },
7344
+ {
7345
+ "epoch": 0.4421386977236633,
7346
+ "grad_norm": 0.04234972223639488,
7347
+ "learning_rate": 2.4411066125793203e-05,
7348
+ "loss": 10.3319,
7349
+ "step": 1044
7350
+ },
7351
+ {
7352
+ "epoch": 0.44256220222339865,
7353
+ "grad_norm": 0.031914252787828445,
7354
+ "learning_rate": 2.4257552741731592e-05,
7355
+ "loss": 10.3361,
7356
+ "step": 1045
7357
+ },
7358
+ {
7359
+ "epoch": 0.4429857067231339,
7360
+ "grad_norm": 0.05003447085618973,
7361
+ "learning_rate": 2.41044569251342e-05,
7362
+ "loss": 10.3313,
7363
+ "step": 1046
7364
+ },
7365
+ {
7366
+ "epoch": 0.44340921122286925,
7367
+ "grad_norm": 0.03364928439259529,
7368
+ "learning_rate": 2.3951779520016937e-05,
7369
+ "loss": 10.33,
7370
+ "step": 1047
7371
+ },
7372
+ {
7373
+ "epoch": 0.4438327157226046,
7374
+ "grad_norm": 0.028291532769799232,
7375
+ "learning_rate": 2.379952136808903e-05,
7376
+ "loss": 10.3336,
7377
+ "step": 1048
7378
+ },
7379
+ {
7380
+ "epoch": 0.44425622022233985,
7381
+ "grad_norm": 0.042799290269613266,
7382
+ "learning_rate": 2.3647683308748392e-05,
7383
+ "loss": 10.3348,
7384
+ "step": 1049
7385
+ },
7386
+ {
7387
+ "epoch": 0.4446797247220752,
7388
+ "grad_norm": 0.042522724717855453,
7389
+ "learning_rate": 2.3496266179076864e-05,
7390
+ "loss": 10.3288,
7391
+ "step": 1050
7392
+ },
7393
+ {
7394
+ "epoch": 0.4451032292218105,
7395
+ "grad_norm": 0.02918383479118347,
7396
+ "learning_rate": 2.3345270813835886e-05,
7397
+ "loss": 10.3361,
7398
+ "step": 1051
7399
+ },
7400
+ {
7401
+ "epoch": 0.4455267337215458,
7402
+ "grad_norm": 0.046009406447410583,
7403
+ "learning_rate": 2.319469804546156e-05,
7404
+ "loss": 10.3349,
7405
+ "step": 1052
7406
+ },
7407
+ {
7408
+ "epoch": 0.4459502382212811,
7409
+ "grad_norm": 0.03431849181652069,
7410
+ "learning_rate": 2.3044548704060288e-05,
7411
+ "loss": 10.3283,
7412
+ "step": 1053
7413
+ },
7414
+ {
7415
+ "epoch": 0.44637374272101643,
7416
+ "grad_norm": 0.03582574054598808,
7417
+ "learning_rate": 2.2894823617404104e-05,
7418
+ "loss": 10.3314,
7419
+ "step": 1054
7420
+ },
7421
+ {
7422
+ "epoch": 0.4467972472207517,
7423
+ "grad_norm": 0.02972414344549179,
7424
+ "learning_rate": 2.2745523610926122e-05,
7425
+ "loss": 10.3289,
7426
+ "step": 1055
7427
+ },
7428
+ {
7429
+ "epoch": 0.44722075172048703,
7430
+ "grad_norm": 0.03548819199204445,
7431
+ "learning_rate": 2.2596649507716018e-05,
7432
+ "loss": 10.3299,
7433
+ "step": 1056
7434
+ },
7435
+ {
7436
+ "epoch": 0.44764425622022236,
7437
+ "grad_norm": 0.04241335019469261,
7438
+ "learning_rate": 2.244820212851544e-05,
7439
+ "loss": 10.3308,
7440
+ "step": 1057
7441
+ },
7442
+ {
7443
+ "epoch": 0.44806776071995763,
7444
+ "grad_norm": 0.033176884055137634,
7445
+ "learning_rate": 2.2300182291713513e-05,
7446
+ "loss": 10.3351,
7447
+ "step": 1058
7448
+ },
7449
+ {
7450
+ "epoch": 0.44849126521969296,
7451
+ "grad_norm": 0.032935190945863724,
7452
+ "learning_rate": 2.2152590813342345e-05,
7453
+ "loss": 10.3356,
7454
+ "step": 1059
7455
+ },
7456
+ {
7457
+ "epoch": 0.4489147697194283,
7458
+ "grad_norm": 0.030969172716140747,
7459
+ "learning_rate": 2.2005428507072467e-05,
7460
+ "loss": 10.3307,
7461
+ "step": 1060
7462
+ },
7463
+ {
7464
+ "epoch": 0.44933827421916356,
7465
+ "grad_norm": 0.036834247410297394,
7466
+ "learning_rate": 2.1858696184208484e-05,
7467
+ "loss": 10.3324,
7468
+ "step": 1061
7469
+ },
7470
+ {
7471
+ "epoch": 0.4497617787188989,
7472
+ "grad_norm": 0.038617976009845734,
7473
+ "learning_rate": 2.1712394653684344e-05,
7474
+ "loss": 10.3371,
7475
+ "step": 1062
7476
+ },
7477
+ {
7478
+ "epoch": 0.4501852832186342,
7479
+ "grad_norm": 0.026445934548974037,
7480
+ "learning_rate": 2.15665247220592e-05,
7481
+ "loss": 10.3334,
7482
+ "step": 1063
7483
+ },
7484
+ {
7485
+ "epoch": 0.4506087877183695,
7486
+ "grad_norm": 0.04230870306491852,
7487
+ "learning_rate": 2.1421087193512756e-05,
7488
+ "loss": 10.3261,
7489
+ "step": 1064
7490
+ },
7491
+ {
7492
+ "epoch": 0.4510322922181048,
7493
+ "grad_norm": 0.03189300373196602,
7494
+ "learning_rate": 2.1276082869840765e-05,
7495
+ "loss": 10.3297,
7496
+ "step": 1065
7497
+ },
7498
+ {
7499
+ "epoch": 0.45145579671784014,
7500
+ "grad_norm": 0.03367699310183525,
7501
+ "learning_rate": 2.113151255045095e-05,
7502
+ "loss": 10.3308,
7503
+ "step": 1066
7504
+ },
7505
+ {
7506
+ "epoch": 0.4518793012175754,
7507
+ "grad_norm": 0.032475464046001434,
7508
+ "learning_rate": 2.0987377032358114e-05,
7509
+ "loss": 10.339,
7510
+ "step": 1067
7511
+ },
7512
+ {
7513
+ "epoch": 0.45230280571731074,
7514
+ "grad_norm": 0.04436371102929115,
7515
+ "learning_rate": 2.084367711018024e-05,
7516
+ "loss": 10.3301,
7517
+ "step": 1068
7518
+ },
7519
+ {
7520
+ "epoch": 0.45272631021704607,
7521
+ "grad_norm": 0.037988126277923584,
7522
+ "learning_rate": 2.070041357613376e-05,
7523
+ "loss": 10.3309,
7524
+ "step": 1069
7525
+ },
7526
+ {
7527
+ "epoch": 0.45314981471678134,
7528
+ "grad_norm": 0.03870435804128647,
7529
+ "learning_rate": 2.0557587220029228e-05,
7530
+ "loss": 10.3353,
7531
+ "step": 1070
7532
+ },
7533
+ {
7534
+ "epoch": 0.45357331921651667,
7535
+ "grad_norm": 0.03660368546843529,
7536
+ "learning_rate": 2.0415198829267212e-05,
7537
+ "loss": 10.3317,
7538
+ "step": 1071
7539
+ },
7540
+ {
7541
+ "epoch": 0.453996823716252,
7542
+ "grad_norm": 0.03593965247273445,
7543
+ "learning_rate": 2.0273249188833654e-05,
7544
+ "loss": 10.3343,
7545
+ "step": 1072
7546
+ },
7547
+ {
7548
+ "epoch": 0.45442032821598727,
7549
+ "grad_norm": 0.03798775374889374,
7550
+ "learning_rate": 2.013173908129573e-05,
7551
+ "loss": 10.329,
7552
+ "step": 1073
7553
+ },
7554
+ {
7555
+ "epoch": 0.4548438327157226,
7556
+ "grad_norm": 0.030165789648890495,
7557
+ "learning_rate": 1.9990669286797438e-05,
7558
+ "loss": 10.3325,
7559
+ "step": 1074
7560
+ },
7561
+ {
7562
+ "epoch": 0.4552673372154579,
7563
+ "grad_norm": 0.029242129996418953,
7564
+ "learning_rate": 1.985004058305535e-05,
7565
+ "loss": 10.3337,
7566
+ "step": 1075
7567
+ },
7568
+ {
7569
+ "epoch": 0.45569084171519325,
7570
+ "grad_norm": 0.029076050966978073,
7571
+ "learning_rate": 1.9709853745354313e-05,
7572
+ "loss": 10.3347,
7573
+ "step": 1076
7574
+ },
7575
+ {
7576
+ "epoch": 0.4561143462149285,
7577
+ "grad_norm": 0.039899520576000214,
7578
+ "learning_rate": 1.9570109546543126e-05,
7579
+ "loss": 10.3334,
7580
+ "step": 1077
7581
+ },
7582
+ {
7583
+ "epoch": 0.45653785071466385,
7584
+ "grad_norm": 0.03501451388001442,
7585
+ "learning_rate": 1.943080875703045e-05,
7586
+ "loss": 10.325,
7587
+ "step": 1078
7588
+ },
7589
+ {
7590
+ "epoch": 0.4569613552143992,
7591
+ "grad_norm": 0.029382554814219475,
7592
+ "learning_rate": 1.929195214478028e-05,
7593
+ "loss": 10.336,
7594
+ "step": 1079
7595
+ },
7596
+ {
7597
+ "epoch": 0.45738485971413445,
7598
+ "grad_norm": 0.03819538280367851,
7599
+ "learning_rate": 1.915354047530791e-05,
7600
+ "loss": 10.3329,
7601
+ "step": 1080
7602
+ },
7603
+ {
7604
+ "epoch": 0.4578083642138698,
7605
+ "grad_norm": 0.03543626144528389,
7606
+ "learning_rate": 1.901557451167578e-05,
7607
+ "loss": 10.3326,
7608
+ "step": 1081
7609
+ },
7610
+ {
7611
+ "epoch": 0.4582318687136051,
7612
+ "grad_norm": 0.04363977536559105,
7613
+ "learning_rate": 1.887805501448896e-05,
7614
+ "loss": 10.3289,
7615
+ "step": 1082
7616
+ },
7617
+ {
7618
+ "epoch": 0.4586553732133404,
7619
+ "grad_norm": 0.03918329253792763,
7620
+ "learning_rate": 1.8740982741891377e-05,
7621
+ "loss": 10.3276,
7622
+ "step": 1083
7623
+ },
7624
+ {
7625
+ "epoch": 0.4590788777130757,
7626
+ "grad_norm": 0.029666945338249207,
7627
+ "learning_rate": 1.860435844956121e-05,
7628
+ "loss": 10.3307,
7629
+ "step": 1084
7630
+ },
7631
+ {
7632
+ "epoch": 0.45950238221281103,
7633
+ "grad_norm": 0.035329993814229965,
7634
+ "learning_rate": 1.8468182890707007e-05,
7635
+ "loss": 10.3336,
7636
+ "step": 1085
7637
+ },
7638
+ {
7639
+ "epoch": 0.4599258867125463,
7640
+ "grad_norm": 0.040378130972385406,
7641
+ "learning_rate": 1.833245681606356e-05,
7642
+ "loss": 10.3296,
7643
+ "step": 1086
7644
+ },
7645
+ {
7646
+ "epoch": 0.46034939121228163,
7647
+ "grad_norm": 0.04233788326382637,
7648
+ "learning_rate": 1.8197180973887428e-05,
7649
+ "loss": 10.3312,
7650
+ "step": 1087
7651
+ },
7652
+ {
7653
+ "epoch": 0.46077289571201696,
7654
+ "grad_norm": 0.03670990467071533,
7655
+ "learning_rate": 1.806235610995327e-05,
7656
+ "loss": 10.3303,
7657
+ "step": 1088
7658
+ },
7659
+ {
7660
+ "epoch": 0.46119640021175223,
7661
+ "grad_norm": 0.03234660625457764,
7662
+ "learning_rate": 1.7927982967549384e-05,
7663
+ "loss": 10.3355,
7664
+ "step": 1089
7665
+ },
7666
+ {
7667
+ "epoch": 0.46161990471148756,
7668
+ "grad_norm": 0.042892660945653915,
7669
+ "learning_rate": 1.7794062287473735e-05,
7670
+ "loss": 10.331,
7671
+ "step": 1090
7672
+ },
7673
+ {
7674
+ "epoch": 0.4620434092112229,
7675
+ "grad_norm": 0.04852224513888359,
7676
+ "learning_rate": 1.7660594808029908e-05,
7677
+ "loss": 10.3361,
7678
+ "step": 1091
7679
+ },
7680
+ {
7681
+ "epoch": 0.46246691371095816,
7682
+ "grad_norm": 0.036822058260440826,
7683
+ "learning_rate": 1.7527581265022965e-05,
7684
+ "loss": 10.3364,
7685
+ "step": 1092
7686
+ },
7687
+ {
7688
+ "epoch": 0.4628904182106935,
7689
+ "grad_norm": 0.03043217770755291,
7690
+ "learning_rate": 1.7395022391755434e-05,
7691
+ "loss": 10.335,
7692
+ "step": 1093
7693
+ },
7694
+ {
7695
+ "epoch": 0.4633139227104288,
7696
+ "grad_norm": 0.027736082673072815,
7697
+ "learning_rate": 1.7262918919023243e-05,
7698
+ "loss": 10.3335,
7699
+ "step": 1094
7700
+ },
7701
+ {
7702
+ "epoch": 0.4637374272101641,
7703
+ "grad_norm": 0.03186174854636192,
7704
+ "learning_rate": 1.713127157511172e-05,
7705
+ "loss": 10.3365,
7706
+ "step": 1095
7707
+ },
7708
+ {
7709
+ "epoch": 0.4641609317098994,
7710
+ "grad_norm": 0.03788574039936066,
7711
+ "learning_rate": 1.700008108579154e-05,
7712
+ "loss": 10.3317,
7713
+ "step": 1096
7714
+ },
7715
+ {
7716
+ "epoch": 0.46458443620963474,
7717
+ "grad_norm": 0.047464434057474136,
7718
+ "learning_rate": 1.6869348174314738e-05,
7719
+ "loss": 10.3307,
7720
+ "step": 1097
7721
+ },
7722
+ {
7723
+ "epoch": 0.46500794070937,
7724
+ "grad_norm": 0.03223862871527672,
7725
+ "learning_rate": 1.673907356141079e-05,
7726
+ "loss": 10.3337,
7727
+ "step": 1098
7728
+ },
7729
+ {
7730
+ "epoch": 0.46543144520910534,
7731
+ "grad_norm": 0.02775878831744194,
7732
+ "learning_rate": 1.6609257965282453e-05,
7733
+ "loss": 10.3376,
7734
+ "step": 1099
7735
+ },
7736
+ {
7737
+ "epoch": 0.46585494970884067,
7738
+ "grad_norm": 0.0346621610224247,
7739
+ "learning_rate": 1.647990210160204e-05,
7740
+ "loss": 10.334,
7741
+ "step": 1100
7742
+ },
7743
+ {
7744
+ "epoch": 0.46627845420857594,
7745
+ "grad_norm": 0.03867461159825325,
7746
+ "learning_rate": 1.6351006683507297e-05,
7747
+ "loss": 10.3321,
7748
+ "step": 1101
7749
+ },
7750
+ {
7751
+ "epoch": 0.46670195870831127,
7752
+ "grad_norm": 0.033736009150743484,
7753
+ "learning_rate": 1.622257242159756e-05,
7754
+ "loss": 10.329,
7755
+ "step": 1102
7756
+ },
7757
+ {
7758
+ "epoch": 0.4671254632080466,
7759
+ "grad_norm": 0.03446945920586586,
7760
+ "learning_rate": 1.6094600023929884e-05,
7761
+ "loss": 10.3281,
7762
+ "step": 1103
7763
+ },
7764
+ {
7765
+ "epoch": 0.46754896770778187,
7766
+ "grad_norm": 0.03439204394817352,
7767
+ "learning_rate": 1.59670901960149e-05,
7768
+ "loss": 10.3339,
7769
+ "step": 1104
7770
+ },
7771
+ {
7772
+ "epoch": 0.4679724722075172,
7773
+ "grad_norm": 0.03250345215201378,
7774
+ "learning_rate": 1.5840043640813274e-05,
7775
+ "loss": 10.3308,
7776
+ "step": 1105
7777
+ },
7778
+ {
7779
+ "epoch": 0.4683959767072525,
7780
+ "grad_norm": 0.030219173058867455,
7781
+ "learning_rate": 1.5713461058731572e-05,
7782
+ "loss": 10.333,
7783
+ "step": 1106
7784
+ },
7785
+ {
7786
+ "epoch": 0.4688194812069878,
7787
+ "grad_norm": 0.031828220933675766,
7788
+ "learning_rate": 1.558734314761844e-05,
7789
+ "loss": 10.3353,
7790
+ "step": 1107
7791
+ },
7792
+ {
7793
+ "epoch": 0.4692429857067231,
7794
+ "grad_norm": 0.047410812228918076,
7795
+ "learning_rate": 1.546169060276088e-05,
7796
+ "loss": 10.3289,
7797
+ "step": 1108
7798
+ },
7799
+ {
7800
+ "epoch": 0.46966649020645845,
7801
+ "grad_norm": 0.036803584545850754,
7802
+ "learning_rate": 1.53365041168803e-05,
7803
+ "loss": 10.3358,
7804
+ "step": 1109
7805
+ },
7806
+ {
7807
+ "epoch": 0.4700899947061937,
7808
+ "grad_norm": 0.03534479811787605,
7809
+ "learning_rate": 1.5211784380128714e-05,
7810
+ "loss": 10.33,
7811
+ "step": 1110
7812
+ },
7813
+ {
7814
+ "epoch": 0.47051349920592905,
7815
+ "grad_norm": 0.036183904856443405,
7816
+ "learning_rate": 1.5087532080084976e-05,
7817
+ "loss": 10.3289,
7818
+ "step": 1111
7819
+ },
7820
+ {
7821
+ "epoch": 0.4709370037056644,
7822
+ "grad_norm": 0.033738043159246445,
7823
+ "learning_rate": 1.4963747901750936e-05,
7824
+ "loss": 10.3303,
7825
+ "step": 1112
7826
+ },
7827
+ {
7828
+ "epoch": 0.4713605082053997,
7829
+ "grad_norm": 0.03870893269777298,
7830
+ "learning_rate": 1.4840432527547732e-05,
7831
+ "loss": 10.3364,
7832
+ "step": 1113
7833
+ },
7834
+ {
7835
+ "epoch": 0.471784012705135,
7836
+ "grad_norm": 0.04043989256024361,
7837
+ "learning_rate": 1.4717586637311943e-05,
7838
+ "loss": 10.3316,
7839
+ "step": 1114
7840
+ },
7841
+ {
7842
+ "epoch": 0.4722075172048703,
7843
+ "grad_norm": 0.03024929389357567,
7844
+ "learning_rate": 1.4595210908291935e-05,
7845
+ "loss": 10.3364,
7846
+ "step": 1115
7847
+ },
7848
+ {
7849
+ "epoch": 0.47263102170460564,
7850
+ "grad_norm": 0.04411826282739639,
7851
+ "learning_rate": 1.447330601514405e-05,
7852
+ "loss": 10.3331,
7853
+ "step": 1116
7854
+ },
7855
+ {
7856
+ "epoch": 0.4730545262043409,
7857
+ "grad_norm": 0.03368929401040077,
7858
+ "learning_rate": 1.4351872629928908e-05,
7859
+ "loss": 10.3323,
7860
+ "step": 1117
7861
+ },
7862
+ {
7863
+ "epoch": 0.47347803070407624,
7864
+ "grad_norm": 0.038087401539087296,
7865
+ "learning_rate": 1.423091142210774e-05,
7866
+ "loss": 10.3295,
7867
+ "step": 1118
7868
+ },
7869
+ {
7870
+ "epoch": 0.47390153520381156,
7871
+ "grad_norm": 0.03507355973124504,
7872
+ "learning_rate": 1.4110423058538624e-05,
7873
+ "loss": 10.3273,
7874
+ "step": 1119
7875
+ },
7876
+ {
7877
+ "epoch": 0.47432503970354684,
7878
+ "grad_norm": 0.03440206125378609,
7879
+ "learning_rate": 1.3990408203472938e-05,
7880
+ "loss": 10.3336,
7881
+ "step": 1120
7882
+ },
7883
+ {
7884
+ "epoch": 0.47474854420328216,
7885
+ "grad_norm": 0.03201809525489807,
7886
+ "learning_rate": 1.387086751855149e-05,
7887
+ "loss": 10.3323,
7888
+ "step": 1121
7889
+ },
7890
+ {
7891
+ "epoch": 0.4751720487030175,
7892
+ "grad_norm": 0.02803219109773636,
7893
+ "learning_rate": 1.3751801662801056e-05,
7894
+ "loss": 10.3343,
7895
+ "step": 1122
7896
+ },
7897
+ {
7898
+ "epoch": 0.47559555320275276,
7899
+ "grad_norm": 0.03642897307872772,
7900
+ "learning_rate": 1.3633211292630742e-05,
7901
+ "loss": 10.3309,
7902
+ "step": 1123
7903
+ },
7904
+ {
7905
+ "epoch": 0.4760190577024881,
7906
+ "grad_norm": 0.04547721892595291,
7907
+ "learning_rate": 1.3515097061828164e-05,
7908
+ "loss": 10.3248,
7909
+ "step": 1124
7910
+ },
7911
+ {
7912
+ "epoch": 0.4764425622022234,
7913
+ "grad_norm": 0.03152972459793091,
7914
+ "learning_rate": 1.339745962155613e-05,
7915
+ "loss": 10.3396,
7916
+ "step": 1125
7917
+ },
7918
+ {
7919
+ "epoch": 0.4768660667019587,
7920
+ "grad_norm": 0.028171587735414505,
7921
+ "learning_rate": 1.3280299620348846e-05,
7922
+ "loss": 10.33,
7923
+ "step": 1126
7924
+ },
7925
+ {
7926
+ "epoch": 0.477289571201694,
7927
+ "grad_norm": 0.03410959243774414,
7928
+ "learning_rate": 1.3163617704108321e-05,
7929
+ "loss": 10.3344,
7930
+ "step": 1127
7931
+ },
7932
+ {
7933
+ "epoch": 0.47771307570142935,
7934
+ "grad_norm": 0.030304502695798874,
7935
+ "learning_rate": 1.304741451610103e-05,
7936
+ "loss": 10.3309,
7937
+ "step": 1128
7938
+ },
7939
+ {
7940
+ "epoch": 0.4781365802011646,
7941
+ "grad_norm": 0.03257643058896065,
7942
+ "learning_rate": 1.2931690696954135e-05,
7943
+ "loss": 10.3346,
7944
+ "step": 1129
7945
+ },
7946
+ {
7947
+ "epoch": 0.47856008470089995,
7948
+ "grad_norm": 0.04555933550000191,
7949
+ "learning_rate": 1.2816446884652066e-05,
7950
+ "loss": 10.3302,
7951
+ "step": 1130
7952
+ },
7953
+ {
7954
+ "epoch": 0.4789835892006353,
7955
+ "grad_norm": 0.0384778194129467,
7956
+ "learning_rate": 1.2701683714532975e-05,
7957
+ "loss": 10.3317,
7958
+ "step": 1131
7959
+ },
7960
+ {
7961
+ "epoch": 0.47940709370037055,
7962
+ "grad_norm": 0.03637570142745972,
7963
+ "learning_rate": 1.2587401819285239e-05,
7964
+ "loss": 10.3295,
7965
+ "step": 1132
7966
+ },
7967
+ {
7968
+ "epoch": 0.4798305982001059,
7969
+ "grad_norm": 0.04053565487265587,
7970
+ "learning_rate": 1.2473601828943949e-05,
7971
+ "loss": 10.3293,
7972
+ "step": 1133
7973
+ },
7974
+ {
7975
+ "epoch": 0.4802541026998412,
7976
+ "grad_norm": 0.042270079255104065,
7977
+ "learning_rate": 1.236028437088751e-05,
7978
+ "loss": 10.3271,
7979
+ "step": 1134
7980
+ },
7981
+ {
7982
+ "epoch": 0.4806776071995765,
7983
+ "grad_norm": 0.04081670939922333,
7984
+ "learning_rate": 1.2247450069834076e-05,
7985
+ "loss": 10.3365,
7986
+ "step": 1135
7987
+ },
7988
+ {
7989
+ "epoch": 0.4811011116993118,
7990
+ "grad_norm": 0.03796311840415001,
7991
+ "learning_rate": 1.2135099547838192e-05,
7992
+ "loss": 10.333,
7993
+ "step": 1136
7994
+ },
7995
+ {
7996
+ "epoch": 0.48152461619904713,
7997
+ "grad_norm": 0.02851458452641964,
7998
+ "learning_rate": 1.2023233424287328e-05,
7999
+ "loss": 10.3304,
8000
+ "step": 1137
8001
+ },
8002
+ {
8003
+ "epoch": 0.4819481206987824,
8004
+ "grad_norm": 0.03447718173265457,
8005
+ "learning_rate": 1.1911852315898463e-05,
8006
+ "loss": 10.3316,
8007
+ "step": 1138
8008
+ },
8009
+ {
8010
+ "epoch": 0.48237162519851773,
8011
+ "grad_norm": 0.037812747061252594,
8012
+ "learning_rate": 1.1800956836714682e-05,
8013
+ "loss": 10.3288,
8014
+ "step": 1139
8015
+ },
8016
+ {
8017
+ "epoch": 0.48279512969825306,
8018
+ "grad_norm": 0.03977108374238014,
8019
+ "learning_rate": 1.1690547598101864e-05,
8020
+ "loss": 10.3303,
8021
+ "step": 1140
8022
+ },
8023
+ {
8024
+ "epoch": 0.48321863419798833,
8025
+ "grad_norm": 0.031228644773364067,
8026
+ "learning_rate": 1.1580625208745145e-05,
8027
+ "loss": 10.3294,
8028
+ "step": 1141
8029
+ },
8030
+ {
8031
+ "epoch": 0.48364213869772366,
8032
+ "grad_norm": 0.0270911306142807,
8033
+ "learning_rate": 1.1471190274645704e-05,
8034
+ "loss": 10.3322,
8035
+ "step": 1142
8036
+ },
8037
+ {
8038
+ "epoch": 0.484065643197459,
8039
+ "grad_norm": 0.03246387094259262,
8040
+ "learning_rate": 1.1362243399117478e-05,
8041
+ "loss": 10.3306,
8042
+ "step": 1143
8043
+ },
8044
+ {
8045
+ "epoch": 0.48448914769719426,
8046
+ "grad_norm": 0.03161618486046791,
8047
+ "learning_rate": 1.1253785182783572e-05,
8048
+ "loss": 10.335,
8049
+ "step": 1144
8050
+ },
8051
+ {
8052
+ "epoch": 0.4849126521969296,
8053
+ "grad_norm": 0.03287721052765846,
8054
+ "learning_rate": 1.1145816223573259e-05,
8055
+ "loss": 10.3312,
8056
+ "step": 1145
8057
+ },
8058
+ {
8059
+ "epoch": 0.4853361566966649,
8060
+ "grad_norm": 0.029835056513547897,
8061
+ "learning_rate": 1.1038337116718467e-05,
8062
+ "loss": 10.3309,
8063
+ "step": 1146
8064
+ },
8065
+ {
8066
+ "epoch": 0.48575966119640024,
8067
+ "grad_norm": 0.03465202450752258,
8068
+ "learning_rate": 1.0931348454750601e-05,
8069
+ "loss": 10.3336,
8070
+ "step": 1147
8071
+ },
8072
+ {
8073
+ "epoch": 0.4861831656961355,
8074
+ "grad_norm": 0.03778757527470589,
8075
+ "learning_rate": 1.0824850827497246e-05,
8076
+ "loss": 10.3342,
8077
+ "step": 1148
8078
+ },
8079
+ {
8080
+ "epoch": 0.48660667019587084,
8081
+ "grad_norm": 0.03788898512721062,
8082
+ "learning_rate": 1.07188448220789e-05,
8083
+ "loss": 10.3338,
8084
+ "step": 1149
8085
+ },
8086
+ {
8087
+ "epoch": 0.48703017469560617,
8088
+ "grad_norm": 0.03392605856060982,
8089
+ "learning_rate": 1.061333102290576e-05,
8090
+ "loss": 10.3314,
8091
+ "step": 1150
8092
+ },
8093
+ {
8094
+ "epoch": 0.48745367919534144,
8095
+ "grad_norm": 0.03181210905313492,
8096
+ "learning_rate": 1.0508310011674516e-05,
8097
+ "loss": 10.3347,
8098
+ "step": 1151
8099
+ },
8100
+ {
8101
+ "epoch": 0.48787718369507677,
8102
+ "grad_norm": 0.03807486966252327,
8103
+ "learning_rate": 1.0403782367365088e-05,
8104
+ "loss": 10.3334,
8105
+ "step": 1152
8106
+ },
8107
+ {
8108
+ "epoch": 0.4883006881948121,
8109
+ "grad_norm": 0.04221343249082565,
8110
+ "learning_rate": 1.0299748666237485e-05,
8111
+ "loss": 10.33,
8112
+ "step": 1153
8113
+ },
8114
+ {
8115
+ "epoch": 0.48872419269454737,
8116
+ "grad_norm": 0.03662874549627304,
8117
+ "learning_rate": 1.0196209481828633e-05,
8118
+ "loss": 10.3337,
8119
+ "step": 1154
8120
+ },
8121
+ {
8122
+ "epoch": 0.4891476971942827,
8123
+ "grad_norm": 0.03761863335967064,
8124
+ "learning_rate": 1.0093165384949155e-05,
8125
+ "loss": 10.3363,
8126
+ "step": 1155
8127
+ },
8128
+ {
8129
+ "epoch": 0.489571201694018,
8130
+ "grad_norm": 0.03691156208515167,
8131
+ "learning_rate": 9.990616943680265e-06,
8132
+ "loss": 10.3355,
8133
+ "step": 1156
8134
+ },
8135
+ {
8136
+ "epoch": 0.4899947061937533,
8137
+ "grad_norm": 0.03406470641493797,
8138
+ "learning_rate": 9.888564723370664e-06,
8139
+ "loss": 10.3348,
8140
+ "step": 1157
8141
+ },
8142
+ {
8143
+ "epoch": 0.4904182106934886,
8144
+ "grad_norm": 0.03452722728252411,
8145
+ "learning_rate": 9.787009286633363e-06,
8146
+ "loss": 10.3332,
8147
+ "step": 1158
8148
+ },
8149
+ {
8150
+ "epoch": 0.49084171519322395,
8151
+ "grad_norm": 0.03500404581427574,
8152
+ "learning_rate": 9.685951193342602e-06,
8153
+ "loss": 10.3328,
8154
+ "step": 1159
8155
+ },
8156
+ {
8157
+ "epoch": 0.4912652196929592,
8158
+ "grad_norm": 0.034697335213422775,
8159
+ "learning_rate": 9.585391000630828e-06,
8160
+ "loss": 10.3292,
8161
+ "step": 1160
8162
+ },
8163
+ {
8164
+ "epoch": 0.49168872419269455,
8165
+ "grad_norm": 0.028287572786211967,
8166
+ "learning_rate": 9.485329262885457e-06,
8167
+ "loss": 10.3337,
8168
+ "step": 1161
8169
+ },
8170
+ {
8171
+ "epoch": 0.4921122286924299,
8172
+ "grad_norm": 0.0407349169254303,
8173
+ "learning_rate": 9.385766531746054e-06,
8174
+ "loss": 10.3314,
8175
+ "step": 1162
8176
+ },
8177
+ {
8178
+ "epoch": 0.49253573319216515,
8179
+ "grad_norm": 0.03521955758333206,
8180
+ "learning_rate": 9.28670335610109e-06,
8181
+ "loss": 10.3313,
8182
+ "step": 1163
8183
+ },
8184
+ {
8185
+ "epoch": 0.4929592376919005,
8186
+ "grad_norm": 0.038377124816179276,
8187
+ "learning_rate": 9.188140282084967e-06,
8188
+ "loss": 10.3295,
8189
+ "step": 1164
8190
+ },
8191
+ {
8192
+ "epoch": 0.4933827421916358,
8193
+ "grad_norm": 0.037929970771074295,
8194
+ "learning_rate": 9.090077853075118e-06,
8195
+ "loss": 10.331,
8196
+ "step": 1165
8197
+ },
8198
+ {
8199
+ "epoch": 0.4938062466913711,
8200
+ "grad_norm": 0.03767012432217598,
8201
+ "learning_rate": 8.992516609688862e-06,
8202
+ "loss": 10.3305,
8203
+ "step": 1166
8204
+ },
8205
+ {
8206
+ "epoch": 0.4942297511911064,
8207
+ "grad_norm": 0.04114054888486862,
8208
+ "learning_rate": 8.89545708978049e-06,
8209
+ "loss": 10.3327,
8210
+ "step": 1167
8211
+ },
8212
+ {
8213
+ "epoch": 0.49465325569084173,
8214
+ "grad_norm": 0.03139737620949745,
8215
+ "learning_rate": 8.798899828438333e-06,
8216
+ "loss": 10.3342,
8217
+ "step": 1168
8218
+ },
8219
+ {
8220
+ "epoch": 0.495076760190577,
8221
+ "grad_norm": 0.0350373312830925,
8222
+ "learning_rate": 8.70284535798168e-06,
8223
+ "loss": 10.3335,
8224
+ "step": 1169
8225
+ },
8226
+ {
8227
+ "epoch": 0.49550026469031233,
8228
+ "grad_norm": 0.03645787015557289,
8229
+ "learning_rate": 8.607294207958073e-06,
8230
+ "loss": 10.3285,
8231
+ "step": 1170
8232
+ },
8233
+ {
8234
+ "epoch": 0.49592376919004766,
8235
+ "grad_norm": 0.04092005640268326,
8236
+ "learning_rate": 8.512246905140165e-06,
8237
+ "loss": 10.332,
8238
+ "step": 1171
8239
+ },
8240
+ {
8241
+ "epoch": 0.49634727368978293,
8242
+ "grad_norm": 0.03972132131457329,
8243
+ "learning_rate": 8.417703973522917e-06,
8244
+ "loss": 10.3336,
8245
+ "step": 1172
8246
+ },
8247
+ {
8248
+ "epoch": 0.49677077818951826,
8249
+ "grad_norm": 0.02949652262032032,
8250
+ "learning_rate": 8.323665934320713e-06,
8251
+ "loss": 10.3329,
8252
+ "step": 1173
8253
+ },
8254
+ {
8255
+ "epoch": 0.4971942826892536,
8256
+ "grad_norm": 0.04814364016056061,
8257
+ "learning_rate": 8.23013330596445e-06,
8258
+ "loss": 10.3317,
8259
+ "step": 1174
8260
+ },
8261
+ {
8262
+ "epoch": 0.49761778718898886,
8263
+ "grad_norm": 0.0334940031170845,
8264
+ "learning_rate": 8.13710660409871e-06,
8265
+ "loss": 10.3367,
8266
+ "step": 1175
8267
+ },
8268
+ {
8269
+ "epoch": 0.4980412916887242,
8270
+ "grad_norm": 0.03809863701462746,
8271
+ "learning_rate": 8.044586341578886e-06,
8272
+ "loss": 10.3347,
8273
+ "step": 1176
8274
+ },
8275
+ {
8276
+ "epoch": 0.4984647961884595,
8277
+ "grad_norm": 0.03746895492076874,
8278
+ "learning_rate": 7.952573028468457e-06,
8279
+ "loss": 10.3362,
8280
+ "step": 1177
8281
+ },
8282
+ {
8283
+ "epoch": 0.4988883006881948,
8284
+ "grad_norm": 0.024187074974179268,
8285
+ "learning_rate": 7.861067172035962e-06,
8286
+ "loss": 10.3327,
8287
+ "step": 1178
8288
+ },
8289
+ {
8290
+ "epoch": 0.4993118051879301,
8291
+ "grad_norm": 0.03394331783056259,
8292
+ "learning_rate": 7.770069276752422e-06,
8293
+ "loss": 10.3268,
8294
+ "step": 1179
8295
+ },
8296
+ {
8297
+ "epoch": 0.49973530968766544,
8298
+ "grad_norm": 0.0327443964779377,
8299
+ "learning_rate": 7.679579844288509e-06,
8300
+ "loss": 10.332,
8301
+ "step": 1180
8302
+ },
8303
+ {
8304
+ "epoch": 0.5001588141874007,
8305
+ "grad_norm": 0.027774417772889137,
8306
+ "learning_rate": 7.589599373511602e-06,
8307
+ "loss": 10.329,
8308
+ "step": 1181
8309
+ },
8310
+ {
8311
+ "epoch": 0.5005823186871361,
8312
+ "grad_norm": 0.03464759886264801,
8313
+ "learning_rate": 7.500128360483338e-06,
8314
+ "loss": 10.3334,
8315
+ "step": 1182
8316
+ },
8317
+ {
8318
+ "epoch": 0.5010058231868714,
8319
+ "grad_norm": 0.03733719512820244,
8320
+ "learning_rate": 7.411167298456634e-06,
8321
+ "loss": 10.3307,
8322
+ "step": 1183
8323
+ },
8324
+ {
8325
+ "epoch": 0.5014293276866066,
8326
+ "grad_norm": 0.033785175532102585,
8327
+ "learning_rate": 7.32271667787302e-06,
8328
+ "loss": 10.3362,
8329
+ "step": 1184
8330
+ },
8331
+ {
8332
+ "epoch": 0.501852832186342,
8333
+ "grad_norm": 0.038209252059459686,
8334
+ "learning_rate": 7.234776986360059e-06,
8335
+ "loss": 10.3309,
8336
+ "step": 1185
8337
+ },
8338
+ {
8339
+ "epoch": 0.5022763366860773,
8340
+ "grad_norm": 0.03651139885187149,
8341
+ "learning_rate": 7.147348708728507e-06,
8342
+ "loss": 10.335,
8343
+ "step": 1186
8344
+ },
8345
+ {
8346
+ "epoch": 0.5026998411858126,
8347
+ "grad_norm": 0.03249209746718407,
8348
+ "learning_rate": 7.060432326969713e-06,
8349
+ "loss": 10.3326,
8350
+ "step": 1187
8351
+ },
8352
+ {
8353
+ "epoch": 0.503123345685548,
8354
+ "grad_norm": 0.049712520092725754,
8355
+ "learning_rate": 6.974028320252934e-06,
8356
+ "loss": 10.3269,
8357
+ "step": 1188
8358
+ },
8359
+ {
8360
+ "epoch": 0.5035468501852832,
8361
+ "grad_norm": 0.03345096856355667,
8362
+ "learning_rate": 6.888137164922725e-06,
8363
+ "loss": 10.3273,
8364
+ "step": 1189
8365
+ },
8366
+ {
8367
+ "epoch": 0.5039703546850185,
8368
+ "grad_norm": 0.028842521831393242,
8369
+ "learning_rate": 6.802759334496289e-06,
8370
+ "loss": 10.3299,
8371
+ "step": 1190
8372
+ },
8373
+ {
8374
+ "epoch": 0.5043938591847539,
8375
+ "grad_norm": 0.02980581857264042,
8376
+ "learning_rate": 6.717895299660892e-06,
8377
+ "loss": 10.3337,
8378
+ "step": 1191
8379
+ },
8380
+ {
8381
+ "epoch": 0.5048173636844892,
8382
+ "grad_norm": 0.032008688896894455,
8383
+ "learning_rate": 6.633545528271212e-06,
8384
+ "loss": 10.3275,
8385
+ "step": 1192
8386
+ },
8387
+ {
8388
+ "epoch": 0.5052408681842244,
8389
+ "grad_norm": 0.03007701225578785,
8390
+ "learning_rate": 6.549710485346827e-06,
8391
+ "loss": 10.3319,
8392
+ "step": 1193
8393
+ },
8394
+ {
8395
+ "epoch": 0.5056643726839598,
8396
+ "grad_norm": 0.03393697366118431,
8397
+ "learning_rate": 6.466390633069608e-06,
8398
+ "loss": 10.3292,
8399
+ "step": 1194
8400
+ },
8401
+ {
8402
+ "epoch": 0.5060878771836951,
8403
+ "grad_norm": 0.04486103355884552,
8404
+ "learning_rate": 6.383586430781197e-06,
8405
+ "loss": 10.3289,
8406
+ "step": 1195
8407
+ },
8408
+ {
8409
+ "epoch": 0.5065113816834304,
8410
+ "grad_norm": 0.03052888996899128,
8411
+ "learning_rate": 6.301298334980421e-06,
8412
+ "loss": 10.3374,
8413
+ "step": 1196
8414
+ },
8415
+ {
8416
+ "epoch": 0.5069348861831657,
8417
+ "grad_norm": 0.030694812536239624,
8418
+ "learning_rate": 6.219526799320919e-06,
8419
+ "loss": 10.3308,
8420
+ "step": 1197
8421
+ },
8422
+ {
8423
+ "epoch": 0.507358390682901,
8424
+ "grad_norm": 0.03446760028600693,
8425
+ "learning_rate": 6.138272274608403e-06,
8426
+ "loss": 10.3346,
8427
+ "step": 1198
8428
+ },
8429
+ {
8430
+ "epoch": 0.5077818951826363,
8431
+ "grad_norm": 0.033587660640478134,
8432
+ "learning_rate": 6.057535208798371e-06,
8433
+ "loss": 10.3337,
8434
+ "step": 1199
8435
+ },
8436
+ {
8437
+ "epoch": 0.5082053996823717,
8438
+ "grad_norm": 0.03484556823968887,
8439
+ "learning_rate": 5.977316046993642e-06,
8440
+ "loss": 10.3311,
8441
+ "step": 1200
8442
+ },
8443
+ {
8444
+ "epoch": 0.5086289041821069,
8445
+ "grad_norm": 0.03142661601305008,
8446
+ "learning_rate": 5.897615231441689e-06,
8447
+ "loss": 10.3335,
8448
+ "step": 1201
8449
+ },
8450
+ {
8451
+ "epoch": 0.5090524086818422,
8452
+ "grad_norm": 0.03492956608533859,
8453
+ "learning_rate": 5.81843320153248e-06,
8454
+ "loss": 10.3298,
8455
+ "step": 1202
8456
+ },
8457
+ {
8458
+ "epoch": 0.5094759131815776,
8459
+ "grad_norm": 0.035875819623470306,
8460
+ "learning_rate": 5.739770393795851e-06,
8461
+ "loss": 10.3339,
8462
+ "step": 1203
8463
+ },
8464
+ {
8465
+ "epoch": 0.5098994176813129,
8466
+ "grad_norm": 0.028575167059898376,
8467
+ "learning_rate": 5.6616272418991926e-06,
8468
+ "loss": 10.3306,
8469
+ "step": 1204
8470
+ },
8471
+ {
8472
+ "epoch": 0.5103229221810481,
8473
+ "grad_norm": 0.034280769526958466,
8474
+ "learning_rate": 5.584004176645052e-06,
8475
+ "loss": 10.3339,
8476
+ "step": 1205
8477
+ },
8478
+ {
8479
+ "epoch": 0.5107464266807835,
8480
+ "grad_norm": 0.03369034081697464,
8481
+ "learning_rate": 5.5069016259686635e-06,
8482
+ "loss": 10.3293,
8483
+ "step": 1206
8484
+ },
8485
+ {
8486
+ "epoch": 0.5111699311805188,
8487
+ "grad_norm": 0.03932506591081619,
8488
+ "learning_rate": 5.430320014935797e-06,
8489
+ "loss": 10.3339,
8490
+ "step": 1207
8491
+ },
8492
+ {
8493
+ "epoch": 0.5115934356802541,
8494
+ "grad_norm": 0.04464678466320038,
8495
+ "learning_rate": 5.354259765740177e-06,
8496
+ "loss": 10.3316,
8497
+ "step": 1208
8498
+ },
8499
+ {
8500
+ "epoch": 0.5120169401799894,
8501
+ "grad_norm": 0.033909354358911514,
8502
+ "learning_rate": 5.278721297701339e-06,
8503
+ "loss": 10.3317,
8504
+ "step": 1209
8505
+ },
8506
+ {
8507
+ "epoch": 0.5124404446797247,
8508
+ "grad_norm": 0.02771197073161602,
8509
+ "learning_rate": 5.203705027262184e-06,
8510
+ "loss": 10.3337,
8511
+ "step": 1210
8512
+ },
8513
+ {
8514
+ "epoch": 0.51286394917946,
8515
+ "grad_norm": 0.03711957111954689,
8516
+ "learning_rate": 5.129211367986786e-06,
8517
+ "loss": 10.3374,
8518
+ "step": 1211
8519
+ },
8520
+ {
8521
+ "epoch": 0.5132874536791954,
8522
+ "grad_norm": 0.04035378247499466,
8523
+ "learning_rate": 5.055240730558042e-06,
8524
+ "loss": 10.3278,
8525
+ "step": 1212
8526
+ },
8527
+ {
8528
+ "epoch": 0.5137109581789306,
8529
+ "grad_norm": 0.037376079708337784,
8530
+ "learning_rate": 4.981793522775457e-06,
8531
+ "loss": 10.3354,
8532
+ "step": 1213
8533
+ },
8534
+ {
8535
+ "epoch": 0.5141344626786659,
8536
+ "grad_norm": 0.033283621072769165,
8537
+ "learning_rate": 4.908870149552835e-06,
8538
+ "loss": 10.3304,
8539
+ "step": 1214
8540
+ },
8541
+ {
8542
+ "epoch": 0.5145579671784013,
8543
+ "grad_norm": 0.04279647022485733,
8544
+ "learning_rate": 4.836471012916144e-06,
8545
+ "loss": 10.3317,
8546
+ "step": 1215
8547
+ },
8548
+ {
8549
+ "epoch": 0.5149814716781366,
8550
+ "grad_norm": 0.026392200961709023,
8551
+ "learning_rate": 4.764596512001162e-06,
8552
+ "loss": 10.3338,
8553
+ "step": 1216
8554
+ },
8555
+ {
8556
+ "epoch": 0.5154049761778718,
8557
+ "grad_norm": 0.038188233971595764,
8558
+ "learning_rate": 4.693247043051441e-06,
8559
+ "loss": 10.3363,
8560
+ "step": 1217
8561
+ },
8562
+ {
8563
+ "epoch": 0.5158284806776072,
8564
+ "grad_norm": 0.03593307361006737,
8565
+ "learning_rate": 4.622422999415965e-06,
8566
+ "loss": 10.3302,
8567
+ "step": 1218
8568
+ },
8569
+ {
8570
+ "epoch": 0.5162519851773425,
8571
+ "grad_norm": 0.03967192396521568,
8572
+ "learning_rate": 4.5521247715470945e-06,
8573
+ "loss": 10.33,
8574
+ "step": 1219
8575
+ },
8576
+ {
8577
+ "epoch": 0.5166754896770778,
8578
+ "grad_norm": 0.0491623692214489,
8579
+ "learning_rate": 4.482352746998364e-06,
8580
+ "loss": 10.3386,
8581
+ "step": 1220
8582
+ },
8583
+ {
8584
+ "epoch": 0.5170989941768132,
8585
+ "grad_norm": 0.0371236614882946,
8586
+ "learning_rate": 4.413107310422326e-06,
8587
+ "loss": 10.3336,
8588
+ "step": 1221
8589
+ },
8590
+ {
8591
+ "epoch": 0.5175224986765484,
8592
+ "grad_norm": 0.027762679383158684,
8593
+ "learning_rate": 4.344388843568503e-06,
8594
+ "loss": 10.3282,
8595
+ "step": 1222
8596
+ },
8597
+ {
8598
+ "epoch": 0.5179460031762837,
8599
+ "grad_norm": 0.03931552171707153,
8600
+ "learning_rate": 4.2761977252811945e-06,
8601
+ "loss": 10.3331,
8602
+ "step": 1223
8603
+ },
8604
+ {
8605
+ "epoch": 0.5183695076760191,
8606
+ "grad_norm": 0.047121018171310425,
8607
+ "learning_rate": 4.2085343314974715e-06,
8608
+ "loss": 10.3297,
8609
+ "step": 1224
8610
+ },
8611
+ {
8612
+ "epoch": 0.5187930121757544,
8613
+ "grad_norm": 0.042633168399333954,
8614
+ "learning_rate": 4.141399035245052e-06,
8615
+ "loss": 10.3337,
8616
+ "step": 1225
8617
+ },
8618
+ {
8619
+ "epoch": 0.5192165166754896,
8620
+ "grad_norm": 0.03988894075155258,
8621
+ "learning_rate": 4.07479220664021e-06,
8622
+ "loss": 10.3262,
8623
+ "step": 1226
8624
+ },
8625
+ {
8626
+ "epoch": 0.519640021175225,
8627
+ "grad_norm": 0.030842246487736702,
8628
+ "learning_rate": 4.008714212885856e-06,
8629
+ "loss": 10.3322,
8630
+ "step": 1227
8631
+ },
8632
+ {
8633
+ "epoch": 0.5200635256749603,
8634
+ "grad_norm": 0.04261520504951477,
8635
+ "learning_rate": 3.943165418269401e-06,
8636
+ "loss": 10.328,
8637
+ "step": 1228
8638
+ },
8639
+ {
8640
+ "epoch": 0.5204870301746956,
8641
+ "grad_norm": 0.030063187703490257,
8642
+ "learning_rate": 3.87814618416078e-06,
8643
+ "loss": 10.3345,
8644
+ "step": 1229
8645
+ },
8646
+ {
8647
+ "epoch": 0.5209105346744309,
8648
+ "grad_norm": 0.030118783935904503,
8649
+ "learning_rate": 3.8136568690104957e-06,
8650
+ "loss": 10.3325,
8651
+ "step": 1230
8652
+ },
8653
+ {
8654
+ "epoch": 0.5213340391741662,
8655
+ "grad_norm": 0.03795788437128067,
8656
+ "learning_rate": 3.7496978283475648e-06,
8657
+ "loss": 10.3327,
8658
+ "step": 1231
8659
+ },
8660
+ {
8661
+ "epoch": 0.5217575436739015,
8662
+ "grad_norm": 0.036961231380701065,
8663
+ "learning_rate": 3.686269414777643e-06,
8664
+ "loss": 10.3344,
8665
+ "step": 1232
8666
+ },
8667
+ {
8668
+ "epoch": 0.5221810481736369,
8669
+ "grad_norm": 0.0403430350124836,
8670
+ "learning_rate": 3.623371977981027e-06,
8671
+ "loss": 10.3324,
8672
+ "step": 1233
8673
+ },
8674
+ {
8675
+ "epoch": 0.5226045526733721,
8676
+ "grad_norm": 0.03135257214307785,
8677
+ "learning_rate": 3.5610058647107538e-06,
8678
+ "loss": 10.3319,
8679
+ "step": 1234
8680
+ },
8681
+ {
8682
+ "epoch": 0.5230280571731075,
8683
+ "grad_norm": 0.0364365391433239,
8684
+ "learning_rate": 3.499171418790681e-06,
8685
+ "loss": 10.3343,
8686
+ "step": 1235
8687
+ },
8688
+ {
8689
+ "epoch": 0.5234515616728428,
8690
+ "grad_norm": 0.025732390582561493,
8691
+ "learning_rate": 3.437868981113557e-06,
8692
+ "loss": 10.3338,
8693
+ "step": 1236
8694
+ },
8695
+ {
8696
+ "epoch": 0.5238750661725781,
8697
+ "grad_norm": 0.03495744988322258,
8698
+ "learning_rate": 3.37709888963923e-06,
8699
+ "loss": 10.3302,
8700
+ "step": 1237
8701
+ },
8702
+ {
8703
+ "epoch": 0.5242985706723134,
8704
+ "grad_norm": 0.032097022980451584,
8705
+ "learning_rate": 3.3168614793926524e-06,
8706
+ "loss": 10.3356,
8707
+ "step": 1238
8708
+ },
8709
+ {
8710
+ "epoch": 0.5247220751720487,
8711
+ "grad_norm": 0.029357150197029114,
8712
+ "learning_rate": 3.2571570824621923e-06,
8713
+ "loss": 10.3304,
8714
+ "step": 1239
8715
+ },
8716
+ {
8717
+ "epoch": 0.525145579671784,
8718
+ "grad_norm": 0.03179454430937767,
8719
+ "learning_rate": 3.197986027997657e-06,
8720
+ "loss": 10.3311,
8721
+ "step": 1240
8722
+ },
8723
+ {
8724
+ "epoch": 0.5255690841715194,
8725
+ "grad_norm": 0.038864728063344955,
8726
+ "learning_rate": 3.1393486422085618e-06,
8727
+ "loss": 10.3308,
8728
+ "step": 1241
8729
+ },
8730
+ {
8731
+ "epoch": 0.5259925886712546,
8732
+ "grad_norm": 0.027193231508135796,
8733
+ "learning_rate": 3.08124524836233e-06,
8734
+ "loss": 10.3314,
8735
+ "step": 1242
8736
+ },
8737
+ {
8738
+ "epoch": 0.5264160931709899,
8739
+ "grad_norm": 0.035837847739458084,
8740
+ "learning_rate": 3.023676166782452e-06,
8741
+ "loss": 10.3327,
8742
+ "step": 1243
8743
+ },
8744
+ {
8745
+ "epoch": 0.5268395976707253,
8746
+ "grad_norm": 0.02682778798043728,
8747
+ "learning_rate": 2.9666417148468072e-06,
8748
+ "loss": 10.3325,
8749
+ "step": 1244
8750
+ },
8751
+ {
8752
+ "epoch": 0.5272631021704606,
8753
+ "grad_norm": 0.04898487776517868,
8754
+ "learning_rate": 2.910142206985833e-06,
8755
+ "loss": 10.3317,
8756
+ "step": 1245
8757
+ },
8758
+ {
8759
+ "epoch": 0.5276866066701958,
8760
+ "grad_norm": 0.030211864039301872,
8761
+ "learning_rate": 2.8541779546808256e-06,
8762
+ "loss": 10.3292,
8763
+ "step": 1246
8764
+ },
8765
+ {
8766
+ "epoch": 0.5281101111699312,
8767
+ "grad_norm": 0.03472064808011055,
8768
+ "learning_rate": 2.7987492664622307e-06,
8769
+ "loss": 10.3324,
8770
+ "step": 1247
8771
+ },
8772
+ {
8773
+ "epoch": 0.5285336156696665,
8774
+ "grad_norm": 0.03139955550432205,
8775
+ "learning_rate": 2.743856447907944e-06,
8776
+ "loss": 10.3309,
8777
+ "step": 1248
8778
+ },
8779
+ {
8780
+ "epoch": 0.5289571201694018,
8781
+ "grad_norm": 0.02904195711016655,
8782
+ "learning_rate": 2.689499801641593e-06,
8783
+ "loss": 10.332,
8784
+ "step": 1249
8785
+ },
8786
+ {
8787
+ "epoch": 0.5293806246691372,
8788
+ "grad_norm": 0.045261383056640625,
8789
+ "learning_rate": 2.6356796273309116e-06,
8790
+ "loss": 10.33,
8791
+ "step": 1250
8792
+ },
8793
+ {
8794
+ "epoch": 0.5298041291688724,
8795
+ "grad_norm": 0.03183293342590332,
8796
+ "learning_rate": 2.5823962216860562e-06,
8797
+ "loss": 10.3297,
8798
+ "step": 1251
8799
+ },
8800
+ {
8801
+ "epoch": 0.5302276336686077,
8802
+ "grad_norm": 0.04214952513575554,
8803
+ "learning_rate": 2.5296498784579846e-06,
8804
+ "loss": 10.3309,
8805
+ "step": 1252
8806
+ },
8807
+ {
8808
+ "epoch": 0.5306511381683431,
8809
+ "grad_norm": 0.03488962724804878,
8810
+ "learning_rate": 2.4774408884368215e-06,
8811
+ "loss": 10.3333,
8812
+ "step": 1253
8813
+ },
8814
+ {
8815
+ "epoch": 0.5310746426680784,
8816
+ "grad_norm": 0.03279737010598183,
8817
+ "learning_rate": 2.4257695394503287e-06,
8818
+ "loss": 10.3278,
8819
+ "step": 1254
8820
+ },
8821
+ {
8822
+ "epoch": 0.5314981471678136,
8823
+ "grad_norm": 0.03219415992498398,
8824
+ "learning_rate": 2.374636116362172e-06,
8825
+ "loss": 10.3334,
8826
+ "step": 1255
8827
+ },
8828
+ {
8829
+ "epoch": 0.531921651667549,
8830
+ "grad_norm": 0.05066683888435364,
8831
+ "learning_rate": 2.32404090107049e-06,
8832
+ "loss": 10.3306,
8833
+ "step": 1256
8834
+ },
8835
+ {
8836
+ "epoch": 0.5323451561672843,
8837
+ "grad_norm": 0.028979485854506493,
8838
+ "learning_rate": 2.2739841725062715e-06,
8839
+ "loss": 10.3319,
8840
+ "step": 1257
8841
+ },
8842
+ {
8843
+ "epoch": 0.5327686606670196,
8844
+ "grad_norm": 0.03191670775413513,
8845
+ "learning_rate": 2.2244662066318146e-06,
8846
+ "loss": 10.333,
8847
+ "step": 1258
8848
+ },
8849
+ {
8850
+ "epoch": 0.5331921651667549,
8851
+ "grad_norm": 0.04911280795931816,
8852
+ "learning_rate": 2.1754872764392698e-06,
8853
+ "loss": 10.3313,
8854
+ "step": 1259
8855
+ },
8856
+ {
8857
+ "epoch": 0.5336156696664902,
8858
+ "grad_norm": 0.039490871131420135,
8859
+ "learning_rate": 2.1270476519490435e-06,
8860
+ "loss": 10.3244,
8861
+ "step": 1260
8862
+ },
8863
+ {
8864
+ "epoch": 0.5340391741662255,
8865
+ "grad_norm": 0.03646280616521835,
8866
+ "learning_rate": 2.079147600208364e-06,
8867
+ "loss": 10.3303,
8868
+ "step": 1261
8869
+ },
8870
+ {
8871
+ "epoch": 0.5344626786659609,
8872
+ "grad_norm": 0.039123885333538055,
8873
+ "learning_rate": 2.0317873852898518e-06,
8874
+ "loss": 10.332,
8875
+ "step": 1262
8876
+ },
8877
+ {
8878
+ "epoch": 0.5348861831656961,
8879
+ "grad_norm": 0.04183242470026016,
8880
+ "learning_rate": 1.9849672682898944e-06,
8881
+ "loss": 10.3297,
8882
+ "step": 1263
8883
+ },
8884
+ {
8885
+ "epoch": 0.5353096876654314,
8886
+ "grad_norm": 0.03520303592085838,
8887
+ "learning_rate": 1.9386875073274636e-06,
8888
+ "loss": 10.3265,
8889
+ "step": 1264
8890
+ },
8891
+ {
8892
+ "epoch": 0.5357331921651668,
8893
+ "grad_norm": 0.0325089730322361,
8894
+ "learning_rate": 1.8929483575424455e-06,
8895
+ "loss": 10.3345,
8896
+ "step": 1265
8897
+ },
8898
+ {
8899
+ "epoch": 0.5361566966649021,
8900
+ "grad_norm": 0.029976682737469673,
8901
+ "learning_rate": 1.8477500710944007e-06,
8902
+ "loss": 10.3292,
8903
+ "step": 1266
8904
+ },
8905
+ {
8906
+ "epoch": 0.5365802011646373,
8907
+ "grad_norm": 0.034131329506635666,
8908
+ "learning_rate": 1.803092897161096e-06,
8909
+ "loss": 10.3276,
8910
+ "step": 1267
8911
+ },
8912
+ {
8913
+ "epoch": 0.5370037056643727,
8914
+ "grad_norm": 0.03793232887983322,
8915
+ "learning_rate": 1.75897708193713e-06,
8916
+ "loss": 10.3349,
8917
+ "step": 1268
8918
+ },
8919
+ {
8920
+ "epoch": 0.537427210164108,
8921
+ "grad_norm": 0.025969160720705986,
8922
+ "learning_rate": 1.715402868632643e-06,
8923
+ "loss": 10.3325,
8924
+ "step": 1269
8925
+ },
8926
+ {
8927
+ "epoch": 0.5378507146638433,
8928
+ "grad_norm": 0.04372668266296387,
8929
+ "learning_rate": 1.6723704974718756e-06,
8930
+ "loss": 10.33,
8931
+ "step": 1270
8932
+ },
8933
+ {
8934
+ "epoch": 0.5382742191635786,
8935
+ "grad_norm": 0.03358982875943184,
8936
+ "learning_rate": 1.629880205691936e-06,
8937
+ "loss": 10.3321,
8938
+ "step": 1271
8939
+ },
8940
+ {
8941
+ "epoch": 0.5386977236633139,
8942
+ "grad_norm": 0.045495398342609406,
8943
+ "learning_rate": 1.5879322275414332e-06,
8944
+ "loss": 10.3334,
8945
+ "step": 1272
8946
+ },
8947
+ {
8948
+ "epoch": 0.5391212281630492,
8949
+ "grad_norm": 0.02813423052430153,
8950
+ "learning_rate": 1.5465267942792127e-06,
8951
+ "loss": 10.332,
8952
+ "step": 1273
8953
+ },
8954
+ {
8955
+ "epoch": 0.5395447326627846,
8956
+ "grad_norm": 0.02770121954381466,
8957
+ "learning_rate": 1.5056641341730903e-06,
8958
+ "loss": 10.3296,
8959
+ "step": 1274
8960
+ },
8961
+ {
8962
+ "epoch": 0.5399682371625198,
8963
+ "grad_norm": 0.04436861723661423,
8964
+ "learning_rate": 1.465344472498531e-06,
8965
+ "loss": 10.3286,
8966
+ "step": 1275
8967
+ },
8968
+ {
8969
+ "epoch": 0.5403917416622551,
8970
+ "grad_norm": 0.043747782707214355,
8971
+ "learning_rate": 1.4255680315375164e-06,
8972
+ "loss": 10.3332,
8973
+ "step": 1276
8974
+ },
8975
+ {
8976
+ "epoch": 0.5408152461619905,
8977
+ "grad_norm": 0.028111323714256287,
8978
+ "learning_rate": 1.3863350305772017e-06,
8979
+ "loss": 10.3319,
8980
+ "step": 1277
8981
+ },
8982
+ {
8983
+ "epoch": 0.5412387506617258,
8984
+ "grad_norm": 0.03884616121649742,
8985
+ "learning_rate": 1.3476456859087828e-06,
8986
+ "loss": 10.3317,
8987
+ "step": 1278
8988
+ },
8989
+ {
8990
+ "epoch": 0.541662255161461,
8991
+ "grad_norm": 0.04214450716972351,
8992
+ "learning_rate": 1.3095002108263199e-06,
8993
+ "loss": 10.3336,
8994
+ "step": 1279
8995
+ },
8996
+ {
8997
+ "epoch": 0.5420857596611964,
8998
+ "grad_norm": 0.0312722884118557,
8999
+ "learning_rate": 1.2718988156254607e-06,
9000
+ "loss": 10.3357,
9001
+ "step": 1280
9002
+ },
9003
+ {
9004
+ "epoch": 0.5425092641609317,
9005
+ "grad_norm": 0.09322332590818405,
9006
+ "learning_rate": 1.2348417076023745e-06,
9007
+ "loss": 10.3333,
9008
+ "step": 1281
9009
+ },
9010
+ {
9011
+ "epoch": 0.542932768660667,
9012
+ "grad_norm": 0.04540476202964783,
9013
+ "learning_rate": 1.198329091052608e-06,
9014
+ "loss": 10.3309,
9015
+ "step": 1282
9016
+ },
9017
+ {
9018
+ "epoch": 0.5433562731604024,
9019
+ "grad_norm": 0.029997704550623894,
9020
+ "learning_rate": 1.1623611672698765e-06,
9021
+ "loss": 10.3358,
9022
+ "step": 1283
9023
+ },
9024
+ {
9025
+ "epoch": 0.5437797776601376,
9026
+ "grad_norm": 0.0350346714258194,
9027
+ "learning_rate": 1.1269381345450526e-06,
9028
+ "loss": 10.3306,
9029
+ "step": 1284
9030
+ },
9031
+ {
9032
+ "epoch": 0.5442032821598729,
9033
+ "grad_norm": 0.04271746799349785,
9034
+ "learning_rate": 1.0920601881650006e-06,
9035
+ "loss": 10.3313,
9036
+ "step": 1285
9037
+ },
9038
+ {
9039
+ "epoch": 0.5446267866596083,
9040
+ "grad_norm": 0.03767610713839531,
9041
+ "learning_rate": 1.0577275204115444e-06,
9042
+ "loss": 10.3275,
9043
+ "step": 1286
9044
+ },
9045
+ {
9046
+ "epoch": 0.5450502911593436,
9047
+ "grad_norm": 0.02964678965508938,
9048
+ "learning_rate": 1.0239403205604014e-06,
9049
+ "loss": 10.3296,
9050
+ "step": 1287
9051
+ },
9052
+ {
9053
+ "epoch": 0.5454737956590788,
9054
+ "grad_norm": 0.03278511017560959,
9055
+ "learning_rate": 9.906987748800944e-07,
9056
+ "loss": 10.3329,
9057
+ "step": 1288
9058
+ },
9059
+ {
9060
+ "epoch": 0.5458973001588142,
9061
+ "grad_norm": 0.05790937691926956,
9062
+ "learning_rate": 9.580030666309969e-07,
9063
+ "loss": 10.3372,
9064
+ "step": 1289
9065
+ },
9066
+ {
9067
+ "epoch": 0.5463208046585495,
9068
+ "grad_norm": 0.03746120631694794,
9069
+ "learning_rate": 9.258533760642563e-07,
9070
+ "loss": 10.3302,
9071
+ "step": 1290
9072
+ },
9073
+ {
9074
+ "epoch": 0.5467443091582848,
9075
+ "grad_norm": 0.03203713148832321,
9076
+ "learning_rate": 8.942498804208498e-07,
9077
+ "loss": 10.3328,
9078
+ "step": 1291
9079
+ },
9080
+ {
9081
+ "epoch": 0.5471678136580201,
9082
+ "grad_norm": 0.032408781349658966,
9083
+ "learning_rate": 8.631927539305862e-07,
9084
+ "loss": 10.3328,
9085
+ "step": 1292
9086
+ },
9087
+ {
9088
+ "epoch": 0.5475913181577554,
9089
+ "grad_norm": 0.038404081016778946,
9090
+ "learning_rate": 8.326821678111163e-07,
9091
+ "loss": 10.3357,
9092
+ "step": 1293
9093
+ },
9094
+ {
9095
+ "epoch": 0.5480148226574907,
9096
+ "grad_norm": 0.03704221174120903,
9097
+ "learning_rate": 8.027182902670571e-07,
9098
+ "loss": 10.3267,
9099
+ "step": 1294
9100
+ },
9101
+ {
9102
+ "epoch": 0.5484383271572261,
9103
+ "grad_norm": 0.02777581661939621,
9104
+ "learning_rate": 7.733012864890032e-07,
9105
+ "loss": 10.3331,
9106
+ "step": 1295
9107
+ },
9108
+ {
9109
+ "epoch": 0.5488618316569613,
9110
+ "grad_norm": 0.0339139886200428,
9111
+ "learning_rate": 7.444313186526608e-07,
9112
+ "loss": 10.3355,
9113
+ "step": 1296
9114
+ },
9115
+ {
9116
+ "epoch": 0.5492853361566966,
9117
+ "grad_norm": 0.027996981516480446,
9118
+ "learning_rate": 7.161085459178929e-07,
9119
+ "loss": 10.3301,
9120
+ "step": 1297
9121
+ },
9122
+ {
9123
+ "epoch": 0.549708840656432,
9124
+ "grad_norm": 0.04270913451910019,
9125
+ "learning_rate": 6.88333124427909e-07,
9126
+ "loss": 10.3269,
9127
+ "step": 1298
9128
+ },
9129
+ {
9130
+ "epoch": 0.5501323451561673,
9131
+ "grad_norm": 0.0351426862180233,
9132
+ "learning_rate": 6.611052073083768e-07,
9133
+ "loss": 10.3306,
9134
+ "step": 1299
9135
+ },
9136
+ {
9137
+ "epoch": 0.5505558496559025,
9138
+ "grad_norm": 0.0378975048661232,
9139
+ "learning_rate": 6.344249446665674e-07,
9140
+ "loss": 10.3283,
9141
+ "step": 1300
9142
+ },
9143
+ {
9144
+ "epoch": 0.5509793541556379,
9145
+ "grad_norm": 0.028754916042089462,
9146
+ "learning_rate": 6.082924835905446e-07,
9147
+ "loss": 10.3287,
9148
+ "step": 1301
9149
+ },
9150
+ {
9151
+ "epoch": 0.5514028586553732,
9152
+ "grad_norm": 0.0465865433216095,
9153
+ "learning_rate": 5.827079681483438e-07,
9154
+ "loss": 10.3325,
9155
+ "step": 1302
9156
+ },
9157
+ {
9158
+ "epoch": 0.5518263631551085,
9159
+ "grad_norm": 0.037231337279081345,
9160
+ "learning_rate": 5.576715393871613e-07,
9161
+ "loss": 10.3278,
9162
+ "step": 1303
9163
+ },
9164
+ {
9165
+ "epoch": 0.5522498676548439,
9166
+ "grad_norm": 0.03710845485329628,
9167
+ "learning_rate": 5.331833353326432e-07,
9168
+ "loss": 10.3344,
9169
+ "step": 1304
9170
+ },
9171
+ {
9172
+ "epoch": 0.5526733721545791,
9173
+ "grad_norm": 0.02809790149331093,
9174
+ "learning_rate": 5.092434909880317e-07,
9175
+ "loss": 10.3321,
9176
+ "step": 1305
9177
+ },
9178
+ {
9179
+ "epoch": 0.5530968766543145,
9180
+ "grad_norm": 0.045991264283657074,
9181
+ "learning_rate": 4.858521383334868e-07,
9182
+ "loss": 10.3345,
9183
+ "step": 1306
9184
+ },
9185
+ {
9186
+ "epoch": 0.5535203811540498,
9187
+ "grad_norm": 0.03640573099255562,
9188
+ "learning_rate": 4.630094063253321e-07,
9189
+ "loss": 10.3294,
9190
+ "step": 1307
9191
+ },
9192
+ {
9193
+ "epoch": 0.553943885653785,
9194
+ "grad_norm": 0.029001332819461823,
9195
+ "learning_rate": 4.4071542089535454e-07,
9196
+ "loss": 10.3318,
9197
+ "step": 1308
9198
+ },
9199
+ {
9200
+ "epoch": 0.5543673901535204,
9201
+ "grad_norm": 0.02934233844280243,
9202
+ "learning_rate": 4.18970304950117e-07,
9203
+ "loss": 10.3299,
9204
+ "step": 1309
9205
+ },
9206
+ {
9207
+ "epoch": 0.5547908946532557,
9208
+ "grad_norm": 0.03224503621459007,
9209
+ "learning_rate": 3.977741783702471e-07,
9210
+ "loss": 10.3285,
9211
+ "step": 1310
9212
+ },
9213
+ {
9214
+ "epoch": 0.555214399152991,
9215
+ "grad_norm": 0.03147895634174347,
9216
+ "learning_rate": 3.771271580098157e-07,
9217
+ "loss": 10.3325,
9218
+ "step": 1311
9219
+ },
9220
+ {
9221
+ "epoch": 0.5556379036527264,
9222
+ "grad_norm": 0.03843318298459053,
9223
+ "learning_rate": 3.570293576956596e-07,
9224
+ "loss": 10.3301,
9225
+ "step": 1312
9226
+ },
9227
+ {
9228
+ "epoch": 0.5560614081524616,
9229
+ "grad_norm": 0.0349433533847332,
9230
+ "learning_rate": 3.3748088822679325e-07,
9231
+ "loss": 10.332,
9232
+ "step": 1313
9233
+ },
9234
+ {
9235
+ "epoch": 0.5564849126521969,
9236
+ "grad_norm": 0.03259619325399399,
9237
+ "learning_rate": 3.184818573737425e-07,
9238
+ "loss": 10.3296,
9239
+ "step": 1314
9240
+ },
9241
+ {
9242
+ "epoch": 0.5569084171519323,
9243
+ "grad_norm": 0.03497344255447388,
9244
+ "learning_rate": 3.0003236987802274e-07,
9245
+ "loss": 10.3314,
9246
+ "step": 1315
9247
+ },
9248
+ {
9249
+ "epoch": 0.5573319216516676,
9250
+ "grad_norm": 0.03283681720495224,
9251
+ "learning_rate": 2.821325274514952e-07,
9252
+ "loss": 10.3307,
9253
+ "step": 1316
9254
+ },
9255
+ {
9256
+ "epoch": 0.5577554261514028,
9257
+ "grad_norm": 0.03914149850606918,
9258
+ "learning_rate": 2.6478242877583383e-07,
9259
+ "loss": 10.3321,
9260
+ "step": 1317
9261
+ },
9262
+ {
9263
+ "epoch": 0.5581789306511382,
9264
+ "grad_norm": 0.028979448601603508,
9265
+ "learning_rate": 2.4798216950198127e-07,
9266
+ "loss": 10.3295,
9267
+ "step": 1318
9268
+ },
9269
+ {
9270
+ "epoch": 0.5586024351508735,
9271
+ "grad_norm": 0.0339006632566452,
9272
+ "learning_rate": 2.317318422496273e-07,
9273
+ "loss": 10.3326,
9274
+ "step": 1319
9275
+ },
9276
+ {
9277
+ "epoch": 0.5590259396506088,
9278
+ "grad_norm": 0.027926115319132805,
9279
+ "learning_rate": 2.1603153660668674e-07,
9280
+ "loss": 10.3305,
9281
+ "step": 1320
9282
+ },
9283
+ {
9284
+ "epoch": 0.5594494441503441,
9285
+ "grad_norm": 0.031478822231292725,
9286
+ "learning_rate": 2.0088133912881113e-07,
9287
+ "loss": 10.3288,
9288
+ "step": 1321
9289
+ },
9290
+ {
9291
+ "epoch": 0.5598729486500794,
9292
+ "grad_norm": 0.03274491801857948,
9293
+ "learning_rate": 1.862813333389113e-07,
9294
+ "loss": 10.3361,
9295
+ "step": 1322
9296
+ },
9297
+ {
9298
+ "epoch": 0.5602964531498147,
9299
+ "grad_norm": 0.0399165078997612,
9300
+ "learning_rate": 1.722315997267021e-07,
9301
+ "loss": 10.3344,
9302
+ "step": 1323
9303
+ },
9304
+ {
9305
+ "epoch": 0.5607199576495501,
9306
+ "grad_norm": 0.030695218592882156,
9307
+ "learning_rate": 1.5873221574822516e-07,
9308
+ "loss": 10.3298,
9309
+ "step": 1324
9310
+ },
9311
+ {
9312
+ "epoch": 0.5611434621492853,
9313
+ "grad_norm": 0.03967565670609474,
9314
+ "learning_rate": 1.4578325582548237e-07,
9315
+ "loss": 10.3305,
9316
+ "step": 1325
9317
+ },
9318
+ {
9319
+ "epoch": 0.5615669666490206,
9320
+ "grad_norm": 0.03664049133658409,
9321
+ "learning_rate": 1.3338479134596958e-07,
9322
+ "loss": 10.3293,
9323
+ "step": 1326
9324
+ },
9325
+ {
9326
+ "epoch": 0.561990471148756,
9327
+ "grad_norm": 0.03802071511745453,
9328
+ "learning_rate": 1.2153689066233266e-07,
9329
+ "loss": 10.3305,
9330
+ "step": 1327
9331
+ },
9332
+ {
9333
+ "epoch": 0.5624139756484913,
9334
+ "grad_norm": 0.036713242530822754,
9335
+ "learning_rate": 1.1023961909192304e-07,
9336
+ "loss": 10.3287,
9337
+ "step": 1328
9338
+ },
9339
+ {
9340
+ "epoch": 0.5628374801482265,
9341
+ "grad_norm": 0.04824815317988396,
9342
+ "learning_rate": 9.949303891653161e-08,
9343
+ "loss": 10.3353,
9344
+ "step": 1329
9345
+ },
9346
+ {
9347
+ "epoch": 0.5632609846479619,
9348
+ "grad_norm": 0.03399055823683739,
9349
+ "learning_rate": 8.929720938193331e-08,
9350
+ "loss": 10.3302,
9351
+ "step": 1330
9352
+ },
9353
+ {
9354
+ "epoch": 0.5636844891476972,
9355
+ "grad_norm": 0.030519891530275345,
9356
+ "learning_rate": 7.965218669766516e-08,
9357
+ "loss": 10.3277,
9358
+ "step": 1331
9359
+ },
9360
+ {
9361
+ "epoch": 0.5641079936474325,
9362
+ "grad_norm": 0.03647278994321823,
9363
+ "learning_rate": 7.05580240366488e-08,
9364
+ "loss": 10.3276,
9365
+ "step": 1332
9366
+ },
9367
+ {
9368
+ "epoch": 0.5645314981471679,
9369
+ "grad_norm": 0.0370662622153759,
9370
+ "learning_rate": 6.201477153493506e-08,
9371
+ "loss": 10.3344,
9372
+ "step": 1333
9373
+ },
9374
+ {
9375
+ "epoch": 0.5649550026469031,
9376
+ "grad_norm": 0.038933202624320984,
9377
+ "learning_rate": 5.402247629139323e-08,
9378
+ "loss": 10.3313,
9379
+ "step": 1334
9380
+ },
9381
+ {
9382
+ "epoch": 0.5653785071466384,
9383
+ "grad_norm": 0.030461156740784645,
9384
+ "learning_rate": 4.658118236747777e-08,
9385
+ "loss": 10.3292,
9386
+ "step": 1335
9387
+ },
9388
+ {
9389
+ "epoch": 0.5658020116463738,
9390
+ "grad_norm": 0.030602607876062393,
9391
+ "learning_rate": 3.9690930786995264e-08,
9392
+ "loss": 10.3294,
9393
+ "step": 1336
9394
+ },
9395
+ {
9396
+ "epoch": 0.566225516146109,
9397
+ "grad_norm": 0.03394312039017677,
9398
+ "learning_rate": 3.335175953581571e-08,
9399
+ "loss": 10.3342,
9400
+ "step": 1337
9401
+ },
9402
+ {
9403
+ "epoch": 0.5666490206458443,
9404
+ "grad_norm": 0.051167815923690796,
9405
+ "learning_rate": 2.756370356175042e-08,
9406
+ "loss": 10.3349,
9407
+ "step": 1338
9408
+ },
9409
+ {
9410
+ "epoch": 0.5670725251455797,
9411
+ "grad_norm": 0.03260042518377304,
9412
+ "learning_rate": 2.232679477430777e-08,
9413
+ "loss": 10.3333,
9414
+ "step": 1339
9415
+ },
9416
+ {
9417
+ "epoch": 0.567496029645315,
9418
+ "grad_norm": 0.040678899735212326,
9419
+ "learning_rate": 1.7641062044515544e-08,
9420
+ "loss": 10.3287,
9421
+ "step": 1340
9422
+ },
9423
+ {
9424
+ "epoch": 0.5679195341450503,
9425
+ "grad_norm": 0.04332433268427849,
9426
+ "learning_rate": 1.350653120477663e-08,
9427
+ "loss": 10.3336,
9428
+ "step": 1341
9429
+ },
9430
+ {
9431
+ "epoch": 0.5683430386447856,
9432
+ "grad_norm": 0.03431249037384987,
9433
+ "learning_rate": 9.923225048724671e-09,
9434
+ "loss": 10.3331,
9435
+ "step": 1342
9436
+ },
9437
+ {
9438
+ "epoch": 0.5687665431445209,
9439
+ "grad_norm": 0.0347750224173069,
9440
+ "learning_rate": 6.891163331101957e-09,
9441
+ "loss": 10.3338,
9442
+ "step": 1343
9443
+ },
9444
+ {
9445
+ "epoch": 0.5691900476442562,
9446
+ "grad_norm": 0.031236495822668076,
9447
+ "learning_rate": 4.410362767626186e-09,
9448
+ "loss": 10.3311,
9449
+ "step": 1344
9450
+ },
9451
+ {
9452
+ "epoch": 0.5696135521439916,
9453
+ "grad_norm": 0.036892782896757126,
9454
+ "learning_rate": 2.4808370349460596e-09,
9455
+ "loss": 10.332,
9456
+ "step": 1345
9457
+ },
9458
+ {
9459
+ "epoch": 0.5700370566437268,
9460
+ "grad_norm": 0.02656089887022972,
9461
+ "learning_rate": 1.1025967705080576e-09,
9462
+ "loss": 10.3323,
9463
+ "step": 1346
9464
+ },
9465
+ {
9466
+ "epoch": 0.5704605611434621,
9467
+ "grad_norm": 0.03345981240272522,
9468
+ "learning_rate": 2.756495725342312e-10,
9469
+ "loss": 10.3286,
9470
+ "step": 1347
9471
+ },
9472
+ {
9473
+ "epoch": 0.5708840656431975,
9474
+ "grad_norm": 0.03345588967204094,
9475
+ "learning_rate": 0.0,
9476
+ "loss": 10.3287,
9477
+ "step": 1348
9478
+ },
9479
+ {
9480
+ "epoch": 0.5708840656431975,
9481
+ "eval_loss": 10.330697059631348,
9482
+ "eval_runtime": 3.473,
9483
+ "eval_samples_per_second": 286.494,
9484
+ "eval_steps_per_second": 143.391,
9485
+ "step": 1348
9486
  }
9487
  ],
9488
  "logging_steps": 1,
 
9497
  "should_evaluate": false,
9498
  "should_log": false,
9499
  "should_save": true,
9500
+ "should_training_stop": true
9501
  },
9502
  "attributes": {}
9503
  }
9504
  },
9505
+ "total_flos": 28945837916160.0,
9506
  "train_batch_size": 2,
9507
  "trial_name": null,
9508
  "trial_params": null