eageringdev commited on
Commit
61b6eb8
·
verified ·
1 Parent(s): dd86bb0

Training in progress, step 1104, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:09fc2632a16371f65d05ed818d307cc4452c6e8052230ab3fc7dc9d52539cfa6
3
  size 144805440
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c14477c439a945f86211657f7e4349f974df07c5853128cffa0a6abbc103b4f5
3
  size 144805440
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:bb33da303bacb0c53e8730a1b9b9b57dddb95d828b8ab9928377925be48f7e2e
3
  size 74292308
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c5ab6beef80cd7fb59a9c90acc5cce59b00f24fbaa249f3e569717faffa7b653
3
  size 74292308
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:bd68cd365bbe4617a3fe878e742acef244afe49567ce58da2e280fa24e524853
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c8efa930a9c9cb068a49f0d425053395984a2e165a94288033fccee6e5cde4d8
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c9728aacb6aa58909520aa1f7eec6cd5d6290e68493428330a9dd5e91816182f
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cde2d36e902d746027cc06d5b473736c7fe110d40a364346bbeac42ea4778a3d
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.04842344194614866,
5
  "eval_steps": 500,
6
- "global_step": 736,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -5159,6 +5159,2582 @@
5159
  "learning_rate": 5.026768725679726e-05,
5160
  "loss": 1.5804,
5161
  "step": 736
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5162
  }
5163
  ],
5164
  "logging_steps": 1,
@@ -5178,7 +7754,7 @@
5178
  "attributes": {}
5179
  }
5180
  },
5181
- "total_flos": 9.538118959182643e+17,
5182
  "train_batch_size": 4,
5183
  "trial_name": null,
5184
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.07263516291922299,
5
  "eval_steps": 500,
6
+ "global_step": 1104,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
5159
  "learning_rate": 5.026768725679726e-05,
5160
  "loss": 1.5804,
5161
  "step": 736
5162
+ },
5163
+ {
5164
+ "epoch": 0.04848923466618418,
5165
+ "grad_norm": 0.7959031462669373,
5166
+ "learning_rate": 5.0160612845131414e-05,
5167
+ "loss": 1.761,
5168
+ "step": 737
5169
+ },
5170
+ {
5171
+ "epoch": 0.04855502738621972,
5172
+ "grad_norm": 0.7459606528282166,
5173
+ "learning_rate": 5.005353769688611e-05,
5174
+ "loss": 1.4302,
5175
+ "step": 738
5176
+ },
5177
+ {
5178
+ "epoch": 0.04862082010625524,
5179
+ "grad_norm": 0.7083699703216553,
5180
+ "learning_rate": 4.994646230311391e-05,
5181
+ "loss": 1.5262,
5182
+ "step": 739
5183
+ },
5184
+ {
5185
+ "epoch": 0.04868661282629077,
5186
+ "grad_norm": 0.7352794408798218,
5187
+ "learning_rate": 4.9839387154868584e-05,
5188
+ "loss": 1.5299,
5189
+ "step": 740
5190
+ },
5191
+ {
5192
+ "epoch": 0.0487524055463263,
5193
+ "grad_norm": 0.7063877582550049,
5194
+ "learning_rate": 4.973231274320276e-05,
5195
+ "loss": 1.6491,
5196
+ "step": 741
5197
+ },
5198
+ {
5199
+ "epoch": 0.04881819826636183,
5200
+ "grad_norm": 0.7635167837142944,
5201
+ "learning_rate": 4.962523955916569e-05,
5202
+ "loss": 1.677,
5203
+ "step": 742
5204
+ },
5205
+ {
5206
+ "epoch": 0.048883990986397355,
5207
+ "grad_norm": 0.756692111492157,
5208
+ "learning_rate": 4.951816809380097e-05,
5209
+ "loss": 1.4049,
5210
+ "step": 743
5211
+ },
5212
+ {
5213
+ "epoch": 0.04894978370643288,
5214
+ "grad_norm": 0.7604605555534363,
5215
+ "learning_rate": 4.9411098838144346e-05,
5216
+ "loss": 1.6448,
5217
+ "step": 744
5218
+ },
5219
+ {
5220
+ "epoch": 0.049015576426468414,
5221
+ "grad_norm": 0.8182808756828308,
5222
+ "learning_rate": 4.9304032283221405e-05,
5223
+ "loss": 1.5077,
5224
+ "step": 745
5225
+ },
5226
+ {
5227
+ "epoch": 0.04908136914650394,
5228
+ "grad_norm": 0.7334157824516296,
5229
+ "learning_rate": 4.919696892004539e-05,
5230
+ "loss": 1.4763,
5231
+ "step": 746
5232
+ },
5233
+ {
5234
+ "epoch": 0.04914716186653947,
5235
+ "grad_norm": 0.8388804197311401,
5236
+ "learning_rate": 4.908990923961488e-05,
5237
+ "loss": 1.4618,
5238
+ "step": 747
5239
+ },
5240
+ {
5241
+ "epoch": 0.04921295458657499,
5242
+ "grad_norm": 0.8400937914848328,
5243
+ "learning_rate": 4.898285373291152e-05,
5244
+ "loss": 1.3205,
5245
+ "step": 748
5246
+ },
5247
+ {
5248
+ "epoch": 0.049278747306610526,
5249
+ "grad_norm": 0.9195184111595154,
5250
+ "learning_rate": 4.887580289089787e-05,
5251
+ "loss": 1.3075,
5252
+ "step": 749
5253
+ },
5254
+ {
5255
+ "epoch": 0.04934454002664605,
5256
+ "grad_norm": 1.210403561592102,
5257
+ "learning_rate": 4.876875720451511e-05,
5258
+ "loss": 1.3114,
5259
+ "step": 750
5260
+ },
5261
+ {
5262
+ "epoch": 0.04941033274668158,
5263
+ "grad_norm": 0.5409945845603943,
5264
+ "learning_rate": 4.866171716468074e-05,
5265
+ "loss": 1.5787,
5266
+ "step": 751
5267
+ },
5268
+ {
5269
+ "epoch": 0.049476125466717105,
5270
+ "grad_norm": 0.5661841034889221,
5271
+ "learning_rate": 4.855468326228638e-05,
5272
+ "loss": 1.5597,
5273
+ "step": 752
5274
+ },
5275
+ {
5276
+ "epoch": 0.04954191818675264,
5277
+ "grad_norm": 0.5858348608016968,
5278
+ "learning_rate": 4.8447655988195464e-05,
5279
+ "loss": 1.6057,
5280
+ "step": 753
5281
+ },
5282
+ {
5283
+ "epoch": 0.049607710906788165,
5284
+ "grad_norm": 0.5190932154655457,
5285
+ "learning_rate": 4.834063583324111e-05,
5286
+ "loss": 1.5158,
5287
+ "step": 754
5288
+ },
5289
+ {
5290
+ "epoch": 0.04967350362682369,
5291
+ "grad_norm": 0.6089287996292114,
5292
+ "learning_rate": 4.8233623288223704e-05,
5293
+ "loss": 1.7857,
5294
+ "step": 755
5295
+ },
5296
+ {
5297
+ "epoch": 0.04973929634685922,
5298
+ "grad_norm": 0.6427363753318787,
5299
+ "learning_rate": 4.8126618843908775e-05,
5300
+ "loss": 1.8208,
5301
+ "step": 756
5302
+ },
5303
+ {
5304
+ "epoch": 0.04980508906689475,
5305
+ "grad_norm": 0.5550252795219421,
5306
+ "learning_rate": 4.801962299102471e-05,
5307
+ "loss": 1.6078,
5308
+ "step": 757
5309
+ },
5310
+ {
5311
+ "epoch": 0.04987088178693028,
5312
+ "grad_norm": 0.6121551990509033,
5313
+ "learning_rate": 4.7912636220260473e-05,
5314
+ "loss": 1.725,
5315
+ "step": 758
5316
+ },
5317
+ {
5318
+ "epoch": 0.0499366745069658,
5319
+ "grad_norm": 0.6313748955726624,
5320
+ "learning_rate": 4.780565902226338e-05,
5321
+ "loss": 1.8692,
5322
+ "step": 759
5323
+ },
5324
+ {
5325
+ "epoch": 0.05000246722700133,
5326
+ "grad_norm": 0.5803863406181335,
5327
+ "learning_rate": 4.7698691887636854e-05,
5328
+ "loss": 1.5714,
5329
+ "step": 760
5330
+ },
5331
+ {
5332
+ "epoch": 0.05006825994703686,
5333
+ "grad_norm": 0.5760961174964905,
5334
+ "learning_rate": 4.759173530693814e-05,
5335
+ "loss": 1.6356,
5336
+ "step": 761
5337
+ },
5338
+ {
5339
+ "epoch": 0.05013405266707239,
5340
+ "grad_norm": 0.5896910429000854,
5341
+ "learning_rate": 4.748478977067614e-05,
5342
+ "loss": 1.5632,
5343
+ "step": 762
5344
+ },
5345
+ {
5346
+ "epoch": 0.050199845387107915,
5347
+ "grad_norm": 0.5783917903900146,
5348
+ "learning_rate": 4.737785576930908e-05,
5349
+ "loss": 1.531,
5350
+ "step": 763
5351
+ },
5352
+ {
5353
+ "epoch": 0.05026563810714344,
5354
+ "grad_norm": 0.6067524552345276,
5355
+ "learning_rate": 4.727093379324222e-05,
5356
+ "loss": 1.6955,
5357
+ "step": 764
5358
+ },
5359
+ {
5360
+ "epoch": 0.050331430827178975,
5361
+ "grad_norm": 0.5850797295570374,
5362
+ "learning_rate": 4.716402433282575e-05,
5363
+ "loss": 1.6401,
5364
+ "step": 765
5365
+ },
5366
+ {
5367
+ "epoch": 0.0503972235472145,
5368
+ "grad_norm": 0.6247797012329102,
5369
+ "learning_rate": 4.705712787835247e-05,
5370
+ "loss": 1.7098,
5371
+ "step": 766
5372
+ },
5373
+ {
5374
+ "epoch": 0.05046301626725003,
5375
+ "grad_norm": 0.5667417049407959,
5376
+ "learning_rate": 4.695024492005548e-05,
5377
+ "loss": 1.5379,
5378
+ "step": 767
5379
+ },
5380
+ {
5381
+ "epoch": 0.05052880898728556,
5382
+ "grad_norm": 0.5960890650749207,
5383
+ "learning_rate": 4.684337594810602e-05,
5384
+ "loss": 1.7614,
5385
+ "step": 768
5386
+ },
5387
+ {
5388
+ "epoch": 0.05059460170732109,
5389
+ "grad_norm": 0.6005357503890991,
5390
+ "learning_rate": 4.673652145261116e-05,
5391
+ "loss": 1.5532,
5392
+ "step": 769
5393
+ },
5394
+ {
5395
+ "epoch": 0.05066039442735661,
5396
+ "grad_norm": 0.6175205111503601,
5397
+ "learning_rate": 4.6629681923611603e-05,
5398
+ "loss": 1.6746,
5399
+ "step": 770
5400
+ },
5401
+ {
5402
+ "epoch": 0.05072618714739214,
5403
+ "grad_norm": 0.6387405395507812,
5404
+ "learning_rate": 4.652285785107943e-05,
5405
+ "loss": 1.6399,
5406
+ "step": 771
5407
+ },
5408
+ {
5409
+ "epoch": 0.05079197986742767,
5410
+ "grad_norm": 0.5912647247314453,
5411
+ "learning_rate": 4.64160497249158e-05,
5412
+ "loss": 1.7165,
5413
+ "step": 772
5414
+ },
5415
+ {
5416
+ "epoch": 0.0508577725874632,
5417
+ "grad_norm": 0.6159881353378296,
5418
+ "learning_rate": 4.630925803494877e-05,
5419
+ "loss": 1.6739,
5420
+ "step": 773
5421
+ },
5422
+ {
5423
+ "epoch": 0.050923565307498725,
5424
+ "grad_norm": 0.6138644218444824,
5425
+ "learning_rate": 4.6202483270931e-05,
5426
+ "loss": 1.535,
5427
+ "step": 774
5428
+ },
5429
+ {
5430
+ "epoch": 0.05098935802753425,
5431
+ "grad_norm": 0.6410723924636841,
5432
+ "learning_rate": 4.6095725922537533e-05,
5433
+ "loss": 1.6135,
5434
+ "step": 775
5435
+ },
5436
+ {
5437
+ "epoch": 0.051055150747569784,
5438
+ "grad_norm": 0.6804289817810059,
5439
+ "learning_rate": 4.598898647936354e-05,
5440
+ "loss": 1.639,
5441
+ "step": 776
5442
+ },
5443
+ {
5444
+ "epoch": 0.05112094346760531,
5445
+ "grad_norm": 0.6560742259025574,
5446
+ "learning_rate": 4.588226543092209e-05,
5447
+ "loss": 1.6589,
5448
+ "step": 777
5449
+ },
5450
+ {
5451
+ "epoch": 0.05118673618764084,
5452
+ "grad_norm": 0.6562034487724304,
5453
+ "learning_rate": 4.5775563266641894e-05,
5454
+ "loss": 1.5987,
5455
+ "step": 778
5456
+ },
5457
+ {
5458
+ "epoch": 0.05125252890767636,
5459
+ "grad_norm": 0.7900398969650269,
5460
+ "learning_rate": 4.566888047586507e-05,
5461
+ "loss": 1.8027,
5462
+ "step": 779
5463
+ },
5464
+ {
5465
+ "epoch": 0.051318321627711896,
5466
+ "grad_norm": 0.6825142502784729,
5467
+ "learning_rate": 4.556221754784482e-05,
5468
+ "loss": 1.5588,
5469
+ "step": 780
5470
+ },
5471
+ {
5472
+ "epoch": 0.05138411434774742,
5473
+ "grad_norm": 0.6759592294692993,
5474
+ "learning_rate": 4.545557497174331e-05,
5475
+ "loss": 1.535,
5476
+ "step": 781
5477
+ },
5478
+ {
5479
+ "epoch": 0.05144990706778295,
5480
+ "grad_norm": 0.7403655052185059,
5481
+ "learning_rate": 4.5348953236629395e-05,
5482
+ "loss": 1.6259,
5483
+ "step": 782
5484
+ },
5485
+ {
5486
+ "epoch": 0.051515699787818475,
5487
+ "grad_norm": 0.711732804775238,
5488
+ "learning_rate": 4.52423528314763e-05,
5489
+ "loss": 1.5692,
5490
+ "step": 783
5491
+ },
5492
+ {
5493
+ "epoch": 0.05158149250785401,
5494
+ "grad_norm": 0.6846985220909119,
5495
+ "learning_rate": 4.5135774245159454e-05,
5496
+ "loss": 1.5152,
5497
+ "step": 784
5498
+ },
5499
+ {
5500
+ "epoch": 0.051647285227889535,
5501
+ "grad_norm": 0.6845923066139221,
5502
+ "learning_rate": 4.502921796645424e-05,
5503
+ "loss": 1.5296,
5504
+ "step": 785
5505
+ },
5506
+ {
5507
+ "epoch": 0.05171307794792506,
5508
+ "grad_norm": 0.7074812054634094,
5509
+ "learning_rate": 4.492268448403369e-05,
5510
+ "loss": 1.4728,
5511
+ "step": 786
5512
+ },
5513
+ {
5514
+ "epoch": 0.05177887066796059,
5515
+ "grad_norm": 1.4424465894699097,
5516
+ "learning_rate": 4.4816174286466314e-05,
5517
+ "loss": 1.4922,
5518
+ "step": 787
5519
+ },
5520
+ {
5521
+ "epoch": 0.05184466338799612,
5522
+ "grad_norm": 0.7188639640808105,
5523
+ "learning_rate": 4.4709687862213866e-05,
5524
+ "loss": 1.6399,
5525
+ "step": 788
5526
+ },
5527
+ {
5528
+ "epoch": 0.05191045610803165,
5529
+ "grad_norm": 0.7116633057594299,
5530
+ "learning_rate": 4.4603225699629037e-05,
5531
+ "loss": 1.586,
5532
+ "step": 789
5533
+ },
5534
+ {
5535
+ "epoch": 0.05197624882806717,
5536
+ "grad_norm": 0.728759229183197,
5537
+ "learning_rate": 4.4496788286953266e-05,
5538
+ "loss": 1.4238,
5539
+ "step": 790
5540
+ },
5541
+ {
5542
+ "epoch": 0.0520420415481027,
5543
+ "grad_norm": 0.7237952947616577,
5544
+ "learning_rate": 4.439037611231448e-05,
5545
+ "loss": 1.514,
5546
+ "step": 791
5547
+ },
5548
+ {
5549
+ "epoch": 0.05210783426813823,
5550
+ "grad_norm": 0.7653865218162537,
5551
+ "learning_rate": 4.4283989663724875e-05,
5552
+ "loss": 1.6958,
5553
+ "step": 792
5554
+ },
5555
+ {
5556
+ "epoch": 0.05217362698817376,
5557
+ "grad_norm": 0.7304019331932068,
5558
+ "learning_rate": 4.4177629429078635e-05,
5559
+ "loss": 1.5366,
5560
+ "step": 793
5561
+ },
5562
+ {
5563
+ "epoch": 0.052239419708209285,
5564
+ "grad_norm": 0.7114179730415344,
5565
+ "learning_rate": 4.407129589614979e-05,
5566
+ "loss": 1.4206,
5567
+ "step": 794
5568
+ },
5569
+ {
5570
+ "epoch": 0.05230521242824481,
5571
+ "grad_norm": 0.7419894337654114,
5572
+ "learning_rate": 4.396498955258989e-05,
5573
+ "loss": 1.4686,
5574
+ "step": 795
5575
+ },
5576
+ {
5577
+ "epoch": 0.052371005148280345,
5578
+ "grad_norm": 0.8355379700660706,
5579
+ "learning_rate": 4.385871088592571e-05,
5580
+ "loss": 1.63,
5581
+ "step": 796
5582
+ },
5583
+ {
5584
+ "epoch": 0.05243679786831587,
5585
+ "grad_norm": 0.8412326574325562,
5586
+ "learning_rate": 4.3752460383557195e-05,
5587
+ "loss": 1.6383,
5588
+ "step": 797
5589
+ },
5590
+ {
5591
+ "epoch": 0.0525025905883514,
5592
+ "grad_norm": 0.8090490102767944,
5593
+ "learning_rate": 4.3646238532755114e-05,
5594
+ "loss": 1.407,
5595
+ "step": 798
5596
+ },
5597
+ {
5598
+ "epoch": 0.05256838330838693,
5599
+ "grad_norm": 0.8998046517372131,
5600
+ "learning_rate": 4.3540045820658804e-05,
5601
+ "loss": 1.625,
5602
+ "step": 799
5603
+ },
5604
+ {
5605
+ "epoch": 0.05263417602842246,
5606
+ "grad_norm": 1.3124433755874634,
5607
+ "learning_rate": 4.3433882734274e-05,
5608
+ "loss": 1.5433,
5609
+ "step": 800
5610
+ },
5611
+ {
5612
+ "epoch": 0.05269996874845798,
5613
+ "grad_norm": 0.5437705516815186,
5614
+ "learning_rate": 4.332774976047055e-05,
5615
+ "loss": 1.7119,
5616
+ "step": 801
5617
+ },
5618
+ {
5619
+ "epoch": 0.05276576146849351,
5620
+ "grad_norm": 0.5468183159828186,
5621
+ "learning_rate": 4.322164738598022e-05,
5622
+ "loss": 1.4418,
5623
+ "step": 802
5624
+ },
5625
+ {
5626
+ "epoch": 0.05283155418852904,
5627
+ "grad_norm": 0.5732606053352356,
5628
+ "learning_rate": 4.311557609739442e-05,
5629
+ "loss": 1.7286,
5630
+ "step": 803
5631
+ },
5632
+ {
5633
+ "epoch": 0.05289734690856457,
5634
+ "grad_norm": 0.5762453675270081,
5635
+ "learning_rate": 4.300953638116204e-05,
5636
+ "loss": 1.7308,
5637
+ "step": 804
5638
+ },
5639
+ {
5640
+ "epoch": 0.052963139628600095,
5641
+ "grad_norm": 0.5938736796379089,
5642
+ "learning_rate": 4.290352872358714e-05,
5643
+ "loss": 1.7055,
5644
+ "step": 805
5645
+ },
5646
+ {
5647
+ "epoch": 0.05302893234863562,
5648
+ "grad_norm": 0.5911692976951599,
5649
+ "learning_rate": 4.27975536108268e-05,
5650
+ "loss": 1.631,
5651
+ "step": 806
5652
+ },
5653
+ {
5654
+ "epoch": 0.053094725068671154,
5655
+ "grad_norm": 0.5975512266159058,
5656
+ "learning_rate": 4.2691611528888775e-05,
5657
+ "loss": 1.6773,
5658
+ "step": 807
5659
+ },
5660
+ {
5661
+ "epoch": 0.05316051778870668,
5662
+ "grad_norm": 0.5482115745544434,
5663
+ "learning_rate": 4.258570296362942e-05,
5664
+ "loss": 1.5443,
5665
+ "step": 808
5666
+ },
5667
+ {
5668
+ "epoch": 0.05322631050874221,
5669
+ "grad_norm": 0.6074912548065186,
5670
+ "learning_rate": 4.24798284007513e-05,
5671
+ "loss": 1.6919,
5672
+ "step": 809
5673
+ },
5674
+ {
5675
+ "epoch": 0.05329210322877773,
5676
+ "grad_norm": 0.5921036601066589,
5677
+ "learning_rate": 4.2373988325801145e-05,
5678
+ "loss": 1.6611,
5679
+ "step": 810
5680
+ },
5681
+ {
5682
+ "epoch": 0.053357895948813266,
5683
+ "grad_norm": 0.641273558139801,
5684
+ "learning_rate": 4.2268183224167456e-05,
5685
+ "loss": 1.8859,
5686
+ "step": 811
5687
+ },
5688
+ {
5689
+ "epoch": 0.05342368866884879,
5690
+ "grad_norm": 0.610242486000061,
5691
+ "learning_rate": 4.216241358107831e-05,
5692
+ "loss": 1.5211,
5693
+ "step": 812
5694
+ },
5695
+ {
5696
+ "epoch": 0.05348948138888432,
5697
+ "grad_norm": 0.6088224053382874,
5698
+ "learning_rate": 4.205667988159921e-05,
5699
+ "loss": 1.6132,
5700
+ "step": 813
5701
+ },
5702
+ {
5703
+ "epoch": 0.053555274108919845,
5704
+ "grad_norm": 0.5857619643211365,
5705
+ "learning_rate": 4.195098261063087e-05,
5706
+ "loss": 1.5505,
5707
+ "step": 814
5708
+ },
5709
+ {
5710
+ "epoch": 0.05362106682895538,
5711
+ "grad_norm": 0.6356807351112366,
5712
+ "learning_rate": 4.1845322252906864e-05,
5713
+ "loss": 1.6472,
5714
+ "step": 815
5715
+ },
5716
+ {
5717
+ "epoch": 0.053686859548990905,
5718
+ "grad_norm": 0.5856146216392517,
5719
+ "learning_rate": 4.173969929299151e-05,
5720
+ "loss": 1.7503,
5721
+ "step": 816
5722
+ },
5723
+ {
5724
+ "epoch": 0.05375265226902643,
5725
+ "grad_norm": 0.60245680809021,
5726
+ "learning_rate": 4.1634114215277625e-05,
5727
+ "loss": 1.5542,
5728
+ "step": 817
5729
+ },
5730
+ {
5731
+ "epoch": 0.05381844498906196,
5732
+ "grad_norm": 0.6490529179573059,
5733
+ "learning_rate": 4.152856750398426e-05,
5734
+ "loss": 1.5974,
5735
+ "step": 818
5736
+ },
5737
+ {
5738
+ "epoch": 0.05388423770909749,
5739
+ "grad_norm": 0.6497132778167725,
5740
+ "learning_rate": 4.1423059643154564e-05,
5741
+ "loss": 1.603,
5742
+ "step": 819
5743
+ },
5744
+ {
5745
+ "epoch": 0.05395003042913302,
5746
+ "grad_norm": 0.5978454351425171,
5747
+ "learning_rate": 4.131759111665349e-05,
5748
+ "loss": 1.4747,
5749
+ "step": 820
5750
+ },
5751
+ {
5752
+ "epoch": 0.05401582314916854,
5753
+ "grad_norm": 0.6695238947868347,
5754
+ "learning_rate": 4.1212162408165595e-05,
5755
+ "loss": 1.6682,
5756
+ "step": 821
5757
+ },
5758
+ {
5759
+ "epoch": 0.05408161586920407,
5760
+ "grad_norm": 0.6585442423820496,
5761
+ "learning_rate": 4.110677400119285e-05,
5762
+ "loss": 1.72,
5763
+ "step": 822
5764
+ },
5765
+ {
5766
+ "epoch": 0.0541474085892396,
5767
+ "grad_norm": 0.6088001132011414,
5768
+ "learning_rate": 4.100142637905238e-05,
5769
+ "loss": 1.474,
5770
+ "step": 823
5771
+ },
5772
+ {
5773
+ "epoch": 0.05421320130927513,
5774
+ "grad_norm": 0.6855148673057556,
5775
+ "learning_rate": 4.0896120024874286e-05,
5776
+ "loss": 1.6749,
5777
+ "step": 824
5778
+ },
5779
+ {
5780
+ "epoch": 0.054278994029310655,
5781
+ "grad_norm": 0.6727811694145203,
5782
+ "learning_rate": 4.079085542159938e-05,
5783
+ "loss": 1.7432,
5784
+ "step": 825
5785
+ },
5786
+ {
5787
+ "epoch": 0.05434478674934618,
5788
+ "grad_norm": 0.6346832513809204,
5789
+ "learning_rate": 4.068563305197706e-05,
5790
+ "loss": 1.5826,
5791
+ "step": 826
5792
+ },
5793
+ {
5794
+ "epoch": 0.054410579469381715,
5795
+ "grad_norm": 0.6359438300132751,
5796
+ "learning_rate": 4.0580453398563e-05,
5797
+ "loss": 1.5543,
5798
+ "step": 827
5799
+ },
5800
+ {
5801
+ "epoch": 0.05447637218941724,
5802
+ "grad_norm": 0.6643136739730835,
5803
+ "learning_rate": 4.047531694371695e-05,
5804
+ "loss": 1.5587,
5805
+ "step": 828
5806
+ },
5807
+ {
5808
+ "epoch": 0.05454216490945277,
5809
+ "grad_norm": 0.6467865109443665,
5810
+ "learning_rate": 4.037022416960058e-05,
5811
+ "loss": 1.7538,
5812
+ "step": 829
5813
+ },
5814
+ {
5815
+ "epoch": 0.0546079576294883,
5816
+ "grad_norm": 0.6873615980148315,
5817
+ "learning_rate": 4.0265175558175265e-05,
5818
+ "loss": 1.5784,
5819
+ "step": 830
5820
+ },
5821
+ {
5822
+ "epoch": 0.05467375034952383,
5823
+ "grad_norm": 0.6892521977424622,
5824
+ "learning_rate": 4.01601715911998e-05,
5825
+ "loss": 1.5759,
5826
+ "step": 831
5827
+ },
5828
+ {
5829
+ "epoch": 0.05473954306955935,
5830
+ "grad_norm": 0.6923861503601074,
5831
+ "learning_rate": 4.005521275022826e-05,
5832
+ "loss": 1.6928,
5833
+ "step": 832
5834
+ },
5835
+ {
5836
+ "epoch": 0.05480533578959488,
5837
+ "grad_norm": 0.9242671132087708,
5838
+ "learning_rate": 3.9950299516607766e-05,
5839
+ "loss": 1.7272,
5840
+ "step": 833
5841
+ },
5842
+ {
5843
+ "epoch": 0.05487112850963041,
5844
+ "grad_norm": 0.7108779549598694,
5845
+ "learning_rate": 3.9845432371476264e-05,
5846
+ "loss": 1.632,
5847
+ "step": 834
5848
+ },
5849
+ {
5850
+ "epoch": 0.05493692122966594,
5851
+ "grad_norm": 0.7247679233551025,
5852
+ "learning_rate": 3.9740611795760376e-05,
5853
+ "loss": 1.5377,
5854
+ "step": 835
5855
+ },
5856
+ {
5857
+ "epoch": 0.055002713949701465,
5858
+ "grad_norm": 0.7193149328231812,
5859
+ "learning_rate": 3.9635838270173107e-05,
5860
+ "loss": 1.431,
5861
+ "step": 836
5862
+ },
5863
+ {
5864
+ "epoch": 0.05506850666973699,
5865
+ "grad_norm": 0.7430593967437744,
5866
+ "learning_rate": 3.9531112275211736e-05,
5867
+ "loss": 1.5027,
5868
+ "step": 837
5869
+ },
5870
+ {
5871
+ "epoch": 0.055134299389772524,
5872
+ "grad_norm": 0.7426053285598755,
5873
+ "learning_rate": 3.9426434291155526e-05,
5874
+ "loss": 1.6552,
5875
+ "step": 838
5876
+ },
5877
+ {
5878
+ "epoch": 0.05520009210980805,
5879
+ "grad_norm": 0.7447395324707031,
5880
+ "learning_rate": 3.9321804798063565e-05,
5881
+ "loss": 1.5632,
5882
+ "step": 839
5883
+ },
5884
+ {
5885
+ "epoch": 0.05526588482984358,
5886
+ "grad_norm": 0.7917671203613281,
5887
+ "learning_rate": 3.921722427577257e-05,
5888
+ "loss": 1.5141,
5889
+ "step": 840
5890
+ },
5891
+ {
5892
+ "epoch": 0.0553316775498791,
5893
+ "grad_norm": 0.815054178237915,
5894
+ "learning_rate": 3.9112693203894664e-05,
5895
+ "loss": 1.5968,
5896
+ "step": 841
5897
+ },
5898
+ {
5899
+ "epoch": 0.055397470269914637,
5900
+ "grad_norm": 0.8161969184875488,
5901
+ "learning_rate": 3.900821206181521e-05,
5902
+ "loss": 1.487,
5903
+ "step": 842
5904
+ },
5905
+ {
5906
+ "epoch": 0.05546326298995016,
5907
+ "grad_norm": 0.7944288849830627,
5908
+ "learning_rate": 3.890378132869059e-05,
5909
+ "loss": 1.6617,
5910
+ "step": 843
5911
+ },
5912
+ {
5913
+ "epoch": 0.05552905570998569,
5914
+ "grad_norm": 0.801561176776886,
5915
+ "learning_rate": 3.879940148344595e-05,
5916
+ "loss": 1.4835,
5917
+ "step": 844
5918
+ },
5919
+ {
5920
+ "epoch": 0.055594848430021215,
5921
+ "grad_norm": 0.8297501802444458,
5922
+ "learning_rate": 3.8695073004773106e-05,
5923
+ "loss": 1.3569,
5924
+ "step": 845
5925
+ },
5926
+ {
5927
+ "epoch": 0.05566064115005675,
5928
+ "grad_norm": 0.8283421993255615,
5929
+ "learning_rate": 3.859079637112833e-05,
5930
+ "loss": 1.4448,
5931
+ "step": 846
5932
+ },
5933
+ {
5934
+ "epoch": 0.055726433870092275,
5935
+ "grad_norm": 0.862443745136261,
5936
+ "learning_rate": 3.84865720607301e-05,
5937
+ "loss": 1.558,
5938
+ "step": 847
5939
+ },
5940
+ {
5941
+ "epoch": 0.0557922265901278,
5942
+ "grad_norm": 0.8980772495269775,
5943
+ "learning_rate": 3.838240055155692e-05,
5944
+ "loss": 1.4493,
5945
+ "step": 848
5946
+ },
5947
+ {
5948
+ "epoch": 0.05585801931016333,
5949
+ "grad_norm": 0.9152320623397827,
5950
+ "learning_rate": 3.827828232134519e-05,
5951
+ "loss": 1.2151,
5952
+ "step": 849
5953
+ },
5954
+ {
5955
+ "epoch": 0.05592381203019886,
5956
+ "grad_norm": 1.169055700302124,
5957
+ "learning_rate": 3.8174217847586904e-05,
5958
+ "loss": 1.2846,
5959
+ "step": 850
5960
+ },
5961
+ {
5962
+ "epoch": 0.05598960475023439,
5963
+ "grad_norm": 0.5100705623626709,
5964
+ "learning_rate": 3.8070207607527584e-05,
5965
+ "loss": 1.5764,
5966
+ "step": 851
5967
+ },
5968
+ {
5969
+ "epoch": 0.05605539747026991,
5970
+ "grad_norm": 0.5505961179733276,
5971
+ "learning_rate": 3.796625207816401e-05,
5972
+ "loss": 1.7925,
5973
+ "step": 852
5974
+ },
5975
+ {
5976
+ "epoch": 0.05612119019030544,
5977
+ "grad_norm": 0.6031649708747864,
5978
+ "learning_rate": 3.7862351736242066e-05,
5979
+ "loss": 1.7848,
5980
+ "step": 853
5981
+ },
5982
+ {
5983
+ "epoch": 0.05618698291034097,
5984
+ "grad_norm": 0.6231903433799744,
5985
+ "learning_rate": 3.775850705825454e-05,
5986
+ "loss": 1.7385,
5987
+ "step": 854
5988
+ },
5989
+ {
5990
+ "epoch": 0.0562527756303765,
5991
+ "grad_norm": 0.5796992778778076,
5992
+ "learning_rate": 3.765471852043892e-05,
5993
+ "loss": 1.6627,
5994
+ "step": 855
5995
+ },
5996
+ {
5997
+ "epoch": 0.056318568350412025,
5998
+ "grad_norm": 0.5962229371070862,
5999
+ "learning_rate": 3.755098659877527e-05,
6000
+ "loss": 1.7171,
6001
+ "step": 856
6002
+ },
6003
+ {
6004
+ "epoch": 0.05638436107044756,
6005
+ "grad_norm": 0.6059638857841492,
6006
+ "learning_rate": 3.7447311768983964e-05,
6007
+ "loss": 1.6715,
6008
+ "step": 857
6009
+ },
6010
+ {
6011
+ "epoch": 0.056450153790483085,
6012
+ "grad_norm": 0.6489062905311584,
6013
+ "learning_rate": 3.7343694506523605e-05,
6014
+ "loss": 1.7469,
6015
+ "step": 858
6016
+ },
6017
+ {
6018
+ "epoch": 0.05651594651051861,
6019
+ "grad_norm": 0.6001795530319214,
6020
+ "learning_rate": 3.7240135286588765e-05,
6021
+ "loss": 1.6136,
6022
+ "step": 859
6023
+ },
6024
+ {
6025
+ "epoch": 0.05658173923055414,
6026
+ "grad_norm": 0.6038196086883545,
6027
+ "learning_rate": 3.713663458410779e-05,
6028
+ "loss": 1.6115,
6029
+ "step": 860
6030
+ },
6031
+ {
6032
+ "epoch": 0.05664753195058967,
6033
+ "grad_norm": 0.584757924079895,
6034
+ "learning_rate": 3.703319287374069e-05,
6035
+ "loss": 1.5293,
6036
+ "step": 861
6037
+ },
6038
+ {
6039
+ "epoch": 0.0567133246706252,
6040
+ "grad_norm": 0.6052143573760986,
6041
+ "learning_rate": 3.692981062987698e-05,
6042
+ "loss": 1.8357,
6043
+ "step": 862
6044
+ },
6045
+ {
6046
+ "epoch": 0.05677911739066072,
6047
+ "grad_norm": 0.6260353326797485,
6048
+ "learning_rate": 3.682648832663339e-05,
6049
+ "loss": 1.6054,
6050
+ "step": 863
6051
+ },
6052
+ {
6053
+ "epoch": 0.05684491011069625,
6054
+ "grad_norm": 0.643218457698822,
6055
+ "learning_rate": 3.67232264378518e-05,
6056
+ "loss": 1.7711,
6057
+ "step": 864
6058
+ },
6059
+ {
6060
+ "epoch": 0.05691070283073178,
6061
+ "grad_norm": 0.577084481716156,
6062
+ "learning_rate": 3.662002543709702e-05,
6063
+ "loss": 1.582,
6064
+ "step": 865
6065
+ },
6066
+ {
6067
+ "epoch": 0.05697649555076731,
6068
+ "grad_norm": 0.7629356384277344,
6069
+ "learning_rate": 3.6516885797654594e-05,
6070
+ "loss": 1.6112,
6071
+ "step": 866
6072
+ },
6073
+ {
6074
+ "epoch": 0.057042288270802835,
6075
+ "grad_norm": 0.6926255226135254,
6076
+ "learning_rate": 3.641380799252869e-05,
6077
+ "loss": 1.537,
6078
+ "step": 867
6079
+ },
6080
+ {
6081
+ "epoch": 0.05710808099083836,
6082
+ "grad_norm": 0.6118739247322083,
6083
+ "learning_rate": 3.6310792494439894e-05,
6084
+ "loss": 1.6167,
6085
+ "step": 868
6086
+ },
6087
+ {
6088
+ "epoch": 0.057173873710873895,
6089
+ "grad_norm": 0.6357191205024719,
6090
+ "learning_rate": 3.620783977582305e-05,
6091
+ "loss": 1.4908,
6092
+ "step": 869
6093
+ },
6094
+ {
6095
+ "epoch": 0.05723966643090942,
6096
+ "grad_norm": 0.6403725743293762,
6097
+ "learning_rate": 3.61049503088251e-05,
6098
+ "loss": 1.469,
6099
+ "step": 870
6100
+ },
6101
+ {
6102
+ "epoch": 0.05730545915094495,
6103
+ "grad_norm": 0.6135770678520203,
6104
+ "learning_rate": 3.6002124565302875e-05,
6105
+ "loss": 1.4758,
6106
+ "step": 871
6107
+ },
6108
+ {
6109
+ "epoch": 0.05737125187098047,
6110
+ "grad_norm": 0.6306059956550598,
6111
+ "learning_rate": 3.5899363016821e-05,
6112
+ "loss": 1.5523,
6113
+ "step": 872
6114
+ },
6115
+ {
6116
+ "epoch": 0.05743704459101601,
6117
+ "grad_norm": 0.6534183025360107,
6118
+ "learning_rate": 3.579666613464968e-05,
6119
+ "loss": 1.5653,
6120
+ "step": 873
6121
+ },
6122
+ {
6123
+ "epoch": 0.05750283731105153,
6124
+ "grad_norm": 0.6130310893058777,
6125
+ "learning_rate": 3.56940343897626e-05,
6126
+ "loss": 1.547,
6127
+ "step": 874
6128
+ },
6129
+ {
6130
+ "epoch": 0.05756863003108706,
6131
+ "grad_norm": 0.6713092923164368,
6132
+ "learning_rate": 3.559146825283465e-05,
6133
+ "loss": 1.6401,
6134
+ "step": 875
6135
+ },
6136
+ {
6137
+ "epoch": 0.057634422751122585,
6138
+ "grad_norm": 0.6866581439971924,
6139
+ "learning_rate": 3.5488968194239926e-05,
6140
+ "loss": 1.6317,
6141
+ "step": 876
6142
+ },
6143
+ {
6144
+ "epoch": 0.05770021547115812,
6145
+ "grad_norm": 0.6544456481933594,
6146
+ "learning_rate": 3.538653468404936e-05,
6147
+ "loss": 1.5999,
6148
+ "step": 877
6149
+ },
6150
+ {
6151
+ "epoch": 0.057766008191193645,
6152
+ "grad_norm": 0.6867201328277588,
6153
+ "learning_rate": 3.528416819202881e-05,
6154
+ "loss": 1.6641,
6155
+ "step": 878
6156
+ },
6157
+ {
6158
+ "epoch": 0.05783180091122917,
6159
+ "grad_norm": 0.7083088159561157,
6160
+ "learning_rate": 3.5181869187636735e-05,
6161
+ "loss": 1.499,
6162
+ "step": 879
6163
+ },
6164
+ {
6165
+ "epoch": 0.0578975936312647,
6166
+ "grad_norm": 0.7546277046203613,
6167
+ "learning_rate": 3.5079638140022094e-05,
6168
+ "loss": 1.6342,
6169
+ "step": 880
6170
+ },
6171
+ {
6172
+ "epoch": 0.05796338635130023,
6173
+ "grad_norm": 0.7427401542663574,
6174
+ "learning_rate": 3.497747551802221e-05,
6175
+ "loss": 1.7578,
6176
+ "step": 881
6177
+ },
6178
+ {
6179
+ "epoch": 0.05802917907133576,
6180
+ "grad_norm": 0.7476483583450317,
6181
+ "learning_rate": 3.487538179016054e-05,
6182
+ "loss": 1.5637,
6183
+ "step": 882
6184
+ },
6185
+ {
6186
+ "epoch": 0.05809497179137128,
6187
+ "grad_norm": 0.7196775078773499,
6188
+ "learning_rate": 3.4773357424644685e-05,
6189
+ "loss": 1.5247,
6190
+ "step": 883
6191
+ },
6192
+ {
6193
+ "epoch": 0.05816076451140681,
6194
+ "grad_norm": 0.7455043792724609,
6195
+ "learning_rate": 3.467140288936407e-05,
6196
+ "loss": 1.5444,
6197
+ "step": 884
6198
+ },
6199
+ {
6200
+ "epoch": 0.05822655723144234,
6201
+ "grad_norm": 0.7095162868499756,
6202
+ "learning_rate": 3.456951865188791e-05,
6203
+ "loss": 1.6029,
6204
+ "step": 885
6205
+ },
6206
+ {
6207
+ "epoch": 0.05829234995147787,
6208
+ "grad_norm": 0.7810092568397522,
6209
+ "learning_rate": 3.446770517946303e-05,
6210
+ "loss": 1.5827,
6211
+ "step": 886
6212
+ },
6213
+ {
6214
+ "epoch": 0.058358142671513395,
6215
+ "grad_norm": 0.7805618643760681,
6216
+ "learning_rate": 3.43659629390117e-05,
6217
+ "loss": 1.562,
6218
+ "step": 887
6219
+ },
6220
+ {
6221
+ "epoch": 0.05842393539154893,
6222
+ "grad_norm": 0.7464081048965454,
6223
+ "learning_rate": 3.426429239712952e-05,
6224
+ "loss": 1.646,
6225
+ "step": 888
6226
+ },
6227
+ {
6228
+ "epoch": 0.058489728111584455,
6229
+ "grad_norm": 0.7130300998687744,
6230
+ "learning_rate": 3.4162694020083294e-05,
6231
+ "loss": 1.3213,
6232
+ "step": 889
6233
+ },
6234
+ {
6235
+ "epoch": 0.05855552083161998,
6236
+ "grad_norm": 0.7412570118904114,
6237
+ "learning_rate": 3.406116827380889e-05,
6238
+ "loss": 1.6022,
6239
+ "step": 890
6240
+ },
6241
+ {
6242
+ "epoch": 0.05862131355165551,
6243
+ "grad_norm": 0.7365239262580872,
6244
+ "learning_rate": 3.395971562390905e-05,
6245
+ "loss": 1.5959,
6246
+ "step": 891
6247
+ },
6248
+ {
6249
+ "epoch": 0.05868710627169104,
6250
+ "grad_norm": 0.8533955812454224,
6251
+ "learning_rate": 3.385833653565132e-05,
6252
+ "loss": 1.766,
6253
+ "step": 892
6254
+ },
6255
+ {
6256
+ "epoch": 0.05875289899172657,
6257
+ "grad_norm": 0.8184581995010376,
6258
+ "learning_rate": 3.375703147396583e-05,
6259
+ "loss": 1.5165,
6260
+ "step": 893
6261
+ },
6262
+ {
6263
+ "epoch": 0.05881869171176209,
6264
+ "grad_norm": 0.7530040740966797,
6265
+ "learning_rate": 3.365580090344329e-05,
6266
+ "loss": 1.4796,
6267
+ "step": 894
6268
+ },
6269
+ {
6270
+ "epoch": 0.05888448443179762,
6271
+ "grad_norm": 0.8272554278373718,
6272
+ "learning_rate": 3.3554645288332775e-05,
6273
+ "loss": 1.3817,
6274
+ "step": 895
6275
+ },
6276
+ {
6277
+ "epoch": 0.05895027715183315,
6278
+ "grad_norm": 0.8762139678001404,
6279
+ "learning_rate": 3.345356509253959e-05,
6280
+ "loss": 1.4379,
6281
+ "step": 896
6282
+ },
6283
+ {
6284
+ "epoch": 0.05901606987186868,
6285
+ "grad_norm": 0.9064789414405823,
6286
+ "learning_rate": 3.335256077962317e-05,
6287
+ "loss": 1.5902,
6288
+ "step": 897
6289
+ },
6290
+ {
6291
+ "epoch": 0.059081862591904205,
6292
+ "grad_norm": 0.8573328852653503,
6293
+ "learning_rate": 3.325163281279494e-05,
6294
+ "loss": 1.4975,
6295
+ "step": 898
6296
+ },
6297
+ {
6298
+ "epoch": 0.05914765531193973,
6299
+ "grad_norm": 0.9656907320022583,
6300
+ "learning_rate": 3.315078165491622e-05,
6301
+ "loss": 1.5053,
6302
+ "step": 899
6303
+ },
6304
+ {
6305
+ "epoch": 0.059213448031975265,
6306
+ "grad_norm": 1.2840112447738647,
6307
+ "learning_rate": 3.305000776849606e-05,
6308
+ "loss": 1.2657,
6309
+ "step": 900
6310
+ },
6311
+ {
6312
+ "epoch": 0.05927924075201079,
6313
+ "grad_norm": 0.5296594500541687,
6314
+ "learning_rate": 3.294931161568914e-05,
6315
+ "loss": 1.7877,
6316
+ "step": 901
6317
+ },
6318
+ {
6319
+ "epoch": 0.05934503347204632,
6320
+ "grad_norm": 0.5523350834846497,
6321
+ "learning_rate": 3.2848693658293675e-05,
6322
+ "loss": 1.6165,
6323
+ "step": 902
6324
+ },
6325
+ {
6326
+ "epoch": 0.05941082619208184,
6327
+ "grad_norm": 0.5559424161911011,
6328
+ "learning_rate": 3.274815435774921e-05,
6329
+ "loss": 1.6415,
6330
+ "step": 903
6331
+ },
6332
+ {
6333
+ "epoch": 0.05947661891211738,
6334
+ "grad_norm": 0.6036515831947327,
6335
+ "learning_rate": 3.264769417513463e-05,
6336
+ "loss": 1.6959,
6337
+ "step": 904
6338
+ },
6339
+ {
6340
+ "epoch": 0.0595424116321529,
6341
+ "grad_norm": 0.5790659189224243,
6342
+ "learning_rate": 3.254731357116597e-05,
6343
+ "loss": 1.6368,
6344
+ "step": 905
6345
+ },
6346
+ {
6347
+ "epoch": 0.05960820435218843,
6348
+ "grad_norm": 0.5860310792922974,
6349
+ "learning_rate": 3.244701300619427e-05,
6350
+ "loss": 1.5645,
6351
+ "step": 906
6352
+ },
6353
+ {
6354
+ "epoch": 0.059673997072223955,
6355
+ "grad_norm": 0.5953836441040039,
6356
+ "learning_rate": 3.2346792940203554e-05,
6357
+ "loss": 1.5427,
6358
+ "step": 907
6359
+ },
6360
+ {
6361
+ "epoch": 0.05973978979225949,
6362
+ "grad_norm": 0.574989378452301,
6363
+ "learning_rate": 3.224665383280867e-05,
6364
+ "loss": 1.7678,
6365
+ "step": 908
6366
+ },
6367
+ {
6368
+ "epoch": 0.059805582512295015,
6369
+ "grad_norm": 0.5947942733764648,
6370
+ "learning_rate": 3.214659614325313e-05,
6371
+ "loss": 1.5293,
6372
+ "step": 909
6373
+ },
6374
+ {
6375
+ "epoch": 0.05987137523233054,
6376
+ "grad_norm": 0.5816536545753479,
6377
+ "learning_rate": 3.2046620330407116e-05,
6378
+ "loss": 1.4343,
6379
+ "step": 910
6380
+ },
6381
+ {
6382
+ "epoch": 0.05993716795236607,
6383
+ "grad_norm": 0.5763691663742065,
6384
+ "learning_rate": 3.194672685276532e-05,
6385
+ "loss": 1.6881,
6386
+ "step": 911
6387
+ },
6388
+ {
6389
+ "epoch": 0.0600029606724016,
6390
+ "grad_norm": 0.629294753074646,
6391
+ "learning_rate": 3.1846916168444806e-05,
6392
+ "loss": 1.7855,
6393
+ "step": 912
6394
+ },
6395
+ {
6396
+ "epoch": 0.06006875339243713,
6397
+ "grad_norm": 0.6405010223388672,
6398
+ "learning_rate": 3.174718873518298e-05,
6399
+ "loss": 1.6608,
6400
+ "step": 913
6401
+ },
6402
+ {
6403
+ "epoch": 0.06013454611247265,
6404
+ "grad_norm": 0.5852246284484863,
6405
+ "learning_rate": 3.16475450103354e-05,
6406
+ "loss": 1.6286,
6407
+ "step": 914
6408
+ },
6409
+ {
6410
+ "epoch": 0.06020033883250818,
6411
+ "grad_norm": 0.6519684195518494,
6412
+ "learning_rate": 3.154798545087379e-05,
6413
+ "loss": 1.6609,
6414
+ "step": 915
6415
+ },
6416
+ {
6417
+ "epoch": 0.06026613155254371,
6418
+ "grad_norm": 0.6138909459114075,
6419
+ "learning_rate": 3.144851051338385e-05,
6420
+ "loss": 1.7577,
6421
+ "step": 916
6422
+ },
6423
+ {
6424
+ "epoch": 0.06033192427257924,
6425
+ "grad_norm": 0.5902788639068604,
6426
+ "learning_rate": 3.1349120654063225e-05,
6427
+ "loss": 1.622,
6428
+ "step": 917
6429
+ },
6430
+ {
6431
+ "epoch": 0.060397716992614765,
6432
+ "grad_norm": 0.6420292854309082,
6433
+ "learning_rate": 3.124981632871937e-05,
6434
+ "loss": 1.6161,
6435
+ "step": 918
6436
+ },
6437
+ {
6438
+ "epoch": 0.0604635097126503,
6439
+ "grad_norm": 0.6139567494392395,
6440
+ "learning_rate": 3.115059799276748e-05,
6441
+ "loss": 1.682,
6442
+ "step": 919
6443
+ },
6444
+ {
6445
+ "epoch": 0.060529302432685825,
6446
+ "grad_norm": 0.6504656672477722,
6447
+ "learning_rate": 3.1051466101228385e-05,
6448
+ "loss": 1.5961,
6449
+ "step": 920
6450
+ },
6451
+ {
6452
+ "epoch": 0.06059509515272135,
6453
+ "grad_norm": 0.6670247912406921,
6454
+ "learning_rate": 3.09524211087265e-05,
6455
+ "loss": 1.6288,
6456
+ "step": 921
6457
+ },
6458
+ {
6459
+ "epoch": 0.06066088787275688,
6460
+ "grad_norm": 0.6252246499061584,
6461
+ "learning_rate": 3.08534634694877e-05,
6462
+ "loss": 1.527,
6463
+ "step": 922
6464
+ },
6465
+ {
6466
+ "epoch": 0.06072668059279241,
6467
+ "grad_norm": 0.6155936121940613,
6468
+ "learning_rate": 3.0754593637337276e-05,
6469
+ "loss": 1.5781,
6470
+ "step": 923
6471
+ },
6472
+ {
6473
+ "epoch": 0.06079247331282794,
6474
+ "grad_norm": 0.6207473278045654,
6475
+ "learning_rate": 3.065581206569782e-05,
6476
+ "loss": 1.3617,
6477
+ "step": 924
6478
+ },
6479
+ {
6480
+ "epoch": 0.06085826603286346,
6481
+ "grad_norm": 0.6116368174552917,
6482
+ "learning_rate": 3.055711920758709e-05,
6483
+ "loss": 1.6183,
6484
+ "step": 925
6485
+ },
6486
+ {
6487
+ "epoch": 0.06092405875289899,
6488
+ "grad_norm": 0.646839439868927,
6489
+ "learning_rate": 3.0458515515616115e-05,
6490
+ "loss": 1.5567,
6491
+ "step": 926
6492
+ },
6493
+ {
6494
+ "epoch": 0.06098985147293452,
6495
+ "grad_norm": 0.6746354103088379,
6496
+ "learning_rate": 3.036000144198693e-05,
6497
+ "loss": 1.5467,
6498
+ "step": 927
6499
+ },
6500
+ {
6501
+ "epoch": 0.06105564419297005,
6502
+ "grad_norm": 0.639434278011322,
6503
+ "learning_rate": 3.0261577438490585e-05,
6504
+ "loss": 1.5425,
6505
+ "step": 928
6506
+ },
6507
+ {
6508
+ "epoch": 0.061121436913005575,
6509
+ "grad_norm": 0.685247540473938,
6510
+ "learning_rate": 3.0163243956505095e-05,
6511
+ "loss": 1.6157,
6512
+ "step": 929
6513
+ },
6514
+ {
6515
+ "epoch": 0.0611872296330411,
6516
+ "grad_norm": 0.6764075756072998,
6517
+ "learning_rate": 3.006500144699328e-05,
6518
+ "loss": 1.5882,
6519
+ "step": 930
6520
+ },
6521
+ {
6522
+ "epoch": 0.061253022353076635,
6523
+ "grad_norm": 0.6915985345840454,
6524
+ "learning_rate": 2.99668503605008e-05,
6525
+ "loss": 1.51,
6526
+ "step": 931
6527
+ },
6528
+ {
6529
+ "epoch": 0.06131881507311216,
6530
+ "grad_norm": 0.74942946434021,
6531
+ "learning_rate": 2.986879114715403e-05,
6532
+ "loss": 1.4684,
6533
+ "step": 932
6534
+ },
6535
+ {
6536
+ "epoch": 0.06138460779314769,
6537
+ "grad_norm": 0.6873716711997986,
6538
+ "learning_rate": 2.977082425665802e-05,
6539
+ "loss": 1.6268,
6540
+ "step": 933
6541
+ },
6542
+ {
6543
+ "epoch": 0.06145040051318321,
6544
+ "grad_norm": 0.7743644714355469,
6545
+ "learning_rate": 2.967295013829442e-05,
6546
+ "loss": 1.564,
6547
+ "step": 934
6548
+ },
6549
+ {
6550
+ "epoch": 0.06151619323321875,
6551
+ "grad_norm": 0.702805757522583,
6552
+ "learning_rate": 2.95751692409194e-05,
6553
+ "loss": 1.7741,
6554
+ "step": 935
6555
+ },
6556
+ {
6557
+ "epoch": 0.06158198595325427,
6558
+ "grad_norm": 0.7666968107223511,
6559
+ "learning_rate": 2.947748201296163e-05,
6560
+ "loss": 1.6298,
6561
+ "step": 936
6562
+ },
6563
+ {
6564
+ "epoch": 0.0616477786732898,
6565
+ "grad_norm": 0.700221061706543,
6566
+ "learning_rate": 2.9379888902420215e-05,
6567
+ "loss": 1.5275,
6568
+ "step": 937
6569
+ },
6570
+ {
6571
+ "epoch": 0.061713571393325325,
6572
+ "grad_norm": 0.7477214932441711,
6573
+ "learning_rate": 2.9282390356862606e-05,
6574
+ "loss": 1.5412,
6575
+ "step": 938
6576
+ },
6577
+ {
6578
+ "epoch": 0.06177936411336086,
6579
+ "grad_norm": 0.7472383975982666,
6580
+ "learning_rate": 2.9184986823422623e-05,
6581
+ "loss": 1.547,
6582
+ "step": 939
6583
+ },
6584
+ {
6585
+ "epoch": 0.061845156833396385,
6586
+ "grad_norm": 0.7094493508338928,
6587
+ "learning_rate": 2.9087678748798297e-05,
6588
+ "loss": 1.4617,
6589
+ "step": 940
6590
+ },
6591
+ {
6592
+ "epoch": 0.06191094955343191,
6593
+ "grad_norm": 0.7252383828163147,
6594
+ "learning_rate": 2.899046657924992e-05,
6595
+ "loss": 1.3699,
6596
+ "step": 941
6597
+ },
6598
+ {
6599
+ "epoch": 0.06197674227346744,
6600
+ "grad_norm": 0.7631134390830994,
6601
+ "learning_rate": 2.8893350760597924e-05,
6602
+ "loss": 1.567,
6603
+ "step": 942
6604
+ },
6605
+ {
6606
+ "epoch": 0.06204253499350297,
6607
+ "grad_norm": 0.7023096680641174,
6608
+ "learning_rate": 2.8796331738220912e-05,
6609
+ "loss": 1.4324,
6610
+ "step": 943
6611
+ },
6612
+ {
6613
+ "epoch": 0.0621083277135385,
6614
+ "grad_norm": 0.7988854050636292,
6615
+ "learning_rate": 2.8699409957053535e-05,
6616
+ "loss": 1.6788,
6617
+ "step": 944
6618
+ },
6619
+ {
6620
+ "epoch": 0.06217412043357402,
6621
+ "grad_norm": 0.8351010084152222,
6622
+ "learning_rate": 2.860258586158454e-05,
6623
+ "loss": 1.6451,
6624
+ "step": 945
6625
+ },
6626
+ {
6627
+ "epoch": 0.062239913153609557,
6628
+ "grad_norm": 0.8499585390090942,
6629
+ "learning_rate": 2.8505859895854604e-05,
6630
+ "loss": 1.6087,
6631
+ "step": 946
6632
+ },
6633
+ {
6634
+ "epoch": 0.06230570587364508,
6635
+ "grad_norm": 0.9862839579582214,
6636
+ "learning_rate": 2.840923250345442e-05,
6637
+ "loss": 1.5487,
6638
+ "step": 947
6639
+ },
6640
+ {
6641
+ "epoch": 0.06237149859368061,
6642
+ "grad_norm": 0.9058715105056763,
6643
+ "learning_rate": 2.8312704127522655e-05,
6644
+ "loss": 1.3746,
6645
+ "step": 948
6646
+ },
6647
+ {
6648
+ "epoch": 0.062437291313716135,
6649
+ "grad_norm": 0.9685963988304138,
6650
+ "learning_rate": 2.821627521074383e-05,
6651
+ "loss": 1.4866,
6652
+ "step": 949
6653
+ },
6654
+ {
6655
+ "epoch": 0.06250308403375167,
6656
+ "grad_norm": 1.311897873878479,
6657
+ "learning_rate": 2.8119946195346375e-05,
6658
+ "loss": 1.5507,
6659
+ "step": 950
6660
+ },
6661
+ {
6662
+ "epoch": 0.0625688767537872,
6663
+ "grad_norm": 0.5097134113311768,
6664
+ "learning_rate": 2.8023717523100508e-05,
6665
+ "loss": 1.8342,
6666
+ "step": 951
6667
+ },
6668
+ {
6669
+ "epoch": 0.06263466947382272,
6670
+ "grad_norm": 0.5375131368637085,
6671
+ "learning_rate": 2.792758963531632e-05,
6672
+ "loss": 1.6841,
6673
+ "step": 952
6674
+ },
6675
+ {
6676
+ "epoch": 0.06270046219385825,
6677
+ "grad_norm": 0.6458749771118164,
6678
+ "learning_rate": 2.7831562972841696e-05,
6679
+ "loss": 2.0434,
6680
+ "step": 953
6681
+ },
6682
+ {
6683
+ "epoch": 0.06276625491389377,
6684
+ "grad_norm": 0.5497531890869141,
6685
+ "learning_rate": 2.773563797606028e-05,
6686
+ "loss": 1.6057,
6687
+ "step": 954
6688
+ },
6689
+ {
6690
+ "epoch": 0.0628320476339293,
6691
+ "grad_norm": 0.5604535341262817,
6692
+ "learning_rate": 2.7639815084889476e-05,
6693
+ "loss": 1.6338,
6694
+ "step": 955
6695
+ },
6696
+ {
6697
+ "epoch": 0.06289784035396484,
6698
+ "grad_norm": 0.6276973485946655,
6699
+ "learning_rate": 2.7544094738778436e-05,
6700
+ "loss": 1.7273,
6701
+ "step": 956
6702
+ },
6703
+ {
6704
+ "epoch": 0.06296363307400037,
6705
+ "grad_norm": 0.6032599210739136,
6706
+ "learning_rate": 2.744847737670601e-05,
6707
+ "loss": 1.6246,
6708
+ "step": 957
6709
+ },
6710
+ {
6711
+ "epoch": 0.06302942579403589,
6712
+ "grad_norm": 0.6191315650939941,
6713
+ "learning_rate": 2.7352963437178786e-05,
6714
+ "loss": 1.6568,
6715
+ "step": 958
6716
+ },
6717
+ {
6718
+ "epoch": 0.06309521851407142,
6719
+ "grad_norm": 0.5911609530448914,
6720
+ "learning_rate": 2.7257553358229034e-05,
6721
+ "loss": 1.6472,
6722
+ "step": 959
6723
+ },
6724
+ {
6725
+ "epoch": 0.06316101123410695,
6726
+ "grad_norm": 0.5993046164512634,
6727
+ "learning_rate": 2.7162247577412715e-05,
6728
+ "loss": 1.5908,
6729
+ "step": 960
6730
+ },
6731
+ {
6732
+ "epoch": 0.06322680395414247,
6733
+ "grad_norm": 0.6404312252998352,
6734
+ "learning_rate": 2.7067046531807494e-05,
6735
+ "loss": 1.6952,
6736
+ "step": 961
6737
+ },
6738
+ {
6739
+ "epoch": 0.063292596674178,
6740
+ "grad_norm": 0.6177670359611511,
6741
+ "learning_rate": 2.6971950658010666e-05,
6742
+ "loss": 1.5803,
6743
+ "step": 962
6744
+ },
6745
+ {
6746
+ "epoch": 0.06335838939421352,
6747
+ "grad_norm": 0.6164083480834961,
6748
+ "learning_rate": 2.6876960392137217e-05,
6749
+ "loss": 1.5917,
6750
+ "step": 963
6751
+ },
6752
+ {
6753
+ "epoch": 0.06342418211424906,
6754
+ "grad_norm": 0.6648538708686829,
6755
+ "learning_rate": 2.678207616981787e-05,
6756
+ "loss": 1.6052,
6757
+ "step": 964
6758
+ },
6759
+ {
6760
+ "epoch": 0.06348997483428459,
6761
+ "grad_norm": 0.6657065153121948,
6762
+ "learning_rate": 2.6687298426196973e-05,
6763
+ "loss": 1.7399,
6764
+ "step": 965
6765
+ },
6766
+ {
6767
+ "epoch": 0.06355576755432012,
6768
+ "grad_norm": 0.6626632213592529,
6769
+ "learning_rate": 2.6592627595930542e-05,
6770
+ "loss": 1.6635,
6771
+ "step": 966
6772
+ },
6773
+ {
6774
+ "epoch": 0.06362156027435564,
6775
+ "grad_norm": 0.6235553622245789,
6776
+ "learning_rate": 2.6498064113184338e-05,
6777
+ "loss": 1.6467,
6778
+ "step": 967
6779
+ },
6780
+ {
6781
+ "epoch": 0.06368735299439117,
6782
+ "grad_norm": 0.6630668044090271,
6783
+ "learning_rate": 2.6403608411631742e-05,
6784
+ "loss": 1.6262,
6785
+ "step": 968
6786
+ },
6787
+ {
6788
+ "epoch": 0.0637531457144267,
6789
+ "grad_norm": 0.6901178956031799,
6790
+ "learning_rate": 2.6309260924451907e-05,
6791
+ "loss": 1.687,
6792
+ "step": 969
6793
+ },
6794
+ {
6795
+ "epoch": 0.06381893843446222,
6796
+ "grad_norm": 0.6554874777793884,
6797
+ "learning_rate": 2.62150220843277e-05,
6798
+ "loss": 1.7402,
6799
+ "step": 970
6800
+ },
6801
+ {
6802
+ "epoch": 0.06388473115449775,
6803
+ "grad_norm": 0.6539959907531738,
6804
+ "learning_rate": 2.612089232344371e-05,
6805
+ "loss": 1.7455,
6806
+ "step": 971
6807
+ },
6808
+ {
6809
+ "epoch": 0.06395052387453329,
6810
+ "grad_norm": 0.6740013360977173,
6811
+ "learning_rate": 2.602687207348429e-05,
6812
+ "loss": 1.6105,
6813
+ "step": 972
6814
+ },
6815
+ {
6816
+ "epoch": 0.06401631659456881,
6817
+ "grad_norm": 0.6463841199874878,
6818
+ "learning_rate": 2.593296176563157e-05,
6819
+ "loss": 1.5821,
6820
+ "step": 973
6821
+ },
6822
+ {
6823
+ "epoch": 0.06408210931460434,
6824
+ "grad_norm": 0.6570295691490173,
6825
+ "learning_rate": 2.5839161830563474e-05,
6826
+ "loss": 1.6883,
6827
+ "step": 974
6828
+ },
6829
+ {
6830
+ "epoch": 0.06414790203463987,
6831
+ "grad_norm": 0.6713987588882446,
6832
+ "learning_rate": 2.5745472698451767e-05,
6833
+ "loss": 1.5053,
6834
+ "step": 975
6835
+ },
6836
+ {
6837
+ "epoch": 0.0642136947546754,
6838
+ "grad_norm": 0.6906765103340149,
6839
+ "learning_rate": 2.565189479896005e-05,
6840
+ "loss": 1.5105,
6841
+ "step": 976
6842
+ },
6843
+ {
6844
+ "epoch": 0.06427948747471092,
6845
+ "grad_norm": 0.6981975436210632,
6846
+ "learning_rate": 2.555842856124182e-05,
6847
+ "loss": 1.5976,
6848
+ "step": 977
6849
+ },
6850
+ {
6851
+ "epoch": 0.06434528019474645,
6852
+ "grad_norm": 0.7114136815071106,
6853
+ "learning_rate": 2.546507441393845e-05,
6854
+ "loss": 1.6393,
6855
+ "step": 978
6856
+ },
6857
+ {
6858
+ "epoch": 0.06441107291478199,
6859
+ "grad_norm": 0.6741265058517456,
6860
+ "learning_rate": 2.5371832785177273e-05,
6861
+ "loss": 1.6601,
6862
+ "step": 979
6863
+ },
6864
+ {
6865
+ "epoch": 0.06447686563481751,
6866
+ "grad_norm": 0.7347429990768433,
6867
+ "learning_rate": 2.5278704102569662e-05,
6868
+ "loss": 1.6784,
6869
+ "step": 980
6870
+ },
6871
+ {
6872
+ "epoch": 0.06454265835485304,
6873
+ "grad_norm": 0.6604593992233276,
6874
+ "learning_rate": 2.518568879320895e-05,
6875
+ "loss": 1.5858,
6876
+ "step": 981
6877
+ },
6878
+ {
6879
+ "epoch": 0.06460845107488856,
6880
+ "grad_norm": 0.6967578530311584,
6881
+ "learning_rate": 2.509278728366855e-05,
6882
+ "loss": 1.5591,
6883
+ "step": 982
6884
+ },
6885
+ {
6886
+ "epoch": 0.06467424379492409,
6887
+ "grad_norm": 0.744243323802948,
6888
+ "learning_rate": 2.500000000000001e-05,
6889
+ "loss": 1.5185,
6890
+ "step": 983
6891
+ },
6892
+ {
6893
+ "epoch": 0.06474003651495962,
6894
+ "grad_norm": 0.7131791114807129,
6895
+ "learning_rate": 2.4907327367730963e-05,
6896
+ "loss": 1.5966,
6897
+ "step": 984
6898
+ },
6899
+ {
6900
+ "epoch": 0.06480582923499514,
6901
+ "grad_norm": 0.745911180973053,
6902
+ "learning_rate": 2.4814769811863313e-05,
6903
+ "loss": 1.6642,
6904
+ "step": 985
6905
+ },
6906
+ {
6907
+ "epoch": 0.06487162195503067,
6908
+ "grad_norm": 0.7129960656166077,
6909
+ "learning_rate": 2.472232775687119e-05,
6910
+ "loss": 1.4803,
6911
+ "step": 986
6912
+ },
6913
+ {
6914
+ "epoch": 0.06493741467506621,
6915
+ "grad_norm": 0.7604677677154541,
6916
+ "learning_rate": 2.463000162669903e-05,
6917
+ "loss": 1.4905,
6918
+ "step": 987
6919
+ },
6920
+ {
6921
+ "epoch": 0.06500320739510174,
6922
+ "grad_norm": 0.7828547358512878,
6923
+ "learning_rate": 2.453779184475964e-05,
6924
+ "loss": 1.5679,
6925
+ "step": 988
6926
+ },
6927
+ {
6928
+ "epoch": 0.06506900011513726,
6929
+ "grad_norm": 0.7184737324714661,
6930
+ "learning_rate": 2.4445698833932234e-05,
6931
+ "loss": 1.4162,
6932
+ "step": 989
6933
+ },
6934
+ {
6935
+ "epoch": 0.06513479283517279,
6936
+ "grad_norm": 0.7497789263725281,
6937
+ "learning_rate": 2.4353723016560527e-05,
6938
+ "loss": 1.5783,
6939
+ "step": 990
6940
+ },
6941
+ {
6942
+ "epoch": 0.06520058555520832,
6943
+ "grad_norm": 0.7946657538414001,
6944
+ "learning_rate": 2.4261864814450758e-05,
6945
+ "loss": 1.5937,
6946
+ "step": 991
6947
+ },
6948
+ {
6949
+ "epoch": 0.06526637827524384,
6950
+ "grad_norm": 0.7872624397277832,
6951
+ "learning_rate": 2.417012464886978e-05,
6952
+ "loss": 1.5904,
6953
+ "step": 992
6954
+ },
6955
+ {
6956
+ "epoch": 0.06533217099527937,
6957
+ "grad_norm": 0.8094744682312012,
6958
+ "learning_rate": 2.4078502940543157e-05,
6959
+ "loss": 1.5454,
6960
+ "step": 993
6961
+ },
6962
+ {
6963
+ "epoch": 0.0653979637153149,
6964
+ "grad_norm": 0.9983581304550171,
6965
+ "learning_rate": 2.3987000109653134e-05,
6966
+ "loss": 1.4996,
6967
+ "step": 994
6968
+ },
6969
+ {
6970
+ "epoch": 0.06546375643535043,
6971
+ "grad_norm": 0.826250433921814,
6972
+ "learning_rate": 2.389561657583681e-05,
6973
+ "loss": 1.5753,
6974
+ "step": 995
6975
+ },
6976
+ {
6977
+ "epoch": 0.06552954915538596,
6978
+ "grad_norm": 0.8517383337020874,
6979
+ "learning_rate": 2.3804352758184223e-05,
6980
+ "loss": 1.5688,
6981
+ "step": 996
6982
+ },
6983
+ {
6984
+ "epoch": 0.06559534187542149,
6985
+ "grad_norm": 0.8434426784515381,
6986
+ "learning_rate": 2.3713209075236343e-05,
6987
+ "loss": 1.3069,
6988
+ "step": 997
6989
+ },
6990
+ {
6991
+ "epoch": 0.06566113459545701,
6992
+ "grad_norm": 0.9146838784217834,
6993
+ "learning_rate": 2.3622185944983188e-05,
6994
+ "loss": 1.4057,
6995
+ "step": 998
6996
+ },
6997
+ {
6998
+ "epoch": 0.06572692731549254,
6999
+ "grad_norm": 1.0109113454818726,
7000
+ "learning_rate": 2.3531283784861952e-05,
7001
+ "loss": 1.6269,
7002
+ "step": 999
7003
+ },
7004
+ {
7005
+ "epoch": 0.06579272003552807,
7006
+ "grad_norm": 1.2136893272399902,
7007
+ "learning_rate": 2.3440503011755e-05,
7008
+ "loss": 1.5136,
7009
+ "step": 1000
7010
+ },
7011
+ {
7012
+ "epoch": 0.06585851275556359,
7013
+ "grad_norm": 0.5091771483421326,
7014
+ "learning_rate": 2.3349844041988045e-05,
7015
+ "loss": 1.7648,
7016
+ "step": 1001
7017
+ },
7018
+ {
7019
+ "epoch": 0.06592430547559912,
7020
+ "grad_norm": 0.5724332928657532,
7021
+ "learning_rate": 2.325930729132821e-05,
7022
+ "loss": 1.8152,
7023
+ "step": 1002
7024
+ },
7025
+ {
7026
+ "epoch": 0.06599009819563466,
7027
+ "grad_norm": 0.5698429942131042,
7028
+ "learning_rate": 2.3168893174982098e-05,
7029
+ "loss": 1.6787,
7030
+ "step": 1003
7031
+ },
7032
+ {
7033
+ "epoch": 0.06605589091567018,
7034
+ "grad_norm": 0.5834808945655823,
7035
+ "learning_rate": 2.30786021075939e-05,
7036
+ "loss": 1.6803,
7037
+ "step": 1004
7038
+ },
7039
+ {
7040
+ "epoch": 0.06612168363570571,
7041
+ "grad_norm": 0.588674008846283,
7042
+ "learning_rate": 2.2988434503243516e-05,
7043
+ "loss": 1.5799,
7044
+ "step": 1005
7045
+ },
7046
+ {
7047
+ "epoch": 0.06618747635574124,
7048
+ "grad_norm": 0.6044074296951294,
7049
+ "learning_rate": 2.289839077544463e-05,
7050
+ "loss": 1.7156,
7051
+ "step": 1006
7052
+ },
7053
+ {
7054
+ "epoch": 0.06625326907577676,
7055
+ "grad_norm": 0.6402976512908936,
7056
+ "learning_rate": 2.28084713371428e-05,
7057
+ "loss": 1.7041,
7058
+ "step": 1007
7059
+ },
7060
+ {
7061
+ "epoch": 0.06631906179581229,
7062
+ "grad_norm": 0.5715565085411072,
7063
+ "learning_rate": 2.2718676600713622e-05,
7064
+ "loss": 1.5912,
7065
+ "step": 1008
7066
+ },
7067
+ {
7068
+ "epoch": 0.06638485451584782,
7069
+ "grad_norm": 0.6274817585945129,
7070
+ "learning_rate": 2.2629006977960798e-05,
7071
+ "loss": 1.6121,
7072
+ "step": 1009
7073
+ },
7074
+ {
7075
+ "epoch": 0.06645064723588336,
7076
+ "grad_norm": 0.5526905655860901,
7077
+ "learning_rate": 2.2539462880114194e-05,
7078
+ "loss": 1.5085,
7079
+ "step": 1010
7080
+ },
7081
+ {
7082
+ "epoch": 0.06651643995591888,
7083
+ "grad_norm": 0.6097638010978699,
7084
+ "learning_rate": 2.245004471782806e-05,
7085
+ "loss": 1.5009,
7086
+ "step": 1011
7087
+ },
7088
+ {
7089
+ "epoch": 0.06658223267595441,
7090
+ "grad_norm": 0.6747389435768127,
7091
+ "learning_rate": 2.236075290117914e-05,
7092
+ "loss": 1.6578,
7093
+ "step": 1012
7094
+ },
7095
+ {
7096
+ "epoch": 0.06664802539598993,
7097
+ "grad_norm": 0.6369504928588867,
7098
+ "learning_rate": 2.2271587839664672e-05,
7099
+ "loss": 1.5528,
7100
+ "step": 1013
7101
+ },
7102
+ {
7103
+ "epoch": 0.06671381811602546,
7104
+ "grad_norm": 0.6106559038162231,
7105
+ "learning_rate": 2.218254994220062e-05,
7106
+ "loss": 1.5907,
7107
+ "step": 1014
7108
+ },
7109
+ {
7110
+ "epoch": 0.06677961083606099,
7111
+ "grad_norm": 0.5885758399963379,
7112
+ "learning_rate": 2.2093639617119794e-05,
7113
+ "loss": 1.513,
7114
+ "step": 1015
7115
+ },
7116
+ {
7117
+ "epoch": 0.06684540355609651,
7118
+ "grad_norm": 0.6991572380065918,
7119
+ "learning_rate": 2.2004857272169876e-05,
7120
+ "loss": 1.823,
7121
+ "step": 1016
7122
+ },
7123
+ {
7124
+ "epoch": 0.06691119627613204,
7125
+ "grad_norm": 0.6160642504692078,
7126
+ "learning_rate": 2.1916203314511692e-05,
7127
+ "loss": 1.6389,
7128
+ "step": 1017
7129
+ },
7130
+ {
7131
+ "epoch": 0.06697698899616758,
7132
+ "grad_norm": 0.6292829513549805,
7133
+ "learning_rate": 2.1827678150717256e-05,
7134
+ "loss": 1.6663,
7135
+ "step": 1018
7136
+ },
7137
+ {
7138
+ "epoch": 0.0670427817162031,
7139
+ "grad_norm": 0.6121276617050171,
7140
+ "learning_rate": 2.1739282186767923e-05,
7141
+ "loss": 1.5885,
7142
+ "step": 1019
7143
+ },
7144
+ {
7145
+ "epoch": 0.06710857443623863,
7146
+ "grad_norm": 0.6440593004226685,
7147
+ "learning_rate": 2.165101582805254e-05,
7148
+ "loss": 1.6319,
7149
+ "step": 1020
7150
+ },
7151
+ {
7152
+ "epoch": 0.06717436715627416,
7153
+ "grad_norm": 0.636544942855835,
7154
+ "learning_rate": 2.1562879479365556e-05,
7155
+ "loss": 1.644,
7156
+ "step": 1021
7157
+ },
7158
+ {
7159
+ "epoch": 0.06724015987630969,
7160
+ "grad_norm": 0.6443448662757874,
7161
+ "learning_rate": 2.1474873544905205e-05,
7162
+ "loss": 1.5995,
7163
+ "step": 1022
7164
+ },
7165
+ {
7166
+ "epoch": 0.06730595259634521,
7167
+ "grad_norm": 0.6514659523963928,
7168
+ "learning_rate": 2.1386998428271633e-05,
7169
+ "loss": 1.554,
7170
+ "step": 1023
7171
+ },
7172
+ {
7173
+ "epoch": 0.06737174531638074,
7174
+ "grad_norm": 0.6635521650314331,
7175
+ "learning_rate": 2.129925453246504e-05,
7176
+ "loss": 1.7461,
7177
+ "step": 1024
7178
+ },
7179
+ {
7180
+ "epoch": 0.06743753803641626,
7181
+ "grad_norm": 0.6211679577827454,
7182
+ "learning_rate": 2.1211642259883867e-05,
7183
+ "loss": 1.4678,
7184
+ "step": 1025
7185
+ },
7186
+ {
7187
+ "epoch": 0.0675033307564518,
7188
+ "grad_norm": 0.668057918548584,
7189
+ "learning_rate": 2.1124162012322862e-05,
7190
+ "loss": 1.6624,
7191
+ "step": 1026
7192
+ },
7193
+ {
7194
+ "epoch": 0.06756912347648733,
7195
+ "grad_norm": 0.6626843810081482,
7196
+ "learning_rate": 2.1036814190971333e-05,
7197
+ "loss": 1.5244,
7198
+ "step": 1027
7199
+ },
7200
+ {
7201
+ "epoch": 0.06763491619652286,
7202
+ "grad_norm": 0.6613166332244873,
7203
+ "learning_rate": 2.0949599196411325e-05,
7204
+ "loss": 1.497,
7205
+ "step": 1028
7206
+ },
7207
+ {
7208
+ "epoch": 0.06770070891655838,
7209
+ "grad_norm": 0.6597977876663208,
7210
+ "learning_rate": 2.086251742861565e-05,
7211
+ "loss": 1.711,
7212
+ "step": 1029
7213
+ },
7214
+ {
7215
+ "epoch": 0.06776650163659391,
7216
+ "grad_norm": 0.7360920310020447,
7217
+ "learning_rate": 2.077556928694619e-05,
7218
+ "loss": 1.6281,
7219
+ "step": 1030
7220
+ },
7221
+ {
7222
+ "epoch": 0.06783229435662944,
7223
+ "grad_norm": 0.6604809761047363,
7224
+ "learning_rate": 2.0688755170151996e-05,
7225
+ "loss": 1.6061,
7226
+ "step": 1031
7227
+ },
7228
+ {
7229
+ "epoch": 0.06789808707666496,
7230
+ "grad_norm": 0.6945058703422546,
7231
+ "learning_rate": 2.0602075476367432e-05,
7232
+ "loss": 1.6064,
7233
+ "step": 1032
7234
+ },
7235
+ {
7236
+ "epoch": 0.06796387979670049,
7237
+ "grad_norm": 0.71868896484375,
7238
+ "learning_rate": 2.051553060311045e-05,
7239
+ "loss": 1.56,
7240
+ "step": 1033
7241
+ },
7242
+ {
7243
+ "epoch": 0.06802967251673603,
7244
+ "grad_norm": 0.6665169596672058,
7245
+ "learning_rate": 2.0429120947280678e-05,
7246
+ "loss": 1.5953,
7247
+ "step": 1034
7248
+ },
7249
+ {
7250
+ "epoch": 0.06809546523677155,
7251
+ "grad_norm": 0.6772186756134033,
7252
+ "learning_rate": 2.0342846905157636e-05,
7253
+ "loss": 1.5658,
7254
+ "step": 1035
7255
+ },
7256
+ {
7257
+ "epoch": 0.06816125795680708,
7258
+ "grad_norm": 0.7677963376045227,
7259
+ "learning_rate": 2.0256708872398915e-05,
7260
+ "loss": 1.7299,
7261
+ "step": 1036
7262
+ },
7263
+ {
7264
+ "epoch": 0.06822705067684261,
7265
+ "grad_norm": 0.7391518950462341,
7266
+ "learning_rate": 2.017070724403835e-05,
7267
+ "loss": 1.6122,
7268
+ "step": 1037
7269
+ },
7270
+ {
7271
+ "epoch": 0.06829284339687813,
7272
+ "grad_norm": 0.8133260607719421,
7273
+ "learning_rate": 2.0084842414484222e-05,
7274
+ "loss": 1.5689,
7275
+ "step": 1038
7276
+ },
7277
+ {
7278
+ "epoch": 0.06835863611691366,
7279
+ "grad_norm": 0.7881767749786377,
7280
+ "learning_rate": 1.999911477751746e-05,
7281
+ "loss": 1.673,
7282
+ "step": 1039
7283
+ },
7284
+ {
7285
+ "epoch": 0.06842442883694919,
7286
+ "grad_norm": 0.7791821360588074,
7287
+ "learning_rate": 1.9913524726289784e-05,
7288
+ "loss": 1.7744,
7289
+ "step": 1040
7290
+ },
7291
+ {
7292
+ "epoch": 0.06849022155698473,
7293
+ "grad_norm": 0.7703235745429993,
7294
+ "learning_rate": 1.9828072653321978e-05,
7295
+ "loss": 1.4325,
7296
+ "step": 1041
7297
+ },
7298
+ {
7299
+ "epoch": 0.06855601427702025,
7300
+ "grad_norm": 0.7927573323249817,
7301
+ "learning_rate": 1.9742758950502045e-05,
7302
+ "loss": 1.6792,
7303
+ "step": 1042
7304
+ },
7305
+ {
7306
+ "epoch": 0.06862180699705578,
7307
+ "grad_norm": 0.7753776907920837,
7308
+ "learning_rate": 1.965758400908334e-05,
7309
+ "loss": 1.4926,
7310
+ "step": 1043
7311
+ },
7312
+ {
7313
+ "epoch": 0.0686875997170913,
7314
+ "grad_norm": 0.8299908638000488,
7315
+ "learning_rate": 1.957254821968298e-05,
7316
+ "loss": 1.743,
7317
+ "step": 1044
7318
+ },
7319
+ {
7320
+ "epoch": 0.06875339243712683,
7321
+ "grad_norm": 0.754217267036438,
7322
+ "learning_rate": 1.948765197227983e-05,
7323
+ "loss": 1.4112,
7324
+ "step": 1045
7325
+ },
7326
+ {
7327
+ "epoch": 0.06881918515716236,
7328
+ "grad_norm": 0.7843993902206421,
7329
+ "learning_rate": 1.9402895656212833e-05,
7330
+ "loss": 1.4893,
7331
+ "step": 1046
7332
+ },
7333
+ {
7334
+ "epoch": 0.06888497787719788,
7335
+ "grad_norm": 0.8628965616226196,
7336
+ "learning_rate": 1.9318279660179217e-05,
7337
+ "loss": 1.5237,
7338
+ "step": 1047
7339
+ },
7340
+ {
7341
+ "epoch": 0.06895077059723341,
7342
+ "grad_norm": 0.9835182428359985,
7343
+ "learning_rate": 1.9233804372232643e-05,
7344
+ "loss": 1.5732,
7345
+ "step": 1048
7346
+ },
7347
+ {
7348
+ "epoch": 0.06901656331726895,
7349
+ "grad_norm": 1.099034309387207,
7350
+ "learning_rate": 1.914947017978153e-05,
7351
+ "loss": 1.5774,
7352
+ "step": 1049
7353
+ },
7354
+ {
7355
+ "epoch": 0.06908235603730448,
7356
+ "grad_norm": 1.265041470527649,
7357
+ "learning_rate": 1.9065277469587204e-05,
7358
+ "loss": 1.3189,
7359
+ "step": 1050
7360
+ },
7361
+ {
7362
+ "epoch": 0.06914814875734,
7363
+ "grad_norm": 0.5150356888771057,
7364
+ "learning_rate": 1.8981226627762143e-05,
7365
+ "loss": 1.8932,
7366
+ "step": 1051
7367
+ },
7368
+ {
7369
+ "epoch": 0.06921394147737553,
7370
+ "grad_norm": 0.5652185678482056,
7371
+ "learning_rate": 1.889731803976822e-05,
7372
+ "loss": 1.8346,
7373
+ "step": 1052
7374
+ },
7375
+ {
7376
+ "epoch": 0.06927973419741106,
7377
+ "grad_norm": 0.5585607886314392,
7378
+ "learning_rate": 1.881355209041491e-05,
7379
+ "loss": 1.7214,
7380
+ "step": 1053
7381
+ },
7382
+ {
7383
+ "epoch": 0.06934552691744658,
7384
+ "grad_norm": 0.5780192613601685,
7385
+ "learning_rate": 1.8729929163857552e-05,
7386
+ "loss": 1.6242,
7387
+ "step": 1054
7388
+ },
7389
+ {
7390
+ "epoch": 0.06941131963748211,
7391
+ "grad_norm": 0.5689457654953003,
7392
+ "learning_rate": 1.8646449643595565e-05,
7393
+ "loss": 1.6942,
7394
+ "step": 1055
7395
+ },
7396
+ {
7397
+ "epoch": 0.06947711235751763,
7398
+ "grad_norm": 0.5897836685180664,
7399
+ "learning_rate": 1.8563113912470702e-05,
7400
+ "loss": 1.6164,
7401
+ "step": 1056
7402
+ },
7403
+ {
7404
+ "epoch": 0.06954290507755317,
7405
+ "grad_norm": 0.5599413514137268,
7406
+ "learning_rate": 1.847992235266529e-05,
7407
+ "loss": 1.5614,
7408
+ "step": 1057
7409
+ },
7410
+ {
7411
+ "epoch": 0.0696086977975887,
7412
+ "grad_norm": 0.5642629861831665,
7413
+ "learning_rate": 1.8396875345700497e-05,
7414
+ "loss": 1.54,
7415
+ "step": 1058
7416
+ },
7417
+ {
7418
+ "epoch": 0.06967449051762423,
7419
+ "grad_norm": 0.6085110902786255,
7420
+ "learning_rate": 1.8313973272434504e-05,
7421
+ "loss": 1.6037,
7422
+ "step": 1059
7423
+ },
7424
+ {
7425
+ "epoch": 0.06974028323765975,
7426
+ "grad_norm": 0.5913036465644836,
7427
+ "learning_rate": 1.8231216513060893e-05,
7428
+ "loss": 1.6223,
7429
+ "step": 1060
7430
+ },
7431
+ {
7432
+ "epoch": 0.06980607595769528,
7433
+ "grad_norm": 0.5918750166893005,
7434
+ "learning_rate": 1.8148605447106797e-05,
7435
+ "loss": 1.5262,
7436
+ "step": 1061
7437
+ },
7438
+ {
7439
+ "epoch": 0.0698718686777308,
7440
+ "grad_norm": 0.5838180184364319,
7441
+ "learning_rate": 1.8066140453431173e-05,
7442
+ "loss": 1.6248,
7443
+ "step": 1062
7444
+ },
7445
+ {
7446
+ "epoch": 0.06993766139776633,
7447
+ "grad_norm": 0.6557063460350037,
7448
+ "learning_rate": 1.798382191022313e-05,
7449
+ "loss": 1.7616,
7450
+ "step": 1063
7451
+ },
7452
+ {
7453
+ "epoch": 0.07000345411780187,
7454
+ "grad_norm": 0.6090285181999207,
7455
+ "learning_rate": 1.7901650195000068e-05,
7456
+ "loss": 1.6591,
7457
+ "step": 1064
7458
+ },
7459
+ {
7460
+ "epoch": 0.0700692468378374,
7461
+ "grad_norm": 0.6101527214050293,
7462
+ "learning_rate": 1.7819625684606102e-05,
7463
+ "loss": 1.5755,
7464
+ "step": 1065
7465
+ },
7466
+ {
7467
+ "epoch": 0.07013503955787292,
7468
+ "grad_norm": 0.5960958003997803,
7469
+ "learning_rate": 1.7737748755210214e-05,
7470
+ "loss": 1.5059,
7471
+ "step": 1066
7472
+ },
7473
+ {
7474
+ "epoch": 0.07020083227790845,
7475
+ "grad_norm": 0.631040096282959,
7476
+ "learning_rate": 1.76560197823046e-05,
7477
+ "loss": 1.5921,
7478
+ "step": 1067
7479
+ },
7480
+ {
7481
+ "epoch": 0.07026662499794398,
7482
+ "grad_norm": 0.6434530019760132,
7483
+ "learning_rate": 1.7574439140702902e-05,
7484
+ "loss": 1.5911,
7485
+ "step": 1068
7486
+ },
7487
+ {
7488
+ "epoch": 0.0703324177179795,
7489
+ "grad_norm": 0.6554668545722961,
7490
+ "learning_rate": 1.7493007204538503e-05,
7491
+ "loss": 1.7435,
7492
+ "step": 1069
7493
+ },
7494
+ {
7495
+ "epoch": 0.07039821043801503,
7496
+ "grad_norm": 0.6489726901054382,
7497
+ "learning_rate": 1.7411724347262824e-05,
7498
+ "loss": 1.7055,
7499
+ "step": 1070
7500
+ },
7501
+ {
7502
+ "epoch": 0.07046400315805056,
7503
+ "grad_norm": 0.628710150718689,
7504
+ "learning_rate": 1.7330590941643603e-05,
7505
+ "loss": 1.5092,
7506
+ "step": 1071
7507
+ },
7508
+ {
7509
+ "epoch": 0.0705297958780861,
7510
+ "grad_norm": 0.6012537479400635,
7511
+ "learning_rate": 1.7249607359763174e-05,
7512
+ "loss": 1.4466,
7513
+ "step": 1072
7514
+ },
7515
+ {
7516
+ "epoch": 0.07059558859812162,
7517
+ "grad_norm": 0.6696065664291382,
7518
+ "learning_rate": 1.7168773973016776e-05,
7519
+ "loss": 1.5727,
7520
+ "step": 1073
7521
+ },
7522
+ {
7523
+ "epoch": 0.07066138131815715,
7524
+ "grad_norm": 0.6296167373657227,
7525
+ "learning_rate": 1.7088091152110873e-05,
7526
+ "loss": 1.5393,
7527
+ "step": 1074
7528
+ },
7529
+ {
7530
+ "epoch": 0.07072717403819268,
7531
+ "grad_norm": 0.6769093871116638,
7532
+ "learning_rate": 1.7007559267061334e-05,
7533
+ "loss": 1.6523,
7534
+ "step": 1075
7535
+ },
7536
+ {
7537
+ "epoch": 0.0707929667582282,
7538
+ "grad_norm": 0.6519213914871216,
7539
+ "learning_rate": 1.692717868719195e-05,
7540
+ "loss": 1.5566,
7541
+ "step": 1076
7542
+ },
7543
+ {
7544
+ "epoch": 0.07085875947826373,
7545
+ "grad_norm": 0.6642208695411682,
7546
+ "learning_rate": 1.6846949781132548e-05,
7547
+ "loss": 1.5886,
7548
+ "step": 1077
7549
+ },
7550
+ {
7551
+ "epoch": 0.07092455219829925,
7552
+ "grad_norm": 0.6803880333900452,
7553
+ "learning_rate": 1.6766872916817377e-05,
7554
+ "loss": 1.6519,
7555
+ "step": 1078
7556
+ },
7557
+ {
7558
+ "epoch": 0.07099034491833478,
7559
+ "grad_norm": 0.7287022471427917,
7560
+ "learning_rate": 1.668694846148343e-05,
7561
+ "loss": 1.7061,
7562
+ "step": 1079
7563
+ },
7564
+ {
7565
+ "epoch": 0.07105613763837032,
7566
+ "grad_norm": 0.6571015119552612,
7567
+ "learning_rate": 1.660717678166871e-05,
7568
+ "loss": 1.5716,
7569
+ "step": 1080
7570
+ },
7571
+ {
7572
+ "epoch": 0.07112193035840585,
7573
+ "grad_norm": 0.6374773383140564,
7574
+ "learning_rate": 1.6527558243210623e-05,
7575
+ "loss": 1.455,
7576
+ "step": 1081
7577
+ },
7578
+ {
7579
+ "epoch": 0.07118772307844137,
7580
+ "grad_norm": 0.699365496635437,
7581
+ "learning_rate": 1.644809321124423e-05,
7582
+ "loss": 1.6404,
7583
+ "step": 1082
7584
+ },
7585
+ {
7586
+ "epoch": 0.0712535157984769,
7587
+ "grad_norm": 0.6866129636764526,
7588
+ "learning_rate": 1.6368782050200633e-05,
7589
+ "loss": 1.4377,
7590
+ "step": 1083
7591
+ },
7592
+ {
7593
+ "epoch": 0.07131930851851243,
7594
+ "grad_norm": 0.6566864252090454,
7595
+ "learning_rate": 1.6289625123805245e-05,
7596
+ "loss": 1.481,
7597
+ "step": 1084
7598
+ },
7599
+ {
7600
+ "epoch": 0.07138510123854795,
7601
+ "grad_norm": 0.7273065447807312,
7602
+ "learning_rate": 1.621062279507617e-05,
7603
+ "loss": 1.6732,
7604
+ "step": 1085
7605
+ },
7606
+ {
7607
+ "epoch": 0.07145089395858348,
7608
+ "grad_norm": 0.7388779520988464,
7609
+ "learning_rate": 1.6131775426322503e-05,
7610
+ "loss": 1.5516,
7611
+ "step": 1086
7612
+ },
7613
+ {
7614
+ "epoch": 0.071516686678619,
7615
+ "grad_norm": 0.7159716486930847,
7616
+ "learning_rate": 1.60530833791427e-05,
7617
+ "loss": 1.5815,
7618
+ "step": 1087
7619
+ },
7620
+ {
7621
+ "epoch": 0.07158247939865454,
7622
+ "grad_norm": 0.7883169054985046,
7623
+ "learning_rate": 1.597454701442288e-05,
7624
+ "loss": 1.5699,
7625
+ "step": 1088
7626
+ },
7627
+ {
7628
+ "epoch": 0.07164827211869007,
7629
+ "grad_norm": 0.7535433769226074,
7630
+ "learning_rate": 1.589616669233522e-05,
7631
+ "loss": 1.71,
7632
+ "step": 1089
7633
+ },
7634
+ {
7635
+ "epoch": 0.0717140648387256,
7636
+ "grad_norm": 0.7542433142662048,
7637
+ "learning_rate": 1.581794277233628e-05,
7638
+ "loss": 1.6412,
7639
+ "step": 1090
7640
+ },
7641
+ {
7642
+ "epoch": 0.07177985755876112,
7643
+ "grad_norm": 0.7680163383483887,
7644
+ "learning_rate": 1.5739875613165283e-05,
7645
+ "loss": 1.5868,
7646
+ "step": 1091
7647
+ },
7648
+ {
7649
+ "epoch": 0.07184565027879665,
7650
+ "grad_norm": 0.8039641380310059,
7651
+ "learning_rate": 1.566196557284264e-05,
7652
+ "loss": 1.6165,
7653
+ "step": 1092
7654
+ },
7655
+ {
7656
+ "epoch": 0.07191144299883218,
7657
+ "grad_norm": 0.8360242247581482,
7658
+ "learning_rate": 1.5584213008668147e-05,
7659
+ "loss": 1.4836,
7660
+ "step": 1093
7661
+ },
7662
+ {
7663
+ "epoch": 0.0719772357188677,
7664
+ "grad_norm": 0.9569554328918457,
7665
+ "learning_rate": 1.550661827721941e-05,
7666
+ "loss": 1.7255,
7667
+ "step": 1094
7668
+ },
7669
+ {
7670
+ "epoch": 0.07204302843890324,
7671
+ "grad_norm": 0.8485451340675354,
7672
+ "learning_rate": 1.5429181734350236e-05,
7673
+ "loss": 1.6198,
7674
+ "step": 1095
7675
+ },
7676
+ {
7677
+ "epoch": 0.07210882115893877,
7678
+ "grad_norm": 0.8728616237640381,
7679
+ "learning_rate": 1.53519037351889e-05,
7680
+ "loss": 1.6094,
7681
+ "step": 1096
7682
+ },
7683
+ {
7684
+ "epoch": 0.0721746138789743,
7685
+ "grad_norm": 0.9522159695625305,
7686
+ "learning_rate": 1.527478463413666e-05,
7687
+ "loss": 1.3929,
7688
+ "step": 1097
7689
+ },
7690
+ {
7691
+ "epoch": 0.07224040659900982,
7692
+ "grad_norm": 1.0558445453643799,
7693
+ "learning_rate": 1.5197824784866015e-05,
7694
+ "loss": 1.7511,
7695
+ "step": 1098
7696
+ },
7697
+ {
7698
+ "epoch": 0.07230619931904535,
7699
+ "grad_norm": 1.0129352807998657,
7700
+ "learning_rate": 1.5121024540319161e-05,
7701
+ "loss": 1.4986,
7702
+ "step": 1099
7703
+ },
7704
+ {
7705
+ "epoch": 0.07237199203908087,
7706
+ "grad_norm": 1.232009768486023,
7707
+ "learning_rate": 1.5044384252706312e-05,
7708
+ "loss": 1.2485,
7709
+ "step": 1100
7710
+ },
7711
+ {
7712
+ "epoch": 0.0724377847591164,
7713
+ "grad_norm": 0.5130254626274109,
7714
+ "learning_rate": 1.4967904273504113e-05,
7715
+ "loss": 1.816,
7716
+ "step": 1101
7717
+ },
7718
+ {
7719
+ "epoch": 0.07250357747915193,
7720
+ "grad_norm": 0.5423897504806519,
7721
+ "learning_rate": 1.4891584953454036e-05,
7722
+ "loss": 1.7201,
7723
+ "step": 1102
7724
+ },
7725
+ {
7726
+ "epoch": 0.07256937019918747,
7727
+ "grad_norm": 0.5203692317008972,
7728
+ "learning_rate": 1.4815426642560754e-05,
7729
+ "loss": 1.5166,
7730
+ "step": 1103
7731
+ },
7732
+ {
7733
+ "epoch": 0.07263516291922299,
7734
+ "grad_norm": 0.5805792212486267,
7735
+ "learning_rate": 1.4739429690090533e-05,
7736
+ "loss": 1.6115,
7737
+ "step": 1104
7738
  }
7739
  ],
7740
  "logging_steps": 1,
 
7754
  "attributes": {}
7755
  }
7756
  },
7757
+ "total_flos": 1.430555906373845e+18,
7758
  "train_batch_size": 4,
7759
  "trial_name": null,
7760
  "trial_params": null