jssky commited on
Commit
a2e74a8
·
verified ·
1 Parent(s): 237f7b1

Training in progress, step 800, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:6de3ce6a29b94823fb71385f95c6b50440556c542d0b04a2b7195488e9cb24d9
3
  size 190757752
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6852ee84275e7748b2a829103df9a363a97e6752106c6fae85e757ffd629b267
3
  size 190757752
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:045684f60037c95c22291c61c811dc6944468f9c25c7198593b4f7aaf25294ae
3
  size 97268276
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:61a9234a44f8fb1e04d6156ab6acd9d93b79330fbf529f367ee295021e280c31
3
  size 97268276
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:91feadf4ff7c765560a0180ff1d5ad4fcedde172c60896c2ae929650def6e135
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:198a91eb5a9c060c92cf14d26b19d6053f56ec2284335b64a07562732574666d
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c050dea93eec6d92c9f584b053974771b61864e11a4a0406e69ef4b26a324c78
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6cf13def61641dc944e9edbf416e7eb9f3aaa5a8dc09cbff5b8590b9b4880ce1
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
- "best_metric": 0.04272723197937012,
3
- "best_model_checkpoint": "miner_id_24/checkpoint-600",
4
- "epoch": 0.4158004158004158,
5
  "eval_steps": 200,
6
- "global_step": 600,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -4231,6 +4231,1414 @@
4231
  "eval_samples_per_second": 35.062,
4232
  "eval_steps_per_second": 8.769,
4233
  "step": 600
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4234
  }
4235
  ],
4236
  "logging_steps": 1,
@@ -4259,7 +5667,7 @@
4259
  "attributes": {}
4260
  }
4261
  },
4262
- "total_flos": 3.465841538834104e+17,
4263
  "train_batch_size": 8,
4264
  "trial_name": null,
4265
  "trial_params": null
 
1
  {
2
+ "best_metric": 0.040625762194395065,
3
+ "best_model_checkpoint": "miner_id_24/checkpoint-800",
4
+ "epoch": 0.5544005544005544,
5
  "eval_steps": 200,
6
+ "global_step": 800,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
4231
  "eval_samples_per_second": 35.062,
4232
  "eval_steps_per_second": 8.769,
4233
  "step": 600
4234
+ },
4235
+ {
4236
+ "epoch": 0.4164934164934165,
4237
+ "grad_norm": 2.0430245399475098,
4238
+ "learning_rate": 3.5002545436149474e-05,
4239
+ "loss": 0.1009,
4240
+ "step": 601
4241
+ },
4242
+ {
4243
+ "epoch": 0.4171864171864172,
4244
+ "grad_norm": 2.058833599090576,
4245
+ "learning_rate": 3.485126066291364e-05,
4246
+ "loss": 0.0907,
4247
+ "step": 602
4248
+ },
4249
+ {
4250
+ "epoch": 0.4178794178794179,
4251
+ "grad_norm": 1.4888850450515747,
4252
+ "learning_rate": 3.470012843731476e-05,
4253
+ "loss": 0.0599,
4254
+ "step": 603
4255
+ },
4256
+ {
4257
+ "epoch": 0.41857241857241856,
4258
+ "grad_norm": 2.087881565093994,
4259
+ "learning_rate": 3.4549150281252636e-05,
4260
+ "loss": 0.0755,
4261
+ "step": 604
4262
+ },
4263
+ {
4264
+ "epoch": 0.41926541926541927,
4265
+ "grad_norm": 4.713494300842285,
4266
+ "learning_rate": 3.439832771507565e-05,
4267
+ "loss": 0.2284,
4268
+ "step": 605
4269
+ },
4270
+ {
4271
+ "epoch": 0.41995841995842,
4272
+ "grad_norm": 1.2715479135513306,
4273
+ "learning_rate": 3.424766225756537e-05,
4274
+ "loss": 0.0305,
4275
+ "step": 606
4276
+ },
4277
+ {
4278
+ "epoch": 0.42065142065142064,
4279
+ "grad_norm": 1.7316052913665771,
4280
+ "learning_rate": 3.4097155425921254e-05,
4281
+ "loss": 0.0476,
4282
+ "step": 607
4283
+ },
4284
+ {
4285
+ "epoch": 0.42134442134442135,
4286
+ "grad_norm": 2.5955541133880615,
4287
+ "learning_rate": 3.394680873574546e-05,
4288
+ "loss": 0.1438,
4289
+ "step": 608
4290
+ },
4291
+ {
4292
+ "epoch": 0.42203742203742206,
4293
+ "grad_norm": 1.78447687625885,
4294
+ "learning_rate": 3.3796623701027476e-05,
4295
+ "loss": 0.0672,
4296
+ "step": 609
4297
+ },
4298
+ {
4299
+ "epoch": 0.4227304227304227,
4300
+ "grad_norm": 1.5245907306671143,
4301
+ "learning_rate": 3.364660183412892e-05,
4302
+ "loss": 0.0834,
4303
+ "step": 610
4304
+ },
4305
+ {
4306
+ "epoch": 0.42342342342342343,
4307
+ "grad_norm": 2.709289312362671,
4308
+ "learning_rate": 3.349674464576834e-05,
4309
+ "loss": 0.0825,
4310
+ "step": 611
4311
+ },
4312
+ {
4313
+ "epoch": 0.42411642411642414,
4314
+ "grad_norm": 2.3717944622039795,
4315
+ "learning_rate": 3.334705364500596e-05,
4316
+ "loss": 0.0771,
4317
+ "step": 612
4318
+ },
4319
+ {
4320
+ "epoch": 0.4248094248094248,
4321
+ "grad_norm": 2.123501777648926,
4322
+ "learning_rate": 3.3197530339228487e-05,
4323
+ "loss": 0.0691,
4324
+ "step": 613
4325
+ },
4326
+ {
4327
+ "epoch": 0.4255024255024255,
4328
+ "grad_norm": 2.309788942337036,
4329
+ "learning_rate": 3.304817623413397e-05,
4330
+ "loss": 0.1484,
4331
+ "step": 614
4332
+ },
4333
+ {
4334
+ "epoch": 0.4261954261954262,
4335
+ "grad_norm": 1.5497885942459106,
4336
+ "learning_rate": 3.289899283371657e-05,
4337
+ "loss": 0.0443,
4338
+ "step": 615
4339
+ },
4340
+ {
4341
+ "epoch": 0.4268884268884269,
4342
+ "grad_norm": 1.267046570777893,
4343
+ "learning_rate": 3.274998164025148e-05,
4344
+ "loss": 0.0596,
4345
+ "step": 616
4346
+ },
4347
+ {
4348
+ "epoch": 0.4275814275814276,
4349
+ "grad_norm": 3.855762004852295,
4350
+ "learning_rate": 3.260114415427975e-05,
4351
+ "loss": 0.2714,
4352
+ "step": 617
4353
+ },
4354
+ {
4355
+ "epoch": 0.4282744282744283,
4356
+ "grad_norm": 1.7666049003601074,
4357
+ "learning_rate": 3.2452481874593234e-05,
4358
+ "loss": 0.0751,
4359
+ "step": 618
4360
+ },
4361
+ {
4362
+ "epoch": 0.42896742896742895,
4363
+ "grad_norm": 1.7175681591033936,
4364
+ "learning_rate": 3.230399629821942e-05,
4365
+ "loss": 0.0902,
4366
+ "step": 619
4367
+ },
4368
+ {
4369
+ "epoch": 0.42966042966042967,
4370
+ "grad_norm": 2.664297103881836,
4371
+ "learning_rate": 3.215568892040641e-05,
4372
+ "loss": 0.1185,
4373
+ "step": 620
4374
+ },
4375
+ {
4376
+ "epoch": 0.4303534303534304,
4377
+ "grad_norm": 1.8793284893035889,
4378
+ "learning_rate": 3.200756123460788e-05,
4379
+ "loss": 0.0478,
4380
+ "step": 621
4381
+ },
4382
+ {
4383
+ "epoch": 0.43104643104643103,
4384
+ "grad_norm": 2.2081196308135986,
4385
+ "learning_rate": 3.1859614732467954e-05,
4386
+ "loss": 0.0874,
4387
+ "step": 622
4388
+ },
4389
+ {
4390
+ "epoch": 0.43173943173943174,
4391
+ "grad_norm": 1.9158347845077515,
4392
+ "learning_rate": 3.171185090380628e-05,
4393
+ "loss": 0.0462,
4394
+ "step": 623
4395
+ },
4396
+ {
4397
+ "epoch": 0.43243243243243246,
4398
+ "grad_norm": 1.7025054693222046,
4399
+ "learning_rate": 3.156427123660297e-05,
4400
+ "loss": 0.0625,
4401
+ "step": 624
4402
+ },
4403
+ {
4404
+ "epoch": 0.4331254331254331,
4405
+ "grad_norm": 3.4043662548065186,
4406
+ "learning_rate": 3.141687721698363e-05,
4407
+ "loss": 0.081,
4408
+ "step": 625
4409
+ },
4410
+ {
4411
+ "epoch": 0.4338184338184338,
4412
+ "grad_norm": 1.7663445472717285,
4413
+ "learning_rate": 3.12696703292044e-05,
4414
+ "loss": 0.06,
4415
+ "step": 626
4416
+ },
4417
+ {
4418
+ "epoch": 0.43451143451143454,
4419
+ "grad_norm": 1.218408226966858,
4420
+ "learning_rate": 3.1122652055637015e-05,
4421
+ "loss": 0.0423,
4422
+ "step": 627
4423
+ },
4424
+ {
4425
+ "epoch": 0.4352044352044352,
4426
+ "grad_norm": 1.9166085720062256,
4427
+ "learning_rate": 3.097582387675385e-05,
4428
+ "loss": 0.0452,
4429
+ "step": 628
4430
+ },
4431
+ {
4432
+ "epoch": 0.4358974358974359,
4433
+ "grad_norm": 1.9915510416030884,
4434
+ "learning_rate": 3.082918727111304e-05,
4435
+ "loss": 0.0329,
4436
+ "step": 629
4437
+ },
4438
+ {
4439
+ "epoch": 0.4365904365904366,
4440
+ "grad_norm": 1.8710565567016602,
4441
+ "learning_rate": 3.0682743715343564e-05,
4442
+ "loss": 0.0452,
4443
+ "step": 630
4444
+ },
4445
+ {
4446
+ "epoch": 0.43728343728343727,
4447
+ "grad_norm": 1.6264441013336182,
4448
+ "learning_rate": 3.053649468413043e-05,
4449
+ "loss": 0.0617,
4450
+ "step": 631
4451
+ },
4452
+ {
4453
+ "epoch": 0.437976437976438,
4454
+ "grad_norm": 3.281435489654541,
4455
+ "learning_rate": 3.0390441650199724e-05,
4456
+ "loss": 0.0905,
4457
+ "step": 632
4458
+ },
4459
+ {
4460
+ "epoch": 0.4386694386694387,
4461
+ "grad_norm": 3.2243845462799072,
4462
+ "learning_rate": 3.0244586084303905e-05,
4463
+ "loss": 0.0823,
4464
+ "step": 633
4465
+ },
4466
+ {
4467
+ "epoch": 0.43936243936243935,
4468
+ "grad_norm": 2.279958724975586,
4469
+ "learning_rate": 3.0098929455206904e-05,
4470
+ "loss": 0.0779,
4471
+ "step": 634
4472
+ },
4473
+ {
4474
+ "epoch": 0.44005544005544006,
4475
+ "grad_norm": 1.3307725191116333,
4476
+ "learning_rate": 2.9953473229669328e-05,
4477
+ "loss": 0.0512,
4478
+ "step": 635
4479
+ },
4480
+ {
4481
+ "epoch": 0.4407484407484408,
4482
+ "grad_norm": 1.505265474319458,
4483
+ "learning_rate": 2.9808218872433767e-05,
4484
+ "loss": 0.0411,
4485
+ "step": 636
4486
+ },
4487
+ {
4488
+ "epoch": 0.44144144144144143,
4489
+ "grad_norm": 1.387364149093628,
4490
+ "learning_rate": 2.9663167846209998e-05,
4491
+ "loss": 0.0627,
4492
+ "step": 637
4493
+ },
4494
+ {
4495
+ "epoch": 0.44213444213444214,
4496
+ "grad_norm": 2.2626707553863525,
4497
+ "learning_rate": 2.9518321611660237e-05,
4498
+ "loss": 0.0887,
4499
+ "step": 638
4500
+ },
4501
+ {
4502
+ "epoch": 0.44282744282744285,
4503
+ "grad_norm": 3.1403772830963135,
4504
+ "learning_rate": 2.9373681627384447e-05,
4505
+ "loss": 0.0695,
4506
+ "step": 639
4507
+ },
4508
+ {
4509
+ "epoch": 0.4435204435204435,
4510
+ "grad_norm": 3.117483615875244,
4511
+ "learning_rate": 2.9229249349905684e-05,
4512
+ "loss": 0.0525,
4513
+ "step": 640
4514
+ },
4515
+ {
4516
+ "epoch": 0.4442134442134442,
4517
+ "grad_norm": 1.9548671245574951,
4518
+ "learning_rate": 2.9085026233655365e-05,
4519
+ "loss": 0.0654,
4520
+ "step": 641
4521
+ },
4522
+ {
4523
+ "epoch": 0.44490644490644493,
4524
+ "grad_norm": 2.2557075023651123,
4525
+ "learning_rate": 2.894101373095867e-05,
4526
+ "loss": 0.0611,
4527
+ "step": 642
4528
+ },
4529
+ {
4530
+ "epoch": 0.4455994455994456,
4531
+ "grad_norm": 1.508870244026184,
4532
+ "learning_rate": 2.8797213292019926e-05,
4533
+ "loss": 0.0566,
4534
+ "step": 643
4535
+ },
4536
+ {
4537
+ "epoch": 0.4462924462924463,
4538
+ "grad_norm": 1.16555655002594,
4539
+ "learning_rate": 2.8653626364907917e-05,
4540
+ "loss": 0.0206,
4541
+ "step": 644
4542
+ },
4543
+ {
4544
+ "epoch": 0.446985446985447,
4545
+ "grad_norm": 0.8943382501602173,
4546
+ "learning_rate": 2.851025439554142e-05,
4547
+ "loss": 0.0146,
4548
+ "step": 645
4549
+ },
4550
+ {
4551
+ "epoch": 0.44767844767844767,
4552
+ "grad_norm": 1.6789727210998535,
4553
+ "learning_rate": 2.8367098827674578e-05,
4554
+ "loss": 0.023,
4555
+ "step": 646
4556
+ },
4557
+ {
4558
+ "epoch": 0.4483714483714484,
4559
+ "grad_norm": 2.898833751678467,
4560
+ "learning_rate": 2.8224161102882397e-05,
4561
+ "loss": 0.0378,
4562
+ "step": 647
4563
+ },
4564
+ {
4565
+ "epoch": 0.4490644490644491,
4566
+ "grad_norm": 1.326059341430664,
4567
+ "learning_rate": 2.8081442660546125e-05,
4568
+ "loss": 0.0283,
4569
+ "step": 648
4570
+ },
4571
+ {
4572
+ "epoch": 0.44975744975744975,
4573
+ "grad_norm": 0.012674244120717049,
4574
+ "learning_rate": 2.7938944937838923e-05,
4575
+ "loss": 0.0001,
4576
+ "step": 649
4577
+ },
4578
+ {
4579
+ "epoch": 0.45045045045045046,
4580
+ "grad_norm": 0.04887093976140022,
4581
+ "learning_rate": 2.7796669369711294e-05,
4582
+ "loss": 0.0002,
4583
+ "step": 650
4584
+ },
4585
+ {
4586
+ "epoch": 0.45114345114345117,
4587
+ "grad_norm": 1.1527273654937744,
4588
+ "learning_rate": 2.7654617388876615e-05,
4589
+ "loss": 0.045,
4590
+ "step": 651
4591
+ },
4592
+ {
4593
+ "epoch": 0.4518364518364518,
4594
+ "grad_norm": 2.142963409423828,
4595
+ "learning_rate": 2.7512790425796718e-05,
4596
+ "loss": 0.1299,
4597
+ "step": 652
4598
+ },
4599
+ {
4600
+ "epoch": 0.45252945252945254,
4601
+ "grad_norm": 3.2838921546936035,
4602
+ "learning_rate": 2.7371189908667604e-05,
4603
+ "loss": 0.1249,
4604
+ "step": 653
4605
+ },
4606
+ {
4607
+ "epoch": 0.45322245322245325,
4608
+ "grad_norm": 1.5524722337722778,
4609
+ "learning_rate": 2.7229817263404866e-05,
4610
+ "loss": 0.0692,
4611
+ "step": 654
4612
+ },
4613
+ {
4614
+ "epoch": 0.4539154539154539,
4615
+ "grad_norm": 2.0327537059783936,
4616
+ "learning_rate": 2.708867391362948e-05,
4617
+ "loss": 0.0729,
4618
+ "step": 655
4619
+ },
4620
+ {
4621
+ "epoch": 0.4546084546084546,
4622
+ "grad_norm": 1.5686278343200684,
4623
+ "learning_rate": 2.694776128065345e-05,
4624
+ "loss": 0.0535,
4625
+ "step": 656
4626
+ },
4627
+ {
4628
+ "epoch": 0.4553014553014553,
4629
+ "grad_norm": 1.42728590965271,
4630
+ "learning_rate": 2.6807080783465376e-05,
4631
+ "loss": 0.0835,
4632
+ "step": 657
4633
+ },
4634
+ {
4635
+ "epoch": 0.455994455994456,
4636
+ "grad_norm": 1.6944345235824585,
4637
+ "learning_rate": 2.6666633838716314e-05,
4638
+ "loss": 0.0471,
4639
+ "step": 658
4640
+ },
4641
+ {
4642
+ "epoch": 0.4566874566874567,
4643
+ "grad_norm": 1.3432730436325073,
4644
+ "learning_rate": 2.6526421860705473e-05,
4645
+ "loss": 0.07,
4646
+ "step": 659
4647
+ },
4648
+ {
4649
+ "epoch": 0.4573804573804574,
4650
+ "grad_norm": 2.6595051288604736,
4651
+ "learning_rate": 2.638644626136587e-05,
4652
+ "loss": 0.1548,
4653
+ "step": 660
4654
+ },
4655
+ {
4656
+ "epoch": 0.45807345807345806,
4657
+ "grad_norm": 1.3710395097732544,
4658
+ "learning_rate": 2.6246708450250256e-05,
4659
+ "loss": 0.0638,
4660
+ "step": 661
4661
+ },
4662
+ {
4663
+ "epoch": 0.4587664587664588,
4664
+ "grad_norm": 1.750665307044983,
4665
+ "learning_rate": 2.6107209834516854e-05,
4666
+ "loss": 0.0547,
4667
+ "step": 662
4668
+ },
4669
+ {
4670
+ "epoch": 0.4594594594594595,
4671
+ "grad_norm": 1.6597323417663574,
4672
+ "learning_rate": 2.596795181891514e-05,
4673
+ "loss": 0.0719,
4674
+ "step": 663
4675
+ },
4676
+ {
4677
+ "epoch": 0.46015246015246014,
4678
+ "grad_norm": 3.2295982837677,
4679
+ "learning_rate": 2.5828935805771802e-05,
4680
+ "loss": 0.0542,
4681
+ "step": 664
4682
+ },
4683
+ {
4684
+ "epoch": 0.46084546084546085,
4685
+ "grad_norm": 2.0197107791900635,
4686
+ "learning_rate": 2.5690163194976575e-05,
4687
+ "loss": 0.0688,
4688
+ "step": 665
4689
+ },
4690
+ {
4691
+ "epoch": 0.46153846153846156,
4692
+ "grad_norm": 1.264258861541748,
4693
+ "learning_rate": 2.5551635383968065e-05,
4694
+ "loss": 0.0459,
4695
+ "step": 666
4696
+ },
4697
+ {
4698
+ "epoch": 0.4622314622314622,
4699
+ "grad_norm": 1.3104031085968018,
4700
+ "learning_rate": 2.5413353767719805e-05,
4701
+ "loss": 0.0596,
4702
+ "step": 667
4703
+ },
4704
+ {
4705
+ "epoch": 0.46292446292446293,
4706
+ "grad_norm": 2.645916223526001,
4707
+ "learning_rate": 2.5275319738726165e-05,
4708
+ "loss": 0.1307,
4709
+ "step": 668
4710
+ },
4711
+ {
4712
+ "epoch": 0.46361746361746364,
4713
+ "grad_norm": 1.6166561841964722,
4714
+ "learning_rate": 2.513753468698826e-05,
4715
+ "loss": 0.0582,
4716
+ "step": 669
4717
+ },
4718
+ {
4719
+ "epoch": 0.4643104643104643,
4720
+ "grad_norm": 1.8327372074127197,
4721
+ "learning_rate": 2.500000000000001e-05,
4722
+ "loss": 0.0721,
4723
+ "step": 670
4724
+ },
4725
+ {
4726
+ "epoch": 0.465003465003465,
4727
+ "grad_norm": 1.8945083618164062,
4728
+ "learning_rate": 2.486271706273421e-05,
4729
+ "loss": 0.1175,
4730
+ "step": 671
4731
+ },
4732
+ {
4733
+ "epoch": 0.4656964656964657,
4734
+ "grad_norm": 1.4678902626037598,
4735
+ "learning_rate": 2.4725687257628534e-05,
4736
+ "loss": 0.0621,
4737
+ "step": 672
4738
+ },
4739
+ {
4740
+ "epoch": 0.4663894663894664,
4741
+ "grad_norm": 1.4501336812973022,
4742
+ "learning_rate": 2.4588911964571553e-05,
4743
+ "loss": 0.0723,
4744
+ "step": 673
4745
+ },
4746
+ {
4747
+ "epoch": 0.4670824670824671,
4748
+ "grad_norm": 1.9211817979812622,
4749
+ "learning_rate": 2.4452392560888976e-05,
4750
+ "loss": 0.0762,
4751
+ "step": 674
4752
+ },
4753
+ {
4754
+ "epoch": 0.4677754677754678,
4755
+ "grad_norm": 1.600954532623291,
4756
+ "learning_rate": 2.4316130421329697e-05,
4757
+ "loss": 0.0642,
4758
+ "step": 675
4759
+ },
4760
+ {
4761
+ "epoch": 0.46846846846846846,
4762
+ "grad_norm": 2.006173610687256,
4763
+ "learning_rate": 2.418012691805191e-05,
4764
+ "loss": 0.1227,
4765
+ "step": 676
4766
+ },
4767
+ {
4768
+ "epoch": 0.46916146916146917,
4769
+ "grad_norm": 1.272980809211731,
4770
+ "learning_rate": 2.4044383420609406e-05,
4771
+ "loss": 0.0575,
4772
+ "step": 677
4773
+ },
4774
+ {
4775
+ "epoch": 0.4698544698544699,
4776
+ "grad_norm": 1.5940930843353271,
4777
+ "learning_rate": 2.3908901295937713e-05,
4778
+ "loss": 0.065,
4779
+ "step": 678
4780
+ },
4781
+ {
4782
+ "epoch": 0.47054747054747054,
4783
+ "grad_norm": 3.0212154388427734,
4784
+ "learning_rate": 2.3773681908340284e-05,
4785
+ "loss": 0.1318,
4786
+ "step": 679
4787
+ },
4788
+ {
4789
+ "epoch": 0.47124047124047125,
4790
+ "grad_norm": 1.466066837310791,
4791
+ "learning_rate": 2.363872661947488e-05,
4792
+ "loss": 0.0401,
4793
+ "step": 680
4794
+ },
4795
+ {
4796
+ "epoch": 0.47193347193347196,
4797
+ "grad_norm": 1.1249910593032837,
4798
+ "learning_rate": 2.350403678833976e-05,
4799
+ "loss": 0.0356,
4800
+ "step": 681
4801
+ },
4802
+ {
4803
+ "epoch": 0.4726264726264726,
4804
+ "grad_norm": 1.8696436882019043,
4805
+ "learning_rate": 2.336961377126001e-05,
4806
+ "loss": 0.0614,
4807
+ "step": 682
4808
+ },
4809
+ {
4810
+ "epoch": 0.4733194733194733,
4811
+ "grad_norm": 1.967720627784729,
4812
+ "learning_rate": 2.3235458921873925e-05,
4813
+ "loss": 0.0413,
4814
+ "step": 683
4815
+ },
4816
+ {
4817
+ "epoch": 0.47401247401247404,
4818
+ "grad_norm": 1.4729372262954712,
4819
+ "learning_rate": 2.310157359111938e-05,
4820
+ "loss": 0.061,
4821
+ "step": 684
4822
+ },
4823
+ {
4824
+ "epoch": 0.4747054747054747,
4825
+ "grad_norm": 1.9776396751403809,
4826
+ "learning_rate": 2.296795912722014e-05,
4827
+ "loss": 0.1042,
4828
+ "step": 685
4829
+ },
4830
+ {
4831
+ "epoch": 0.4753984753984754,
4832
+ "grad_norm": 1.8598027229309082,
4833
+ "learning_rate": 2.283461687567236e-05,
4834
+ "loss": 0.0559,
4835
+ "step": 686
4836
+ },
4837
+ {
4838
+ "epoch": 0.4760914760914761,
4839
+ "grad_norm": 2.0203568935394287,
4840
+ "learning_rate": 2.2701548179231048e-05,
4841
+ "loss": 0.0916,
4842
+ "step": 687
4843
+ },
4844
+ {
4845
+ "epoch": 0.4767844767844768,
4846
+ "grad_norm": 1.7815768718719482,
4847
+ "learning_rate": 2.2568754377896516e-05,
4848
+ "loss": 0.0452,
4849
+ "step": 688
4850
+ },
4851
+ {
4852
+ "epoch": 0.4774774774774775,
4853
+ "grad_norm": 1.6619998216629028,
4854
+ "learning_rate": 2.2436236808900844e-05,
4855
+ "loss": 0.0441,
4856
+ "step": 689
4857
+ },
4858
+ {
4859
+ "epoch": 0.4781704781704782,
4860
+ "grad_norm": 2.220858097076416,
4861
+ "learning_rate": 2.2303996806694488e-05,
4862
+ "loss": 0.1036,
4863
+ "step": 690
4864
+ },
4865
+ {
4866
+ "epoch": 0.47886347886347885,
4867
+ "grad_norm": 0.9709250330924988,
4868
+ "learning_rate": 2.2172035702932825e-05,
4869
+ "loss": 0.0258,
4870
+ "step": 691
4871
+ },
4872
+ {
4873
+ "epoch": 0.47955647955647956,
4874
+ "grad_norm": 1.4434762001037598,
4875
+ "learning_rate": 2.2040354826462668e-05,
4876
+ "loss": 0.0316,
4877
+ "step": 692
4878
+ },
4879
+ {
4880
+ "epoch": 0.4802494802494803,
4881
+ "grad_norm": 1.7352850437164307,
4882
+ "learning_rate": 2.1908955503308993e-05,
4883
+ "loss": 0.0494,
4884
+ "step": 693
4885
+ },
4886
+ {
4887
+ "epoch": 0.48094248094248093,
4888
+ "grad_norm": 2.2967495918273926,
4889
+ "learning_rate": 2.1777839056661554e-05,
4890
+ "loss": 0.0652,
4891
+ "step": 694
4892
+ },
4893
+ {
4894
+ "epoch": 0.48163548163548164,
4895
+ "grad_norm": 2.0756208896636963,
4896
+ "learning_rate": 2.164700680686147e-05,
4897
+ "loss": 0.0404,
4898
+ "step": 695
4899
+ },
4900
+ {
4901
+ "epoch": 0.48232848232848236,
4902
+ "grad_norm": 5.310906887054443,
4903
+ "learning_rate": 2.1516460071388062e-05,
4904
+ "loss": 0.0521,
4905
+ "step": 696
4906
+ },
4907
+ {
4908
+ "epoch": 0.483021483021483,
4909
+ "grad_norm": 3.2012720108032227,
4910
+ "learning_rate": 2.1386200164845526e-05,
4911
+ "loss": 0.1225,
4912
+ "step": 697
4913
+ },
4914
+ {
4915
+ "epoch": 0.4837144837144837,
4916
+ "grad_norm": 8.336894989013672,
4917
+ "learning_rate": 2.125622839894964e-05,
4918
+ "loss": 0.0514,
4919
+ "step": 698
4920
+ },
4921
+ {
4922
+ "epoch": 0.48440748440748443,
4923
+ "grad_norm": 0.009585398249328136,
4924
+ "learning_rate": 2.1126546082514664e-05,
4925
+ "loss": 0.0001,
4926
+ "step": 699
4927
+ },
4928
+ {
4929
+ "epoch": 0.4851004851004851,
4930
+ "grad_norm": 6.890432834625244,
4931
+ "learning_rate": 2.09971545214401e-05,
4932
+ "loss": 0.0131,
4933
+ "step": 700
4934
+ },
4935
+ {
4936
+ "epoch": 0.4857934857934858,
4937
+ "grad_norm": 2.0048975944519043,
4938
+ "learning_rate": 2.086805501869749e-05,
4939
+ "loss": 0.1861,
4940
+ "step": 701
4941
+ },
4942
+ {
4943
+ "epoch": 0.4864864864864865,
4944
+ "grad_norm": 1.4275426864624023,
4945
+ "learning_rate": 2.073924887431744e-05,
4946
+ "loss": 0.0573,
4947
+ "step": 702
4948
+ },
4949
+ {
4950
+ "epoch": 0.48717948717948717,
4951
+ "grad_norm": 2.745793104171753,
4952
+ "learning_rate": 2.061073738537635e-05,
4953
+ "loss": 0.0999,
4954
+ "step": 703
4955
+ },
4956
+ {
4957
+ "epoch": 0.4878724878724879,
4958
+ "grad_norm": 2.188532590866089,
4959
+ "learning_rate": 2.048252184598352e-05,
4960
+ "loss": 0.0662,
4961
+ "step": 704
4962
+ },
4963
+ {
4964
+ "epoch": 0.4885654885654886,
4965
+ "grad_norm": 0.9374767541885376,
4966
+ "learning_rate": 2.0354603547267985e-05,
4967
+ "loss": 0.022,
4968
+ "step": 705
4969
+ },
4970
+ {
4971
+ "epoch": 0.48925848925848925,
4972
+ "grad_norm": 1.1383275985717773,
4973
+ "learning_rate": 2.0226983777365604e-05,
4974
+ "loss": 0.0426,
4975
+ "step": 706
4976
+ },
4977
+ {
4978
+ "epoch": 0.48995148995148996,
4979
+ "grad_norm": 1.7358490228652954,
4980
+ "learning_rate": 2.0099663821406056e-05,
4981
+ "loss": 0.0774,
4982
+ "step": 707
4983
+ },
4984
+ {
4985
+ "epoch": 0.49064449064449067,
4986
+ "grad_norm": 3.148839235305786,
4987
+ "learning_rate": 1.9972644961499854e-05,
4988
+ "loss": 0.0728,
4989
+ "step": 708
4990
+ },
4991
+ {
4992
+ "epoch": 0.49133749133749133,
4993
+ "grad_norm": 1.354243278503418,
4994
+ "learning_rate": 1.9845928476725524e-05,
4995
+ "loss": 0.058,
4996
+ "step": 709
4997
+ },
4998
+ {
4999
+ "epoch": 0.49203049203049204,
5000
+ "grad_norm": 1.5222508907318115,
5001
+ "learning_rate": 1.9719515643116674e-05,
5002
+ "loss": 0.052,
5003
+ "step": 710
5004
+ },
5005
+ {
5006
+ "epoch": 0.49272349272349275,
5007
+ "grad_norm": 1.3979942798614502,
5008
+ "learning_rate": 1.959340773364911e-05,
5009
+ "loss": 0.0301,
5010
+ "step": 711
5011
+ },
5012
+ {
5013
+ "epoch": 0.4934164934164934,
5014
+ "grad_norm": 2.327789068222046,
5015
+ "learning_rate": 1.946760601822809e-05,
5016
+ "loss": 0.0385,
5017
+ "step": 712
5018
+ },
5019
+ {
5020
+ "epoch": 0.4941094941094941,
5021
+ "grad_norm": 2.022264242172241,
5022
+ "learning_rate": 1.9342111763675512e-05,
5023
+ "loss": 0.046,
5024
+ "step": 713
5025
+ },
5026
+ {
5027
+ "epoch": 0.49480249480249483,
5028
+ "grad_norm": 1.3128710985183716,
5029
+ "learning_rate": 1.9216926233717085e-05,
5030
+ "loss": 0.046,
5031
+ "step": 714
5032
+ },
5033
+ {
5034
+ "epoch": 0.4954954954954955,
5035
+ "grad_norm": 2.2289204597473145,
5036
+ "learning_rate": 1.9092050688969738e-05,
5037
+ "loss": 0.0395,
5038
+ "step": 715
5039
+ },
5040
+ {
5041
+ "epoch": 0.4961884961884962,
5042
+ "grad_norm": 1.4785228967666626,
5043
+ "learning_rate": 1.8967486386928817e-05,
5044
+ "loss": 0.0482,
5045
+ "step": 716
5046
+ },
5047
+ {
5048
+ "epoch": 0.4968814968814969,
5049
+ "grad_norm": 1.7745870351791382,
5050
+ "learning_rate": 1.8843234581955442e-05,
5051
+ "loss": 0.0501,
5052
+ "step": 717
5053
+ },
5054
+ {
5055
+ "epoch": 0.49757449757449757,
5056
+ "grad_norm": 4.233173370361328,
5057
+ "learning_rate": 1.8719296525263922e-05,
5058
+ "loss": 0.2729,
5059
+ "step": 718
5060
+ },
5061
+ {
5062
+ "epoch": 0.4982674982674983,
5063
+ "grad_norm": 1.4577674865722656,
5064
+ "learning_rate": 1.859567346490913e-05,
5065
+ "loss": 0.0879,
5066
+ "step": 719
5067
+ },
5068
+ {
5069
+ "epoch": 0.498960498960499,
5070
+ "grad_norm": 2.581014394760132,
5071
+ "learning_rate": 1.847236664577389e-05,
5072
+ "loss": 0.1143,
5073
+ "step": 720
5074
+ },
5075
+ {
5076
+ "epoch": 0.49965349965349964,
5077
+ "grad_norm": 1.708632469177246,
5078
+ "learning_rate": 1.8349377309556486e-05,
5079
+ "loss": 0.0614,
5080
+ "step": 721
5081
+ },
5082
+ {
5083
+ "epoch": 0.5003465003465003,
5084
+ "grad_norm": 4.064712047576904,
5085
+ "learning_rate": 1.8226706694758195e-05,
5086
+ "loss": 0.0652,
5087
+ "step": 722
5088
+ },
5089
+ {
5090
+ "epoch": 0.501039501039501,
5091
+ "grad_norm": 2.1657605171203613,
5092
+ "learning_rate": 1.810435603667075e-05,
5093
+ "loss": 0.062,
5094
+ "step": 723
5095
+ },
5096
+ {
5097
+ "epoch": 0.5017325017325017,
5098
+ "grad_norm": 2.218892812728882,
5099
+ "learning_rate": 1.7982326567363888e-05,
5100
+ "loss": 0.0313,
5101
+ "step": 724
5102
+ },
5103
+ {
5104
+ "epoch": 0.5024255024255024,
5105
+ "grad_norm": 2.087905168533325,
5106
+ "learning_rate": 1.7860619515673033e-05,
5107
+ "loss": 0.0699,
5108
+ "step": 725
5109
+ },
5110
+ {
5111
+ "epoch": 0.5031185031185031,
5112
+ "grad_norm": 2.7413132190704346,
5113
+ "learning_rate": 1.773923610718686e-05,
5114
+ "loss": 0.0602,
5115
+ "step": 726
5116
+ },
5117
+ {
5118
+ "epoch": 0.5038115038115039,
5119
+ "grad_norm": 2.1985816955566406,
5120
+ "learning_rate": 1.7618177564234905e-05,
5121
+ "loss": 0.1066,
5122
+ "step": 727
5123
+ },
5124
+ {
5125
+ "epoch": 0.5045045045045045,
5126
+ "grad_norm": 1.0309902429580688,
5127
+ "learning_rate": 1.7497445105875377e-05,
5128
+ "loss": 0.0388,
5129
+ "step": 728
5130
+ },
5131
+ {
5132
+ "epoch": 0.5051975051975052,
5133
+ "grad_norm": 1.1991498470306396,
5134
+ "learning_rate": 1.73770399478828e-05,
5135
+ "loss": 0.025,
5136
+ "step": 729
5137
+ },
5138
+ {
5139
+ "epoch": 0.5058905058905059,
5140
+ "grad_norm": 2.0643422603607178,
5141
+ "learning_rate": 1.725696330273575e-05,
5142
+ "loss": 0.0574,
5143
+ "step": 730
5144
+ },
5145
+ {
5146
+ "epoch": 0.5065835065835066,
5147
+ "grad_norm": 1.4626661539077759,
5148
+ "learning_rate": 1.7137216379604727e-05,
5149
+ "loss": 0.1035,
5150
+ "step": 731
5151
+ },
5152
+ {
5153
+ "epoch": 0.5072765072765073,
5154
+ "grad_norm": 1.5174840688705444,
5155
+ "learning_rate": 1.7017800384339928e-05,
5156
+ "loss": 0.0722,
5157
+ "step": 732
5158
+ },
5159
+ {
5160
+ "epoch": 0.507969507969508,
5161
+ "grad_norm": 2.180429458618164,
5162
+ "learning_rate": 1.6898716519459074e-05,
5163
+ "loss": 0.1261,
5164
+ "step": 733
5165
+ },
5166
+ {
5167
+ "epoch": 0.5086625086625086,
5168
+ "grad_norm": 1.6073616743087769,
5169
+ "learning_rate": 1.6779965984135377e-05,
5170
+ "loss": 0.0837,
5171
+ "step": 734
5172
+ },
5173
+ {
5174
+ "epoch": 0.5093555093555093,
5175
+ "grad_norm": 3.2812795639038086,
5176
+ "learning_rate": 1.6661549974185424e-05,
5177
+ "loss": 0.146,
5178
+ "step": 735
5179
+ },
5180
+ {
5181
+ "epoch": 0.51004851004851,
5182
+ "grad_norm": 2.0749173164367676,
5183
+ "learning_rate": 1.6543469682057106e-05,
5184
+ "loss": 0.082,
5185
+ "step": 736
5186
+ },
5187
+ {
5188
+ "epoch": 0.5107415107415108,
5189
+ "grad_norm": 1.5799446105957031,
5190
+ "learning_rate": 1.6425726296817633e-05,
5191
+ "loss": 0.0335,
5192
+ "step": 737
5193
+ },
5194
+ {
5195
+ "epoch": 0.5114345114345115,
5196
+ "grad_norm": 1.534477949142456,
5197
+ "learning_rate": 1.6308321004141607e-05,
5198
+ "loss": 0.0605,
5199
+ "step": 738
5200
+ },
5201
+ {
5202
+ "epoch": 0.5121275121275122,
5203
+ "grad_norm": 1.5507577657699585,
5204
+ "learning_rate": 1.619125498629904e-05,
5205
+ "loss": 0.0465,
5206
+ "step": 739
5207
+ },
5208
+ {
5209
+ "epoch": 0.5128205128205128,
5210
+ "grad_norm": 4.244449615478516,
5211
+ "learning_rate": 1.60745294221434e-05,
5212
+ "loss": 0.0472,
5213
+ "step": 740
5214
+ },
5215
+ {
5216
+ "epoch": 0.5135135135135135,
5217
+ "grad_norm": 0.9149932265281677,
5218
+ "learning_rate": 1.595814548709983e-05,
5219
+ "loss": 0.027,
5220
+ "step": 741
5221
+ },
5222
+ {
5223
+ "epoch": 0.5142065142065142,
5224
+ "grad_norm": 0.7855058908462524,
5225
+ "learning_rate": 1.5842104353153287e-05,
5226
+ "loss": 0.0213,
5227
+ "step": 742
5228
+ },
5229
+ {
5230
+ "epoch": 0.5148995148995149,
5231
+ "grad_norm": 1.9645469188690186,
5232
+ "learning_rate": 1.5726407188836673e-05,
5233
+ "loss": 0.026,
5234
+ "step": 743
5235
+ },
5236
+ {
5237
+ "epoch": 0.5155925155925156,
5238
+ "grad_norm": 1.3487372398376465,
5239
+ "learning_rate": 1.5611055159219152e-05,
5240
+ "loss": 0.0399,
5241
+ "step": 744
5242
+ },
5243
+ {
5244
+ "epoch": 0.5162855162855163,
5245
+ "grad_norm": 2.7862071990966797,
5246
+ "learning_rate": 1.549604942589441e-05,
5247
+ "loss": 0.0253,
5248
+ "step": 745
5249
+ },
5250
+ {
5251
+ "epoch": 0.5169785169785169,
5252
+ "grad_norm": 1.8288354873657227,
5253
+ "learning_rate": 1.5381391146968866e-05,
5254
+ "loss": 0.0505,
5255
+ "step": 746
5256
+ },
5257
+ {
5258
+ "epoch": 0.5176715176715176,
5259
+ "grad_norm": 0.9688133001327515,
5260
+ "learning_rate": 1.526708147705013e-05,
5261
+ "loss": 0.023,
5262
+ "step": 747
5263
+ },
5264
+ {
5265
+ "epoch": 0.5183645183645184,
5266
+ "grad_norm": 1.158333420753479,
5267
+ "learning_rate": 1.5153121567235335e-05,
5268
+ "loss": 0.0239,
5269
+ "step": 748
5270
+ },
5271
+ {
5272
+ "epoch": 0.5190575190575191,
5273
+ "grad_norm": 0.25449123978614807,
5274
+ "learning_rate": 1.5039512565099467e-05,
5275
+ "loss": 0.0013,
5276
+ "step": 749
5277
+ },
5278
+ {
5279
+ "epoch": 0.5197505197505198,
5280
+ "grad_norm": 0.23921255767345428,
5281
+ "learning_rate": 1.4926255614683932e-05,
5282
+ "loss": 0.0002,
5283
+ "step": 750
5284
+ },
5285
+ {
5286
+ "epoch": 0.5204435204435205,
5287
+ "grad_norm": 1.5712229013442993,
5288
+ "learning_rate": 1.481335185648498e-05,
5289
+ "loss": 0.268,
5290
+ "step": 751
5291
+ },
5292
+ {
5293
+ "epoch": 0.5211365211365211,
5294
+ "grad_norm": 1.4475122690200806,
5295
+ "learning_rate": 1.4700802427442179e-05,
5296
+ "loss": 0.0789,
5297
+ "step": 752
5298
+ },
5299
+ {
5300
+ "epoch": 0.5218295218295218,
5301
+ "grad_norm": 2.140687942504883,
5302
+ "learning_rate": 1.458860846092705e-05,
5303
+ "loss": 0.1106,
5304
+ "step": 753
5305
+ },
5306
+ {
5307
+ "epoch": 0.5225225225225225,
5308
+ "grad_norm": 1.6918996572494507,
5309
+ "learning_rate": 1.4476771086731567e-05,
5310
+ "loss": 0.0567,
5311
+ "step": 754
5312
+ },
5313
+ {
5314
+ "epoch": 0.5232155232155232,
5315
+ "grad_norm": 1.683551549911499,
5316
+ "learning_rate": 1.4365291431056871e-05,
5317
+ "loss": 0.1074,
5318
+ "step": 755
5319
+ },
5320
+ {
5321
+ "epoch": 0.5239085239085239,
5322
+ "grad_norm": 1.1498463153839111,
5323
+ "learning_rate": 1.4254170616501827e-05,
5324
+ "loss": 0.0149,
5325
+ "step": 756
5326
+ },
5327
+ {
5328
+ "epoch": 0.5246015246015246,
5329
+ "grad_norm": 1.2035645246505737,
5330
+ "learning_rate": 1.414340976205183e-05,
5331
+ "loss": 0.0424,
5332
+ "step": 757
5333
+ },
5334
+ {
5335
+ "epoch": 0.5252945252945252,
5336
+ "grad_norm": 1.7896965742111206,
5337
+ "learning_rate": 1.4033009983067452e-05,
5338
+ "loss": 0.1129,
5339
+ "step": 758
5340
+ },
5341
+ {
5342
+ "epoch": 0.525987525987526,
5343
+ "grad_norm": 1.246095895767212,
5344
+ "learning_rate": 1.3922972391273226e-05,
5345
+ "loss": 0.0636,
5346
+ "step": 759
5347
+ },
5348
+ {
5349
+ "epoch": 0.5266805266805267,
5350
+ "grad_norm": 2.1839723587036133,
5351
+ "learning_rate": 1.3813298094746491e-05,
5352
+ "loss": 0.1153,
5353
+ "step": 760
5354
+ },
5355
+ {
5356
+ "epoch": 0.5273735273735274,
5357
+ "grad_norm": 1.7188761234283447,
5358
+ "learning_rate": 1.3703988197906209e-05,
5359
+ "loss": 0.0778,
5360
+ "step": 761
5361
+ },
5362
+ {
5363
+ "epoch": 0.5280665280665281,
5364
+ "grad_norm": 1.6612868309020996,
5365
+ "learning_rate": 1.3595043801501794e-05,
5366
+ "loss": 0.0354,
5367
+ "step": 762
5368
+ },
5369
+ {
5370
+ "epoch": 0.5287595287595288,
5371
+ "grad_norm": 1.7637569904327393,
5372
+ "learning_rate": 1.3486466002602133e-05,
5373
+ "loss": 0.0885,
5374
+ "step": 763
5375
+ },
5376
+ {
5377
+ "epoch": 0.5294525294525294,
5378
+ "grad_norm": 2.42702317237854,
5379
+ "learning_rate": 1.3378255894584463e-05,
5380
+ "loss": 0.1145,
5381
+ "step": 764
5382
+ },
5383
+ {
5384
+ "epoch": 0.5301455301455301,
5385
+ "grad_norm": 1.406791090965271,
5386
+ "learning_rate": 1.327041456712334e-05,
5387
+ "loss": 0.0686,
5388
+ "step": 765
5389
+ },
5390
+ {
5391
+ "epoch": 0.5308385308385308,
5392
+ "grad_norm": 2.8606255054473877,
5393
+ "learning_rate": 1.3162943106179749e-05,
5394
+ "loss": 0.1681,
5395
+ "step": 766
5396
+ },
5397
+ {
5398
+ "epoch": 0.5315315315315315,
5399
+ "grad_norm": 0.9502009153366089,
5400
+ "learning_rate": 1.3055842593990131e-05,
5401
+ "loss": 0.0418,
5402
+ "step": 767
5403
+ },
5404
+ {
5405
+ "epoch": 0.5322245322245323,
5406
+ "grad_norm": 1.3333024978637695,
5407
+ "learning_rate": 1.2949114109055415e-05,
5408
+ "loss": 0.0683,
5409
+ "step": 768
5410
+ },
5411
+ {
5412
+ "epoch": 0.532917532917533,
5413
+ "grad_norm": 2.184300661087036,
5414
+ "learning_rate": 1.2842758726130283e-05,
5415
+ "loss": 0.0293,
5416
+ "step": 769
5417
+ },
5418
+ {
5419
+ "epoch": 0.5336105336105336,
5420
+ "grad_norm": 1.6312488317489624,
5421
+ "learning_rate": 1.2736777516212266e-05,
5422
+ "loss": 0.071,
5423
+ "step": 770
5424
+ },
5425
+ {
5426
+ "epoch": 0.5343035343035343,
5427
+ "grad_norm": 3.242823600769043,
5428
+ "learning_rate": 1.2631171546530968e-05,
5429
+ "loss": 0.082,
5430
+ "step": 771
5431
+ },
5432
+ {
5433
+ "epoch": 0.534996534996535,
5434
+ "grad_norm": 2.8160717487335205,
5435
+ "learning_rate": 1.2525941880537307e-05,
5436
+ "loss": 0.0488,
5437
+ "step": 772
5438
+ },
5439
+ {
5440
+ "epoch": 0.5356895356895357,
5441
+ "grad_norm": 1.718396544456482,
5442
+ "learning_rate": 1.2421089577892869e-05,
5443
+ "loss": 0.0722,
5444
+ "step": 773
5445
+ },
5446
+ {
5447
+ "epoch": 0.5363825363825364,
5448
+ "grad_norm": 2.165678024291992,
5449
+ "learning_rate": 1.2316615694459189e-05,
5450
+ "loss": 0.085,
5451
+ "step": 774
5452
+ },
5453
+ {
5454
+ "epoch": 0.5370755370755371,
5455
+ "grad_norm": 4.593423843383789,
5456
+ "learning_rate": 1.2212521282287092e-05,
5457
+ "loss": 0.2502,
5458
+ "step": 775
5459
+ },
5460
+ {
5461
+ "epoch": 0.5377685377685377,
5462
+ "grad_norm": 1.3617160320281982,
5463
+ "learning_rate": 1.2108807389606158e-05,
5464
+ "loss": 0.0314,
5465
+ "step": 776
5466
+ },
5467
+ {
5468
+ "epoch": 0.5384615384615384,
5469
+ "grad_norm": 1.9156297445297241,
5470
+ "learning_rate": 1.2005475060814159e-05,
5471
+ "loss": 0.1195,
5472
+ "step": 777
5473
+ },
5474
+ {
5475
+ "epoch": 0.5391545391545391,
5476
+ "grad_norm": 1.6965415477752686,
5477
+ "learning_rate": 1.1902525336466464e-05,
5478
+ "loss": 0.1157,
5479
+ "step": 778
5480
+ },
5481
+ {
5482
+ "epoch": 0.5398475398475399,
5483
+ "grad_norm": 2.171086072921753,
5484
+ "learning_rate": 1.1799959253265668e-05,
5485
+ "loss": 0.0866,
5486
+ "step": 779
5487
+ },
5488
+ {
5489
+ "epoch": 0.5405405405405406,
5490
+ "grad_norm": 3.2741446495056152,
5491
+ "learning_rate": 1.1697777844051105e-05,
5492
+ "loss": 0.1048,
5493
+ "step": 780
5494
+ },
5495
+ {
5496
+ "epoch": 0.5412335412335413,
5497
+ "grad_norm": 1.4844908714294434,
5498
+ "learning_rate": 1.1595982137788403e-05,
5499
+ "loss": 0.0816,
5500
+ "step": 781
5501
+ },
5502
+ {
5503
+ "epoch": 0.5419265419265419,
5504
+ "grad_norm": 1.7694414854049683,
5505
+ "learning_rate": 1.1494573159559213e-05,
5506
+ "loss": 0.0412,
5507
+ "step": 782
5508
+ },
5509
+ {
5510
+ "epoch": 0.5426195426195426,
5511
+ "grad_norm": 1.2457849979400635,
5512
+ "learning_rate": 1.1393551930550828e-05,
5513
+ "loss": 0.0593,
5514
+ "step": 783
5515
+ },
5516
+ {
5517
+ "epoch": 0.5433125433125433,
5518
+ "grad_norm": 0.8710437417030334,
5519
+ "learning_rate": 1.1292919468045877e-05,
5520
+ "loss": 0.036,
5521
+ "step": 784
5522
+ },
5523
+ {
5524
+ "epoch": 0.544005544005544,
5525
+ "grad_norm": 2.328735828399658,
5526
+ "learning_rate": 1.1192676785412154e-05,
5527
+ "loss": 0.0848,
5528
+ "step": 785
5529
+ },
5530
+ {
5531
+ "epoch": 0.5446985446985447,
5532
+ "grad_norm": 1.1400730609893799,
5533
+ "learning_rate": 1.1092824892092373e-05,
5534
+ "loss": 0.0359,
5535
+ "step": 786
5536
+ },
5537
+ {
5538
+ "epoch": 0.5453915453915454,
5539
+ "grad_norm": 2.1870477199554443,
5540
+ "learning_rate": 1.099336479359398e-05,
5541
+ "loss": 0.0828,
5542
+ "step": 787
5543
+ },
5544
+ {
5545
+ "epoch": 0.546084546084546,
5546
+ "grad_norm": 1.8485313653945923,
5547
+ "learning_rate": 1.0894297491479045e-05,
5548
+ "loss": 0.0594,
5549
+ "step": 788
5550
+ },
5551
+ {
5552
+ "epoch": 0.5467775467775468,
5553
+ "grad_norm": 2.052849054336548,
5554
+ "learning_rate": 1.0795623983354215e-05,
5555
+ "loss": 0.0442,
5556
+ "step": 789
5557
+ },
5558
+ {
5559
+ "epoch": 0.5474705474705475,
5560
+ "grad_norm": 4.594583034515381,
5561
+ "learning_rate": 1.0697345262860636e-05,
5562
+ "loss": 0.0964,
5563
+ "step": 790
5564
+ },
5565
+ {
5566
+ "epoch": 0.5481635481635482,
5567
+ "grad_norm": 2.2317960262298584,
5568
+ "learning_rate": 1.0599462319663905e-05,
5569
+ "loss": 0.0453,
5570
+ "step": 791
5571
+ },
5572
+ {
5573
+ "epoch": 0.5488565488565489,
5574
+ "grad_norm": 1.04276442527771,
5575
+ "learning_rate": 1.0501976139444191e-05,
5576
+ "loss": 0.0307,
5577
+ "step": 792
5578
+ },
5579
+ {
5580
+ "epoch": 0.5495495495495496,
5581
+ "grad_norm": 1.3961700201034546,
5582
+ "learning_rate": 1.0404887703886251e-05,
5583
+ "loss": 0.0503,
5584
+ "step": 793
5585
+ },
5586
+ {
5587
+ "epoch": 0.5502425502425502,
5588
+ "grad_norm": 1.7015811204910278,
5589
+ "learning_rate": 1.0308197990669538e-05,
5590
+ "loss": 0.0435,
5591
+ "step": 794
5592
+ },
5593
+ {
5594
+ "epoch": 0.5509355509355509,
5595
+ "grad_norm": 1.8332734107971191,
5596
+ "learning_rate": 1.021190797345839e-05,
5597
+ "loss": 0.0263,
5598
+ "step": 795
5599
+ },
5600
+ {
5601
+ "epoch": 0.5516285516285516,
5602
+ "grad_norm": 1.551506519317627,
5603
+ "learning_rate": 1.0116018621892237e-05,
5604
+ "loss": 0.0402,
5605
+ "step": 796
5606
+ },
5607
+ {
5608
+ "epoch": 0.5523215523215523,
5609
+ "grad_norm": 2.0567147731781006,
5610
+ "learning_rate": 1.0020530901575754e-05,
5611
+ "loss": 0.0177,
5612
+ "step": 797
5613
+ },
5614
+ {
5615
+ "epoch": 0.553014553014553,
5616
+ "grad_norm": 1.6934616565704346,
5617
+ "learning_rate": 9.92544577406923e-06,
5618
+ "loss": 0.0304,
5619
+ "step": 798
5620
+ },
5621
+ {
5622
+ "epoch": 0.5537075537075538,
5623
+ "grad_norm": 0.8998746275901794,
5624
+ "learning_rate": 9.830764196878872e-06,
5625
+ "loss": 0.0012,
5626
+ "step": 799
5627
+ },
5628
+ {
5629
+ "epoch": 0.5544005544005544,
5630
+ "grad_norm": 1.843292474746704,
5631
+ "learning_rate": 9.73648712344707e-06,
5632
+ "loss": 0.0003,
5633
+ "step": 800
5634
+ },
5635
+ {
5636
+ "epoch": 0.5544005544005544,
5637
+ "eval_loss": 0.040625762194395065,
5638
+ "eval_runtime": 69.5659,
5639
+ "eval_samples_per_second": 34.945,
5640
+ "eval_steps_per_second": 8.74,
5641
+ "step": 800
5642
  }
5643
  ],
5644
  "logging_steps": 1,
 
5667
  "attributes": {}
5668
  }
5669
  },
5670
+ "total_flos": 4.621122051778806e+17,
5671
  "train_batch_size": 8,
5672
  "trial_name": null,
5673
  "trial_params": null