{
  "best_metric": 0.15827356278896332,
  "best_model_checkpoint": "finetuned_models/selection/phi_mini/checkpoint-8828",
  "epoch": 4.999660287623145,
  "eval_steps": 500,
  "global_step": 11035,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.004529498358056845,
      "grad_norm": 2.3706889152526855,
      "learning_rate": 3.7735849056603773e-06,
      "loss": 3.1411,
      "step": 10
    },
    {
      "epoch": 0.00905899671611369,
      "grad_norm": 1.1344068050384521,
      "learning_rate": 7.547169811320755e-06,
      "loss": 2.7341,
      "step": 20
    },
    {
      "epoch": 0.013588495074170535,
      "grad_norm": 0.5109199285507202,
      "learning_rate": 1.1320754716981132e-05,
      "loss": 2.3962,
      "step": 30
    },
    {
      "epoch": 0.01811799343222738,
      "grad_norm": 0.2340932935476303,
      "learning_rate": 1.509433962264151e-05,
      "loss": 2.1062,
      "step": 40
    },
    {
      "epoch": 0.022647491790284226,
      "grad_norm": 0.16189691424369812,
      "learning_rate": 1.8867924528301888e-05,
      "loss": 1.9221,
      "step": 50
    },
    {
      "epoch": 0.02717699014834107,
      "grad_norm": 0.14064399898052216,
      "learning_rate": 2.2641509433962265e-05,
      "loss": 1.7971,
      "step": 60
    },
    {
      "epoch": 0.031706488506397915,
      "grad_norm": 0.1196412444114685,
      "learning_rate": 2.641509433962264e-05,
      "loss": 1.7255,
      "step": 70
    },
    {
      "epoch": 0.03623598686445476,
      "grad_norm": 0.15146440267562866,
      "learning_rate": 3.018867924528302e-05,
      "loss": 1.6767,
      "step": 80
    },
    {
      "epoch": 0.040765485222511604,
      "grad_norm": 0.13450802862644196,
      "learning_rate": 3.39622641509434e-05,
      "loss": 1.5943,
      "step": 90
    },
    {
      "epoch": 0.04529498358056845,
      "grad_norm": 0.15073299407958984,
      "learning_rate": 3.7735849056603776e-05,
      "loss": 1.5428,
      "step": 100
    },
    {
      "epoch": 0.0498244819386253,
      "grad_norm": 0.13764727115631104,
      "learning_rate": 4.150943396226415e-05,
      "loss": 1.4956,
      "step": 110
    },
    {
      "epoch": 0.05435398029668214,
      "grad_norm": 0.23157894611358643,
      "learning_rate": 4.528301886792453e-05,
      "loss": 1.4492,
      "step": 120
    },
    {
      "epoch": 0.05888347865473899,
      "grad_norm": 0.1756928712129593,
      "learning_rate": 4.9056603773584906e-05,
      "loss": 1.4258,
      "step": 130
    },
    {
      "epoch": 0.06341297701279583,
      "grad_norm": 0.19877882301807404,
      "learning_rate": 5.283018867924528e-05,
      "loss": 1.3863,
      "step": 140
    },
    {
      "epoch": 0.06794247537085268,
      "grad_norm": 0.19395482540130615,
      "learning_rate": 5.660377358490566e-05,
      "loss": 1.3469,
      "step": 150
    },
    {
      "epoch": 0.07247197372890953,
      "grad_norm": 0.2622753083705902,
      "learning_rate": 6.037735849056604e-05,
      "loss": 1.3177,
      "step": 160
    },
    {
      "epoch": 0.07700147208696637,
      "grad_norm": 0.47893616557121277,
      "learning_rate": 6.415094339622641e-05,
      "loss": 1.2414,
      "step": 170
    },
    {
      "epoch": 0.08153097044502321,
      "grad_norm": 0.2570054233074188,
      "learning_rate": 6.79245283018868e-05,
      "loss": 1.2046,
      "step": 180
    },
    {
      "epoch": 0.08606046880308006,
      "grad_norm": 0.31944283843040466,
      "learning_rate": 7.169811320754717e-05,
      "loss": 1.2254,
      "step": 190
    },
    {
      "epoch": 0.0905899671611369,
      "grad_norm": 0.35244274139404297,
      "learning_rate": 7.547169811320755e-05,
      "loss": 1.1671,
      "step": 200
    },
    {
      "epoch": 0.09511946551919374,
      "grad_norm": 0.23283237218856812,
      "learning_rate": 7.924528301886794e-05,
      "loss": 1.2043,
      "step": 210
    },
    {
      "epoch": 0.0996489638772506,
      "grad_norm": 0.38952431082725525,
      "learning_rate": 8.30188679245283e-05,
      "loss": 1.202,
      "step": 220
    },
    {
      "epoch": 0.10417846223530744,
      "grad_norm": 0.28450387716293335,
      "learning_rate": 8.679245283018869e-05,
      "loss": 1.1323,
      "step": 230
    },
    {
      "epoch": 0.10870796059336428,
      "grad_norm": 0.30833789706230164,
      "learning_rate": 9.056603773584906e-05,
      "loss": 1.1101,
      "step": 240
    },
    {
      "epoch": 0.11323745895142114,
      "grad_norm": 0.31221917271614075,
      "learning_rate": 9.433962264150944e-05,
      "loss": 1.0949,
      "step": 250
    },
    {
      "epoch": 0.11776695730947798,
      "grad_norm": 0.3738393187522888,
      "learning_rate": 9.811320754716981e-05,
      "loss": 1.1372,
      "step": 260
    },
    {
      "epoch": 0.12229645566753482,
      "grad_norm": 0.2999807596206665,
      "learning_rate": 0.0001018867924528302,
      "loss": 1.1028,
      "step": 270
    },
    {
      "epoch": 0.12682595402559166,
      "grad_norm": 0.4104474186897278,
      "learning_rate": 0.00010566037735849057,
      "loss": 1.0796,
      "step": 280
    },
    {
      "epoch": 0.1313554523836485,
      "grad_norm": 0.2639298141002655,
      "learning_rate": 0.00010943396226415095,
      "loss": 1.0626,
      "step": 290
    },
    {
      "epoch": 0.13588495074170537,
      "grad_norm": 0.2657984495162964,
      "learning_rate": 0.00011320754716981132,
      "loss": 1.0418,
      "step": 300
    },
    {
      "epoch": 0.1404144490997622,
      "grad_norm": 0.2493669092655182,
      "learning_rate": 0.0001169811320754717,
      "loss": 1.0157,
      "step": 310
    },
    {
      "epoch": 0.14494394745781905,
      "grad_norm": 0.21642285585403442,
      "learning_rate": 0.00012075471698113207,
      "loss": 0.9852,
      "step": 320
    },
    {
      "epoch": 0.1494734458158759,
      "grad_norm": 0.2093484252691269,
      "learning_rate": 0.00012452830188679244,
      "loss": 0.9938,
      "step": 330
    },
    {
      "epoch": 0.15400294417393273,
      "grad_norm": 0.2212437391281128,
      "learning_rate": 0.00012830188679245283,
      "loss": 1.0289,
      "step": 340
    },
    {
      "epoch": 0.1585324425319896,
      "grad_norm": 0.22111104428768158,
      "learning_rate": 0.0001320754716981132,
      "loss": 0.9656,
      "step": 350
    },
    {
      "epoch": 0.16306194089004641,
      "grad_norm": 0.31839072704315186,
      "learning_rate": 0.0001358490566037736,
      "loss": 0.9723,
      "step": 360
    },
    {
      "epoch": 0.16759143924810327,
      "grad_norm": 0.26599910855293274,
      "learning_rate": 0.00013962264150943395,
      "loss": 0.9503,
      "step": 370
    },
    {
      "epoch": 0.17212093760616012,
      "grad_norm": 0.273809552192688,
      "learning_rate": 0.00014339622641509434,
      "loss": 0.9786,
      "step": 380
    },
    {
      "epoch": 0.17665043596421695,
      "grad_norm": 0.1905912607908249,
      "learning_rate": 0.00014716981132075472,
      "loss": 0.9271,
      "step": 390
    },
    {
      "epoch": 0.1811799343222738,
      "grad_norm": 0.21957655251026154,
      "learning_rate": 0.0001509433962264151,
      "loss": 0.911,
      "step": 400
    },
    {
      "epoch": 0.18570943268033066,
      "grad_norm": 0.21992002427577972,
      "learning_rate": 0.0001547169811320755,
      "loss": 0.9434,
      "step": 410
    },
    {
      "epoch": 0.1902389310383875,
      "grad_norm": 0.2033444494009018,
      "learning_rate": 0.00015849056603773587,
      "loss": 0.9189,
      "step": 420
    },
    {
      "epoch": 0.19476842939644434,
      "grad_norm": 0.2479432225227356,
      "learning_rate": 0.00016226415094339625,
      "loss": 0.9137,
      "step": 430
    },
    {
      "epoch": 0.1992979277545012,
      "grad_norm": 0.26578351855278015,
      "learning_rate": 0.0001660377358490566,
      "loss": 0.9172,
      "step": 440
    },
    {
      "epoch": 0.20382742611255802,
      "grad_norm": 0.17441338300704956,
      "learning_rate": 0.000169811320754717,
      "loss": 0.8783,
      "step": 450
    },
    {
      "epoch": 0.20835692447061488,
      "grad_norm": 0.18898604810237885,
      "learning_rate": 0.00017358490566037738,
      "loss": 0.874,
      "step": 460
    },
    {
      "epoch": 0.21288642282867173,
      "grad_norm": 0.18335719406604767,
      "learning_rate": 0.00017735849056603776,
      "loss": 0.8604,
      "step": 470
    },
    {
      "epoch": 0.21741592118672856,
      "grad_norm": 0.20873741805553436,
      "learning_rate": 0.00018113207547169812,
      "loss": 0.8368,
      "step": 480
    },
    {
      "epoch": 0.22194541954478542,
      "grad_norm": 0.2140520066022873,
      "learning_rate": 0.0001849056603773585,
      "loss": 0.8729,
      "step": 490
    },
    {
      "epoch": 0.22647491790284227,
      "grad_norm": 0.20203453302383423,
      "learning_rate": 0.00018867924528301889,
      "loss": 0.836,
      "step": 500
    },
    {
      "epoch": 0.2310044162608991,
      "grad_norm": 0.185277059674263,
      "learning_rate": 0.00019245283018867927,
      "loss": 0.8224,
      "step": 510
    },
    {
      "epoch": 0.23553391461895595,
      "grad_norm": 0.207021564245224,
      "learning_rate": 0.00019622641509433963,
      "loss": 0.8482,
      "step": 520
    },
    {
      "epoch": 0.2400634129770128,
      "grad_norm": 0.19016426801681519,
      "learning_rate": 0.0002,
      "loss": 0.8296,
      "step": 530
    },
    {
      "epoch": 0.24459291133506963,
      "grad_norm": 0.20634956657886505,
      "learning_rate": 0.00019999983174896345,
      "loss": 0.8294,
      "step": 540
    },
    {
      "epoch": 0.2491224096931265,
      "grad_norm": 0.16894035041332245,
      "learning_rate": 0.00019999932699641984,
      "loss": 0.7966,
      "step": 550
    },
    {
      "epoch": 0.2536519080511833,
      "grad_norm": 0.21543951332569122,
      "learning_rate": 0.00019999848574406778,
      "loss": 0.819,
      "step": 560
    },
    {
      "epoch": 0.2581814064092402,
      "grad_norm": 0.18474166095256805,
      "learning_rate": 0.000199997307994738,
      "loss": 0.8073,
      "step": 570
    },
    {
      "epoch": 0.262710904767297,
      "grad_norm": 0.1627601534128189,
      "learning_rate": 0.0001999957937523937,
      "loss": 0.798,
      "step": 580
    },
    {
      "epoch": 0.26724040312535385,
      "grad_norm": 0.16344527900218964,
      "learning_rate": 0.0001999939430221304,
      "loss": 0.7846,
      "step": 590
    },
    {
      "epoch": 0.27176990148341074,
      "grad_norm": 0.1784357726573944,
      "learning_rate": 0.00019999175581017573,
      "loss": 0.7892,
      "step": 600
    },
    {
      "epoch": 0.27629939984146756,
      "grad_norm": 0.1735469251871109,
      "learning_rate": 0.00019998923212388977,
      "loss": 0.7624,
      "step": 610
    },
    {
      "epoch": 0.2808288981995244,
      "grad_norm": 0.20232649147510529,
      "learning_rate": 0.00019998637197176478,
      "loss": 0.7754,
      "step": 620
    },
    {
      "epoch": 0.2853583965575813,
      "grad_norm": 0.21980105340480804,
      "learning_rate": 0.00019998317536342524,
      "loss": 0.7896,
      "step": 630
    },
    {
      "epoch": 0.2898878949156381,
      "grad_norm": 0.15072612464427948,
      "learning_rate": 0.00019997964230962774,
      "loss": 0.7451,
      "step": 640
    },
    {
      "epoch": 0.2944173932736949,
      "grad_norm": 0.17559681832790375,
      "learning_rate": 0.00019997577282226115,
      "loss": 0.719,
      "step": 650
    },
    {
      "epoch": 0.2989468916317518,
      "grad_norm": 0.17159104347229004,
      "learning_rate": 0.00019997156691434632,
      "loss": 0.7356,
      "step": 660
    },
    {
      "epoch": 0.30347638998980864,
      "grad_norm": 0.20724473893642426,
      "learning_rate": 0.00019996702460003623,
      "loss": 0.7257,
      "step": 670
    },
    {
      "epoch": 0.30800588834786546,
      "grad_norm": 0.15702813863754272,
      "learning_rate": 0.00019996214589461592,
      "loss": 0.7104,
      "step": 680
    },
    {
      "epoch": 0.31253538670592235,
      "grad_norm": 0.185310959815979,
      "learning_rate": 0.00019995693081450227,
      "loss": 0.7192,
      "step": 690
    },
    {
      "epoch": 0.3170648850639792,
      "grad_norm": 0.17659538984298706,
      "learning_rate": 0.00019995137937724413,
      "loss": 0.7084,
      "step": 700
    },
    {
      "epoch": 0.321594383422036,
      "grad_norm": 0.16541071236133575,
      "learning_rate": 0.00019994549160152225,
      "loss": 0.7179,
      "step": 710
    },
    {
      "epoch": 0.32612388178009283,
      "grad_norm": 0.16881656646728516,
      "learning_rate": 0.00019993926750714905,
      "loss": 0.7039,
      "step": 720
    },
    {
      "epoch": 0.3306533801381497,
      "grad_norm": 0.18213717639446259,
      "learning_rate": 0.0001999327071150688,
      "loss": 0.712,
      "step": 730
    },
    {
      "epoch": 0.33518287849620654,
      "grad_norm": 0.16946811974048615,
      "learning_rate": 0.00019992581044735736,
      "loss": 0.7041,
      "step": 740
    },
    {
      "epoch": 0.33971237685426336,
      "grad_norm": 0.20027601718902588,
      "learning_rate": 0.00019991857752722208,
      "loss": 0.6937,
      "step": 750
    },
    {
      "epoch": 0.34424187521232025,
      "grad_norm": 0.17900145053863525,
      "learning_rate": 0.000199911008379002,
      "loss": 0.689,
      "step": 760
    },
    {
      "epoch": 0.3487713735703771,
      "grad_norm": 0.1626042276620865,
      "learning_rate": 0.00019990310302816738,
      "loss": 0.6923,
      "step": 770
    },
    {
      "epoch": 0.3533008719284339,
      "grad_norm": 0.1776456981897354,
      "learning_rate": 0.00019989486150131987,
      "loss": 0.6725,
      "step": 780
    },
    {
      "epoch": 0.3578303702864908,
      "grad_norm": 0.16232900321483612,
      "learning_rate": 0.00019988628382619242,
      "loss": 0.6621,
      "step": 790
    },
    {
      "epoch": 0.3623598686445476,
      "grad_norm": 0.16653478145599365,
      "learning_rate": 0.00019987737003164912,
      "loss": 0.6825,
      "step": 800
    },
    {
      "epoch": 0.36688936700260444,
      "grad_norm": 0.16946111619472504,
      "learning_rate": 0.00019986812014768503,
      "loss": 0.6634,
      "step": 810
    },
    {
      "epoch": 0.3714188653606613,
      "grad_norm": 0.16169489920139313,
      "learning_rate": 0.00019985853420542617,
      "loss": 0.6592,
      "step": 820
    },
    {
      "epoch": 0.37594836371871815,
      "grad_norm": 0.1830553561449051,
      "learning_rate": 0.0001998486122371295,
      "loss": 0.6661,
      "step": 830
    },
    {
      "epoch": 0.380477862076775,
      "grad_norm": 0.18185435235500336,
      "learning_rate": 0.00019983835427618262,
      "loss": 0.6331,
      "step": 840
    },
    {
      "epoch": 0.38500736043483186,
      "grad_norm": 0.17038173973560333,
      "learning_rate": 0.0001998277603571038,
      "loss": 0.6274,
      "step": 850
    },
    {
      "epoch": 0.3895368587928887,
      "grad_norm": 0.15142400562763214,
      "learning_rate": 0.00019981683051554174,
      "loss": 0.6282,
      "step": 860
    },
    {
      "epoch": 0.3940663571509455,
      "grad_norm": 0.18170781433582306,
      "learning_rate": 0.00019980556478827564,
      "loss": 0.605,
      "step": 870
    },
    {
      "epoch": 0.3985958555090024,
      "grad_norm": 0.1576147973537445,
      "learning_rate": 0.0001997939632132149,
      "loss": 0.6393,
      "step": 880
    },
    {
      "epoch": 0.4031253538670592,
      "grad_norm": 0.17267905175685883,
      "learning_rate": 0.00019978202582939902,
      "loss": 0.6274,
      "step": 890
    },
    {
      "epoch": 0.40765485222511605,
      "grad_norm": 0.19358091056346893,
      "learning_rate": 0.00019976975267699758,
      "loss": 0.5976,
      "step": 900
    },
    {
      "epoch": 0.41218435058317293,
      "grad_norm": 0.20368127524852753,
      "learning_rate": 0.00019975714379730998,
      "loss": 0.637,
      "step": 910
    },
    {
      "epoch": 0.41671384894122976,
      "grad_norm": 0.17673739790916443,
      "learning_rate": 0.00019974419923276537,
      "loss": 0.6014,
      "step": 920
    },
    {
      "epoch": 0.4212433472992866,
      "grad_norm": 0.1759296953678131,
      "learning_rate": 0.0001997309190269225,
      "loss": 0.5822,
      "step": 930
    },
    {
      "epoch": 0.42577284565734347,
      "grad_norm": 0.15785963833332062,
      "learning_rate": 0.00019971730322446949,
      "loss": 0.5856,
      "step": 940
    },
    {
      "epoch": 0.4303023440154003,
      "grad_norm": 0.16193810105323792,
      "learning_rate": 0.00019970335187122383,
      "loss": 0.5854,
      "step": 950
    },
    {
      "epoch": 0.4348318423734571,
      "grad_norm": 0.1555752456188202,
      "learning_rate": 0.0001996890650141321,
      "loss": 0.5852,
      "step": 960
    },
    {
      "epoch": 0.439361340731514,
      "grad_norm": 0.17118428647518158,
      "learning_rate": 0.00019967444270126988,
      "loss": 0.5816,
      "step": 970
    },
    {
      "epoch": 0.44389083908957083,
      "grad_norm": 0.15966954827308655,
      "learning_rate": 0.00019965948498184153,
      "loss": 0.5641,
      "step": 980
    },
    {
      "epoch": 0.44842033744762766,
      "grad_norm": 0.20606863498687744,
      "learning_rate": 0.0001996441919061801,
      "loss": 0.588,
      "step": 990
    },
    {
      "epoch": 0.45294983580568454,
      "grad_norm": 0.17158259451389313,
      "learning_rate": 0.0001996285635257471,
      "loss": 0.5437,
      "step": 1000
    },
    {
      "epoch": 0.45747933416374137,
      "grad_norm": 0.1764381229877472,
      "learning_rate": 0.0001996125998931324,
      "loss": 0.5546,
      "step": 1010
    },
    {
      "epoch": 0.4620088325217982,
      "grad_norm": 0.17307806015014648,
      "learning_rate": 0.0001995963010620539,
      "loss": 0.5442,
      "step": 1020
    },
    {
      "epoch": 0.4665383308798551,
      "grad_norm": 0.17395785450935364,
      "learning_rate": 0.00019957966708735754,
      "loss": 0.5198,
      "step": 1030
    },
    {
      "epoch": 0.4710678292379119,
      "grad_norm": 0.17280320823192596,
      "learning_rate": 0.00019956269802501696,
      "loss": 0.5235,
      "step": 1040
    },
    {
      "epoch": 0.47559732759596873,
      "grad_norm": 0.1894276738166809,
      "learning_rate": 0.00019954539393213344,
      "loss": 0.539,
      "step": 1050
    },
    {
      "epoch": 0.4801268259540256,
      "grad_norm": 0.19094131886959076,
      "learning_rate": 0.0001995277548669356,
      "loss": 0.5445,
      "step": 1060
    },
    {
      "epoch": 0.48465632431208244,
      "grad_norm": 0.182444766163826,
      "learning_rate": 0.00019950978088877923,
      "loss": 0.526,
      "step": 1070
    },
    {
      "epoch": 0.48918582267013927,
      "grad_norm": 0.2150132805109024,
      "learning_rate": 0.00019949147205814715,
      "loss": 0.5334,
      "step": 1080
    },
    {
      "epoch": 0.49371532102819615,
      "grad_norm": 0.17609047889709473,
      "learning_rate": 0.000199472828436649,
      "loss": 0.5239,
      "step": 1090
    },
    {
      "epoch": 0.498244819386253,
      "grad_norm": 0.18994882702827454,
      "learning_rate": 0.0001994538500870209,
      "loss": 0.5163,
      "step": 1100
    },
    {
      "epoch": 0.5027743177443098,
      "grad_norm": 0.1678932011127472,
      "learning_rate": 0.00019943453707312544,
      "loss": 0.5379,
      "step": 1110
    },
    {
      "epoch": 0.5073038161023666,
      "grad_norm": 0.18330644071102142,
      "learning_rate": 0.00019941488945995125,
      "loss": 0.5037,
      "step": 1120
    },
    {
      "epoch": 0.5118333144604235,
      "grad_norm": 0.1946277767419815,
      "learning_rate": 0.00019939490731361298,
      "loss": 0.5169,
      "step": 1130
    },
    {
      "epoch": 0.5163628128184804,
      "grad_norm": 0.1769060641527176,
      "learning_rate": 0.00019937459070135097,
      "loss": 0.5016,
      "step": 1140
    },
    {
      "epoch": 0.5208923111765372,
      "grad_norm": 0.1812835931777954,
      "learning_rate": 0.00019935393969153106,
      "loss": 0.4974,
      "step": 1150
    },
    {
      "epoch": 0.525421809534594,
      "grad_norm": 0.17336933314800262,
      "learning_rate": 0.00019933295435364432,
      "loss": 0.4936,
      "step": 1160
    },
    {
      "epoch": 0.5299513078926509,
      "grad_norm": 0.19504410028457642,
      "learning_rate": 0.00019931163475830682,
      "loss": 0.4892,
      "step": 1170
    },
    {
      "epoch": 0.5344808062507077,
      "grad_norm": 0.17446300387382507,
      "learning_rate": 0.00019928998097725945,
      "loss": 0.4851,
      "step": 1180
    },
    {
      "epoch": 0.5390103046087645,
      "grad_norm": 0.2062528431415558,
      "learning_rate": 0.00019926799308336767,
      "loss": 0.4796,
      "step": 1190
    },
    {
      "epoch": 0.5435398029668215,
      "grad_norm": 0.17791499197483063,
      "learning_rate": 0.00019924567115062116,
      "loss": 0.4704,
      "step": 1200
    },
    {
      "epoch": 0.5480693013248783,
      "grad_norm": 0.20112474262714386,
      "learning_rate": 0.00019922301525413368,
      "loss": 0.4848,
      "step": 1210
    },
    {
      "epoch": 0.5525987996829351,
      "grad_norm": 0.1905170977115631,
      "learning_rate": 0.00019920002547014283,
      "loss": 0.4848,
      "step": 1220
    },
    {
      "epoch": 0.557128298040992,
      "grad_norm": 0.2167678326368332,
      "learning_rate": 0.00019917670187600967,
      "loss": 0.475,
      "step": 1230
    },
    {
      "epoch": 0.5616577963990488,
      "grad_norm": 0.1879906803369522,
      "learning_rate": 0.00019915304455021859,
      "loss": 0.4661,
      "step": 1240
    },
    {
      "epoch": 0.5661872947571056,
      "grad_norm": 0.17811033129692078,
      "learning_rate": 0.00019912905357237701,
      "loss": 0.4758,
      "step": 1250
    },
    {
      "epoch": 0.5707167931151625,
      "grad_norm": 0.18101903796195984,
      "learning_rate": 0.00019910472902321503,
      "loss": 0.4668,
      "step": 1260
    },
    {
      "epoch": 0.5752462914732194,
      "grad_norm": 0.1657211035490036,
      "learning_rate": 0.0001990800709845853,
      "loss": 0.4645,
      "step": 1270
    },
    {
      "epoch": 0.5797757898312762,
      "grad_norm": 0.32196566462516785,
      "learning_rate": 0.00019905507953946257,
      "loss": 0.4442,
      "step": 1280
    },
    {
      "epoch": 0.584305288189333,
      "grad_norm": 0.2010417878627777,
      "learning_rate": 0.00019902975477194363,
      "loss": 0.4633,
      "step": 1290
    },
    {
      "epoch": 0.5888347865473899,
      "grad_norm": 0.18759405612945557,
      "learning_rate": 0.00019900409676724682,
      "loss": 0.4642,
      "step": 1300
    },
    {
      "epoch": 0.5933642849054467,
      "grad_norm": 0.19315552711486816,
      "learning_rate": 0.00019897810561171189,
      "loss": 0.4308,
      "step": 1310
    },
    {
      "epoch": 0.5978937832635036,
      "grad_norm": 0.194192036986351,
      "learning_rate": 0.00019895178139279956,
      "loss": 0.4424,
      "step": 1320
    },
    {
      "epoch": 0.6024232816215604,
      "grad_norm": 0.17403574287891388,
      "learning_rate": 0.00019892512419909138,
      "loss": 0.4491,
      "step": 1330
    },
    {
      "epoch": 0.6069527799796173,
      "grad_norm": 0.20866619050502777,
      "learning_rate": 0.00019889813412028942,
      "loss": 0.4546,
      "step": 1340
    },
    {
      "epoch": 0.6114822783376741,
      "grad_norm": 0.1847338080406189,
      "learning_rate": 0.00019887081124721583,
      "loss": 0.4354,
      "step": 1350
    },
    {
      "epoch": 0.6160117766957309,
      "grad_norm": 0.20528827607631683,
      "learning_rate": 0.00019884315567181263,
      "loss": 0.432,
      "step": 1360
    },
    {
      "epoch": 0.6205412750537878,
      "grad_norm": 0.19688895344734192,
      "learning_rate": 0.00019881516748714137,
      "loss": 0.4256,
      "step": 1370
    },
    {
      "epoch": 0.6250707734118447,
      "grad_norm": 0.1834789514541626,
      "learning_rate": 0.00019878684678738295,
      "loss": 0.4142,
      "step": 1380
    },
    {
      "epoch": 0.6296002717699015,
      "grad_norm": 0.1904083490371704,
      "learning_rate": 0.00019875819366783705,
      "loss": 0.4072,
      "step": 1390
    },
    {
      "epoch": 0.6341297701279583,
      "grad_norm": 0.24558007717132568,
      "learning_rate": 0.00019872920822492206,
      "loss": 0.4168,
      "step": 1400
    },
    {
      "epoch": 0.6386592684860152,
      "grad_norm": 0.19825737178325653,
      "learning_rate": 0.0001986998905561745,
      "loss": 0.4102,
      "step": 1410
    },
    {
      "epoch": 0.643188766844072,
      "grad_norm": 0.2427905946969986,
      "learning_rate": 0.00019867024076024908,
      "loss": 0.4266,
      "step": 1420
    },
    {
      "epoch": 0.6477182652021288,
      "grad_norm": 0.20517700910568237,
      "learning_rate": 0.00019864025893691784,
      "loss": 0.4155,
      "step": 1430
    },
    {
      "epoch": 0.6522477635601857,
      "grad_norm": 0.19519874453544617,
      "learning_rate": 0.00019860994518707036,
      "loss": 0.4093,
      "step": 1440
    },
    {
      "epoch": 0.6567772619182426,
      "grad_norm": 0.17730577290058136,
      "learning_rate": 0.0001985792996127129,
      "loss": 0.3932,
      "step": 1450
    },
    {
      "epoch": 0.6613067602762994,
      "grad_norm": 0.1811046451330185,
      "learning_rate": 0.00019854832231696855,
      "loss": 0.3953,
      "step": 1460
    },
    {
      "epoch": 0.6658362586343562,
      "grad_norm": 0.18473340570926666,
      "learning_rate": 0.00019851701340407654,
      "loss": 0.3846,
      "step": 1470
    },
    {
      "epoch": 0.6703657569924131,
      "grad_norm": 0.1876707524061203,
      "learning_rate": 0.000198485372979392,
      "loss": 0.3947,
      "step": 1480
    },
    {
      "epoch": 0.6748952553504699,
      "grad_norm": 0.21453642845153809,
      "learning_rate": 0.00019845340114938562,
      "loss": 0.3893,
      "step": 1490
    },
    {
      "epoch": 0.6794247537085267,
      "grad_norm": 0.19314515590667725,
      "learning_rate": 0.00019842109802164327,
      "loss": 0.3857,
      "step": 1500
    },
    {
      "epoch": 0.6839542520665837,
      "grad_norm": 0.18713776767253876,
      "learning_rate": 0.0001983884637048656,
      "loss": 0.3945,
      "step": 1510
    },
    {
      "epoch": 0.6884837504246405,
      "grad_norm": 0.18545708060264587,
      "learning_rate": 0.00019835549830886785,
      "loss": 0.3829,
      "step": 1520
    },
    {
      "epoch": 0.6930132487826973,
      "grad_norm": 0.163354754447937,
      "learning_rate": 0.00019832220194457919,
      "loss": 0.3681,
      "step": 1530
    },
    {
      "epoch": 0.6975427471407541,
      "grad_norm": 0.19729359447956085,
      "learning_rate": 0.0001982885747240426,
      "loss": 0.376,
      "step": 1540
    },
    {
      "epoch": 0.702072245498811,
      "grad_norm": 0.19601188600063324,
      "learning_rate": 0.00019825461676041436,
      "loss": 0.3738,
      "step": 1550
    },
    {
      "epoch": 0.7066017438568678,
      "grad_norm": 0.184451162815094,
      "learning_rate": 0.00019822032816796376,
      "loss": 0.3689,
      "step": 1560
    },
    {
      "epoch": 0.7111312422149247,
      "grad_norm": 0.16905899345874786,
      "learning_rate": 0.0001981857090620726,
      "loss": 0.3667,
      "step": 1570
    },
    {
      "epoch": 0.7156607405729816,
      "grad_norm": 0.17829935252666473,
      "learning_rate": 0.0001981507595592349,
      "loss": 0.3718,
      "step": 1580
    },
    {
      "epoch": 0.7201902389310384,
      "grad_norm": 0.17314116656780243,
      "learning_rate": 0.0001981154797770564,
      "loss": 0.3711,
      "step": 1590
    },
    {
      "epoch": 0.7247197372890952,
      "grad_norm": 0.17752452194690704,
      "learning_rate": 0.0001980798698342544,
      "loss": 0.3711,
      "step": 1600
    },
    {
      "epoch": 0.729249235647152,
      "grad_norm": 0.16267523169517517,
      "learning_rate": 0.00019804392985065702,
      "loss": 0.3461,
      "step": 1610
    },
    {
      "epoch": 0.7337787340052089,
      "grad_norm": 0.1715889424085617,
      "learning_rate": 0.00019800765994720308,
      "loss": 0.3542,
      "step": 1620
    },
    {
      "epoch": 0.7383082323632658,
      "grad_norm": 0.2011169195175171,
      "learning_rate": 0.00019797106024594153,
      "loss": 0.3602,
      "step": 1630
    },
    {
      "epoch": 0.7428377307213226,
      "grad_norm": 0.16859227418899536,
      "learning_rate": 0.00019793413087003115,
      "loss": 0.3509,
      "step": 1640
    },
    {
      "epoch": 0.7473672290793795,
      "grad_norm": 0.18904465436935425,
      "learning_rate": 0.0001978968719437401,
      "loss": 0.3619,
      "step": 1650
    },
    {
      "epoch": 0.7518967274374363,
      "grad_norm": 0.1918095499277115,
      "learning_rate": 0.00019785928359244533,
      "loss": 0.3529,
      "step": 1660
    },
    {
      "epoch": 0.7564262257954931,
      "grad_norm": 0.16930030286312103,
      "learning_rate": 0.0001978213659426325,
      "loss": 0.3505,
      "step": 1670
    },
    {
      "epoch": 0.76095572415355,
      "grad_norm": 0.19345726072788239,
      "learning_rate": 0.00019778311912189528,
      "loss": 0.3548,
      "step": 1680
    },
    {
      "epoch": 0.7654852225116069,
      "grad_norm": 0.1755731701850891,
      "learning_rate": 0.000197744543258935,
      "loss": 0.3549,
      "step": 1690
    },
    {
      "epoch": 0.7700147208696637,
      "grad_norm": 0.17827914655208588,
      "learning_rate": 0.00019770563848356024,
      "loss": 0.3622,
      "step": 1700
    },
    {
      "epoch": 0.7745442192277205,
      "grad_norm": 0.1955813765525818,
      "learning_rate": 0.0001976664049266864,
      "loss": 0.3412,
      "step": 1710
    },
    {
      "epoch": 0.7790737175857774,
      "grad_norm": 0.18960636854171753,
      "learning_rate": 0.00019762684272033515,
      "loss": 0.3438,
      "step": 1720
    },
    {
      "epoch": 0.7836032159438342,
      "grad_norm": 0.20935559272766113,
      "learning_rate": 0.00019758695199763418,
      "loss": 0.3497,
      "step": 1730
    },
    {
      "epoch": 0.788132714301891,
      "grad_norm": 0.18760916590690613,
      "learning_rate": 0.00019754673289281663,
      "loss": 0.3299,
      "step": 1740
    },
    {
      "epoch": 0.792662212659948,
      "grad_norm": 0.2013741135597229,
      "learning_rate": 0.0001975061855412206,
      "loss": 0.3395,
      "step": 1750
    },
    {
      "epoch": 0.7971917110180048,
      "grad_norm": 0.18885807693004608,
      "learning_rate": 0.0001974653100792887,
      "loss": 0.3321,
      "step": 1760
    },
    {
      "epoch": 0.8017212093760616,
      "grad_norm": 0.18193817138671875,
      "learning_rate": 0.00019742410664456777,
      "loss": 0.3387,
      "step": 1770
    },
    {
      "epoch": 0.8062507077341184,
      "grad_norm": 0.16840125620365143,
      "learning_rate": 0.00019738257537570822,
      "loss": 0.3302,
      "step": 1780
    },
    {
      "epoch": 0.8107802060921753,
      "grad_norm": 0.1618867665529251,
      "learning_rate": 0.00019734071641246365,
      "loss": 0.3212,
      "step": 1790
    },
    {
      "epoch": 0.8153097044502321,
      "grad_norm": 0.20026183128356934,
      "learning_rate": 0.00019729852989569028,
      "loss": 0.3274,
      "step": 1800
    },
    {
      "epoch": 0.819839202808289,
      "grad_norm": 0.18741321563720703,
      "learning_rate": 0.00019725601596734668,
      "loss": 0.3267,
      "step": 1810
    },
    {
      "epoch": 0.8243687011663459,
      "grad_norm": 0.17450092732906342,
      "learning_rate": 0.000197213174770493,
      "loss": 0.3193,
      "step": 1820
    },
    {
      "epoch": 0.8288981995244027,
      "grad_norm": 0.1721801608800888,
      "learning_rate": 0.00019717000644929087,
      "loss": 0.3127,
      "step": 1830
    },
    {
      "epoch": 0.8334276978824595,
      "grad_norm": 0.18926140666007996,
      "learning_rate": 0.00019712651114900257,
      "loss": 0.3214,
      "step": 1840
    },
    {
      "epoch": 0.8379571962405163,
      "grad_norm": 0.17309771478176117,
      "learning_rate": 0.0001970826890159906,
      "loss": 0.318,
      "step": 1850
    },
    {
      "epoch": 0.8424866945985732,
      "grad_norm": 0.18818823993206024,
      "learning_rate": 0.00019703854019771742,
      "loss": 0.3154,
      "step": 1860
    },
    {
      "epoch": 0.84701619295663,
      "grad_norm": 0.18680931627750397,
      "learning_rate": 0.00019699406484274468,
      "loss": 0.3104,
      "step": 1870
    },
    {
      "epoch": 0.8515456913146869,
      "grad_norm": 0.16489103436470032,
      "learning_rate": 0.0001969492631007329,
      "loss": 0.3232,
      "step": 1880
    },
    {
      "epoch": 0.8560751896727438,
      "grad_norm": 0.17721644043922424,
      "learning_rate": 0.0001969041351224409,
      "loss": 0.3034,
      "step": 1890
    },
    {
      "epoch": 0.8606046880308006,
      "grad_norm": 0.19497451186180115,
      "learning_rate": 0.00019685868105972517,
      "loss": 0.3092,
      "step": 1900
    },
    {
      "epoch": 0.8651341863888574,
      "grad_norm": 0.20427413284778595,
      "learning_rate": 0.00019681290106553969,
      "loss": 0.3158,
      "step": 1910
    },
    {
      "epoch": 0.8696636847469142,
      "grad_norm": 0.18642422556877136,
      "learning_rate": 0.00019676679529393498,
      "loss": 0.3058,
      "step": 1920
    },
    {
      "epoch": 0.8741931831049711,
      "grad_norm": 0.16172035038471222,
      "learning_rate": 0.00019672036390005798,
      "loss": 0.3069,
      "step": 1930
    },
    {
      "epoch": 0.878722681463028,
      "grad_norm": 0.15888796746730804,
      "learning_rate": 0.00019667360704015127,
      "loss": 0.3075,
      "step": 1940
    },
    {
      "epoch": 0.8832521798210848,
      "grad_norm": 0.16608227789402008,
      "learning_rate": 0.0001966265248715527,
      "loss": 0.295,
      "step": 1950
    },
    {
      "epoch": 0.8877816781791417,
      "grad_norm": 0.18529315292835236,
      "learning_rate": 0.00019657911755269466,
      "loss": 0.3087,
      "step": 1960
    },
    {
      "epoch": 0.8923111765371985,
      "grad_norm": 0.1623723804950714,
      "learning_rate": 0.0001965313852431038,
      "loss": 0.318,
      "step": 1970
    },
    {
      "epoch": 0.8968406748952553,
      "grad_norm": 0.18999403715133667,
      "learning_rate": 0.0001964833281034004,
      "loss": 0.3013,
      "step": 1980
    },
    {
      "epoch": 0.9013701732533121,
      "grad_norm": 0.1742704212665558,
      "learning_rate": 0.0001964349462952976,
      "loss": 0.2906,
      "step": 1990
    },
    {
      "epoch": 0.9058996716113691,
      "grad_norm": 0.15007524192333221,
      "learning_rate": 0.00019638623998160127,
      "loss": 0.2909,
      "step": 2000
    },
    {
      "epoch": 0.9104291699694259,
      "grad_norm": 0.18087700009346008,
      "learning_rate": 0.00019633720932620916,
      "loss": 0.2852,
      "step": 2010
    },
    {
      "epoch": 0.9149586683274827,
      "grad_norm": 0.172203928232193,
      "learning_rate": 0.0001962878544941104,
      "loss": 0.2894,
      "step": 2020
    },
    {
      "epoch": 0.9194881666855396,
      "grad_norm": 0.1811007559299469,
      "learning_rate": 0.00019623817565138512,
      "loss": 0.2905,
      "step": 2030
    },
    {
      "epoch": 0.9240176650435964,
      "grad_norm": 0.17736268043518066,
      "learning_rate": 0.00019618817296520355,
      "loss": 0.2855,
      "step": 2040
    },
    {
      "epoch": 0.9285471634016532,
      "grad_norm": 0.1875537484884262,
      "learning_rate": 0.00019613784660382582,
      "loss": 0.3006,
      "step": 2050
    },
    {
      "epoch": 0.9330766617597102,
      "grad_norm": 0.16459111869335175,
      "learning_rate": 0.00019608719673660117,
      "loss": 0.2928,
      "step": 2060
    },
    {
      "epoch": 0.937606160117767,
      "grad_norm": 0.19852280616760254,
      "learning_rate": 0.00019603622353396745,
      "loss": 0.2877,
      "step": 2070
    },
    {
      "epoch": 0.9421356584758238,
      "grad_norm": 0.1441079080104828,
      "learning_rate": 0.00019598492716745055,
      "loss": 0.2722,
      "step": 2080
    },
    {
      "epoch": 0.9466651568338806,
      "grad_norm": 0.17091263830661774,
      "learning_rate": 0.00019593330780966377,
      "loss": 0.2845,
      "step": 2090
    },
    {
      "epoch": 0.9511946551919375,
      "grad_norm": 0.17907531559467316,
      "learning_rate": 0.00019588136563430735,
      "loss": 0.2881,
      "step": 2100
    },
    {
      "epoch": 0.9557241535499943,
      "grad_norm": 0.18411681056022644,
      "learning_rate": 0.00019582910081616782,
      "loss": 0.2906,
      "step": 2110
    },
    {
      "epoch": 0.9602536519080512,
      "grad_norm": 0.19341252744197845,
      "learning_rate": 0.00019577651353111733,
      "loss": 0.2926,
      "step": 2120
    },
    {
      "epoch": 0.9647831502661081,
      "grad_norm": 0.17022013664245605,
      "learning_rate": 0.00019572360395611317,
      "loss": 0.2728,
      "step": 2130
    },
    {
      "epoch": 0.9693126486241649,
      "grad_norm": 0.17077523469924927,
      "learning_rate": 0.00019567037226919721,
      "loss": 0.2754,
      "step": 2140
    },
    {
      "epoch": 0.9738421469822217,
      "grad_norm": 0.16188162565231323,
      "learning_rate": 0.00019561681864949514,
      "loss": 0.2761,
      "step": 2150
    },
    {
      "epoch": 0.9783716453402785,
      "grad_norm": 0.16258101165294647,
      "learning_rate": 0.00019556294327721603,
      "loss": 0.2724,
      "step": 2160
    },
    {
      "epoch": 0.9829011436983354,
      "grad_norm": 0.1751459836959839,
      "learning_rate": 0.00019550874633365162,
      "loss": 0.2844,
      "step": 2170
    },
    {
      "epoch": 0.9874306420563923,
      "grad_norm": 0.14674732089042664,
      "learning_rate": 0.0001954542280011757,
      "loss": 0.2818,
      "step": 2180
    },
    {
      "epoch": 0.9919601404144491,
      "grad_norm": 0.1843065619468689,
      "learning_rate": 0.00019539938846324363,
      "loss": 0.2736,
      "step": 2190
    },
    {
      "epoch": 0.996489638772506,
      "grad_norm": 0.18449115753173828,
      "learning_rate": 0.00019534422790439164,
      "loss": 0.2828,
      "step": 2200
    },
    {
      "epoch": 0.9996602876231457,
      "eval_loss": 0.26604515314102173,
      "eval_runtime": 617.1505,
      "eval_samples_per_second": 12.752,
      "eval_steps_per_second": 1.594,
      "step": 2207
    },
    {
      "epoch": 1.001358849507417,
      "grad_norm": 0.15234586596488953,
      "learning_rate": 0.00019528874651023606,
      "loss": 0.2608,
      "step": 2210
    },
    {
      "epoch": 1.0058883478654739,
      "grad_norm": 0.15887659788131714,
      "learning_rate": 0.00019523294446747297,
      "loss": 0.2417,
      "step": 2220
    },
    {
      "epoch": 1.0104178462235307,
      "grad_norm": 0.16629189252853394,
      "learning_rate": 0.00019517682196387744,
      "loss": 0.2306,
      "step": 2230
    },
    {
      "epoch": 1.0149473445815875,
      "grad_norm": 0.17960551381111145,
      "learning_rate": 0.00019512037918830282,
      "loss": 0.2279,
      "step": 2240
    },
    {
      "epoch": 1.0194768429396444,
      "grad_norm": 0.1671302169561386,
      "learning_rate": 0.0001950636163306802,
      "loss": 0.2181,
      "step": 2250
    },
    {
      "epoch": 1.0240063412977012,
      "grad_norm": 0.16400860249996185,
      "learning_rate": 0.0001950065335820178,
      "loss": 0.2333,
      "step": 2260
    },
    {
      "epoch": 1.0285358396557582,
      "grad_norm": 0.15259268879890442,
      "learning_rate": 0.00019494913113440022,
      "loss": 0.2307,
      "step": 2270
    },
    {
      "epoch": 1.033065338013815,
      "grad_norm": 0.1612786501646042,
      "learning_rate": 0.00019489140918098796,
      "loss": 0.2349,
      "step": 2280
    },
    {
      "epoch": 1.0375948363718719,
      "grad_norm": 0.15766066312789917,
      "learning_rate": 0.00019483336791601655,
      "loss": 0.23,
      "step": 2290
    },
    {
      "epoch": 1.0421243347299287,
      "grad_norm": 0.16044190526008606,
      "learning_rate": 0.00019477500753479603,
      "loss": 0.2234,
      "step": 2300
    },
    {
      "epoch": 1.0466538330879855,
      "grad_norm": 0.18357709050178528,
      "learning_rate": 0.00019471632823371028,
      "loss": 0.2208,
      "step": 2310
    },
    {
      "epoch": 1.0511833314460424,
      "grad_norm": 0.1702904850244522,
      "learning_rate": 0.00019465733021021645,
      "loss": 0.2248,
      "step": 2320
    },
    {
      "epoch": 1.0557128298040992,
      "grad_norm": 0.15621191263198853,
      "learning_rate": 0.00019459801366284403,
      "loss": 0.2286,
      "step": 2330
    },
    {
      "epoch": 1.060242328162156,
      "grad_norm": 0.1782391220331192,
      "learning_rate": 0.00019453837879119444,
      "loss": 0.2304,
      "step": 2340
    },
    {
      "epoch": 1.0647718265202128,
      "grad_norm": 0.16530479490756989,
      "learning_rate": 0.00019447842579594027,
      "loss": 0.2306,
      "step": 2350
    },
    {
      "epoch": 1.0693013248782697,
      "grad_norm": 0.16082873940467834,
      "learning_rate": 0.00019441815487882463,
      "loss": 0.2252,
      "step": 2360
    },
    {
      "epoch": 1.0738308232363265,
      "grad_norm": 0.15404802560806274,
      "learning_rate": 0.00019435756624266035,
      "loss": 0.216,
      "step": 2370
    },
    {
      "epoch": 1.0783603215943833,
      "grad_norm": 0.14842167496681213,
      "learning_rate": 0.00019429666009132944,
      "loss": 0.2218,
      "step": 2380
    },
    {
      "epoch": 1.0828898199524404,
      "grad_norm": 0.16312135756015778,
      "learning_rate": 0.00019423543662978245,
      "loss": 0.212,
      "step": 2390
    },
    {
      "epoch": 1.0874193183104972,
      "grad_norm": 0.17386338114738464,
      "learning_rate": 0.00019417389606403752,
      "loss": 0.2251,
      "step": 2400
    },
    {
      "epoch": 1.091948816668554,
      "grad_norm": 0.17737415432929993,
      "learning_rate": 0.00019411203860117995,
      "loss": 0.2304,
      "step": 2410
    },
    {
      "epoch": 1.0964783150266109,
      "grad_norm": 0.16693584620952606,
      "learning_rate": 0.00019404986444936136,
      "loss": 0.2175,
      "step": 2420
    },
    {
      "epoch": 1.1010078133846677,
      "grad_norm": 0.1775166392326355,
      "learning_rate": 0.00019398737381779913,
      "loss": 0.2209,
      "step": 2430
    },
    {
      "epoch": 1.1055373117427245,
      "grad_norm": 0.1629152148962021,
      "learning_rate": 0.00019392456691677546,
      "loss": 0.2113,
      "step": 2440
    },
    {
      "epoch": 1.1100668101007813,
      "grad_norm": 0.1428159475326538,
      "learning_rate": 0.0001938614439576369,
      "loss": 0.2141,
      "step": 2450
    },
    {
      "epoch": 1.1145963084588382,
      "grad_norm": 0.1580020934343338,
      "learning_rate": 0.0001937980051527935,
      "loss": 0.2193,
      "step": 2460
    },
    {
      "epoch": 1.119125806816895,
      "grad_norm": 0.13861976563930511,
      "learning_rate": 0.0001937342507157182,
      "loss": 0.2091,
      "step": 2470
    },
    {
      "epoch": 1.1236553051749518,
      "grad_norm": 0.16170430183410645,
      "learning_rate": 0.00019367018086094594,
      "loss": 0.2175,
      "step": 2480
    },
    {
      "epoch": 1.1281848035330087,
      "grad_norm": 0.15579678118228912,
      "learning_rate": 0.00019360579580407315,
      "loss": 0.2091,
      "step": 2490
    },
    {
      "epoch": 1.1327143018910655,
      "grad_norm": 0.15239351987838745,
      "learning_rate": 0.00019354109576175685,
      "loss": 0.2189,
      "step": 2500
    },
    {
      "epoch": 1.1372438002491223,
      "grad_norm": 0.16122813522815704,
      "learning_rate": 0.00019347608095171407,
      "loss": 0.2159,
      "step": 2510
    },
    {
      "epoch": 1.1417732986071791,
      "grad_norm": 0.14791563153266907,
      "learning_rate": 0.00019341075159272096,
      "loss": 0.2093,
      "step": 2520
    },
    {
      "epoch": 1.1463027969652362,
      "grad_norm": 0.138755664229393,
      "learning_rate": 0.0001933451079046122,
      "loss": 0.2231,
      "step": 2530
    },
    {
      "epoch": 1.150832295323293,
      "grad_norm": 0.15061049163341522,
      "learning_rate": 0.0001932791501082801,
      "loss": 0.2067,
      "step": 2540
    },
    {
      "epoch": 1.1553617936813498,
      "grad_norm": 0.17541393637657166,
      "learning_rate": 0.00019321287842567408,
      "loss": 0.2197,
      "step": 2550
    },
    {
      "epoch": 1.1598912920394067,
      "grad_norm": 0.17274054884910583,
      "learning_rate": 0.00019314629307979968,
      "loss": 0.2179,
      "step": 2560
    },
    {
      "epoch": 1.1644207903974635,
      "grad_norm": 0.16083642840385437,
      "learning_rate": 0.000193079394294718,
      "loss": 0.2139,
      "step": 2570
    },
    {
      "epoch": 1.1689502887555203,
      "grad_norm": 0.16815818846225739,
      "learning_rate": 0.00019301218229554482,
      "loss": 0.2158,
      "step": 2580
    },
    {
      "epoch": 1.1734797871135771,
      "grad_norm": 0.15939727425575256,
      "learning_rate": 0.0001929446573084499,
      "loss": 0.2139,
      "step": 2590
    },
    {
      "epoch": 1.178009285471634,
      "grad_norm": 0.14855942130088806,
      "learning_rate": 0.00019287681956065624,
      "loss": 0.2156,
      "step": 2600
    },
    {
      "epoch": 1.1825387838296908,
      "grad_norm": 0.16065727174282074,
      "learning_rate": 0.00019280866928043927,
      "loss": 0.2131,
      "step": 2610
    },
    {
      "epoch": 1.1870682821877476,
      "grad_norm": 0.15156914293766022,
      "learning_rate": 0.00019274020669712608,
      "loss": 0.2133,
      "step": 2620
    },
    {
      "epoch": 1.1915977805458047,
      "grad_norm": 0.15163294970989227,
      "learning_rate": 0.00019267143204109469,
      "loss": 0.2172,
      "step": 2630
    },
    {
      "epoch": 1.1961272789038615,
      "grad_norm": 0.14060626924037933,
      "learning_rate": 0.00019260234554377325,
      "loss": 0.2048,
      "step": 2640
    },
    {
      "epoch": 1.2006567772619183,
      "grad_norm": 0.16215626895427704,
      "learning_rate": 0.00019253294743763925,
      "loss": 0.2077,
      "step": 2650
    },
    {
      "epoch": 1.2051862756199752,
      "grad_norm": 0.13906173408031464,
      "learning_rate": 0.00019246323795621875,
      "loss": 0.2125,
      "step": 2660
    },
    {
      "epoch": 1.209715773978032,
      "grad_norm": 0.15761959552764893,
      "learning_rate": 0.0001923932173340856,
      "loss": 0.2104,
      "step": 2670
    },
    {
      "epoch": 1.2142452723360888,
      "grad_norm": 0.16140113770961761,
      "learning_rate": 0.00019232288580686068,
      "loss": 0.2131,
      "step": 2680
    },
    {
      "epoch": 1.2187747706941456,
      "grad_norm": 0.13611847162246704,
      "learning_rate": 0.000192252243611211,
      "loss": 0.2042,
      "step": 2690
    },
    {
      "epoch": 1.2233042690522025,
      "grad_norm": 0.14395853877067566,
      "learning_rate": 0.00019218129098484902,
      "loss": 0.2144,
      "step": 2700
    },
    {
      "epoch": 1.2278337674102593,
      "grad_norm": 0.14826107025146484,
      "learning_rate": 0.0001921100281665318,
      "loss": 0.2119,
      "step": 2710
    },
    {
      "epoch": 1.2323632657683161,
      "grad_norm": 0.1515769064426422,
      "learning_rate": 0.0001920384553960602,
      "loss": 0.2051,
      "step": 2720
    },
    {
      "epoch": 1.236892764126373,
      "grad_norm": 0.15898488461971283,
      "learning_rate": 0.00019196657291427807,
      "loss": 0.2127,
      "step": 2730
    },
    {
      "epoch": 1.2414222624844298,
      "grad_norm": 0.13833607733249664,
      "learning_rate": 0.00019189438096307146,
      "loss": 0.2097,
      "step": 2740
    },
    {
      "epoch": 1.2459517608424866,
      "grad_norm": 0.14516334235668182,
      "learning_rate": 0.0001918218797853678,
      "loss": 0.1958,
      "step": 2750
    },
    {
      "epoch": 1.2504812592005434,
      "grad_norm": 0.13684655725955963,
      "learning_rate": 0.00019174906962513504,
      "loss": 0.2196,
      "step": 2760
    },
    {
      "epoch": 1.2550107575586003,
      "grad_norm": 0.16645090281963348,
      "learning_rate": 0.00019167595072738084,
      "loss": 0.2095,
      "step": 2770
    },
    {
      "epoch": 1.2595402559166573,
      "grad_norm": 0.1568327695131302,
      "learning_rate": 0.00019160252333815187,
      "loss": 0.2046,
      "step": 2780
    },
    {
      "epoch": 1.2640697542747141,
      "grad_norm": 0.15349489450454712,
      "learning_rate": 0.00019152878770453279,
      "loss": 0.2124,
      "step": 2790
    },
    {
      "epoch": 1.268599252632771,
      "grad_norm": 0.16242361068725586,
      "learning_rate": 0.00019145474407464554,
      "loss": 0.2059,
      "step": 2800
    },
    {
      "epoch": 1.2731287509908278,
      "grad_norm": 0.15133287012577057,
      "learning_rate": 0.00019138039269764846,
      "loss": 0.2068,
      "step": 2810
    },
    {
      "epoch": 1.2776582493488846,
      "grad_norm": 0.1698140799999237,
      "learning_rate": 0.00019130573382373549,
      "loss": 0.2165,
      "step": 2820
    },
    {
      "epoch": 1.2821877477069414,
      "grad_norm": 0.16591964662075043,
      "learning_rate": 0.00019123076770413526,
      "loss": 0.2052,
      "step": 2830
    },
    {
      "epoch": 1.2867172460649983,
      "grad_norm": 0.14136140048503876,
      "learning_rate": 0.00019115549459111034,
      "loss": 0.1972,
      "step": 2840
    },
    {
      "epoch": 1.291246744423055,
      "grad_norm": 0.15886986255645752,
      "learning_rate": 0.0001910799147379563,
      "loss": 0.2178,
      "step": 2850
    },
    {
      "epoch": 1.295776242781112,
      "grad_norm": 0.143589586019516,
      "learning_rate": 0.00019100402839900097,
      "loss": 0.2139,
      "step": 2860
    },
    {
      "epoch": 1.300305741139169,
      "grad_norm": 0.16037988662719727,
      "learning_rate": 0.0001909278358296034,
      "loss": 0.2073,
      "step": 2870
    },
    {
      "epoch": 1.3048352394972258,
      "grad_norm": 0.1397211104631424,
      "learning_rate": 0.00019085133728615313,
      "loss": 0.2045,
      "step": 2880
    },
    {
      "epoch": 1.3093647378552826,
      "grad_norm": 0.1394536942243576,
      "learning_rate": 0.00019077453302606944,
      "loss": 0.194,
      "step": 2890
    },
    {
      "epoch": 1.3138942362133395,
      "grad_norm": 0.1598595380783081,
      "learning_rate": 0.00019069742330780014,
      "loss": 0.205,
      "step": 2900
    },
    {
      "epoch": 1.3184237345713963,
      "grad_norm": 0.16302059590816498,
      "learning_rate": 0.00019062000839082115,
      "loss": 0.2044,
      "step": 2910
    },
    {
      "epoch": 1.322953232929453,
      "grad_norm": 0.15237270295619965,
      "learning_rate": 0.0001905422885356352,
      "loss": 0.2061,
      "step": 2920
    },
    {
      "epoch": 1.32748273128751,
      "grad_norm": 0.16175110638141632,
      "learning_rate": 0.00019046426400377123,
      "loss": 0.2127,
      "step": 2930
    },
    {
      "epoch": 1.3320122296455668,
      "grad_norm": 0.17352445423603058,
      "learning_rate": 0.00019038593505778343,
      "loss": 0.2121,
      "step": 2940
    },
    {
      "epoch": 1.3365417280036236,
      "grad_norm": 0.15539845824241638,
      "learning_rate": 0.0001903073019612503,
      "loss": 0.1996,
      "step": 2950
    },
    {
      "epoch": 1.3410712263616804,
      "grad_norm": 0.1654234081506729,
      "learning_rate": 0.00019022836497877382,
      "loss": 0.1982,
      "step": 2960
    },
    {
      "epoch": 1.3456007247197372,
      "grad_norm": 0.15698087215423584,
      "learning_rate": 0.00019014912437597862,
      "loss": 0.2006,
      "step": 2970
    },
    {
      "epoch": 1.350130223077794,
      "grad_norm": 0.15171001851558685,
      "learning_rate": 0.00019006958041951094,
      "loss": 0.2066,
      "step": 2980
    },
    {
      "epoch": 1.354659721435851,
      "grad_norm": 0.15153132379055023,
      "learning_rate": 0.00018998973337703784,
      "loss": 0.1969,
      "step": 2990
    },
    {
      "epoch": 1.3591892197939077,
      "grad_norm": 0.14000695943832397,
      "learning_rate": 0.00018990958351724634,
      "loss": 0.2081,
      "step": 3000
    },
    {
      "epoch": 1.3637187181519645,
      "grad_norm": 0.14371009171009064,
      "learning_rate": 0.00018982913110984225,
      "loss": 0.1964,
      "step": 3010
    },
    {
      "epoch": 1.3682482165100216,
      "grad_norm": 0.1594901829957962,
      "learning_rate": 0.0001897483764255497,
      "loss": 0.2004,
      "step": 3020
    },
    {
      "epoch": 1.3727777148680784,
      "grad_norm": 0.15266938507556915,
      "learning_rate": 0.00018966731973610985,
      "loss": 0.2081,
      "step": 3030
    },
    {
      "epoch": 1.3773072132261353,
      "grad_norm": 0.17764367163181305,
      "learning_rate": 0.0001895859613142801,
      "loss": 0.2028,
      "step": 3040
    },
    {
      "epoch": 1.381836711584192,
      "grad_norm": 0.15086011588573456,
      "learning_rate": 0.0001895043014338333,
      "loss": 0.1984,
      "step": 3050
    },
    {
      "epoch": 1.386366209942249,
      "grad_norm": 0.1648501455783844,
      "learning_rate": 0.00018942234036955659,
      "loss": 0.2019,
      "step": 3060
    },
    {
      "epoch": 1.3908957083003057,
      "grad_norm": 0.1467510610818863,
      "learning_rate": 0.00018934007839725063,
      "loss": 0.1972,
      "step": 3070
    },
    {
      "epoch": 1.3954252066583626,
      "grad_norm": 0.17046092450618744,
      "learning_rate": 0.0001892575157937287,
      "loss": 0.2053,
      "step": 3080
    },
    {
      "epoch": 1.3999547050164194,
      "grad_norm": 0.14983297884464264,
      "learning_rate": 0.0001891746528368157,
      "loss": 0.1986,
      "step": 3090
    },
    {
      "epoch": 1.4044842033744762,
      "grad_norm": 0.16196715831756592,
      "learning_rate": 0.00018909148980534712,
      "loss": 0.1982,
      "step": 3100
    },
    {
      "epoch": 1.409013701732533,
      "grad_norm": 0.15527282655239105,
      "learning_rate": 0.00018900802697916836,
      "loss": 0.2028,
      "step": 3110
    },
    {
      "epoch": 1.41354320009059,
      "grad_norm": 0.1645379364490509,
      "learning_rate": 0.0001889242646391335,
      "loss": 0.1939,
      "step": 3120
    },
    {
      "epoch": 1.418072698448647,
      "grad_norm": 0.1684643030166626,
      "learning_rate": 0.0001888402030671046,
      "loss": 0.1931,
      "step": 3130
    },
    {
      "epoch": 1.4226021968067037,
      "grad_norm": 0.15814268589019775,
      "learning_rate": 0.00018875584254595055,
      "loss": 0.1951,
      "step": 3140
    },
    {
      "epoch": 1.4271316951647606,
      "grad_norm": 0.1520155966281891,
      "learning_rate": 0.00018867118335954625,
      "loss": 0.1886,
      "step": 3150
    },
    {
      "epoch": 1.4316611935228174,
      "grad_norm": 0.16438494622707367,
      "learning_rate": 0.0001885862257927717,
      "loss": 0.2015,
      "step": 3160
    },
    {
      "epoch": 1.4361906918808742,
      "grad_norm": 0.15568524599075317,
      "learning_rate": 0.00018850097013151077,
      "loss": 0.1898,
      "step": 3170
    },
    {
      "epoch": 1.440720190238931,
      "grad_norm": 0.15463340282440186,
      "learning_rate": 0.00018841541666265058,
      "loss": 0.1988,
      "step": 3180
    },
    {
      "epoch": 1.4452496885969879,
      "grad_norm": 0.14274995028972626,
      "learning_rate": 0.00018832956567408032,
      "loss": 0.1884,
      "step": 3190
    },
    {
      "epoch": 1.4497791869550447,
      "grad_norm": 0.17546044290065765,
      "learning_rate": 0.00018824341745469033,
      "loss": 0.1959,
      "step": 3200
    },
    {
      "epoch": 1.4543086853131015,
      "grad_norm": 0.14111734926700592,
      "learning_rate": 0.0001881569722943712,
      "loss": 0.1929,
      "step": 3210
    },
    {
      "epoch": 1.4588381836711584,
      "grad_norm": 0.1645372211933136,
      "learning_rate": 0.00018807023048401263,
      "loss": 0.1913,
      "step": 3220
    },
    {
      "epoch": 1.4633676820292152,
      "grad_norm": 0.16762864589691162,
      "learning_rate": 0.00018798319231550265,
      "loss": 0.1876,
      "step": 3230
    },
    {
      "epoch": 1.467897180387272,
      "grad_norm": 0.14765408635139465,
      "learning_rate": 0.00018789585808172649,
      "loss": 0.1935,
      "step": 3240
    },
    {
      "epoch": 1.4724266787453288,
      "grad_norm": 0.16272325813770294,
      "learning_rate": 0.0001878082280765656,
      "loss": 0.199,
      "step": 3250
    },
    {
      "epoch": 1.4769561771033857,
      "grad_norm": 0.14496152102947235,
      "learning_rate": 0.0001877203025948969,
      "loss": 0.1987,
      "step": 3260
    },
    {
      "epoch": 1.4814856754614427,
      "grad_norm": 0.1556200087070465,
      "learning_rate": 0.00018763208193259132,
      "loss": 0.1938,
      "step": 3270
    },
    {
      "epoch": 1.4860151738194995,
      "grad_norm": 0.14785943925380707,
      "learning_rate": 0.00018754356638651332,
      "loss": 0.1905,
      "step": 3280
    },
    {
      "epoch": 1.4905446721775564,
      "grad_norm": 0.14636161923408508,
      "learning_rate": 0.00018745475625451947,
      "loss": 0.1928,
      "step": 3290
    },
    {
      "epoch": 1.4950741705356132,
      "grad_norm": 0.16059593856334686,
      "learning_rate": 0.00018736565183545773,
      "loss": 0.1967,
      "step": 3300
    },
    {
      "epoch": 1.49960366889367,
      "grad_norm": 0.15864983201026917,
      "learning_rate": 0.00018727625342916633,
      "loss": 0.1984,
      "step": 3310
    },
    {
      "epoch": 1.5041331672517269,
      "grad_norm": 0.14578469097614288,
      "learning_rate": 0.00018718656133647277,
      "loss": 0.1848,
      "step": 3320
    },
    {
      "epoch": 1.5086626656097837,
      "grad_norm": 0.16975462436676025,
      "learning_rate": 0.00018709657585919275,
      "loss": 0.1914,
      "step": 3330
    },
    {
      "epoch": 1.5131921639678405,
      "grad_norm": 0.14356206357479095,
      "learning_rate": 0.00018700629730012934,
      "loss": 0.1978,
      "step": 3340
    },
    {
      "epoch": 1.5177216623258976,
      "grad_norm": 0.14980971813201904,
      "learning_rate": 0.00018691572596307173,
      "loss": 0.1993,
      "step": 3350
    },
    {
      "epoch": 1.5222511606839544,
      "grad_norm": 0.1422482430934906,
      "learning_rate": 0.00018682486215279435,
      "loss": 0.187,
      "step": 3360
    },
    {
      "epoch": 1.5267806590420112,
      "grad_norm": 0.1586323380470276,
      "learning_rate": 0.00018673370617505576,
      "loss": 0.1843,
      "step": 3370
    },
    {
      "epoch": 1.531310157400068,
      "grad_norm": 0.1464434564113617,
      "learning_rate": 0.00018664225833659777,
      "loss": 0.1973,
      "step": 3380
    },
    {
      "epoch": 1.5358396557581249,
      "grad_norm": 0.16265639662742615,
      "learning_rate": 0.00018655051894514424,
      "loss": 0.1873,
      "step": 3390
    },
    {
      "epoch": 1.5403691541161817,
      "grad_norm": 0.13967713713645935,
      "learning_rate": 0.00018645848830940013,
      "loss": 0.1834,
      "step": 3400
    },
    {
      "epoch": 1.5448986524742385,
      "grad_norm": 0.12256325781345367,
      "learning_rate": 0.0001863661667390504,
      "loss": 0.1849,
      "step": 3410
    },
    {
      "epoch": 1.5494281508322953,
      "grad_norm": 0.14708378911018372,
      "learning_rate": 0.00018627355454475908,
      "loss": 0.1921,
      "step": 3420
    },
    {
      "epoch": 1.5539576491903522,
      "grad_norm": 0.14427697658538818,
      "learning_rate": 0.00018618065203816812,
      "loss": 0.1863,
      "step": 3430
    },
    {
      "epoch": 1.558487147548409,
      "grad_norm": 0.1333187371492386,
      "learning_rate": 0.0001860874595318964,
      "loss": 0.1927,
      "step": 3440
    },
    {
      "epoch": 1.5630166459064658,
      "grad_norm": 0.15604457259178162,
      "learning_rate": 0.00018599397733953858,
      "loss": 0.1841,
      "step": 3450
    },
    {
      "epoch": 1.5675461442645227,
      "grad_norm": 0.147917240858078,
      "learning_rate": 0.00018590020577566424,
      "loss": 0.1886,
      "step": 3460
    },
    {
      "epoch": 1.5720756426225795,
      "grad_norm": 0.14821654558181763,
      "learning_rate": 0.0001858061451558166,
      "loss": 0.1833,
      "step": 3470
    },
    {
      "epoch": 1.5766051409806363,
      "grad_norm": 0.12086760997772217,
      "learning_rate": 0.00018571179579651159,
      "loss": 0.1918,
      "step": 3480
    },
    {
      "epoch": 1.5811346393386931,
      "grad_norm": 0.16424959897994995,
      "learning_rate": 0.0001856171580152368,
      "loss": 0.1792,
      "step": 3490
    },
    {
      "epoch": 1.58566413769675,
      "grad_norm": 0.14219975471496582,
      "learning_rate": 0.00018552223213045028,
      "loss": 0.1946,
      "step": 3500
    },
    {
      "epoch": 1.5901936360548068,
      "grad_norm": 0.1768968552350998,
      "learning_rate": 0.00018542701846157962,
      "loss": 0.1843,
      "step": 3510
    },
    {
      "epoch": 1.5947231344128636,
      "grad_norm": 0.12454737722873688,
      "learning_rate": 0.0001853315173290208,
      "loss": 0.1836,
      "step": 3520
    },
    {
      "epoch": 1.5992526327709207,
      "grad_norm": 0.14064136147499084,
      "learning_rate": 0.00018523572905413709,
      "loss": 0.1841,
      "step": 3530
    },
    {
      "epoch": 1.6037821311289775,
      "grad_norm": 0.15816141664981842,
      "learning_rate": 0.00018513965395925802,
      "loss": 0.1882,
      "step": 3540
    },
    {
      "epoch": 1.6083116294870343,
      "grad_norm": 0.15514902770519257,
      "learning_rate": 0.00018504329236767832,
      "loss": 0.1881,
      "step": 3550
    },
    {
      "epoch": 1.6128411278450911,
      "grad_norm": 0.15803417563438416,
      "learning_rate": 0.00018494664460365668,
      "loss": 0.1859,
      "step": 3560
    },
    {
      "epoch": 1.617370626203148,
      "grad_norm": 0.12781353294849396,
      "learning_rate": 0.00018484971099241485,
      "loss": 0.1832,
      "step": 3570
    },
    {
      "epoch": 1.6219001245612048,
      "grad_norm": 0.16309882700443268,
      "learning_rate": 0.0001847524918601365,
      "loss": 0.1962,
      "step": 3580
    },
    {
      "epoch": 1.6264296229192619,
      "grad_norm": 0.12590362131595612,
      "learning_rate": 0.00018465498753396595,
      "loss": 0.1928,
      "step": 3590
    },
    {
      "epoch": 1.6309591212773187,
      "grad_norm": 0.1451760232448578,
      "learning_rate": 0.00018455719834200728,
      "loss": 0.1837,
      "step": 3600
    },
    {
      "epoch": 1.6354886196353755,
      "grad_norm": 0.14908108115196228,
      "learning_rate": 0.0001844591246133232,
      "loss": 0.1866,
      "step": 3610
    },
    {
      "epoch": 1.6400181179934323,
      "grad_norm": 0.13437342643737793,
      "learning_rate": 0.00018436076667793382,
      "loss": 0.1886,
      "step": 3620
    },
    {
      "epoch": 1.6445476163514892,
      "grad_norm": 0.13465970754623413,
      "learning_rate": 0.00018426212486681562,
      "loss": 0.183,
      "step": 3630
    },
    {
      "epoch": 1.649077114709546,
      "grad_norm": 0.13650234043598175,
      "learning_rate": 0.00018416319951190032,
      "loss": 0.177,
      "step": 3640
    },
    {
      "epoch": 1.6536066130676028,
      "grad_norm": 0.1663140207529068,
      "learning_rate": 0.00018406399094607386,
      "loss": 0.187,
      "step": 3650
    },
    {
      "epoch": 1.6581361114256596,
      "grad_norm": 0.16565509140491486,
      "learning_rate": 0.00018396449950317504,
      "loss": 0.1837,
      "step": 3660
    },
    {
      "epoch": 1.6626656097837165,
      "grad_norm": 0.18802668154239655,
      "learning_rate": 0.0001838647255179947,
      "loss": 0.1814,
      "step": 3670
    },
    {
      "epoch": 1.6671951081417733,
      "grad_norm": 0.17005442082881927,
      "learning_rate": 0.0001837646693262743,
      "loss": 0.1871,
      "step": 3680
    },
    {
      "epoch": 1.6717246064998301,
      "grad_norm": 0.14796973764896393,
      "learning_rate": 0.00018366433126470506,
      "loss": 0.1781,
      "step": 3690
    },
    {
      "epoch": 1.676254104857887,
      "grad_norm": 0.1405303180217743,
      "learning_rate": 0.0001835637116709266,
      "loss": 0.1792,
      "step": 3700
    },
    {
      "epoch": 1.6807836032159438,
      "grad_norm": 0.1343483328819275,
      "learning_rate": 0.00018346281088352592,
      "loss": 0.1807,
      "step": 3710
    },
    {
      "epoch": 1.6853131015740006,
      "grad_norm": 0.14635176956653595,
      "learning_rate": 0.00018336162924203632,
      "loss": 0.176,
      "step": 3720
    },
    {
      "epoch": 1.6898425999320574,
      "grad_norm": 0.13452979922294617,
      "learning_rate": 0.0001832601670869361,
      "loss": 0.1822,
      "step": 3730
    },
    {
      "epoch": 1.6943720982901143,
      "grad_norm": 0.14736182987689972,
      "learning_rate": 0.00018315842475964748,
      "loss": 0.1828,
      "step": 3740
    },
    {
      "epoch": 1.698901596648171,
      "grad_norm": 0.13288873434066772,
      "learning_rate": 0.00018305640260253553,
      "loss": 0.1749,
      "step": 3750
    },
    {
      "epoch": 1.703431095006228,
      "grad_norm": 0.146206796169281,
      "learning_rate": 0.00018295410095890696,
      "loss": 0.191,
      "step": 3760
    },
    {
      "epoch": 1.7079605933642847,
      "grad_norm": 0.13878855109214783,
      "learning_rate": 0.00018285152017300885,
      "loss": 0.1827,
      "step": 3770
    },
    {
      "epoch": 1.7124900917223418,
      "grad_norm": 0.14912264049053192,
      "learning_rate": 0.00018275895908433733,
      "loss": 0.173,
      "step": 3780
    },
    {
      "epoch": 1.7170195900803986,
      "grad_norm": 0.14632469415664673,
      "learning_rate": 0.0001826558488798913,
      "loss": 0.1776,
      "step": 3790
    },
    {
      "epoch": 1.7215490884384554,
      "grad_norm": 0.14830105006694794,
      "learning_rate": 0.0001825524605368002,
      "loss": 0.1762,
      "step": 3800
    },
    {
      "epoch": 1.7260785867965123,
      "grad_norm": 0.15307176113128662,
      "learning_rate": 0.00018244879440296793,
      "loss": 0.1753,
      "step": 3810
    },
    {
      "epoch": 1.730608085154569,
      "grad_norm": 0.15168583393096924,
      "learning_rate": 0.0001823448508272332,
      "loss": 0.1774,
      "step": 3820
    },
    {
      "epoch": 1.735137583512626,
      "grad_norm": 0.14207693934440613,
      "learning_rate": 0.0001822406301593683,
      "loss": 0.1765,
      "step": 3830
    },
    {
      "epoch": 1.739667081870683,
      "grad_norm": 0.15022936463356018,
      "learning_rate": 0.0001821361327500779,
      "loss": 0.1852,
      "step": 3840
    },
    {
      "epoch": 1.7441965802287398,
      "grad_norm": 0.14267757534980774,
      "learning_rate": 0.00018203135895099797,
      "loss": 0.1788,
      "step": 3850
    },
    {
      "epoch": 1.7487260785867966,
      "grad_norm": 0.13068848848342896,
      "learning_rate": 0.00018192630911469454,
      "loss": 0.1834,
      "step": 3860
    },
    {
      "epoch": 1.7532555769448535,
      "grad_norm": 0.13527341187000275,
      "learning_rate": 0.00018182098359466244,
      "loss": 0.1878,
      "step": 3870
    },
    {
      "epoch": 1.7577850753029103,
      "grad_norm": 0.14090019464492798,
      "learning_rate": 0.00018171538274532428,
      "loss": 0.1825,
      "step": 3880
    },
    {
      "epoch": 1.762314573660967,
      "grad_norm": 0.16419830918312073,
      "learning_rate": 0.00018160950692202907,
      "loss": 0.1735,
      "step": 3890
    },
    {
      "epoch": 1.766844072019024,
      "grad_norm": 0.13737310469150543,
      "learning_rate": 0.00018150335648105118,
      "loss": 0.1798,
      "step": 3900
    },
    {
      "epoch": 1.7713735703770808,
      "grad_norm": 0.13491977751255035,
      "learning_rate": 0.00018139693177958902,
      "loss": 0.1814,
      "step": 3910
    },
    {
      "epoch": 1.7759030687351376,
      "grad_norm": 0.13069839775562286,
      "learning_rate": 0.0001812902331757639,
      "loss": 0.1795,
      "step": 3920
    },
    {
      "epoch": 1.7804325670931944,
      "grad_norm": 0.14693836867809296,
      "learning_rate": 0.0001811832610286189,
      "loss": 0.1798,
      "step": 3930
    },
    {
      "epoch": 1.7849620654512512,
      "grad_norm": 0.15298062562942505,
      "learning_rate": 0.00018107601569811746,
      "loss": 0.1717,
      "step": 3940
    },
    {
      "epoch": 1.789491563809308,
      "grad_norm": 0.1533603072166443,
      "learning_rate": 0.0001809684975451423,
      "loss": 0.1825,
      "step": 3950
    },
    {
      "epoch": 1.794021062167365,
      "grad_norm": 0.15522614121437073,
      "learning_rate": 0.00018086070693149435,
      "loss": 0.1843,
      "step": 3960
    },
    {
      "epoch": 1.7985505605254217,
      "grad_norm": 0.12531672418117523,
      "learning_rate": 0.00018075264421989117,
      "loss": 0.1839,
      "step": 3970
    },
    {
      "epoch": 1.8030800588834786,
      "grad_norm": 0.1647823303937912,
      "learning_rate": 0.00018064430977396607,
      "loss": 0.1842,
      "step": 3980
    },
    {
      "epoch": 1.8076095572415354,
      "grad_norm": 0.14417417347431183,
      "learning_rate": 0.00018053570395826666,
      "loss": 0.17,
      "step": 3990
    },
    {
      "epoch": 1.8121390555995922,
      "grad_norm": 0.14394541084766388,
      "learning_rate": 0.00018042682713825377,
      "loss": 0.181,
      "step": 4000
    },
    {
      "epoch": 1.816668553957649,
      "grad_norm": 0.13082464039325714,
      "learning_rate": 0.0001803176796803002,
      "loss": 0.1759,
      "step": 4010
    },
    {
      "epoch": 1.821198052315706,
      "grad_norm": 0.13551370799541473,
      "learning_rate": 0.00018020826195168938,
      "loss": 0.1737,
      "step": 4020
    },
    {
      "epoch": 1.825727550673763,
      "grad_norm": 0.16460978984832764,
      "learning_rate": 0.00018009857432061424,
      "loss": 0.1788,
      "step": 4030
    },
    {
      "epoch": 1.8302570490318197,
      "grad_norm": 0.1246340349316597,
      "learning_rate": 0.00017998861715617595,
      "loss": 0.1648,
      "step": 4040
    },
    {
      "epoch": 1.8347865473898766,
      "grad_norm": 0.14473074674606323,
      "learning_rate": 0.00017987839082838264,
      "loss": 0.1683,
      "step": 4050
    },
    {
      "epoch": 1.8393160457479334,
      "grad_norm": 0.13617068529129028,
      "learning_rate": 0.00017976789570814812,
      "loss": 0.1731,
      "step": 4060
    },
    {
      "epoch": 1.8438455441059902,
      "grad_norm": 0.1399005949497223,
      "learning_rate": 0.00017965713216729084,
      "loss": 0.1726,
      "step": 4070
    },
    {
      "epoch": 1.8483750424640473,
      "grad_norm": 0.15167087316513062,
      "learning_rate": 0.00017954610057853242,
      "loss": 0.1769,
      "step": 4080
    },
    {
      "epoch": 1.852904540822104,
      "grad_norm": 0.1486155092716217,
      "learning_rate": 0.00017943480131549637,
      "loss": 0.1735,
      "step": 4090
    },
    {
      "epoch": 1.857434039180161,
      "grad_norm": 0.12672476470470428,
      "learning_rate": 0.00017932323475270713,
      "loss": 0.1692,
      "step": 4100
    },
    {
      "epoch": 1.8619635375382178,
      "grad_norm": 0.12943005561828613,
      "learning_rate": 0.0001792114012655884,
      "loss": 0.1736,
      "step": 4110
    },
    {
      "epoch": 1.8664930358962746,
      "grad_norm": 0.1305234730243683,
      "learning_rate": 0.00017909930123046226,
      "loss": 0.1693,
      "step": 4120
    },
    {
      "epoch": 1.8710225342543314,
      "grad_norm": 0.15078797936439514,
      "learning_rate": 0.00017898693502454757,
      "loss": 0.1714,
      "step": 4130
    },
    {
      "epoch": 1.8755520326123882,
      "grad_norm": 0.13605743646621704,
      "learning_rate": 0.00017887430302595902,
      "loss": 0.1742,
      "step": 4140
    },
    {
      "epoch": 1.880081530970445,
      "grad_norm": 0.15072084963321686,
      "learning_rate": 0.0001787614056137056,
      "loss": 0.1761,
      "step": 4150
    },
    {
      "epoch": 1.8846110293285019,
      "grad_norm": 0.12788626551628113,
      "learning_rate": 0.0001786482431676894,
      "loss": 0.1698,
      "step": 4160
    },
    {
      "epoch": 1.8891405276865587,
      "grad_norm": 0.11104808747768402,
      "learning_rate": 0.00017853481606870447,
      "loss": 0.1673,
      "step": 4170
    },
    {
      "epoch": 1.8936700260446155,
      "grad_norm": 0.15082287788391113,
      "learning_rate": 0.00017842112469843526,
      "loss": 0.1771,
      "step": 4180
    },
    {
      "epoch": 1.8981995244026724,
      "grad_norm": 0.13250093162059784,
      "learning_rate": 0.00017830716943945566,
      "loss": 0.1693,
      "step": 4190
    },
    {
      "epoch": 1.9027290227607292,
      "grad_norm": 0.1345834881067276,
      "learning_rate": 0.00017819295067522746,
      "loss": 0.1657,
      "step": 4200
    },
    {
      "epoch": 1.907258521118786,
      "grad_norm": 0.12472589313983917,
      "learning_rate": 0.00017807846879009916,
      "loss": 0.1673,
      "step": 4210
    },
    {
      "epoch": 1.9117880194768428,
      "grad_norm": 0.14480777084827423,
      "learning_rate": 0.00017796372416930466,
      "loss": 0.1617,
      "step": 4220
    },
    {
      "epoch": 1.9163175178348997,
      "grad_norm": 0.12188120186328888,
      "learning_rate": 0.00017784871719896207,
      "loss": 0.1697,
      "step": 4230
    },
    {
      "epoch": 1.9208470161929565,
      "grad_norm": 0.13561968505382538,
      "learning_rate": 0.0001777334482660721,
      "loss": 0.1675,
      "step": 4240
    },
    {
      "epoch": 1.9253765145510133,
      "grad_norm": 0.1565788984298706,
      "learning_rate": 0.0001776179177585172,
      "loss": 0.1695,
      "step": 4250
    },
    {
      "epoch": 1.9299060129090702,
      "grad_norm": 0.13274118304252625,
      "learning_rate": 0.00017750212606505988,
      "loss": 0.173,
      "step": 4260
    },
    {
      "epoch": 1.9344355112671272,
      "grad_norm": 0.13509687781333923,
      "learning_rate": 0.0001773860735753416,
      "loss": 0.1711,
      "step": 4270
    },
    {
      "epoch": 1.938965009625184,
      "grad_norm": 0.14307665824890137,
      "learning_rate": 0.0001772697606798814,
      "loss": 0.1752,
      "step": 4280
    },
    {
      "epoch": 1.9434945079832409,
      "grad_norm": 0.14142999053001404,
      "learning_rate": 0.0001771531877700746,
      "loss": 0.1746,
      "step": 4290
    },
    {
      "epoch": 1.9480240063412977,
      "grad_norm": 0.13015881180763245,
      "learning_rate": 0.0001770363552381914,
      "loss": 0.1624,
      "step": 4300
    },
    {
      "epoch": 1.9525535046993545,
      "grad_norm": 0.15056206285953522,
      "learning_rate": 0.00017691926347737573,
      "loss": 0.1683,
      "step": 4310
    },
    {
      "epoch": 1.9570830030574113,
      "grad_norm": 0.1449085772037506,
      "learning_rate": 0.00017680191288164382,
      "loss": 0.1652,
      "step": 4320
    },
    {
      "epoch": 1.9616125014154684,
      "grad_norm": 0.13363459706306458,
      "learning_rate": 0.00017668430384588278,
      "loss": 0.1755,
      "step": 4330
    },
    {
      "epoch": 1.9661419997735252,
      "grad_norm": 0.11182225495576859,
      "learning_rate": 0.00017656643676584955,
      "loss": 0.1649,
      "step": 4340
    },
    {
      "epoch": 1.970671498131582,
      "grad_norm": 0.1344953030347824,
      "learning_rate": 0.00017644831203816926,
      "loss": 0.1699,
      "step": 4350
    },
    {
      "epoch": 1.9752009964896389,
      "grad_norm": 0.14654122292995453,
      "learning_rate": 0.000176329930060334,
      "loss": 0.1646,
      "step": 4360
    },
    {
      "epoch": 1.9797304948476957,
      "grad_norm": 0.12001664191484451,
      "learning_rate": 0.00017621129123070167,
      "loss": 0.1732,
      "step": 4370
    },
    {
      "epoch": 1.9842599932057525,
      "grad_norm": 0.12289103865623474,
      "learning_rate": 0.00017609239594849435,
      "loss": 0.1665,
      "step": 4380
    },
    {
      "epoch": 1.9887894915638094,
      "grad_norm": 0.15383568406105042,
      "learning_rate": 0.00017597324461379716,
      "loss": 0.1668,
      "step": 4390
    },
    {
      "epoch": 1.9933189899218662,
      "grad_norm": 0.11333877593278885,
      "learning_rate": 0.0001758538376275568,
      "loss": 0.1699,
      "step": 4400
    },
    {
      "epoch": 1.997848488279923,
      "grad_norm": 0.13718217611312866,
      "learning_rate": 0.00017573417539158017,
      "loss": 0.1674,
      "step": 4410
    },
    {
      "epoch": 1.9996602876231457,
      "eval_loss": 0.17693181335926056,
      "eval_runtime": 617.1958,
      "eval_samples_per_second": 12.751,
      "eval_steps_per_second": 1.594,
      "step": 4414
    },
    {
      "epoch": 2.002717699014834,
      "grad_norm": 0.12558519840240479,
      "learning_rate": 0.0001756142583085333,
      "loss": 0.1601,
      "step": 4420
    },
    {
      "epoch": 2.007247197372891,
      "grad_norm": 0.171942800283432,
      "learning_rate": 0.00017549408678193962,
      "loss": 0.1325,
      "step": 4430
    },
    {
      "epoch": 2.0117766957309478,
      "grad_norm": 0.12557823956012726,
      "learning_rate": 0.0001753736612161788,
      "loss": 0.1337,
      "step": 4440
    },
    {
      "epoch": 2.0163061940890046,
      "grad_norm": 0.1112385243177414,
      "learning_rate": 0.00017525298201648534,
      "loss": 0.1353,
      "step": 4450
    },
    {
      "epoch": 2.0208356924470614,
      "grad_norm": 0.10396666824817657,
      "learning_rate": 0.00017513204958894728,
      "loss": 0.1344,
      "step": 4460
    },
    {
      "epoch": 2.0253651908051182,
      "grad_norm": 0.11958423256874084,
      "learning_rate": 0.0001750108643405047,
      "loss": 0.1325,
      "step": 4470
    },
    {
      "epoch": 2.029894689163175,
      "grad_norm": 0.13883349299430847,
      "learning_rate": 0.00017488942667894856,
      "loss": 0.1308,
      "step": 4480
    },
    {
      "epoch": 2.034424187521232,
      "grad_norm": 0.12778469920158386,
      "learning_rate": 0.00017476773701291905,
      "loss": 0.1285,
      "step": 4490
    },
    {
      "epoch": 2.0389536858792887,
      "grad_norm": 0.12921588122844696,
      "learning_rate": 0.00017464579575190444,
      "loss": 0.1286,
      "step": 4500
    },
    {
      "epoch": 2.0434831842373455,
      "grad_norm": 0.14378762245178223,
      "learning_rate": 0.00017452360330623957,
      "loss": 0.1389,
      "step": 4510
    },
    {
      "epoch": 2.0480126825954024,
      "grad_norm": 0.13812440633773804,
      "learning_rate": 0.00017440116008710457,
      "loss": 0.1342,
      "step": 4520
    },
    {
      "epoch": 2.052542180953459,
      "grad_norm": 0.15414589643478394,
      "learning_rate": 0.00017427846650652342,
      "loss": 0.1381,
      "step": 4530
    },
    {
      "epoch": 2.0570716793115165,
      "grad_norm": 0.11771693825721741,
      "learning_rate": 0.00017415552297736256,
      "loss": 0.1344,
      "step": 4540
    },
    {
      "epoch": 2.0616011776695733,
      "grad_norm": 0.13729040324687958,
      "learning_rate": 0.00017403232991332953,
      "loss": 0.1323,
      "step": 4550
    },
    {
      "epoch": 2.06613067602763,
      "grad_norm": 0.11777821183204651,
      "learning_rate": 0.00017390888772897148,
      "loss": 0.1354,
      "step": 4560
    },
    {
      "epoch": 2.070660174385687,
      "grad_norm": 0.11759165674448013,
      "learning_rate": 0.00017378519683967399,
      "loss": 0.1359,
      "step": 4570
    },
    {
      "epoch": 2.0751896727437438,
      "grad_norm": 0.14665256440639496,
      "learning_rate": 0.00017366125766165943,
      "loss": 0.1295,
      "step": 4580
    },
    {
      "epoch": 2.0797191711018006,
      "grad_norm": 0.12388816475868225,
      "learning_rate": 0.00017353707061198574,
      "loss": 0.1366,
      "step": 4590
    },
    {
      "epoch": 2.0842486694598574,
      "grad_norm": 0.12518715858459473,
      "learning_rate": 0.00017341263610854487,
      "loss": 0.1372,
      "step": 4600
    },
    {
      "epoch": 2.0887781678179143,
      "grad_norm": 0.1429567039012909,
      "learning_rate": 0.00017328795457006153,
      "loss": 0.1326,
      "step": 4610
    },
    {
      "epoch": 2.093307666175971,
      "grad_norm": 0.11989770084619522,
      "learning_rate": 0.00017316302641609167,
      "loss": 0.134,
      "step": 4620
    },
    {
      "epoch": 2.097837164534028,
      "grad_norm": 0.11995401233434677,
      "learning_rate": 0.00017303785206702115,
      "loss": 0.136,
      "step": 4630
    },
    {
      "epoch": 2.1023666628920847,
      "grad_norm": 0.11321832239627838,
      "learning_rate": 0.0001729124319440642,
      "loss": 0.1371,
      "step": 4640
    },
    {
      "epoch": 2.1068961612501416,
      "grad_norm": 0.11317916214466095,
      "learning_rate": 0.00017278676646926219,
      "loss": 0.1303,
      "step": 4650
    },
    {
      "epoch": 2.1114256596081984,
      "grad_norm": 0.11971450597047806,
      "learning_rate": 0.00017266085606548197,
      "loss": 0.1363,
      "step": 4660
    },
    {
      "epoch": 2.115955157966255,
      "grad_norm": 0.12779143452644348,
      "learning_rate": 0.00017253470115641473,
      "loss": 0.1395,
      "step": 4670
    },
    {
      "epoch": 2.120484656324312,
      "grad_norm": 0.12094374746084213,
      "learning_rate": 0.00017240830216657432,
      "loss": 0.1337,
      "step": 4680
    },
    {
      "epoch": 2.125014154682369,
      "grad_norm": 0.11902227252721786,
      "learning_rate": 0.00017228165952129601,
      "loss": 0.1342,
      "step": 4690
    },
    {
      "epoch": 2.1295436530404257,
      "grad_norm": 0.12663759291172028,
      "learning_rate": 0.00017215477364673486,
      "loss": 0.1356,
      "step": 4700
    },
    {
      "epoch": 2.1340731513984825,
      "grad_norm": 0.12311159074306488,
      "learning_rate": 0.0001720276449698645,
      "loss": 0.1364,
      "step": 4710
    },
    {
      "epoch": 2.1386026497565394,
      "grad_norm": 0.134132981300354,
      "learning_rate": 0.00017190027391847555,
      "loss": 0.1352,
      "step": 4720
    },
    {
      "epoch": 2.143132148114596,
      "grad_norm": 0.1177242249250412,
      "learning_rate": 0.00017177266092117428,
      "loss": 0.132,
      "step": 4730
    },
    {
      "epoch": 2.147661646472653,
      "grad_norm": 0.11641071736812592,
      "learning_rate": 0.00017164480640738101,
      "loss": 0.1359,
      "step": 4740
    },
    {
      "epoch": 2.15219114483071,
      "grad_norm": 0.1303935945034027,
      "learning_rate": 0.00017151671080732888,
      "loss": 0.1354,
      "step": 4750
    },
    {
      "epoch": 2.1567206431887667,
      "grad_norm": 0.13929632306098938,
      "learning_rate": 0.0001713883745520622,
      "loss": 0.1303,
      "step": 4760
    },
    {
      "epoch": 2.1612501415468235,
      "grad_norm": 0.13775485754013062,
      "learning_rate": 0.00017125979807343519,
      "loss": 0.1379,
      "step": 4770
    },
    {
      "epoch": 2.1657796399048808,
      "grad_norm": 0.10667065531015396,
      "learning_rate": 0.00017113098180411026,
      "loss": 0.1323,
      "step": 4780
    },
    {
      "epoch": 2.1703091382629376,
      "grad_norm": 0.12592215836048126,
      "learning_rate": 0.00017100192617755693,
      "loss": 0.1326,
      "step": 4790
    },
    {
      "epoch": 2.1748386366209944,
      "grad_norm": 0.12523461878299713,
      "learning_rate": 0.00017087263162805,
      "loss": 0.1361,
      "step": 4800
    },
    {
      "epoch": 2.1793681349790512,
      "grad_norm": 0.13614587485790253,
      "learning_rate": 0.00017074309859066837,
      "loss": 0.136,
      "step": 4810
    },
    {
      "epoch": 2.183897633337108,
      "grad_norm": 0.13419945538043976,
      "learning_rate": 0.00017061332750129332,
      "loss": 0.1299,
      "step": 4820
    },
    {
      "epoch": 2.188427131695165,
      "grad_norm": 0.10393204540014267,
      "learning_rate": 0.00017048331879660733,
      "loss": 0.1334,
      "step": 4830
    },
    {
      "epoch": 2.1929566300532217,
      "grad_norm": 0.12654437124729156,
      "learning_rate": 0.00017035307291409234,
      "loss": 0.138,
      "step": 4840
    },
    {
      "epoch": 2.1974861284112785,
      "grad_norm": 0.12029164284467697,
      "learning_rate": 0.00017022259029202843,
      "loss": 0.1329,
      "step": 4850
    },
    {
      "epoch": 2.2020156267693354,
      "grad_norm": 0.1427529752254486,
      "learning_rate": 0.00017009187136949238,
      "loss": 0.1314,
      "step": 4860
    },
    {
      "epoch": 2.206545125127392,
      "grad_norm": 0.10956190526485443,
      "learning_rate": 0.00016996091658635603,
      "loss": 0.1324,
      "step": 4870
    },
    {
      "epoch": 2.211074623485449,
      "grad_norm": 0.12758436799049377,
      "learning_rate": 0.00016982972638328496,
      "loss": 0.1326,
      "step": 4880
    },
    {
      "epoch": 2.215604121843506,
      "grad_norm": 0.10729292035102844,
      "learning_rate": 0.00016969830120173692,
      "loss": 0.1317,
      "step": 4890
    },
    {
      "epoch": 2.2201336202015627,
      "grad_norm": 0.14230488240718842,
      "learning_rate": 0.0001695666414839604,
      "loss": 0.1387,
      "step": 4900
    },
    {
      "epoch": 2.2246631185596195,
      "grad_norm": 0.13682898879051208,
      "learning_rate": 0.00016943474767299298,
      "loss": 0.1341,
      "step": 4910
    },
    {
      "epoch": 2.2291926169176763,
      "grad_norm": 0.14022116363048553,
      "learning_rate": 0.0001693026202126602,
      "loss": 0.1345,
      "step": 4920
    },
    {
      "epoch": 2.233722115275733,
      "grad_norm": 0.12787717580795288,
      "learning_rate": 0.00016917025954757365,
      "loss": 0.138,
      "step": 4930
    },
    {
      "epoch": 2.23825161363379,
      "grad_norm": 0.12592186033725739,
      "learning_rate": 0.00016903766612312967,
      "loss": 0.135,
      "step": 4940
    },
    {
      "epoch": 2.242781111991847,
      "grad_norm": 0.12485472112894058,
      "learning_rate": 0.00016890484038550792,
      "loss": 0.1305,
      "step": 4950
    },
    {
      "epoch": 2.2473106103499036,
      "grad_norm": 0.12487582862377167,
      "learning_rate": 0.0001687717827816698,
      "loss": 0.1352,
      "step": 4960
    },
    {
      "epoch": 2.2518401087079605,
      "grad_norm": 0.1367800235748291,
      "learning_rate": 0.0001686384937593568,
      "loss": 0.1377,
      "step": 4970
    },
    {
      "epoch": 2.2563696070660173,
      "grad_norm": 0.12008614093065262,
      "learning_rate": 0.00016850497376708935,
      "loss": 0.1399,
      "step": 4980
    },
    {
      "epoch": 2.260899105424074,
      "grad_norm": 0.1453281044960022,
      "learning_rate": 0.00016837122325416494,
      "loss": 0.134,
      "step": 4990
    },
    {
      "epoch": 2.265428603782131,
      "grad_norm": 0.1182338148355484,
      "learning_rate": 0.00016823724267065683,
      "loss": 0.1386,
      "step": 5000
    },
    {
      "epoch": 2.269958102140188,
      "grad_norm": 0.1372307538986206,
      "learning_rate": 0.00016810303246741245,
      "loss": 0.1336,
      "step": 5010
    },
    {
      "epoch": 2.2744876004982446,
      "grad_norm": 0.1213153526186943,
      "learning_rate": 0.00016796859309605195,
      "loss": 0.1345,
      "step": 5020
    },
    {
      "epoch": 2.2790170988563014,
      "grad_norm": 0.12057512998580933,
      "learning_rate": 0.00016783392500896652,
      "loss": 0.1324,
      "step": 5030
    },
    {
      "epoch": 2.2835465972143583,
      "grad_norm": 0.13681593537330627,
      "learning_rate": 0.00016769902865931718,
      "loss": 0.1377,
      "step": 5040
    },
    {
      "epoch": 2.2880760955724155,
      "grad_norm": 0.12073809653520584,
      "learning_rate": 0.00016756390450103285,
      "loss": 0.1358,
      "step": 5050
    },
    {
      "epoch": 2.2926055939304724,
      "grad_norm": 0.1260959357023239,
      "learning_rate": 0.00016742855298880916,
      "loss": 0.1327,
      "step": 5060
    },
    {
      "epoch": 2.297135092288529,
      "grad_norm": 0.12705475091934204,
      "learning_rate": 0.0001672929745781068,
      "loss": 0.1326,
      "step": 5070
    },
    {
      "epoch": 2.301664590646586,
      "grad_norm": 0.12451212108135223,
      "learning_rate": 0.00016715716972514984,
      "loss": 0.1357,
      "step": 5080
    },
    {
      "epoch": 2.306194089004643,
      "grad_norm": 0.10446886718273163,
      "learning_rate": 0.00016702113888692448,
      "loss": 0.1346,
      "step": 5090
    },
    {
      "epoch": 2.3107235873626997,
      "grad_norm": 0.1240820363163948,
      "learning_rate": 0.0001668848825211773,
      "loss": 0.1376,
      "step": 5100
    },
    {
      "epoch": 2.3152530857207565,
      "grad_norm": 0.11466921865940094,
      "learning_rate": 0.00016674840108641382,
      "loss": 0.1347,
      "step": 5110
    },
    {
      "epoch": 2.3197825840788133,
      "grad_norm": 0.12086183577775955,
      "learning_rate": 0.00016661169504189686,
      "loss": 0.1392,
      "step": 5120
    },
    {
      "epoch": 2.32431208243687,
      "grad_norm": 0.12020442634820938,
      "learning_rate": 0.0001664747648476451,
      "loss": 0.1326,
      "step": 5130
    },
    {
      "epoch": 2.328841580794927,
      "grad_norm": 0.1300458312034607,
      "learning_rate": 0.0001663376109644315,
      "loss": 0.1382,
      "step": 5140
    },
    {
      "epoch": 2.333371079152984,
      "grad_norm": 0.11588041484355927,
      "learning_rate": 0.00016620023385378172,
      "loss": 0.1348,
      "step": 5150
    },
    {
      "epoch": 2.3379005775110406,
      "grad_norm": 0.11398044973611832,
      "learning_rate": 0.0001660626339779726,
      "loss": 0.1335,
      "step": 5160
    },
    {
      "epoch": 2.3424300758690975,
      "grad_norm": 0.10993365198373795,
      "learning_rate": 0.0001659248118000305,
      "loss": 0.1314,
      "step": 5170
    },
    {
      "epoch": 2.3469595742271543,
      "grad_norm": 0.11220837384462357,
      "learning_rate": 0.00016578676778373,
      "loss": 0.1376,
      "step": 5180
    },
    {
      "epoch": 2.351489072585211,
      "grad_norm": 0.12188950926065445,
      "learning_rate": 0.000165648502393592,
      "loss": 0.1371,
      "step": 5190
    },
    {
      "epoch": 2.356018570943268,
      "grad_norm": 0.11867307126522064,
      "learning_rate": 0.00016551001609488246,
      "loss": 0.1335,
      "step": 5200
    },
    {
      "epoch": 2.3605480693013248,
      "grad_norm": 0.14046625792980194,
      "learning_rate": 0.00016537130935361064,
      "loss": 0.1392,
      "step": 5210
    },
    {
      "epoch": 2.3650775676593816,
      "grad_norm": 0.11454641073942184,
      "learning_rate": 0.00016523238263652757,
      "loss": 0.139,
      "step": 5220
    },
    {
      "epoch": 2.3696070660174384,
      "grad_norm": 0.1256382018327713,
      "learning_rate": 0.00016509323641112456,
      "loss": 0.1366,
      "step": 5230
    },
    {
      "epoch": 2.3741365643754953,
      "grad_norm": 0.11187759041786194,
      "learning_rate": 0.00016495387114563153,
      "loss": 0.1338,
      "step": 5240
    },
    {
      "epoch": 2.378666062733552,
      "grad_norm": 0.14559686183929443,
      "learning_rate": 0.0001648142873090155,
      "loss": 0.136,
      "step": 5250
    },
    {
      "epoch": 2.3831955610916093,
      "grad_norm": 0.12695267796516418,
      "learning_rate": 0.00016467448537097894,
      "loss": 0.1365,
      "step": 5260
    },
    {
      "epoch": 2.387725059449666,
      "grad_norm": 0.1341744363307953,
      "learning_rate": 0.0001645344658019583,
      "loss": 0.1354,
      "step": 5270
    },
    {
      "epoch": 2.392254557807723,
      "grad_norm": 0.12615807354450226,
      "learning_rate": 0.0001643942290731223,
      "loss": 0.1317,
      "step": 5280
    },
    {
      "epoch": 2.39678405616578,
      "grad_norm": 0.1132565289735794,
      "learning_rate": 0.00016425377565637054,
      "loss": 0.1322,
      "step": 5290
    },
    {
      "epoch": 2.4013135545238367,
      "grad_norm": 0.11671450734138489,
      "learning_rate": 0.00016411310602433156,
      "loss": 0.1296,
      "step": 5300
    },
    {
      "epoch": 2.4058430528818935,
      "grad_norm": 0.1351209580898285,
      "learning_rate": 0.00016397222065036164,
      "loss": 0.1304,
      "step": 5310
    },
    {
      "epoch": 2.4103725512399503,
      "grad_norm": 0.1276492178440094,
      "learning_rate": 0.000163831120008543,
      "loss": 0.1361,
      "step": 5320
    },
    {
      "epoch": 2.414902049598007,
      "grad_norm": 0.13524995744228363,
      "learning_rate": 0.00016368980457368216,
      "loss": 0.133,
      "step": 5330
    },
    {
      "epoch": 2.419431547956064,
      "grad_norm": 0.1324642449617386,
      "learning_rate": 0.00016354827482130855,
      "loss": 0.1373,
      "step": 5340
    },
    {
      "epoch": 2.423961046314121,
      "grad_norm": 0.13200613856315613,
      "learning_rate": 0.0001634065312276727,
      "loss": 0.1367,
      "step": 5350
    },
    {
      "epoch": 2.4284905446721776,
      "grad_norm": 0.12052213400602341,
      "learning_rate": 0.00016326457426974475,
      "loss": 0.1335,
      "step": 5360
    },
    {
      "epoch": 2.4330200430302344,
      "grad_norm": 0.1289413571357727,
      "learning_rate": 0.00016312240442521278,
      "loss": 0.1358,
      "step": 5370
    },
    {
      "epoch": 2.4375495413882913,
      "grad_norm": 0.11921897530555725,
      "learning_rate": 0.00016298002217248131,
      "loss": 0.1322,
      "step": 5380
    },
    {
      "epoch": 2.442079039746348,
      "grad_norm": 0.14872752130031586,
      "learning_rate": 0.00016283742799066953,
      "loss": 0.1385,
      "step": 5390
    },
    {
      "epoch": 2.446608538104405,
      "grad_norm": 0.11772260814905167,
      "learning_rate": 0.00016269462235960985,
      "loss": 0.1336,
      "step": 5400
    },
    {
      "epoch": 2.4511380364624618,
      "grad_norm": 0.13925409317016602,
      "learning_rate": 0.00016255160575984616,
      "loss": 0.137,
      "step": 5410
    },
    {
      "epoch": 2.4556675348205186,
      "grad_norm": 0.1357075273990631,
      "learning_rate": 0.00016240837867263227,
      "loss": 0.1349,
      "step": 5420
    },
    {
      "epoch": 2.4601970331785754,
      "grad_norm": 0.1274648904800415,
      "learning_rate": 0.00016226494157993036,
      "loss": 0.1307,
      "step": 5430
    },
    {
      "epoch": 2.4647265315366322,
      "grad_norm": 0.1424674391746521,
      "learning_rate": 0.00016212129496440914,
      "loss": 0.1359,
      "step": 5440
    },
    {
      "epoch": 2.469256029894689,
      "grad_norm": 0.1157744899392128,
      "learning_rate": 0.00016197743930944247,
      "loss": 0.1371,
      "step": 5450
    },
    {
      "epoch": 2.473785528252746,
      "grad_norm": 0.1353282928466797,
      "learning_rate": 0.00016183337509910762,
      "loss": 0.1399,
      "step": 5460
    },
    {
      "epoch": 2.4783150266108027,
      "grad_norm": 0.11779867857694626,
      "learning_rate": 0.00016168910281818367,
      "loss": 0.1348,
      "step": 5470
    },
    {
      "epoch": 2.4828445249688595,
      "grad_norm": 0.11190491169691086,
      "learning_rate": 0.00016154462295214984,
      "loss": 0.1341,
      "step": 5480
    },
    {
      "epoch": 2.4873740233269164,
      "grad_norm": 0.1286158561706543,
      "learning_rate": 0.0001613999359871838,
      "loss": 0.1323,
      "step": 5490
    },
    {
      "epoch": 2.491903521684973,
      "grad_norm": 0.12542322278022766,
      "learning_rate": 0.0001612550424101603,
      "loss": 0.1365,
      "step": 5500
    },
    {
      "epoch": 2.49643302004303,
      "grad_norm": 0.12170036882162094,
      "learning_rate": 0.00016110994270864912,
      "loss": 0.1344,
      "step": 5510
    },
    {
      "epoch": 2.500962518401087,
      "grad_norm": 0.13724590837955475,
      "learning_rate": 0.00016096463737091382,
      "loss": 0.1325,
      "step": 5520
    },
    {
      "epoch": 2.5054920167591437,
      "grad_norm": 0.11381508409976959,
      "learning_rate": 0.00016081912688590988,
      "loss": 0.1339,
      "step": 5530
    },
    {
      "epoch": 2.5100215151172005,
      "grad_norm": 0.12289192527532578,
      "learning_rate": 0.00016067341174328306,
      "loss": 0.1302,
      "step": 5540
    },
    {
      "epoch": 2.514551013475258,
      "grad_norm": 0.12465256452560425,
      "learning_rate": 0.00016052749243336786,
      "loss": 0.1354,
      "step": 5550
    },
    {
      "epoch": 2.5190805118333146,
      "grad_norm": 0.12437895685434341,
      "learning_rate": 0.0001603813694471858,
      "loss": 0.1321,
      "step": 5560
    },
    {
      "epoch": 2.5236100101913714,
      "grad_norm": 0.12177952378988266,
      "learning_rate": 0.00016023504327644376,
      "loss": 0.1387,
      "step": 5570
    },
    {
      "epoch": 2.5281395085494283,
      "grad_norm": 0.12667645514011383,
      "learning_rate": 0.00016008851441353232,
      "loss": 0.1383,
      "step": 5580
    },
    {
      "epoch": 2.532669006907485,
      "grad_norm": 0.13816499710083008,
      "learning_rate": 0.00015994178335152412,
      "loss": 0.1419,
      "step": 5590
    },
    {
      "epoch": 2.537198505265542,
      "grad_norm": 0.13884486258029938,
      "learning_rate": 0.00015979485058417226,
      "loss": 0.1345,
      "step": 5600
    },
    {
      "epoch": 2.5417280036235987,
      "grad_norm": 0.13231264054775238,
      "learning_rate": 0.0001596477166059085,
      "loss": 0.1386,
      "step": 5610
    },
    {
      "epoch": 2.5462575019816556,
      "grad_norm": 0.10923223942518234,
      "learning_rate": 0.00015950038191184178,
      "loss": 0.1382,
      "step": 5620
    },
    {
      "epoch": 2.5507870003397124,
      "grad_norm": 0.1239657923579216,
      "learning_rate": 0.00015935284699775638,
      "loss": 0.1345,
      "step": 5630
    },
    {
      "epoch": 2.5553164986977692,
      "grad_norm": 0.11910531669855118,
      "learning_rate": 0.00015920511236011038,
      "loss": 0.1321,
      "step": 5640
    },
    {
      "epoch": 2.559845997055826,
      "grad_norm": 0.1176079511642456,
      "learning_rate": 0.00015905717849603384,
      "loss": 0.1379,
      "step": 5650
    },
    {
      "epoch": 2.564375495413883,
      "grad_norm": 0.10820971429347992,
      "learning_rate": 0.0001589090459033273,
      "loss": 0.1353,
      "step": 5660
    },
    {
      "epoch": 2.5689049937719397,
      "grad_norm": 0.11455655097961426,
      "learning_rate": 0.00015876071508046002,
      "loss": 0.1375,
      "step": 5670
    },
    {
      "epoch": 2.5734344921299965,
      "grad_norm": 0.13477309048175812,
      "learning_rate": 0.00015861218652656826,
      "loss": 0.1345,
      "step": 5680
    },
    {
      "epoch": 2.5779639904880534,
      "grad_norm": 0.1447640061378479,
      "learning_rate": 0.00015846346074145374,
      "loss": 0.1398,
      "step": 5690
    },
    {
      "epoch": 2.58249348884611,
      "grad_norm": 0.11953482776880264,
      "learning_rate": 0.00015831453822558178,
      "loss": 0.1323,
      "step": 5700
    },
    {
      "epoch": 2.587022987204167,
      "grad_norm": 0.11846103519201279,
      "learning_rate": 0.00015816541948007967,
      "loss": 0.1359,
      "step": 5710
    },
    {
      "epoch": 2.591552485562224,
      "grad_norm": 0.1382216066122055,
      "learning_rate": 0.00015801610500673524,
      "loss": 0.1406,
      "step": 5720
    },
    {
      "epoch": 2.5960819839202807,
      "grad_norm": 0.12505120038986206,
      "learning_rate": 0.0001578665953079946,
      "loss": 0.1315,
      "step": 5730
    },
    {
      "epoch": 2.600611482278338,
      "grad_norm": 0.13036322593688965,
      "learning_rate": 0.00015771689088696112,
      "loss": 0.1322,
      "step": 5740
    },
    {
      "epoch": 2.6051409806363948,
      "grad_norm": 0.10827736556529999,
      "learning_rate": 0.00015756699224739323,
      "loss": 0.1346,
      "step": 5750
    },
    {
      "epoch": 2.6096704789944516,
      "grad_norm": 0.12595966458320618,
      "learning_rate": 0.00015741689989370294,
      "loss": 0.1318,
      "step": 5760
    },
    {
      "epoch": 2.6141999773525084,
      "grad_norm": 0.12824150919914246,
      "learning_rate": 0.0001572666143309542,
      "loss": 0.1287,
      "step": 5770
    },
    {
      "epoch": 2.6187294757105652,
      "grad_norm": 0.12415400892496109,
      "learning_rate": 0.00015711613606486096,
      "loss": 0.1329,
      "step": 5780
    },
    {
      "epoch": 2.623258974068622,
      "grad_norm": 0.1439315378665924,
      "learning_rate": 0.0001569654656017858,
      "loss": 0.1307,
      "step": 5790
    },
    {
      "epoch": 2.627788472426679,
      "grad_norm": 0.11085296422243118,
      "learning_rate": 0.00015681460344873786,
      "loss": 0.1343,
      "step": 5800
    },
    {
      "epoch": 2.6323179707847357,
      "grad_norm": 0.12394888699054718,
      "learning_rate": 0.00015666355011337147,
      "loss": 0.132,
      "step": 5810
    },
    {
      "epoch": 2.6368474691427926,
      "grad_norm": 0.1326746642589569,
      "learning_rate": 0.0001565123061039842,
      "loss": 0.1354,
      "step": 5820
    },
    {
      "epoch": 2.6413769675008494,
      "grad_norm": 0.11657778173685074,
      "learning_rate": 0.00015636087192951527,
      "loss": 0.1354,
      "step": 5830
    },
    {
      "epoch": 2.645906465858906,
      "grad_norm": 0.12350430339574814,
      "learning_rate": 0.0001562092480995439,
      "loss": 0.137,
      "step": 5840
    },
    {
      "epoch": 2.650435964216963,
      "grad_norm": 0.1291380524635315,
      "learning_rate": 0.0001560574351242873,
      "loss": 0.1332,
      "step": 5850
    },
    {
      "epoch": 2.65496546257502,
      "grad_norm": 0.13578584790229797,
      "learning_rate": 0.00015590543351459937,
      "loss": 0.1338,
      "step": 5860
    },
    {
      "epoch": 2.6594949609330767,
      "grad_norm": 0.11825544387102127,
      "learning_rate": 0.00015575324378196866,
      "loss": 0.1304,
      "step": 5870
    },
    {
      "epoch": 2.6640244592911335,
      "grad_norm": 0.11767857521772385,
      "learning_rate": 0.00015560086643851676,
      "loss": 0.1346,
      "step": 5880
    },
    {
      "epoch": 2.6685539576491903,
      "grad_norm": 0.12600229680538177,
      "learning_rate": 0.00015544830199699662,
      "loss": 0.1335,
      "step": 5890
    },
    {
      "epoch": 2.673083456007247,
      "grad_norm": 0.11990875750780106,
      "learning_rate": 0.00015529555097079065,
      "loss": 0.1341,
      "step": 5900
    },
    {
      "epoch": 2.677612954365304,
      "grad_norm": 0.10967559367418289,
      "learning_rate": 0.00015514261387390935,
      "loss": 0.1305,
      "step": 5910
    },
    {
      "epoch": 2.682142452723361,
      "grad_norm": 0.1208115667104721,
      "learning_rate": 0.00015498949122098914,
      "loss": 0.1329,
      "step": 5920
    },
    {
      "epoch": 2.6866719510814177,
      "grad_norm": 0.12302912771701813,
      "learning_rate": 0.00015483618352729093,
      "loss": 0.141,
      "step": 5930
    },
    {
      "epoch": 2.6912014494394745,
      "grad_norm": 0.14282426238059998,
      "learning_rate": 0.00015468269130869834,
      "loss": 0.1312,
      "step": 5940
    },
    {
      "epoch": 2.6957309477975313,
      "grad_norm": 0.1203923374414444,
      "learning_rate": 0.0001545290150817158,
      "loss": 0.1327,
      "step": 5950
    },
    {
      "epoch": 2.700260446155588,
      "grad_norm": 0.141504168510437,
      "learning_rate": 0.00015437515536346704,
      "loss": 0.1307,
      "step": 5960
    },
    {
      "epoch": 2.704789944513645,
      "grad_norm": 0.12170039117336273,
      "learning_rate": 0.00015422111267169322,
      "loss": 0.139,
      "step": 5970
    },
    {
      "epoch": 2.709319442871702,
      "grad_norm": 0.13064149022102356,
      "learning_rate": 0.0001540668875247511,
      "loss": 0.1358,
      "step": 5980
    },
    {
      "epoch": 2.7138489412297586,
      "grad_norm": 0.11947247385978699,
      "learning_rate": 0.00015391248044161162,
      "loss": 0.1301,
      "step": 5990
    },
    {
      "epoch": 2.7183784395878154,
      "grad_norm": 0.10719356685876846,
      "learning_rate": 0.00015375789194185772,
      "loss": 0.1296,
      "step": 6000
    },
    {
      "epoch": 2.7229079379458723,
      "grad_norm": 0.11288373172283173,
      "learning_rate": 0.00015360312254568295,
      "loss": 0.1336,
      "step": 6010
    },
    {
      "epoch": 2.727437436303929,
      "grad_norm": 0.12122143059968948,
      "learning_rate": 0.00015344817277388955,
      "loss": 0.1293,
      "step": 6020
    },
    {
      "epoch": 2.731966934661986,
      "grad_norm": 0.11723847687244415,
      "learning_rate": 0.0001532930431478867,
      "loss": 0.133,
      "step": 6030
    },
    {
      "epoch": 2.736496433020043,
      "grad_norm": 0.11670687049627304,
      "learning_rate": 0.00015313773418968878,
      "loss": 0.127,
      "step": 6040
    },
    {
      "epoch": 2.7410259313781,
      "grad_norm": 0.13267673552036285,
      "learning_rate": 0.00015298224642191368,
      "loss": 0.1287,
      "step": 6050
    },
    {
      "epoch": 2.745555429736157,
      "grad_norm": 0.12557269632816315,
      "learning_rate": 0.00015282658036778094,
      "loss": 0.1371,
      "step": 6060
    },
    {
      "epoch": 2.7500849280942137,
      "grad_norm": 0.12416243553161621,
      "learning_rate": 0.0001526707365511101,
      "loss": 0.1339,
      "step": 6070
    },
    {
      "epoch": 2.7546144264522705,
      "grad_norm": 0.13237670063972473,
      "learning_rate": 0.00015251471549631882,
      "loss": 0.1307,
      "step": 6080
    },
    {
      "epoch": 2.7591439248103273,
      "grad_norm": 0.10942938178777695,
      "learning_rate": 0.00015235851772842115,
      "loss": 0.1325,
      "step": 6090
    },
    {
      "epoch": 2.763673423168384,
      "grad_norm": 0.12319351732730865,
      "learning_rate": 0.00015220214377302586,
      "loss": 0.1346,
      "step": 6100
    },
    {
      "epoch": 2.768202921526441,
      "grad_norm": 0.11745291203260422,
      "learning_rate": 0.00015204559415633452,
      "loss": 0.1358,
      "step": 6110
    },
    {
      "epoch": 2.772732419884498,
      "grad_norm": 0.12627694010734558,
      "learning_rate": 0.00015188886940513987,
      "loss": 0.1314,
      "step": 6120
    },
    {
      "epoch": 2.7772619182425546,
      "grad_norm": 0.12790648639202118,
      "learning_rate": 0.0001517319700468239,
      "loss": 0.1314,
      "step": 6130
    },
    {
      "epoch": 2.7817914166006115,
      "grad_norm": 0.12807555496692657,
      "learning_rate": 0.00015157489660935625,
      "loss": 0.1368,
      "step": 6140
    },
    {
      "epoch": 2.7863209149586683,
      "grad_norm": 0.114469513297081,
      "learning_rate": 0.00015141764962129227,
      "loss": 0.1364,
      "step": 6150
    },
    {
      "epoch": 2.790850413316725,
      "grad_norm": 0.12749959528446198,
      "learning_rate": 0.00015126022961177134,
      "loss": 0.133,
      "step": 6160
    },
    {
      "epoch": 2.795379911674782,
      "grad_norm": 0.12623634934425354,
      "learning_rate": 0.00015110263711051505,
      "loss": 0.1341,
      "step": 6170
    },
    {
      "epoch": 2.7999094100328388,
      "grad_norm": 0.10407795011997223,
      "learning_rate": 0.00015094487264782544,
      "loss": 0.1373,
      "step": 6180
    },
    {
      "epoch": 2.8044389083908956,
      "grad_norm": 0.11660348623991013,
      "learning_rate": 0.0001507869367545832,
      "loss": 0.1336,
      "step": 6190
    },
    {
      "epoch": 2.8089684067489524,
      "grad_norm": 0.13876129686832428,
      "learning_rate": 0.00015062882996224586,
      "loss": 0.1282,
      "step": 6200
    },
    {
      "epoch": 2.8134979051070093,
      "grad_norm": 0.12573808431625366,
      "learning_rate": 0.0001504705528028461,
      "loss": 0.1345,
      "step": 6210
    },
    {
      "epoch": 2.818027403465066,
      "grad_norm": 0.12007986009120941,
      "learning_rate": 0.0001503121058089898,
      "loss": 0.1342,
      "step": 6220
    },
    {
      "epoch": 2.8225569018231234,
      "grad_norm": 0.10775137692689896,
      "learning_rate": 0.00015015348951385443,
      "loss": 0.1352,
      "step": 6230
    },
    {
      "epoch": 2.82708640018118,
      "grad_norm": 0.10959987342357635,
      "learning_rate": 0.00014999470445118705,
      "loss": 0.1299,
      "step": 6240
    },
    {
      "epoch": 2.831615898539237,
      "grad_norm": 0.11662711948156357,
      "learning_rate": 0.00014983575115530272,
      "loss": 0.136,
      "step": 6250
    },
    {
      "epoch": 2.836145396897294,
      "grad_norm": 0.11882171779870987,
      "learning_rate": 0.00014967663016108258,
      "loss": 0.1336,
      "step": 6260
    },
    {
      "epoch": 2.8406748952553507,
      "grad_norm": 0.12361105531454086,
      "learning_rate": 0.00014951734200397204,
      "loss": 0.1363,
      "step": 6270
    },
    {
      "epoch": 2.8452043936134075,
      "grad_norm": 0.11306975781917572,
      "learning_rate": 0.0001493578872199791,
      "loss": 0.1315,
      "step": 6280
    },
    {
      "epoch": 2.8497338919714643,
      "grad_norm": 0.10558556020259857,
      "learning_rate": 0.0001491982663456724,
      "loss": 0.1293,
      "step": 6290
    },
    {
      "epoch": 2.854263390329521,
      "grad_norm": 0.11685465276241302,
      "learning_rate": 0.00014903847991817946,
      "loss": 0.1309,
      "step": 6300
    },
    {
      "epoch": 2.858792888687578,
      "grad_norm": 0.10772823542356491,
      "learning_rate": 0.00014887852847518497,
      "loss": 0.1306,
      "step": 6310
    },
    {
      "epoch": 2.863322387045635,
      "grad_norm": 0.13630211353302002,
      "learning_rate": 0.0001487184125549288,
      "loss": 0.1301,
      "step": 6320
    },
    {
      "epoch": 2.8678518854036916,
      "grad_norm": 0.11658801138401031,
      "learning_rate": 0.0001485581326962044,
      "loss": 0.1301,
      "step": 6330
    },
    {
      "epoch": 2.8723813837617485,
      "grad_norm": 0.14447173476219177,
      "learning_rate": 0.00014839768943835676,
      "loss": 0.1364,
      "step": 6340
    },
    {
      "epoch": 2.8769108821198053,
      "grad_norm": 0.10343156009912491,
      "learning_rate": 0.00014823708332128077,
      "loss": 0.1305,
      "step": 6350
    },
    {
      "epoch": 2.881440380477862,
      "grad_norm": 0.14246292412281036,
      "learning_rate": 0.00014807631488541938,
      "loss": 0.1322,
      "step": 6360
    },
    {
      "epoch": 2.885969878835919,
      "grad_norm": 0.13046808540821075,
      "learning_rate": 0.00014791538467176174,
      "loss": 0.1327,
      "step": 6370
    },
    {
      "epoch": 2.8904993771939758,
      "grad_norm": 0.1174997016787529,
      "learning_rate": 0.00014775429322184128,
      "loss": 0.1319,
      "step": 6380
    },
    {
      "epoch": 2.8950288755520326,
      "grad_norm": 0.11900872737169266,
      "learning_rate": 0.0001475930410777341,
      "loss": 0.1346,
      "step": 6390
    },
    {
      "epoch": 2.8995583739100894,
      "grad_norm": 0.10685596615076065,
      "learning_rate": 0.000147431628782057,
      "loss": 0.1309,
      "step": 6400
    },
    {
      "epoch": 2.9040878722681462,
      "grad_norm": 0.1201610341668129,
      "learning_rate": 0.00014727005687796573,
      "loss": 0.1334,
      "step": 6410
    },
    {
      "epoch": 2.908617370626203,
      "grad_norm": 0.1042858362197876,
      "learning_rate": 0.00014710832590915306,
      "loss": 0.1305,
      "step": 6420
    },
    {
      "epoch": 2.91314686898426,
      "grad_norm": 0.11404233425855637,
      "learning_rate": 0.00014694643641984708,
      "loss": 0.1264,
      "step": 6430
    },
    {
      "epoch": 2.9176763673423167,
      "grad_norm": 0.09692881256341934,
      "learning_rate": 0.0001467843889548093,
      "loss": 0.1356,
      "step": 6440
    },
    {
      "epoch": 2.9222058657003736,
      "grad_norm": 0.11369141191244125,
      "learning_rate": 0.0001466221840593327,
      "loss": 0.1281,
      "step": 6450
    },
    {
      "epoch": 2.9267353640584304,
      "grad_norm": 0.12543022632598877,
      "learning_rate": 0.0001464598222792402,
      "loss": 0.1344,
      "step": 6460
    },
    {
      "epoch": 2.931264862416487,
      "grad_norm": 0.09960107505321503,
      "learning_rate": 0.00014629730416088256,
      "loss": 0.1347,
      "step": 6470
    },
    {
      "epoch": 2.935794360774544,
      "grad_norm": 0.11416647583246231,
      "learning_rate": 0.00014613463025113662,
      "loss": 0.128,
      "step": 6480
    },
    {
      "epoch": 2.940323859132601,
      "grad_norm": 0.13363508880138397,
      "learning_rate": 0.0001459718010974034,
      "loss": 0.1362,
      "step": 6490
    },
    {
      "epoch": 2.9448533574906577,
      "grad_norm": 0.12580367922782898,
      "learning_rate": 0.00014580881724760638,
      "loss": 0.1331,
      "step": 6500
    },
    {
      "epoch": 2.9493828558487145,
      "grad_norm": 0.1310282200574875,
      "learning_rate": 0.00014564567925018967,
      "loss": 0.137,
      "step": 6510
    },
    {
      "epoch": 2.9539123542067713,
      "grad_norm": 0.12097878754138947,
      "learning_rate": 0.000145482387654116,
      "loss": 0.1327,
      "step": 6520
    },
    {
      "epoch": 2.9584418525648286,
      "grad_norm": 0.11536047607660294,
      "learning_rate": 0.0001453189430088649,
      "loss": 0.1383,
      "step": 6530
    },
    {
      "epoch": 2.9629713509228854,
      "grad_norm": 0.11799097061157227,
      "learning_rate": 0.00014515534586443104,
      "loss": 0.1365,
      "step": 6540
    },
    {
      "epoch": 2.9675008492809423,
      "grad_norm": 0.10550688207149506,
      "learning_rate": 0.00014499159677132219,
      "loss": 0.1304,
      "step": 6550
    },
    {
      "epoch": 2.972030347638999,
      "grad_norm": 0.13376198709011078,
      "learning_rate": 0.00014482769628055748,
      "loss": 0.1317,
      "step": 6560
    },
    {
      "epoch": 2.976559845997056,
      "grad_norm": 0.1147933304309845,
      "learning_rate": 0.0001446636449436654,
      "loss": 0.1317,
      "step": 6570
    },
    {
      "epoch": 2.9810893443551127,
      "grad_norm": 0.12273435294628143,
      "learning_rate": 0.00014449944331268216,
      "loss": 0.1302,
      "step": 6580
    },
    {
      "epoch": 2.9856188427131696,
      "grad_norm": 0.12308023869991302,
      "learning_rate": 0.00014433509194014963,
      "loss": 0.1284,
      "step": 6590
    },
    {
      "epoch": 2.9901483410712264,
      "grad_norm": 0.11716390401124954,
      "learning_rate": 0.00014417059137911356,
      "loss": 0.1286,
      "step": 6600
    },
    {
      "epoch": 2.9946778394292832,
      "grad_norm": 0.1330905556678772,
      "learning_rate": 0.00014400594218312178,
      "loss": 0.1321,
      "step": 6610
    },
    {
      "epoch": 2.99920733778734,
      "grad_norm": 0.12336422502994537,
      "learning_rate": 0.00014384114490622221,
      "loss": 0.1327,
      "step": 6620
    },
    {
      "epoch": 2.9996602876231457,
      "eval_loss": 0.16021211445331573,
      "eval_runtime": 617.3452,
      "eval_samples_per_second": 12.748,
      "eval_steps_per_second": 1.594,
      "step": 6621
    },
    {
      "epoch": 3.004076548522251,
      "grad_norm": 0.1117822602391243,
      "learning_rate": 0.00014367620010296114,
      "loss": 0.1199,
      "step": 6630
    },
    {
      "epoch": 3.008606046880308,
      "grad_norm": 0.10662990808486938,
      "learning_rate": 0.00014351110832838123,
      "loss": 0.1082,
      "step": 6640
    },
    {
      "epoch": 3.013135545238365,
      "grad_norm": 0.09254604578018188,
      "learning_rate": 0.00014334587013801976,
      "loss": 0.1106,
      "step": 6650
    },
    {
      "epoch": 3.0176650435964216,
      "grad_norm": 0.10764751583337784,
      "learning_rate": 0.00014318048608790663,
      "loss": 0.1087,
      "step": 6660
    },
    {
      "epoch": 3.0221945419544785,
      "grad_norm": 0.10320322960615158,
      "learning_rate": 0.00014301495673456262,
      "loss": 0.1072,
      "step": 6670
    },
    {
      "epoch": 3.0267240403125353,
      "grad_norm": 0.09786458313465118,
      "learning_rate": 0.00014284928263499742,
      "loss": 0.1052,
      "step": 6680
    },
    {
      "epoch": 3.031253538670592,
      "grad_norm": 0.0940663069486618,
      "learning_rate": 0.00014268346434670782,
      "loss": 0.1141,
      "step": 6690
    },
    {
      "epoch": 3.035783037028649,
      "grad_norm": 0.12340737879276276,
      "learning_rate": 0.0001425175024276758,
      "loss": 0.1099,
      "step": 6700
    },
    {
      "epoch": 3.0403125353867058,
      "grad_norm": 0.10877358913421631,
      "learning_rate": 0.00014235139743636662,
      "loss": 0.1066,
      "step": 6710
    },
    {
      "epoch": 3.0448420337447626,
      "grad_norm": 0.09268616884946823,
      "learning_rate": 0.00014218514993172705,
      "loss": 0.105,
      "step": 6720
    },
    {
      "epoch": 3.0493715321028194,
      "grad_norm": 0.09083138406276703,
      "learning_rate": 0.00014201876047318342,
      "loss": 0.1103,
      "step": 6730
    },
    {
      "epoch": 3.0539010304608762,
      "grad_norm": 0.10291367769241333,
      "learning_rate": 0.00014185222962063965,
      "loss": 0.1072,
      "step": 6740
    },
    {
      "epoch": 3.0584305288189335,
      "grad_norm": 0.10415250808000565,
      "learning_rate": 0.00014168555793447554,
      "loss": 0.1114,
      "step": 6750
    },
    {
      "epoch": 3.0629600271769903,
      "grad_norm": 0.10135282576084137,
      "learning_rate": 0.00014151874597554477,
      "loss": 0.1086,
      "step": 6760
    },
    {
      "epoch": 3.067489525535047,
      "grad_norm": 0.10510314255952835,
      "learning_rate": 0.00014135179430517305,
      "loss": 0.1117,
      "step": 6770
    },
    {
      "epoch": 3.072019023893104,
      "grad_norm": 0.11414755135774612,
      "learning_rate": 0.0001411847034851562,
      "loss": 0.1102,
      "step": 6780
    },
    {
      "epoch": 3.076548522251161,
      "grad_norm": 0.0981656014919281,
      "learning_rate": 0.0001410174740777583,
      "loss": 0.1112,
      "step": 6790
    },
    {
      "epoch": 3.0810780206092176,
      "grad_norm": 0.09286178648471832,
      "learning_rate": 0.00014085010664570974,
      "loss": 0.1085,
      "step": 6800
    },
    {
      "epoch": 3.0856075189672745,
      "grad_norm": 0.10993903875350952,
      "learning_rate": 0.00014068260175220546,
      "loss": 0.1121,
      "step": 6810
    },
    {
      "epoch": 3.0901370173253313,
      "grad_norm": 0.10415517538785934,
      "learning_rate": 0.00014051495996090285,
      "loss": 0.109,
      "step": 6820
    },
    {
      "epoch": 3.094666515683388,
      "grad_norm": 0.09917622059583664,
      "learning_rate": 0.00014034718183592,
      "loss": 0.1085,
      "step": 6830
    },
    {
      "epoch": 3.099196014041445,
      "grad_norm": 0.09848062694072723,
      "learning_rate": 0.00014017926794183383,
      "loss": 0.1047,
      "step": 6840
    },
    {
      "epoch": 3.103725512399502,
      "grad_norm": 0.12383636087179184,
      "learning_rate": 0.00014001121884367804,
      "loss": 0.1105,
      "step": 6850
    },
    {
      "epoch": 3.1082550107575586,
      "grad_norm": 0.10345660895109177,
      "learning_rate": 0.00013984303510694134,
      "loss": 0.1108,
      "step": 6860
    },
    {
      "epoch": 3.1127845091156154,
      "grad_norm": 0.08951733261346817,
      "learning_rate": 0.0001396747172975655,
      "loss": 0.1117,
      "step": 6870
    },
    {
      "epoch": 3.1173140074736723,
      "grad_norm": 0.09321026504039764,
      "learning_rate": 0.00013950626598194346,
      "loss": 0.1095,
      "step": 6880
    },
    {
      "epoch": 3.121843505831729,
      "grad_norm": 0.09075412154197693,
      "learning_rate": 0.0001393376817269173,
      "loss": 0.1111,
      "step": 6890
    },
    {
      "epoch": 3.126373004189786,
      "grad_norm": 0.08038198202848434,
      "learning_rate": 0.0001391689650997766,
      "loss": 0.1085,
      "step": 6900
    },
    {
      "epoch": 3.1309025025478427,
      "grad_norm": 0.09946314990520477,
      "learning_rate": 0.00013900011666825632,
      "loss": 0.1079,
      "step": 6910
    },
    {
      "epoch": 3.1354320009058996,
      "grad_norm": 0.083831787109375,
      "learning_rate": 0.00013883113700053493,
      "loss": 0.108,
      "step": 6920
    },
    {
      "epoch": 3.1399614992639564,
      "grad_norm": 0.09110364317893982,
      "learning_rate": 0.00013866202666523245,
      "loss": 0.1074,
      "step": 6930
    },
    {
      "epoch": 3.1444909976220132,
      "grad_norm": 0.09342263638973236,
      "learning_rate": 0.00013849278623140874,
      "loss": 0.1102,
      "step": 6940
    },
    {
      "epoch": 3.14902049598007,
      "grad_norm": 0.10097695142030716,
      "learning_rate": 0.00013832341626856135,
      "loss": 0.1091,
      "step": 6950
    },
    {
      "epoch": 3.153549994338127,
      "grad_norm": 0.10724612325429916,
      "learning_rate": 0.0001381539173466237,
      "loss": 0.1095,
      "step": 6960
    },
    {
      "epoch": 3.1580794926961837,
      "grad_norm": 0.113038569688797,
      "learning_rate": 0.0001379842900359632,
      "loss": 0.1101,
      "step": 6970
    },
    {
      "epoch": 3.1626089910542405,
      "grad_norm": 0.10871588438749313,
      "learning_rate": 0.00013781453490737918,
      "loss": 0.1074,
      "step": 6980
    },
    {
      "epoch": 3.167138489412298,
      "grad_norm": 0.09797286987304688,
      "learning_rate": 0.0001376446525321013,
      "loss": 0.1107,
      "step": 6990
    },
    {
      "epoch": 3.1716679877703546,
      "grad_norm": 0.10018666833639145,
      "learning_rate": 0.0001374746434817872,
      "loss": 0.1112,
      "step": 7000
    },
    {
      "epoch": 3.1761974861284115,
      "grad_norm": 0.09767764061689377,
      "learning_rate": 0.00013730450832852086,
      "loss": 0.1117,
      "step": 7010
    },
    {
      "epoch": 3.1807269844864683,
      "grad_norm": 0.10807600617408752,
      "learning_rate": 0.00013713424764481066,
      "loss": 0.1069,
      "step": 7020
    },
    {
      "epoch": 3.185256482844525,
      "grad_norm": 0.11085067689418793,
      "learning_rate": 0.00013696386200358723,
      "loss": 0.1098,
      "step": 7030
    },
    {
      "epoch": 3.189785981202582,
      "grad_norm": 0.11777514964342117,
      "learning_rate": 0.0001367933519782018,
      "loss": 0.1095,
      "step": 7040
    },
    {
      "epoch": 3.1943154795606388,
      "grad_norm": 0.08946658670902252,
      "learning_rate": 0.00013662271814242422,
      "loss": 0.1091,
      "step": 7050
    },
    {
      "epoch": 3.1988449779186956,
      "grad_norm": 0.10264267772436142,
      "learning_rate": 0.0001364519610704408,
      "loss": 0.1116,
      "step": 7060
    },
    {
      "epoch": 3.2033744762767524,
      "grad_norm": 0.0933040976524353,
      "learning_rate": 0.00013628108133685273,
      "loss": 0.1091,
      "step": 7070
    },
    {
      "epoch": 3.2079039746348093,
      "grad_norm": 0.10949963331222534,
      "learning_rate": 0.00013611007951667376,
      "loss": 0.1122,
      "step": 7080
    },
    {
      "epoch": 3.212433472992866,
      "grad_norm": 0.10518185049295425,
      "learning_rate": 0.0001359389561853286,
      "loss": 0.1112,
      "step": 7090
    },
    {
      "epoch": 3.216962971350923,
      "grad_norm": 0.10346280038356781,
      "learning_rate": 0.00013576771191865078,
      "loss": 0.109,
      "step": 7100
    },
    {
      "epoch": 3.2214924697089797,
      "grad_norm": 0.09324981272220612,
      "learning_rate": 0.00013559634729288088,
      "loss": 0.1092,
      "step": 7110
    },
    {
      "epoch": 3.2260219680670366,
      "grad_norm": 0.10806597769260406,
      "learning_rate": 0.00013542486288466428,
      "loss": 0.1103,
      "step": 7120
    },
    {
      "epoch": 3.2305514664250934,
      "grad_norm": 0.10441877692937851,
      "learning_rate": 0.00013525325927104973,
      "loss": 0.1095,
      "step": 7130
    },
    {
      "epoch": 3.23508096478315,
      "grad_norm": 0.08796998858451843,
      "learning_rate": 0.00013508153702948683,
      "loss": 0.1104,
      "step": 7140
    },
    {
      "epoch": 3.239610463141207,
      "grad_norm": 0.12072450667619705,
      "learning_rate": 0.00013490969673782453,
      "loss": 0.1095,
      "step": 7150
    },
    {
      "epoch": 3.244139961499264,
      "grad_norm": 0.10589967668056488,
      "learning_rate": 0.00013473773897430903,
      "loss": 0.107,
      "step": 7160
    },
    {
      "epoch": 3.2486694598573207,
      "grad_norm": 0.10880044102668762,
      "learning_rate": 0.00013456566431758164,
      "loss": 0.1101,
      "step": 7170
    },
    {
      "epoch": 3.2531989582153775,
      "grad_norm": 0.10041461884975433,
      "learning_rate": 0.00013439347334667722,
      "loss": 0.1103,
      "step": 7180
    },
    {
      "epoch": 3.2577284565734344,
      "grad_norm": 0.11079218983650208,
      "learning_rate": 0.000134221166641022,
      "loss": 0.1112,
      "step": 7190
    },
    {
      "epoch": 3.262257954931491,
      "grad_norm": 0.10900229215621948,
      "learning_rate": 0.00013404874478043153,
      "loss": 0.1117,
      "step": 7200
    },
    {
      "epoch": 3.266787453289548,
      "grad_norm": 0.10362094640731812,
      "learning_rate": 0.000133876208345109,
      "loss": 0.1114,
      "step": 7210
    },
    {
      "epoch": 3.271316951647605,
      "grad_norm": 0.10555779188871384,
      "learning_rate": 0.00013370355791564306,
      "loss": 0.1123,
      "step": 7220
    },
    {
      "epoch": 3.2758464500056617,
      "grad_norm": 0.09255950897932053,
      "learning_rate": 0.00013353079407300603,
      "loss": 0.1131,
      "step": 7230
    },
    {
      "epoch": 3.2803759483637185,
      "grad_norm": 0.09914428740739822,
      "learning_rate": 0.00013335791739855176,
      "loss": 0.1113,
      "step": 7240
    },
    {
      "epoch": 3.2849054467217758,
      "grad_norm": 0.10521331429481506,
      "learning_rate": 0.0001331849284740139,
      "loss": 0.11,
      "step": 7250
    },
    {
      "epoch": 3.2894349450798326,
      "grad_norm": 0.09139056503772736,
      "learning_rate": 0.00013301182788150374,
      "loss": 0.1109,
      "step": 7260
    },
    {
      "epoch": 3.2939644434378894,
      "grad_norm": 0.09516976028680801,
      "learning_rate": 0.00013283861620350836,
      "loss": 0.1096,
      "step": 7270
    },
    {
      "epoch": 3.2984939417959462,
      "grad_norm": 0.09153826534748077,
      "learning_rate": 0.00013266529402288866,
      "loss": 0.1093,
      "step": 7280
    },
    {
      "epoch": 3.303023440154003,
      "grad_norm": 0.11171313375234604,
      "learning_rate": 0.00013249186192287735,
      "loss": 0.113,
      "step": 7290
    },
    {
      "epoch": 3.30755293851206,
      "grad_norm": 0.1110367551445961,
      "learning_rate": 0.00013231832048707712,
      "loss": 0.1146,
      "step": 7300
    },
    {
      "epoch": 3.3120824368701167,
      "grad_norm": 0.10271560400724411,
      "learning_rate": 0.00013214467029945835,
      "loss": 0.1096,
      "step": 7310
    },
    {
      "epoch": 3.3166119352281735,
      "grad_norm": 0.10005812346935272,
      "learning_rate": 0.00013197091194435767,
      "loss": 0.1089,
      "step": 7320
    },
    {
      "epoch": 3.3211414335862304,
      "grad_norm": 0.09489379823207855,
      "learning_rate": 0.00013179704600647547,
      "loss": 0.1119,
      "step": 7330
    },
    {
      "epoch": 3.325670931944287,
      "grad_norm": 0.10342545807361603,
      "learning_rate": 0.00013162307307087423,
      "loss": 0.1128,
      "step": 7340
    },
    {
      "epoch": 3.330200430302344,
      "grad_norm": 0.10697804391384125,
      "learning_rate": 0.0001314489937229765,
      "loss": 0.1126,
      "step": 7350
    },
    {
      "epoch": 3.334729928660401,
      "grad_norm": 0.11575332283973694,
      "learning_rate": 0.00013127480854856295,
      "loss": 0.1133,
      "step": 7360
    },
    {
      "epoch": 3.3392594270184577,
      "grad_norm": 0.10017456859350204,
      "learning_rate": 0.00013110051813377025,
      "loss": 0.1091,
      "step": 7370
    },
    {
      "epoch": 3.3437889253765145,
      "grad_norm": 0.11635085195302963,
      "learning_rate": 0.00013092612306508922,
      "loss": 0.1139,
      "step": 7380
    },
    {
      "epoch": 3.3483184237345713,
      "grad_norm": 0.09450142085552216,
      "learning_rate": 0.00013075162392936295,
      "loss": 0.1119,
      "step": 7390
    },
    {
      "epoch": 3.352847922092628,
      "grad_norm": 0.09203408658504486,
      "learning_rate": 0.0001305770213137846,
      "loss": 0.1088,
      "step": 7400
    },
    {
      "epoch": 3.357377420450685,
      "grad_norm": 0.09736169874668121,
      "learning_rate": 0.00013040231580589565,
      "loss": 0.1099,
      "step": 7410
    },
    {
      "epoch": 3.361906918808742,
      "grad_norm": 0.09759002178907394,
      "learning_rate": 0.0001302275079935837,
      "loss": 0.1149,
      "step": 7420
    },
    {
      "epoch": 3.3664364171667986,
      "grad_norm": 0.09410129487514496,
      "learning_rate": 0.00013005259846508068,
      "loss": 0.1132,
      "step": 7430
    },
    {
      "epoch": 3.3709659155248555,
      "grad_norm": 0.09184587746858597,
      "learning_rate": 0.0001298775878089608,
      "loss": 0.1099,
      "step": 7440
    },
    {
      "epoch": 3.3754954138829123,
      "grad_norm": 0.10475565493106842,
      "learning_rate": 0.00012970247661413855,
      "loss": 0.1109,
      "step": 7450
    },
    {
      "epoch": 3.380024912240969,
      "grad_norm": 0.10369405895471573,
      "learning_rate": 0.00012952726546986668,
      "loss": 0.1144,
      "step": 7460
    },
    {
      "epoch": 3.3845544105990264,
      "grad_norm": 0.1000487357378006,
      "learning_rate": 0.00012935195496573435,
      "loss": 0.1093,
      "step": 7470
    },
    {
      "epoch": 3.3890839089570832,
      "grad_norm": 0.1104254201054573,
      "learning_rate": 0.00012917654569166503,
      "loss": 0.1093,
      "step": 7480
    },
    {
      "epoch": 3.39361340731514,
      "grad_norm": 0.10195254534482956,
      "learning_rate": 0.0001290010382379146,
      "loss": 0.1104,
      "step": 7490
    },
    {
      "epoch": 3.398142905673197,
      "grad_norm": 0.10613837838172913,
      "learning_rate": 0.00012882543319506925,
      "loss": 0.115,
      "step": 7500
    },
    {
      "epoch": 3.4026724040312537,
      "grad_norm": 0.10054861009120941,
      "learning_rate": 0.0001286497311540436,
      "loss": 0.1093,
      "step": 7510
    },
    {
      "epoch": 3.4072019023893105,
      "grad_norm": 0.1072639673948288,
      "learning_rate": 0.0001284739327060787,
      "loss": 0.114,
      "step": 7520
    },
    {
      "epoch": 3.4117314007473674,
      "grad_norm": 0.09658465534448624,
      "learning_rate": 0.00012829803844273987,
      "loss": 0.1088,
      "step": 7530
    },
    {
      "epoch": 3.416260899105424,
      "grad_norm": 0.09596540778875351,
      "learning_rate": 0.00012812204895591505,
      "loss": 0.1124,
      "step": 7540
    },
    {
      "epoch": 3.420790397463481,
      "grad_norm": 0.08748818188905716,
      "learning_rate": 0.00012794596483781248,
      "loss": 0.1125,
      "step": 7550
    },
    {
      "epoch": 3.425319895821538,
      "grad_norm": 0.09352606534957886,
      "learning_rate": 0.00012776978668095884,
      "loss": 0.1134,
      "step": 7560
    },
    {
      "epoch": 3.4298493941795947,
      "grad_norm": 0.11329905688762665,
      "learning_rate": 0.0001275935150781973,
      "loss": 0.1138,
      "step": 7570
    },
    {
      "epoch": 3.4343788925376515,
      "grad_norm": 0.09285202622413635,
      "learning_rate": 0.00012741715062268547,
      "loss": 0.1096,
      "step": 7580
    },
    {
      "epoch": 3.4389083908957083,
      "grad_norm": 0.10598818957805634,
      "learning_rate": 0.00012724069390789342,
      "loss": 0.113,
      "step": 7590
    },
    {
      "epoch": 3.443437889253765,
      "grad_norm": 0.11264318972826004,
      "learning_rate": 0.0001270641455276016,
      "loss": 0.1135,
      "step": 7600
    },
    {
      "epoch": 3.447967387611822,
      "grad_norm": 0.09473126381635666,
      "learning_rate": 0.00012688750607589897,
      "loss": 0.1106,
      "step": 7610
    },
    {
      "epoch": 3.452496885969879,
      "grad_norm": 0.09131330251693726,
      "learning_rate": 0.000126710776147181,
      "loss": 0.1149,
      "step": 7620
    },
    {
      "epoch": 3.4570263843279356,
      "grad_norm": 0.10694695264101028,
      "learning_rate": 0.0001265339563361475,
      "loss": 0.1126,
      "step": 7630
    },
    {
      "epoch": 3.4615558826859925,
      "grad_norm": 0.1015838012099266,
      "learning_rate": 0.00012635704723780087,
      "loss": 0.1135,
      "step": 7640
    },
    {
      "epoch": 3.4660853810440493,
      "grad_norm": 0.10224758833646774,
      "learning_rate": 0.00012618004944744385,
      "loss": 0.1155,
      "step": 7650
    },
    {
      "epoch": 3.470614879402106,
      "grad_norm": 0.11169352382421494,
      "learning_rate": 0.00012600296356067768,
      "loss": 0.1092,
      "step": 7660
    },
    {
      "epoch": 3.475144377760163,
      "grad_norm": 0.10369731485843658,
      "learning_rate": 0.00012582579017340003,
      "loss": 0.1107,
      "step": 7670
    },
    {
      "epoch": 3.4796738761182198,
      "grad_norm": 0.09245746582746506,
      "learning_rate": 0.00012564852988180305,
      "loss": 0.1093,
      "step": 7680
    },
    {
      "epoch": 3.4842033744762766,
      "grad_norm": 0.09676039218902588,
      "learning_rate": 0.0001254711832823713,
      "loss": 0.1117,
      "step": 7690
    },
    {
      "epoch": 3.4887328728343334,
      "grad_norm": 0.10541850328445435,
      "learning_rate": 0.0001252937509718797,
      "loss": 0.1119,
      "step": 7700
    },
    {
      "epoch": 3.4932623711923902,
      "grad_norm": 0.08481086790561676,
      "learning_rate": 0.0001251162335473917,
      "loss": 0.1103,
      "step": 7710
    },
    {
      "epoch": 3.497791869550447,
      "grad_norm": 0.09966452419757843,
      "learning_rate": 0.00012493863160625713,
      "loss": 0.1147,
      "step": 7720
    },
    {
      "epoch": 3.502321367908504,
      "grad_norm": 0.09558738023042679,
      "learning_rate": 0.00012476094574611016,
      "loss": 0.1123,
      "step": 7730
    },
    {
      "epoch": 3.5068508662665607,
      "grad_norm": 0.10436621308326721,
      "learning_rate": 0.00012458317656486746,
      "loss": 0.1129,
      "step": 7740
    },
    {
      "epoch": 3.5113803646246176,
      "grad_norm": 0.10191968828439713,
      "learning_rate": 0.00012440532466072597,
      "loss": 0.1099,
      "step": 7750
    },
    {
      "epoch": 3.515909862982675,
      "grad_norm": 0.10766720771789551,
      "learning_rate": 0.000124227390632161,
      "loss": 0.1121,
      "step": 7760
    },
    {
      "epoch": 3.5204393613407317,
      "grad_norm": 0.08841870725154877,
      "learning_rate": 0.0001240493750779243,
      "loss": 0.1103,
      "step": 7770
    },
    {
      "epoch": 3.5249688596987885,
      "grad_norm": 0.1090930923819542,
      "learning_rate": 0.00012387127859704187,
      "loss": 0.1164,
      "step": 7780
    },
    {
      "epoch": 3.5294983580568453,
      "grad_norm": 0.10451924055814743,
      "learning_rate": 0.00012369310178881205,
      "loss": 0.1112,
      "step": 7790
    },
    {
      "epoch": 3.534027856414902,
      "grad_norm": 0.09721478819847107,
      "learning_rate": 0.0001235148452528035,
      "loss": 0.1135,
      "step": 7800
    },
    {
      "epoch": 3.538557354772959,
      "grad_norm": 0.0975523293018341,
      "learning_rate": 0.00012333650958885322,
      "loss": 0.1105,
      "step": 7810
    },
    {
      "epoch": 3.543086853131016,
      "grad_norm": 0.08713623881340027,
      "learning_rate": 0.00012315809539706436,
      "loss": 0.1103,
      "step": 7820
    },
    {
      "epoch": 3.5476163514890726,
      "grad_norm": 0.09232752025127411,
      "learning_rate": 0.00012297960327780437,
      "loss": 0.1128,
      "step": 7830
    },
    {
      "epoch": 3.5521458498471294,
      "grad_norm": 0.09094680100679398,
      "learning_rate": 0.00012280103383170295,
      "loss": 0.1104,
      "step": 7840
    },
    {
      "epoch": 3.5566753482051863,
      "grad_norm": 0.09738276153802872,
      "learning_rate": 0.00012262238765964995,
      "loss": 0.1059,
      "step": 7850
    },
    {
      "epoch": 3.561204846563243,
      "grad_norm": 0.0989813581109047,
      "learning_rate": 0.0001224436653627935,
      "loss": 0.112,
      "step": 7860
    },
    {
      "epoch": 3.5657343449213,
      "grad_norm": 0.09522037208080292,
      "learning_rate": 0.0001222648675425378,
      "loss": 0.1081,
      "step": 7870
    },
    {
      "epoch": 3.5702638432793568,
      "grad_norm": 0.10340669006109238,
      "learning_rate": 0.00012208599480054125,
      "loss": 0.1117,
      "step": 7880
    },
    {
      "epoch": 3.5747933416374136,
      "grad_norm": 0.11090776324272156,
      "learning_rate": 0.0001219070477387143,
      "loss": 0.1097,
      "step": 7890
    },
    {
      "epoch": 3.5793228399954704,
      "grad_norm": 0.08626790344715118,
      "learning_rate": 0.00012172802695921754,
      "loss": 0.1128,
      "step": 7900
    },
    {
      "epoch": 3.5838523383535272,
      "grad_norm": 0.09012069553136826,
      "learning_rate": 0.00012154893306445961,
      "loss": 0.1137,
      "step": 7910
    },
    {
      "epoch": 3.588381836711584,
      "grad_norm": 0.07982558012008667,
      "learning_rate": 0.00012136976665709516,
      "loss": 0.1117,
      "step": 7920
    },
    {
      "epoch": 3.592911335069641,
      "grad_norm": 0.09850164502859116,
      "learning_rate": 0.00012119052834002289,
      "loss": 0.1088,
      "step": 7930
    },
    {
      "epoch": 3.597440833427698,
      "grad_norm": 0.09800245612859726,
      "learning_rate": 0.00012101121871638343,
      "loss": 0.1153,
      "step": 7940
    },
    {
      "epoch": 3.601970331785755,
      "grad_norm": 0.09477314352989197,
      "learning_rate": 0.0001208318383895574,
      "loss": 0.1104,
      "step": 7950
    },
    {
      "epoch": 3.606499830143812,
      "grad_norm": 0.10447141528129578,
      "learning_rate": 0.00012065238796316331,
      "loss": 0.1115,
      "step": 7960
    },
    {
      "epoch": 3.6110293285018686,
      "grad_norm": 0.10505667328834534,
      "learning_rate": 0.00012047286804105557,
      "loss": 0.1096,
      "step": 7970
    },
    {
      "epoch": 3.6155588268599255,
      "grad_norm": 0.0925762876868248,
      "learning_rate": 0.00012029327922732242,
      "loss": 0.1146,
      "step": 7980
    },
    {
      "epoch": 3.6200883252179823,
      "grad_norm": 0.12217893451452255,
      "learning_rate": 0.00012011362212628397,
      "loss": 0.1105,
      "step": 7990
    },
    {
      "epoch": 3.624617823576039,
      "grad_norm": 0.09887892752885818,
      "learning_rate": 0.00011993389734249006,
      "loss": 0.1098,
      "step": 8000
    },
    {
      "epoch": 3.629147321934096,
      "grad_norm": 0.10694731771945953,
      "learning_rate": 0.00011975410548071832,
      "loss": 0.1129,
      "step": 8010
    },
    {
      "epoch": 3.6336768202921528,
      "grad_norm": 0.08971285820007324,
      "learning_rate": 0.00011957424714597212,
      "loss": 0.1084,
      "step": 8020
    },
    {
      "epoch": 3.6382063186502096,
      "grad_norm": 0.08375135064125061,
      "learning_rate": 0.00011939432294347848,
      "loss": 0.1098,
      "step": 8030
    },
    {
      "epoch": 3.6427358170082664,
      "grad_norm": 0.09610874205827713,
      "learning_rate": 0.00011921433347868602,
      "loss": 0.1109,
      "step": 8040
    },
    {
      "epoch": 3.6472653153663233,
      "grad_norm": 0.09743242710828781,
      "learning_rate": 0.00011903427935726308,
      "loss": 0.1176,
      "step": 8050
    },
    {
      "epoch": 3.65179481372438,
      "grad_norm": 0.09157928824424744,
      "learning_rate": 0.00011885416118509549,
      "loss": 0.1116,
      "step": 8060
    },
    {
      "epoch": 3.656324312082437,
      "grad_norm": 0.10359596461057663,
      "learning_rate": 0.00011867397956828463,
      "loss": 0.1117,
      "step": 8070
    },
    {
      "epoch": 3.6608538104404937,
      "grad_norm": 0.08667086809873581,
      "learning_rate": 0.00011849373511314537,
      "loss": 0.1126,
      "step": 8080
    },
    {
      "epoch": 3.6653833087985506,
      "grad_norm": 0.0973113626241684,
      "learning_rate": 0.00011831342842620405,
      "loss": 0.1099,
      "step": 8090
    },
    {
      "epoch": 3.6699128071566074,
      "grad_norm": 0.09472218155860901,
      "learning_rate": 0.00011813306011419642,
      "loss": 0.1117,
      "step": 8100
    },
    {
      "epoch": 3.674442305514664,
      "grad_norm": 0.10071218013763428,
      "learning_rate": 0.00011795263078406558,
      "loss": 0.1096,
      "step": 8110
    },
    {
      "epoch": 3.678971803872721,
      "grad_norm": 0.08343309164047241,
      "learning_rate": 0.00011777214104295995,
      "loss": 0.1118,
      "step": 8120
    },
    {
      "epoch": 3.683501302230778,
      "grad_norm": 0.0963587686419487,
      "learning_rate": 0.00011759159149823127,
      "loss": 0.1099,
      "step": 8130
    },
    {
      "epoch": 3.6880308005888347,
      "grad_norm": 0.09920413792133331,
      "learning_rate": 0.00011741098275743247,
      "loss": 0.1132,
      "step": 8140
    },
    {
      "epoch": 3.6925602989468915,
      "grad_norm": 0.12149636447429657,
      "learning_rate": 0.00011723031542831578,
      "loss": 0.1146,
      "step": 8150
    },
    {
      "epoch": 3.6970897973049484,
      "grad_norm": 0.09953594207763672,
      "learning_rate": 0.00011704959011883043,
      "loss": 0.1078,
      "step": 8160
    },
    {
      "epoch": 3.701619295663005,
      "grad_norm": 0.11264549940824509,
      "learning_rate": 0.0001168688074371209,
      "loss": 0.1098,
      "step": 8170
    },
    {
      "epoch": 3.706148794021062,
      "grad_norm": 0.10793278366327286,
      "learning_rate": 0.00011668796799152457,
      "loss": 0.1123,
      "step": 8180
    },
    {
      "epoch": 3.710678292379119,
      "grad_norm": 0.10062643885612488,
      "learning_rate": 0.00011650707239057,
      "loss": 0.1136,
      "step": 8190
    },
    {
      "epoch": 3.7152077907371757,
      "grad_norm": 0.09304151684045792,
      "learning_rate": 0.00011632612124297461,
      "loss": 0.1126,
      "step": 8200
    },
    {
      "epoch": 3.7197372890952325,
      "grad_norm": 0.10045602172613144,
      "learning_rate": 0.00011614511515764277,
      "loss": 0.1092,
      "step": 8210
    },
    {
      "epoch": 3.7242667874532893,
      "grad_norm": 0.09587648510932922,
      "learning_rate": 0.00011596405474366372,
      "loss": 0.1115,
      "step": 8220
    },
    {
      "epoch": 3.728796285811346,
      "grad_norm": 0.10631423443555832,
      "learning_rate": 0.00011578294061030947,
      "loss": 0.111,
      "step": 8230
    },
    {
      "epoch": 3.733325784169403,
      "grad_norm": 0.09861784428358078,
      "learning_rate": 0.00011560177336703291,
      "loss": 0.11,
      "step": 8240
    },
    {
      "epoch": 3.7378552825274602,
      "grad_norm": 0.0921064168214798,
      "learning_rate": 0.00011542055362346549,
      "loss": 0.1109,
      "step": 8250
    },
    {
      "epoch": 3.742384780885517,
      "grad_norm": 0.10424584895372391,
      "learning_rate": 0.00011523928198941543,
      "loss": 0.11,
      "step": 8260
    },
    {
      "epoch": 3.746914279243574,
      "grad_norm": 0.10199391096830368,
      "learning_rate": 0.00011505795907486551,
      "loss": 0.112,
      "step": 8270
    },
    {
      "epoch": 3.7514437776016307,
      "grad_norm": 0.09731689840555191,
      "learning_rate": 0.00011487658548997115,
      "loss": 0.1125,
      "step": 8280
    },
    {
      "epoch": 3.7559732759596876,
      "grad_norm": 0.07730797678232193,
      "learning_rate": 0.00011469516184505821,
      "loss": 0.1096,
      "step": 8290
    },
    {
      "epoch": 3.7605027743177444,
      "grad_norm": 0.09512131661176682,
      "learning_rate": 0.00011451368875062101,
      "loss": 0.1115,
      "step": 8300
    },
    {
      "epoch": 3.765032272675801,
      "grad_norm": 0.08450417220592499,
      "learning_rate": 0.00011433216681732027,
      "loss": 0.1135,
      "step": 8310
    },
    {
      "epoch": 3.769561771033858,
      "grad_norm": 0.08709891885519028,
      "learning_rate": 0.00011415059665598105,
      "loss": 0.111,
      "step": 8320
    },
    {
      "epoch": 3.774091269391915,
      "grad_norm": 0.12575045228004456,
      "learning_rate": 0.00011396897887759071,
      "loss": 0.1145,
      "step": 8330
    },
    {
      "epoch": 3.7786207677499717,
      "grad_norm": 0.09050168097019196,
      "learning_rate": 0.00011378731409329684,
      "loss": 0.1108,
      "step": 8340
    },
    {
      "epoch": 3.7831502661080285,
      "grad_norm": 0.0824236199259758,
      "learning_rate": 0.00011360560291440526,
      "loss": 0.1137,
      "step": 8350
    },
    {
      "epoch": 3.7876797644660853,
      "grad_norm": 0.10261125862598419,
      "learning_rate": 0.00011342384595237776,
      "loss": 0.1089,
      "step": 8360
    },
    {
      "epoch": 3.792209262824142,
      "grad_norm": 0.08885115385055542,
      "learning_rate": 0.00011324204381883033,
      "loss": 0.1109,
      "step": 8370
    },
    {
      "epoch": 3.796738761182199,
      "grad_norm": 0.10409918427467346,
      "learning_rate": 0.00011306019712553094,
      "loss": 0.1142,
      "step": 8380
    },
    {
      "epoch": 3.801268259540256,
      "grad_norm": 0.0991046279668808,
      "learning_rate": 0.00011287830648439746,
      "loss": 0.115,
      "step": 8390
    },
    {
      "epoch": 3.8057977578983126,
      "grad_norm": 0.10309819132089615,
      "learning_rate": 0.00011269637250749565,
      "loss": 0.1112,
      "step": 8400
    },
    {
      "epoch": 3.8103272562563695,
      "grad_norm": 0.09360276162624359,
      "learning_rate": 0.00011251439580703716,
      "loss": 0.1115,
      "step": 8410
    },
    {
      "epoch": 3.8148567546144263,
      "grad_norm": 0.09267252683639526,
      "learning_rate": 0.0001123323769953773,
      "loss": 0.1106,
      "step": 8420
    },
    {
      "epoch": 3.819386252972483,
      "grad_norm": 0.11334355920553207,
      "learning_rate": 0.00011215031668501322,
      "loss": 0.1086,
      "step": 8430
    },
    {
      "epoch": 3.8239157513305404,
      "grad_norm": 0.09532047063112259,
      "learning_rate": 0.00011196821548858156,
      "loss": 0.1091,
      "step": 8440
    },
    {
      "epoch": 3.8284452496885972,
      "grad_norm": 0.08060566335916519,
      "learning_rate": 0.00011178607401885668,
      "loss": 0.1102,
      "step": 8450
    },
    {
      "epoch": 3.832974748046654,
      "grad_norm": 0.09655016660690308,
      "learning_rate": 0.0001116038928887484,
      "loss": 0.1124,
      "step": 8460
    },
    {
      "epoch": 3.837504246404711,
      "grad_norm": 0.10175477713346481,
      "learning_rate": 0.00011142167271129996,
      "loss": 0.1108,
      "step": 8470
    },
    {
      "epoch": 3.8420337447627677,
      "grad_norm": 0.08714988827705383,
      "learning_rate": 0.00011123941409968606,
      "loss": 0.111,
      "step": 8480
    },
    {
      "epoch": 3.8465632431208245,
      "grad_norm": 0.08987358957529068,
      "learning_rate": 0.00011105711766721067,
      "loss": 0.1096,
      "step": 8490
    },
    {
      "epoch": 3.8510927414788814,
      "grad_norm": 0.10814320296049118,
      "learning_rate": 0.00011087478402730514,
      "loss": 0.1151,
      "step": 8500
    },
    {
      "epoch": 3.855622239836938,
      "grad_norm": 0.09886670112609863,
      "learning_rate": 0.00011069241379352588,
      "loss": 0.1078,
      "step": 8510
    },
    {
      "epoch": 3.860151738194995,
      "grad_norm": 0.09303957968950272,
      "learning_rate": 0.00011051000757955257,
      "loss": 0.113,
      "step": 8520
    },
    {
      "epoch": 3.864681236553052,
      "grad_norm": 0.10088100284337997,
      "learning_rate": 0.00011032756599918584,
      "loss": 0.1112,
      "step": 8530
    },
    {
      "epoch": 3.8692107349111087,
      "grad_norm": 0.11249160021543503,
      "learning_rate": 0.0001101450896663454,
      "loss": 0.1124,
      "step": 8540
    },
    {
      "epoch": 3.8737402332691655,
      "grad_norm": 0.0930514931678772,
      "learning_rate": 0.00010996257919506794,
      "loss": 0.1115,
      "step": 8550
    },
    {
      "epoch": 3.8782697316272223,
      "grad_norm": 0.09656676650047302,
      "learning_rate": 0.00010978003519950493,
      "loss": 0.1098,
      "step": 8560
    },
    {
      "epoch": 3.882799229985279,
      "grad_norm": 0.091661736369133,
      "learning_rate": 0.00010959745829392069,
      "loss": 0.1135,
      "step": 8570
    },
    {
      "epoch": 3.887328728343336,
      "grad_norm": 0.09262984991073608,
      "learning_rate": 0.00010941484909269036,
      "loss": 0.1115,
      "step": 8580
    },
    {
      "epoch": 3.891858226701393,
      "grad_norm": 0.11751729995012283,
      "learning_rate": 0.00010923220821029762,
      "loss": 0.1132,
      "step": 8590
    },
    {
      "epoch": 3.8963877250594496,
      "grad_norm": 0.10761595517396927,
      "learning_rate": 0.00010904953626133287,
      "loss": 0.1126,
      "step": 8600
    },
    {
      "epoch": 3.9009172234175065,
      "grad_norm": 0.08337333053350449,
      "learning_rate": 0.00010886683386049099,
      "loss": 0.111,
      "step": 8610
    },
    {
      "epoch": 3.9054467217755633,
      "grad_norm": 0.10421154648065567,
      "learning_rate": 0.00010868410162256935,
      "loss": 0.1108,
      "step": 8620
    },
    {
      "epoch": 3.90997622013362,
      "grad_norm": 0.10565438121557236,
      "learning_rate": 0.0001085013401624657,
      "loss": 0.112,
      "step": 8630
    },
    {
      "epoch": 3.914505718491677,
      "grad_norm": 0.08946827799081802,
      "learning_rate": 0.00010831855009517613,
      "loss": 0.1101,
      "step": 8640
    },
    {
      "epoch": 3.9190352168497338,
      "grad_norm": 0.08507835865020752,
      "learning_rate": 0.00010813573203579306,
      "loss": 0.11,
      "step": 8650
    },
    {
      "epoch": 3.9235647152077906,
      "grad_norm": 0.07897284626960754,
      "learning_rate": 0.00010795288659950303,
      "loss": 0.1111,
      "step": 8660
    },
    {
      "epoch": 3.9280942135658474,
      "grad_norm": 0.09554194658994675,
      "learning_rate": 0.00010777001440158472,
      "loss": 0.1126,
      "step": 8670
    },
    {
      "epoch": 3.9326237119239043,
      "grad_norm": 0.11981197446584702,
      "learning_rate": 0.00010758711605740683,
      "loss": 0.1105,
      "step": 8680
    },
    {
      "epoch": 3.937153210281961,
      "grad_norm": 0.11121747642755508,
      "learning_rate": 0.00010740419218242615,
      "loss": 0.112,
      "step": 8690
    },
    {
      "epoch": 3.941682708640018,
      "grad_norm": 0.10044469684362411,
      "learning_rate": 0.00010722124339218524,
      "loss": 0.1097,
      "step": 8700
    },
    {
      "epoch": 3.9462122069980747,
      "grad_norm": 0.07444220036268234,
      "learning_rate": 0.00010703827030231065,
      "loss": 0.1096,
      "step": 8710
    },
    {
      "epoch": 3.9507417053561316,
      "grad_norm": 0.08997642993927002,
      "learning_rate": 0.00010685527352851054,
      "loss": 0.1098,
      "step": 8720
    },
    {
      "epoch": 3.9552712037141884,
      "grad_norm": 0.09852538257837296,
      "learning_rate": 0.0001066722536865729,
      "loss": 0.1112,
      "step": 8730
    },
    {
      "epoch": 3.9598007020722457,
      "grad_norm": 0.0946199893951416,
      "learning_rate": 0.00010648921139236328,
      "loss": 0.113,
      "step": 8740
    },
    {
      "epoch": 3.9643302004303025,
      "grad_norm": 0.10738665610551834,
      "learning_rate": 0.0001063061472618228,
      "loss": 0.1105,
      "step": 8750
    },
    {
      "epoch": 3.9688596987883593,
      "grad_norm": 0.09911846369504929,
      "learning_rate": 0.00010612306191096602,
      "loss": 0.1092,
      "step": 8760
    },
    {
      "epoch": 3.973389197146416,
      "grad_norm": 0.09100183844566345,
      "learning_rate": 0.00010593995595587898,
      "loss": 0.1075,
      "step": 8770
    },
    {
      "epoch": 3.977918695504473,
      "grad_norm": 0.08540119975805283,
      "learning_rate": 0.00010575683001271701,
      "loss": 0.11,
      "step": 8780
    },
    {
      "epoch": 3.98244819386253,
      "grad_norm": 0.1455107182264328,
      "learning_rate": 0.00010557368469770268,
      "loss": 0.1072,
      "step": 8790
    },
    {
      "epoch": 3.9869776922205866,
      "grad_norm": 0.09040206670761108,
      "learning_rate": 0.0001053905206271238,
      "loss": 0.112,
      "step": 8800
    },
    {
      "epoch": 3.9915071905786434,
      "grad_norm": 0.08172180503606796,
      "learning_rate": 0.00010520733841733125,
      "loss": 0.1128,
      "step": 8810
    },
    {
      "epoch": 3.9960366889367003,
      "grad_norm": 0.09760237485170364,
      "learning_rate": 0.000105024138684737,
      "loss": 0.1119,
      "step": 8820
    },
    {
      "epoch": 3.9996602876231457,
      "eval_loss": 0.15827356278896332,
      "eval_runtime": 617.6968,
      "eval_samples_per_second": 12.741,
      "eval_steps_per_second": 1.593,
      "step": 8828
    },
    {
      "epoch": 4.000905899671611,
      "grad_norm": 0.0798049345612526,
      "learning_rate": 0.00010484092204581189,
      "loss": 0.1153,
      "step": 8830
    },
    {
      "epoch": 4.005435398029668,
      "grad_norm": 0.07974246889352798,
      "learning_rate": 0.00010465768911708373,
      "loss": 0.0957,
      "step": 8840
    },
    {
      "epoch": 4.009964896387725,
      "grad_norm": 0.08676203340291977,
      "learning_rate": 0.00010447444051513513,
      "loss": 0.0962,
      "step": 8850
    },
    {
      "epoch": 4.014494394745782,
      "grad_norm": 0.07175087183713913,
      "learning_rate": 0.00010429117685660146,
      "loss": 0.0961,
      "step": 8860
    },
    {
      "epoch": 4.019023893103839,
      "grad_norm": 0.06814973056316376,
      "learning_rate": 0.00010410789875816866,
      "loss": 0.0963,
      "step": 8870
    },
    {
      "epoch": 4.0235533914618955,
      "grad_norm": 0.09090814739465714,
      "learning_rate": 0.00010392460683657142,
      "loss": 0.0994,
      "step": 8880
    },
    {
      "epoch": 4.028082889819952,
      "grad_norm": 0.08229593187570572,
      "learning_rate": 0.0001037413017085908,
      "loss": 0.0967,
      "step": 8890
    },
    {
      "epoch": 4.032612388178009,
      "grad_norm": 0.07398311048746109,
      "learning_rate": 0.00010355798399105235,
      "loss": 0.096,
      "step": 8900
    },
    {
      "epoch": 4.037141886536066,
      "grad_norm": 0.06932748854160309,
      "learning_rate": 0.00010337465430082403,
      "loss": 0.0969,
      "step": 8910
    },
    {
      "epoch": 4.041671384894123,
      "grad_norm": 0.09156011044979095,
      "learning_rate": 0.000103191313254814,
      "loss": 0.098,
      "step": 8920
    },
    {
      "epoch": 4.04620088325218,
      "grad_norm": 0.07946418970823288,
      "learning_rate": 0.00010300796146996874,
      "loss": 0.0962,
      "step": 8930
    },
    {
      "epoch": 4.0507303816102365,
      "grad_norm": 0.08557803928852081,
      "learning_rate": 0.00010282459956327073,
      "loss": 0.0948,
      "step": 8940
    },
    {
      "epoch": 4.055259879968293,
      "grad_norm": 0.0721755251288414,
      "learning_rate": 0.00010264122815173665,
      "loss": 0.0981,
      "step": 8950
    },
    {
      "epoch": 4.05978937832635,
      "grad_norm": 0.069907546043396,
      "learning_rate": 0.0001024578478524151,
      "loss": 0.0973,
      "step": 8960
    },
    {
      "epoch": 4.064318876684407,
      "grad_norm": 0.07597635686397552,
      "learning_rate": 0.00010227445928238455,
      "loss": 0.0985,
      "step": 8970
    },
    {
      "epoch": 4.068848375042464,
      "grad_norm": 0.08416584879159927,
      "learning_rate": 0.00010209106305875139,
      "loss": 0.0954,
      "step": 8980
    },
    {
      "epoch": 4.073377873400521,
      "grad_norm": 0.08617585897445679,
      "learning_rate": 0.00010190765979864764,
      "loss": 0.0977,
      "step": 8990
    },
    {
      "epoch": 4.077907371758577,
      "grad_norm": 0.07779661566019058,
      "learning_rate": 0.00010172425011922915,
      "loss": 0.0968,
      "step": 9000
    },
    {
      "epoch": 4.082436870116634,
      "grad_norm": 0.08647850900888443,
      "learning_rate": 0.00010154083463767323,
      "loss": 0.0964,
      "step": 9010
    },
    {
      "epoch": 4.086966368474691,
      "grad_norm": 0.08829203248023987,
      "learning_rate": 0.00010135741397117684,
      "loss": 0.0992,
      "step": 9020
    },
    {
      "epoch": 4.091495866832748,
      "grad_norm": 0.08579693734645844,
      "learning_rate": 0.00010117398873695429,
      "loss": 0.0987,
      "step": 9030
    },
    {
      "epoch": 4.096025365190805,
      "grad_norm": 0.06886789947748184,
      "learning_rate": 0.00010099055955223531,
      "loss": 0.0983,
      "step": 9040
    },
    {
      "epoch": 4.100554863548862,
      "grad_norm": 0.0997413694858551,
      "learning_rate": 0.0001008071270342629,
      "loss": 0.0956,
      "step": 9050
    },
    {
      "epoch": 4.105084361906918,
      "grad_norm": 0.07166160643100739,
      "learning_rate": 0.00010062369180029125,
      "loss": 0.0968,
      "step": 9060
    },
    {
      "epoch": 4.109613860264975,
      "grad_norm": 0.07676910609006882,
      "learning_rate": 0.00010044025446758381,
      "loss": 0.097,
      "step": 9070
    },
    {
      "epoch": 4.114143358623033,
      "grad_norm": 0.08378776907920837,
      "learning_rate": 0.00010025681565341091,
      "loss": 0.0964,
      "step": 9080
    },
    {
      "epoch": 4.11867285698109,
      "grad_norm": 0.0725962296128273,
      "learning_rate": 0.00010007337597504804,
      "loss": 0.0982,
      "step": 9090
    },
    {
      "epoch": 4.123202355339147,
      "grad_norm": 0.0860457792878151,
      "learning_rate": 9.988993604977352e-05,
      "loss": 0.0974,
      "step": 9100
    },
    {
      "epoch": 4.127731853697203,
      "grad_norm": 0.08629846572875977,
      "learning_rate": 9.970649649486644e-05,
      "loss": 0.0981,
      "step": 9110
    },
    {
      "epoch": 4.13226135205526,
      "grad_norm": 0.08496873825788498,
      "learning_rate": 9.952305792760475e-05,
      "loss": 0.0991,
      "step": 9120
    },
    {
      "epoch": 4.136790850413317,
      "grad_norm": 0.07953400164842606,
      "learning_rate": 9.933962096526302e-05,
      "loss": 0.0953,
      "step": 9130
    },
    {
      "epoch": 4.141320348771374,
      "grad_norm": 0.08169267326593399,
      "learning_rate": 9.915618622511044e-05,
      "loss": 0.0985,
      "step": 9140
    },
    {
      "epoch": 4.145849847129431,
      "grad_norm": 0.09323912113904953,
      "learning_rate": 9.897275432440872e-05,
      "loss": 0.0955,
      "step": 9150
    },
    {
      "epoch": 4.1503793454874875,
      "grad_norm": 0.07836610078811646,
      "learning_rate": 9.878932588040997e-05,
      "loss": 0.0983,
      "step": 9160
    },
    {
      "epoch": 4.154908843845544,
      "grad_norm": 0.06795407086610794,
      "learning_rate": 9.860590151035473e-05,
      "loss": 0.097,
      "step": 9170
    },
    {
      "epoch": 4.159438342203601,
      "grad_norm": 0.082821324467659,
      "learning_rate": 9.84224818314698e-05,
      "loss": 0.0972,
      "step": 9180
    },
    {
      "epoch": 4.163967840561658,
      "grad_norm": 0.06650907546281815,
      "learning_rate": 9.823906746096622e-05,
      "loss": 0.0973,
      "step": 9190
    },
    {
      "epoch": 4.168497338919715,
      "grad_norm": 0.07272431999444962,
      "learning_rate": 9.805565901603714e-05,
      "loss": 0.0974,
      "step": 9200
    },
    {
      "epoch": 4.173026837277772,
      "grad_norm": 0.07406030595302582,
      "learning_rate": 9.78722571138558e-05,
      "loss": 0.0968,
      "step": 9210
    },
    {
      "epoch": 4.1775563356358285,
      "grad_norm": 0.06534506380558014,
      "learning_rate": 9.768886237157337e-05,
      "loss": 0.0977,
      "step": 9220
    },
    {
      "epoch": 4.182085833993885,
      "grad_norm": 0.08346185088157654,
      "learning_rate": 9.750547540631697e-05,
      "loss": 0.0966,
      "step": 9230
    },
    {
      "epoch": 4.186615332351942,
      "grad_norm": 0.0646069347858429,
      "learning_rate": 9.732209683518753e-05,
      "loss": 0.0957,
      "step": 9240
    },
    {
      "epoch": 4.191144830709999,
      "grad_norm": 0.07642305642366409,
      "learning_rate": 9.713872727525778e-05,
      "loss": 0.0948,
      "step": 9250
    },
    {
      "epoch": 4.195674329068056,
      "grad_norm": 0.07574049383401871,
      "learning_rate": 9.695536734357005e-05,
      "loss": 0.0977,
      "step": 9260
    },
    {
      "epoch": 4.200203827426113,
      "grad_norm": 0.08899475634098053,
      "learning_rate": 9.677201765713435e-05,
      "loss": 0.0979,
      "step": 9270
    },
    {
      "epoch": 4.2047333257841695,
      "grad_norm": 0.07823716104030609,
      "learning_rate": 9.658867883292615e-05,
      "loss": 0.0986,
      "step": 9280
    },
    {
      "epoch": 4.209262824142226,
      "grad_norm": 0.07970847934484482,
      "learning_rate": 9.640535148788443e-05,
      "loss": 0.0965,
      "step": 9290
    },
    {
      "epoch": 4.213792322500283,
      "grad_norm": 0.07121343910694122,
      "learning_rate": 9.622203623890944e-05,
      "loss": 0.098,
      "step": 9300
    },
    {
      "epoch": 4.21832182085834,
      "grad_norm": 0.08438264578580856,
      "learning_rate": 9.603873370286083e-05,
      "loss": 0.0975,
      "step": 9310
    },
    {
      "epoch": 4.222851319216397,
      "grad_norm": 0.07344311475753784,
      "learning_rate": 9.585544449655543e-05,
      "loss": 0.0995,
      "step": 9320
    },
    {
      "epoch": 4.227380817574454,
      "grad_norm": 0.08449902385473251,
      "learning_rate": 9.567216923676526e-05,
      "loss": 0.1,
      "step": 9330
    },
    {
      "epoch": 4.23191031593251,
      "grad_norm": 0.08021081984043121,
      "learning_rate": 9.548890854021529e-05,
      "loss": 0.0966,
      "step": 9340
    },
    {
      "epoch": 4.236439814290567,
      "grad_norm": 0.08234046399593353,
      "learning_rate": 9.530566302358162e-05,
      "loss": 0.0948,
      "step": 9350
    },
    {
      "epoch": 4.240969312648624,
      "grad_norm": 0.09645576030015945,
      "learning_rate": 9.512243330348917e-05,
      "loss": 0.0952,
      "step": 9360
    },
    {
      "epoch": 4.245498811006681,
      "grad_norm": 0.07178854942321777,
      "learning_rate": 9.493921999650981e-05,
      "loss": 0.0928,
      "step": 9370
    },
    {
      "epoch": 4.250028309364738,
      "grad_norm": 0.08183001726865768,
      "learning_rate": 9.475602371916006e-05,
      "loss": 0.0969,
      "step": 9380
    },
    {
      "epoch": 4.254557807722795,
      "grad_norm": 0.07914981991052628,
      "learning_rate": 9.457284508789922e-05,
      "loss": 0.0967,
      "step": 9390
    },
    {
      "epoch": 4.259087306080851,
      "grad_norm": 0.07766249775886536,
      "learning_rate": 9.438968471912718e-05,
      "loss": 0.0973,
      "step": 9400
    },
    {
      "epoch": 4.263616804438908,
      "grad_norm": 0.06642225384712219,
      "learning_rate": 9.420654322918234e-05,
      "loss": 0.0972,
      "step": 9410
    },
    {
      "epoch": 4.268146302796965,
      "grad_norm": 0.10396700352430344,
      "learning_rate": 9.402342123433968e-05,
      "loss": 0.0992,
      "step": 9420
    },
    {
      "epoch": 4.272675801155022,
      "grad_norm": 0.0772017240524292,
      "learning_rate": 9.384031935080849e-05,
      "loss": 0.0955,
      "step": 9430
    },
    {
      "epoch": 4.277205299513079,
      "grad_norm": 0.08579739928245544,
      "learning_rate": 9.365723819473034e-05,
      "loss": 0.0999,
      "step": 9440
    },
    {
      "epoch": 4.2817347978711355,
      "grad_norm": 0.07170093059539795,
      "learning_rate": 9.347417838217719e-05,
      "loss": 0.0978,
      "step": 9450
    },
    {
      "epoch": 4.286264296229192,
      "grad_norm": 0.09926804155111313,
      "learning_rate": 9.329114052914905e-05,
      "loss": 0.0975,
      "step": 9460
    },
    {
      "epoch": 4.290793794587249,
      "grad_norm": 0.0870131105184555,
      "learning_rate": 9.310812525157211e-05,
      "loss": 0.0976,
      "step": 9470
    },
    {
      "epoch": 4.295323292945306,
      "grad_norm": 0.09447421133518219,
      "learning_rate": 9.29251331652966e-05,
      "loss": 0.0978,
      "step": 9480
    },
    {
      "epoch": 4.299852791303363,
      "grad_norm": 0.06886494159698486,
      "learning_rate": 9.274216488609465e-05,
      "loss": 0.0956,
      "step": 9490
    },
    {
      "epoch": 4.30438228966142,
      "grad_norm": 0.06958340108394623,
      "learning_rate": 9.255922102965835e-05,
      "loss": 0.0978,
      "step": 9500
    },
    {
      "epoch": 4.3089117880194765,
      "grad_norm": 0.09395691007375717,
      "learning_rate": 9.237630221159751e-05,
      "loss": 0.0999,
      "step": 9510
    },
    {
      "epoch": 4.313441286377533,
      "grad_norm": 0.08615806698799133,
      "learning_rate": 9.219340904743781e-05,
      "loss": 0.0971,
      "step": 9520
    },
    {
      "epoch": 4.31797078473559,
      "grad_norm": 0.09322655200958252,
      "learning_rate": 9.201054215261849e-05,
      "loss": 0.1008,
      "step": 9530
    },
    {
      "epoch": 4.322500283093647,
      "grad_norm": 0.08992312103509903,
      "learning_rate": 9.182770214249046e-05,
      "loss": 0.0992,
      "step": 9540
    },
    {
      "epoch": 4.327029781451705,
      "grad_norm": 0.08701404929161072,
      "learning_rate": 9.164488963231415e-05,
      "loss": 0.0969,
      "step": 9550
    },
    {
      "epoch": 4.3315592798097615,
      "grad_norm": 0.07870589941740036,
      "learning_rate": 9.146210523725744e-05,
      "loss": 0.0989,
      "step": 9560
    },
    {
      "epoch": 4.336088778167818,
      "grad_norm": 0.061097387224435806,
      "learning_rate": 9.127934957239367e-05,
      "loss": 0.0986,
      "step": 9570
    },
    {
      "epoch": 4.340618276525875,
      "grad_norm": 0.08281367272138596,
      "learning_rate": 9.109662325269932e-05,
      "loss": 0.0988,
      "step": 9580
    },
    {
      "epoch": 4.345147774883932,
      "grad_norm": 0.09463726729154587,
      "learning_rate": 9.091392689305233e-05,
      "loss": 0.0977,
      "step": 9590
    },
    {
      "epoch": 4.349677273241989,
      "grad_norm": 0.07657352089881897,
      "learning_rate": 9.073126110822969e-05,
      "loss": 0.0995,
      "step": 9600
    },
    {
      "epoch": 4.354206771600046,
      "grad_norm": 0.08821120113134384,
      "learning_rate": 9.054862651290559e-05,
      "loss": 0.0972,
      "step": 9610
    },
    {
      "epoch": 4.3587362699581025,
      "grad_norm": 0.09997398406267166,
      "learning_rate": 9.036602372164922e-05,
      "loss": 0.0987,
      "step": 9620
    },
    {
      "epoch": 4.363265768316159,
      "grad_norm": 0.08112788945436478,
      "learning_rate": 9.018345334892275e-05,
      "loss": 0.0974,
      "step": 9630
    },
    {
      "epoch": 4.367795266674216,
      "grad_norm": 0.07112699747085571,
      "learning_rate": 9.000091600907928e-05,
      "loss": 0.0977,
      "step": 9640
    },
    {
      "epoch": 4.372324765032273,
      "grad_norm": 0.09066987037658691,
      "learning_rate": 8.981841231636073e-05,
      "loss": 0.0989,
      "step": 9650
    },
    {
      "epoch": 4.37685426339033,
      "grad_norm": 0.08122070878744125,
      "learning_rate": 8.96359428848958e-05,
      "loss": 0.0997,
      "step": 9660
    },
    {
      "epoch": 4.381383761748387,
      "grad_norm": 0.08035853505134583,
      "learning_rate": 8.945350832869795e-05,
      "loss": 0.0979,
      "step": 9670
    },
    {
      "epoch": 4.3859132601064434,
      "grad_norm": 0.07366472482681274,
      "learning_rate": 8.927110926166324e-05,
      "loss": 0.0969,
      "step": 9680
    },
    {
      "epoch": 4.3904427584645,
      "grad_norm": 0.0794186070561409,
      "learning_rate": 8.908874629756827e-05,
      "loss": 0.0983,
      "step": 9690
    },
    {
      "epoch": 4.394972256822557,
      "grad_norm": 0.06437776982784271,
      "learning_rate": 8.890642005006822e-05,
      "loss": 0.0984,
      "step": 9700
    },
    {
      "epoch": 4.399501755180614,
      "grad_norm": 0.07162316143512726,
      "learning_rate": 8.872413113269468e-05,
      "loss": 0.0975,
      "step": 9710
    },
    {
      "epoch": 4.404031253538671,
      "grad_norm": 0.07623278349637985,
      "learning_rate": 8.854188015885368e-05,
      "loss": 0.0998,
      "step": 9720
    },
    {
      "epoch": 4.408560751896728,
      "grad_norm": 0.07586734741926193,
      "learning_rate": 8.835966774182349e-05,
      "loss": 0.0973,
      "step": 9730
    },
    {
      "epoch": 4.413090250254784,
      "grad_norm": 0.0751037672162056,
      "learning_rate": 8.817749449475266e-05,
      "loss": 0.099,
      "step": 9740
    },
    {
      "epoch": 4.417619748612841,
      "grad_norm": 0.07702226936817169,
      "learning_rate": 8.799536103065794e-05,
      "loss": 0.098,
      "step": 9750
    },
    {
      "epoch": 4.422149246970898,
      "grad_norm": 0.07942003011703491,
      "learning_rate": 8.781326796242222e-05,
      "loss": 0.0982,
      "step": 9760
    },
    {
      "epoch": 4.426678745328955,
      "grad_norm": 0.07305794209241867,
      "learning_rate": 8.763121590279249e-05,
      "loss": 0.0964,
      "step": 9770
    },
    {
      "epoch": 4.431208243687012,
      "grad_norm": 0.07927001267671585,
      "learning_rate": 8.744920546437764e-05,
      "loss": 0.0985,
      "step": 9780
    },
    {
      "epoch": 4.4357377420450685,
      "grad_norm": 0.08005883544683456,
      "learning_rate": 8.726723725964662e-05,
      "loss": 0.0996,
      "step": 9790
    },
    {
      "epoch": 4.440267240403125,
      "grad_norm": 0.07482803612947464,
      "learning_rate": 8.708531190092619e-05,
      "loss": 0.1007,
      "step": 9800
    },
    {
      "epoch": 4.444796738761182,
      "grad_norm": 0.08192785084247589,
      "learning_rate": 8.690343000039895e-05,
      "loss": 0.1008,
      "step": 9810
    },
    {
      "epoch": 4.449326237119239,
      "grad_norm": 0.07693403214216232,
      "learning_rate": 8.67215921701013e-05,
      "loss": 0.0982,
      "step": 9820
    },
    {
      "epoch": 4.453855735477296,
      "grad_norm": 0.0875929445028305,
      "learning_rate": 8.653979902192125e-05,
      "loss": 0.1003,
      "step": 9830
    },
    {
      "epoch": 4.458385233835353,
      "grad_norm": 0.07676168531179428,
      "learning_rate": 8.635805116759656e-05,
      "loss": 0.0964,
      "step": 9840
    },
    {
      "epoch": 4.4629147321934095,
      "grad_norm": 0.0706658735871315,
      "learning_rate": 8.617634921871252e-05,
      "loss": 0.0996,
      "step": 9850
    },
    {
      "epoch": 4.467444230551466,
      "grad_norm": 0.08421318978071213,
      "learning_rate": 8.599469378669997e-05,
      "loss": 0.1004,
      "step": 9860
    },
    {
      "epoch": 4.471973728909523,
      "grad_norm": 0.06626369804143906,
      "learning_rate": 8.581308548283313e-05,
      "loss": 0.0961,
      "step": 9870
    },
    {
      "epoch": 4.47650322726758,
      "grad_norm": 0.10955769568681717,
      "learning_rate": 8.563152491822777e-05,
      "loss": 0.0989,
      "step": 9880
    },
    {
      "epoch": 4.481032725625637,
      "grad_norm": 0.07062443345785141,
      "learning_rate": 8.545001270383896e-05,
      "loss": 0.0996,
      "step": 9890
    },
    {
      "epoch": 4.485562223983694,
      "grad_norm": 0.09103110432624817,
      "learning_rate": 8.526854945045903e-05,
      "loss": 0.0969,
      "step": 9900
    },
    {
      "epoch": 4.4900917223417505,
      "grad_norm": 0.08335482329130173,
      "learning_rate": 8.508713576871564e-05,
      "loss": 0.0988,
      "step": 9910
    },
    {
      "epoch": 4.494621220699807,
      "grad_norm": 0.08251272886991501,
      "learning_rate": 8.490577226906952e-05,
      "loss": 0.1002,
      "step": 9920
    },
    {
      "epoch": 4.499150719057864,
      "grad_norm": 0.0790376290678978,
      "learning_rate": 8.472445956181266e-05,
      "loss": 0.0959,
      "step": 9930
    },
    {
      "epoch": 4.503680217415921,
      "grad_norm": 0.07596680521965027,
      "learning_rate": 8.454319825706607e-05,
      "loss": 0.0957,
      "step": 9940
    },
    {
      "epoch": 4.508209715773978,
      "grad_norm": 0.07809595763683319,
      "learning_rate": 8.436198896477777e-05,
      "loss": 0.0966,
      "step": 9950
    },
    {
      "epoch": 4.512739214132035,
      "grad_norm": 0.0959998071193695,
      "learning_rate": 8.418083229472081e-05,
      "loss": 0.0983,
      "step": 9960
    },
    {
      "epoch": 4.517268712490091,
      "grad_norm": 0.0705457404255867,
      "learning_rate": 8.399972885649115e-05,
      "loss": 0.0985,
      "step": 9970
    },
    {
      "epoch": 4.521798210848148,
      "grad_norm": 0.07132048159837723,
      "learning_rate": 8.381867925950558e-05,
      "loss": 0.0966,
      "step": 9980
    },
    {
      "epoch": 4.526327709206205,
      "grad_norm": 0.08615089952945709,
      "learning_rate": 8.363768411299978e-05,
      "loss": 0.097,
      "step": 9990
    },
    {
      "epoch": 4.530857207564262,
      "grad_norm": 0.07540059089660645,
      "learning_rate": 8.345674402602617e-05,
      "loss": 0.1016,
      "step": 10000
    },
    {
      "epoch": 4.535386705922319,
      "grad_norm": 0.0691477432847023,
      "learning_rate": 8.32758596074519e-05,
      "loss": 0.1008,
      "step": 10010
    },
    {
      "epoch": 4.539916204280376,
      "grad_norm": 0.07377701252698898,
      "learning_rate": 8.309503146595674e-05,
      "loss": 0.0995,
      "step": 10020
    },
    {
      "epoch": 4.544445702638432,
      "grad_norm": 0.06582989543676376,
      "learning_rate": 8.291426021003117e-05,
      "loss": 0.0974,
      "step": 10030
    },
    {
      "epoch": 4.548975200996489,
      "grad_norm": 0.07520575076341629,
      "learning_rate": 8.273354644797421e-05,
      "loss": 0.0995,
      "step": 10040
    },
    {
      "epoch": 4.553504699354546,
      "grad_norm": 0.0851583182811737,
      "learning_rate": 8.255289078789141e-05,
      "loss": 0.097,
      "step": 10050
    },
    {
      "epoch": 4.558034197712603,
      "grad_norm": 0.08124125748872757,
      "learning_rate": 8.237229383769283e-05,
      "loss": 0.1001,
      "step": 10060
    },
    {
      "epoch": 4.56256369607066,
      "grad_norm": 0.08267924189567566,
      "learning_rate": 8.219175620509092e-05,
      "loss": 0.0969,
      "step": 10070
    },
    {
      "epoch": 4.5670931944287165,
      "grad_norm": 0.07254312187433243,
      "learning_rate": 8.201127849759861e-05,
      "loss": 0.0993,
      "step": 10080
    },
    {
      "epoch": 4.571622692786774,
      "grad_norm": 0.08983401954174042,
      "learning_rate": 8.183086132252706e-05,
      "loss": 0.1003,
      "step": 10090
    },
    {
      "epoch": 4.576152191144831,
      "grad_norm": 0.06914500892162323,
      "learning_rate": 8.165050528698385e-05,
      "loss": 0.1002,
      "step": 10100
    },
    {
      "epoch": 4.580681689502888,
      "grad_norm": 0.06419195234775543,
      "learning_rate": 8.147021099787075e-05,
      "loss": 0.099,
      "step": 10110
    },
    {
      "epoch": 4.585211187860945,
      "grad_norm": 0.0637657642364502,
      "learning_rate": 8.12899790618818e-05,
      "loss": 0.0986,
      "step": 10120
    },
    {
      "epoch": 4.5897406862190016,
      "grad_norm": 0.06946605443954468,
      "learning_rate": 8.11098100855012e-05,
      "loss": 0.1003,
      "step": 10130
    },
    {
      "epoch": 4.594270184577058,
      "grad_norm": 0.06739254295825958,
      "learning_rate": 8.092970467500129e-05,
      "loss": 0.1002,
      "step": 10140
    },
    {
      "epoch": 4.598799682935115,
      "grad_norm": 0.058849554508924484,
      "learning_rate": 8.074966343644056e-05,
      "loss": 0.0991,
      "step": 10150
    },
    {
      "epoch": 4.603329181293172,
      "grad_norm": 0.07838159799575806,
      "learning_rate": 8.056968697566141e-05,
      "loss": 0.0986,
      "step": 10160
    },
    {
      "epoch": 4.607858679651229,
      "grad_norm": 0.06857123970985413,
      "learning_rate": 8.038977589828841e-05,
      "loss": 0.0995,
      "step": 10170
    },
    {
      "epoch": 4.612388178009286,
      "grad_norm": 0.06318482011556625,
      "learning_rate": 8.020993080972607e-05,
      "loss": 0.0993,
      "step": 10180
    },
    {
      "epoch": 4.6169176763673425,
      "grad_norm": 0.06283606588840485,
      "learning_rate": 8.003015231515683e-05,
      "loss": 0.0986,
      "step": 10190
    },
    {
      "epoch": 4.621447174725399,
      "grad_norm": 0.07274708896875381,
      "learning_rate": 7.985044101953905e-05,
      "loss": 0.0967,
      "step": 10200
    },
    {
      "epoch": 4.625976673083456,
      "grad_norm": 0.0730716809630394,
      "learning_rate": 7.967079752760498e-05,
      "loss": 0.0998,
      "step": 10210
    },
    {
      "epoch": 4.630506171441513,
      "grad_norm": 0.08666019141674042,
      "learning_rate": 7.949122244385869e-05,
      "loss": 0.0997,
      "step": 10220
    },
    {
      "epoch": 4.63503566979957,
      "grad_norm": 0.07280432432889938,
      "learning_rate": 7.931171637257407e-05,
      "loss": 0.098,
      "step": 10230
    },
    {
      "epoch": 4.639565168157627,
      "grad_norm": 0.07623490691184998,
      "learning_rate": 7.913227991779275e-05,
      "loss": 0.0972,
      "step": 10240
    },
    {
      "epoch": 4.6440946665156835,
      "grad_norm": 0.08786217123270035,
      "learning_rate": 7.895291368332213e-05,
      "loss": 0.0984,
      "step": 10250
    },
    {
      "epoch": 4.64862416487374,
      "grad_norm": 0.06460744142532349,
      "learning_rate": 7.877361827273333e-05,
      "loss": 0.1003,
      "step": 10260
    },
    {
      "epoch": 4.653153663231797,
      "grad_norm": 0.0875258669257164,
      "learning_rate": 7.859439428935907e-05,
      "loss": 0.0973,
      "step": 10270
    },
    {
      "epoch": 4.657683161589854,
      "grad_norm": 0.0640462338924408,
      "learning_rate": 7.841524233629182e-05,
      "loss": 0.097,
      "step": 10280
    },
    {
      "epoch": 4.662212659947911,
      "grad_norm": 0.08805970847606659,
      "learning_rate": 7.823616301638158e-05,
      "loss": 0.0977,
      "step": 10290
    },
    {
      "epoch": 4.666742158305968,
      "grad_norm": 0.08403537422418594,
      "learning_rate": 7.805715693223403e-05,
      "loss": 0.0974,
      "step": 10300
    },
    {
      "epoch": 4.671271656664024,
      "grad_norm": 0.08450974524021149,
      "learning_rate": 7.787822468620831e-05,
      "loss": 0.0996,
      "step": 10310
    },
    {
      "epoch": 4.675801155022081,
      "grad_norm": 0.06727894395589828,
      "learning_rate": 7.76993668804151e-05,
      "loss": 0.0968,
      "step": 10320
    },
    {
      "epoch": 4.680330653380138,
      "grad_norm": 0.07860536128282547,
      "learning_rate": 7.752058411671469e-05,
      "loss": 0.098,
      "step": 10330
    },
    {
      "epoch": 4.684860151738195,
      "grad_norm": 0.0783989354968071,
      "learning_rate": 7.734187699671475e-05,
      "loss": 0.1001,
      "step": 10340
    },
    {
      "epoch": 4.689389650096252,
      "grad_norm": 0.09318368136882782,
      "learning_rate": 7.716324612176848e-05,
      "loss": 0.102,
      "step": 10350
    },
    {
      "epoch": 4.693919148454309,
      "grad_norm": 0.06499195098876953,
      "learning_rate": 7.698469209297243e-05,
      "loss": 0.0972,
      "step": 10360
    },
    {
      "epoch": 4.698448646812365,
      "grad_norm": 0.08642645180225372,
      "learning_rate": 7.680621551116464e-05,
      "loss": 0.0976,
      "step": 10370
    },
    {
      "epoch": 4.702978145170422,
      "grad_norm": 0.08057048916816711,
      "learning_rate": 7.662781697692251e-05,
      "loss": 0.1001,
      "step": 10380
    },
    {
      "epoch": 4.707507643528479,
      "grad_norm": 0.07037744671106339,
      "learning_rate": 7.644949709056081e-05,
      "loss": 0.0954,
      "step": 10390
    },
    {
      "epoch": 4.712037141886536,
      "grad_norm": 0.07643935829401016,
      "learning_rate": 7.627125645212962e-05,
      "loss": 0.0988,
      "step": 10400
    },
    {
      "epoch": 4.716566640244593,
      "grad_norm": 0.06035691127181053,
      "learning_rate": 7.609309566141242e-05,
      "loss": 0.0951,
      "step": 10410
    },
    {
      "epoch": 4.7210961386026495,
      "grad_norm": 0.06654711812734604,
      "learning_rate": 7.591501531792394e-05,
      "loss": 0.0978,
      "step": 10420
    },
    {
      "epoch": 4.725625636960706,
      "grad_norm": 0.0829191505908966,
      "learning_rate": 7.573701602090826e-05,
      "loss": 0.0974,
      "step": 10430
    },
    {
      "epoch": 4.730155135318763,
      "grad_norm": 0.06532509624958038,
      "learning_rate": 7.555909836933668e-05,
      "loss": 0.1,
      "step": 10440
    },
    {
      "epoch": 4.73468463367682,
      "grad_norm": 0.07426194101572037,
      "learning_rate": 7.538126296190578e-05,
      "loss": 0.0978,
      "step": 10450
    },
    {
      "epoch": 4.739214132034877,
      "grad_norm": 0.07493621110916138,
      "learning_rate": 7.520351039703539e-05,
      "loss": 0.0982,
      "step": 10460
    },
    {
      "epoch": 4.743743630392934,
      "grad_norm": 0.07495691627264023,
      "learning_rate": 7.50258412728666e-05,
      "loss": 0.0988,
      "step": 10470
    },
    {
      "epoch": 4.7482731287509905,
      "grad_norm": 0.08136378973722458,
      "learning_rate": 7.484825618725968e-05,
      "loss": 0.097,
      "step": 10480
    },
    {
      "epoch": 4.752802627109047,
      "grad_norm": 0.06776054948568344,
      "learning_rate": 7.467075573779215e-05,
      "loss": 0.099,
      "step": 10490
    },
    {
      "epoch": 4.757332125467104,
      "grad_norm": 0.06532083451747894,
      "learning_rate": 7.449334052175665e-05,
      "loss": 0.1008,
      "step": 10500
    },
    {
      "epoch": 4.761861623825161,
      "grad_norm": 0.08907100558280945,
      "learning_rate": 7.431601113615909e-05,
      "loss": 0.0995,
      "step": 10510
    },
    {
      "epoch": 4.766391122183219,
      "grad_norm": 0.07240644842386246,
      "learning_rate": 7.413876817771655e-05,
      "loss": 0.0998,
      "step": 10520
    },
    {
      "epoch": 4.7709206205412755,
      "grad_norm": 0.07485652714967728,
      "learning_rate": 7.396161224285521e-05,
      "loss": 0.0964,
      "step": 10530
    },
    {
      "epoch": 4.775450118899332,
      "grad_norm": 0.07228762656450272,
      "learning_rate": 7.378454392770851e-05,
      "loss": 0.0999,
      "step": 10540
    },
    {
      "epoch": 4.779979617257389,
      "grad_norm": 0.08463383466005325,
      "learning_rate": 7.360756382811498e-05,
      "loss": 0.0962,
      "step": 10550
    },
    {
      "epoch": 4.784509115615446,
      "grad_norm": 0.08021671324968338,
      "learning_rate": 7.343067253961633e-05,
      "loss": 0.0982,
      "step": 10560
    },
    {
      "epoch": 4.789038613973503,
      "grad_norm": 0.0640299916267395,
      "learning_rate": 7.325387065745542e-05,
      "loss": 0.0987,
      "step": 10570
    },
    {
      "epoch": 4.79356811233156,
      "grad_norm": 0.08146077394485474,
      "learning_rate": 7.307715877657428e-05,
      "loss": 0.1004,
      "step": 10580
    },
    {
      "epoch": 4.7980976106896165,
      "grad_norm": 0.0729324147105217,
      "learning_rate": 7.290053749161197e-05,
      "loss": 0.098,
      "step": 10590
    },
    {
      "epoch": 4.802627109047673,
      "grad_norm": 0.08027558028697968,
      "learning_rate": 7.272400739690281e-05,
      "loss": 0.1003,
      "step": 10600
    },
    {
      "epoch": 4.80715660740573,
      "grad_norm": 0.07233118265867233,
      "learning_rate": 7.254756908647424e-05,
      "loss": 0.0969,
      "step": 10610
    },
    {
      "epoch": 4.811686105763787,
      "grad_norm": 0.08703139424324036,
      "learning_rate": 7.237122315404483e-05,
      "loss": 0.0978,
      "step": 10620
    },
    {
      "epoch": 4.816215604121844,
      "grad_norm": 0.09773527085781097,
      "learning_rate": 7.219497019302231e-05,
      "loss": 0.1006,
      "step": 10630
    },
    {
      "epoch": 4.820745102479901,
      "grad_norm": 0.07498451322317123,
      "learning_rate": 7.201881079650153e-05,
      "loss": 0.0953,
      "step": 10640
    },
    {
      "epoch": 4.8252746008379575,
      "grad_norm": 0.08071410655975342,
      "learning_rate": 7.184274555726251e-05,
      "loss": 0.0997,
      "step": 10650
    },
    {
      "epoch": 4.829804099196014,
      "grad_norm": 0.09239617735147476,
      "learning_rate": 7.166677506776847e-05,
      "loss": 0.0966,
      "step": 10660
    },
    {
      "epoch": 4.834333597554071,
      "grad_norm": 0.06160885840654373,
      "learning_rate": 7.149089992016369e-05,
      "loss": 0.0996,
      "step": 10670
    },
    {
      "epoch": 4.838863095912128,
      "grad_norm": 0.06242508441209793,
      "learning_rate": 7.131512070627174e-05,
      "loss": 0.0971,
      "step": 10680
    },
    {
      "epoch": 4.843392594270185,
      "grad_norm": 0.07087717205286026,
      "learning_rate": 7.113943801759328e-05,
      "loss": 0.0981,
      "step": 10690
    },
    {
      "epoch": 4.847922092628242,
      "grad_norm": 0.09145446121692657,
      "learning_rate": 7.096385244530421e-05,
      "loss": 0.1018,
      "step": 10700
    },
    {
      "epoch": 4.852451590986298,
      "grad_norm": 0.06915028393268585,
      "learning_rate": 7.078836458025367e-05,
      "loss": 0.0975,
      "step": 10710
    },
    {
      "epoch": 4.856981089344355,
      "grad_norm": 0.0731835886836052,
      "learning_rate": 7.06129750129619e-05,
      "loss": 0.0983,
      "step": 10720
    },
    {
      "epoch": 4.861510587702412,
      "grad_norm": 0.07754811644554138,
      "learning_rate": 7.043768433361848e-05,
      "loss": 0.0987,
      "step": 10730
    },
    {
      "epoch": 4.866040086060469,
      "grad_norm": 0.07234437018632889,
      "learning_rate": 7.026249313208013e-05,
      "loss": 0.0999,
      "step": 10740
    },
    {
      "epoch": 4.870569584418526,
      "grad_norm": 0.06629019230604172,
      "learning_rate": 7.008740199786891e-05,
      "loss": 0.0982,
      "step": 10750
    },
    {
      "epoch": 4.8750990827765825,
      "grad_norm": 0.07004278153181076,
      "learning_rate": 6.991241152017009e-05,
      "loss": 0.0984,
      "step": 10760
    },
    {
      "epoch": 4.879628581134639,
      "grad_norm": 0.07674950361251831,
      "learning_rate": 6.973752228783028e-05,
      "loss": 0.0967,
      "step": 10770
    },
    {
      "epoch": 4.884158079492696,
      "grad_norm": 0.08505762368440628,
      "learning_rate": 6.956273488935537e-05,
      "loss": 0.1013,
      "step": 10780
    },
    {
      "epoch": 4.888687577850753,
      "grad_norm": 0.07949452847242355,
      "learning_rate": 6.938804991290856e-05,
      "loss": 0.0985,
      "step": 10790
    },
    {
      "epoch": 4.89321707620881,
      "grad_norm": 0.08295728266239166,
      "learning_rate": 6.921346794630843e-05,
      "loss": 0.0989,
      "step": 10800
    },
    {
      "epoch": 4.897746574566867,
      "grad_norm": 0.06370176374912262,
      "learning_rate": 6.903898957702694e-05,
      "loss": 0.0973,
      "step": 10810
    },
    {
      "epoch": 4.9022760729249235,
      "grad_norm": 0.07928381115198135,
      "learning_rate": 6.886461539218739e-05,
      "loss": 0.0997,
      "step": 10820
    },
    {
      "epoch": 4.90680557128298,
      "grad_norm": 0.07781045138835907,
      "learning_rate": 6.870776818850459e-05,
      "loss": 0.1002,
      "step": 10830
    },
    {
      "epoch": 4.911335069641037,
      "grad_norm": 0.06968411058187485,
      "learning_rate": 6.853359357037234e-05,
      "loss": 0.0967,
      "step": 10840
    },
    {
      "epoch": 4.915864567999094,
      "grad_norm": 0.08793435990810394,
      "learning_rate": 6.835952483735004e-05,
      "loss": 0.0985,
      "step": 10850
    },
    {
      "epoch": 4.920394066357151,
      "grad_norm": 0.07273527979850769,
      "learning_rate": 6.818556257518263e-05,
      "loss": 0.1007,
      "step": 10860
    },
    {
      "epoch": 4.924923564715208,
      "grad_norm": 0.0791454091668129,
      "learning_rate": 6.80117073692567e-05,
      "loss": 0.0966,
      "step": 10870
    },
    {
      "epoch": 4.9294530630732645,
      "grad_norm": 0.07608039677143097,
      "learning_rate": 6.783795980459867e-05,
      "loss": 0.1012,
      "step": 10880
    },
    {
      "epoch": 4.933982561431321,
      "grad_norm": 0.07776329666376114,
      "learning_rate": 6.766432046587266e-05,
      "loss": 0.1003,
      "step": 10890
    },
    {
      "epoch": 4.938512059789378,
      "grad_norm": 0.0679519921541214,
      "learning_rate": 6.749078993737871e-05,
      "loss": 0.0991,
      "step": 10900
    },
    {
      "epoch": 4.943041558147435,
      "grad_norm": 0.07100383937358856,
      "learning_rate": 6.731736880305054e-05,
      "loss": 0.0988,
      "step": 10910
    },
    {
      "epoch": 4.947571056505492,
      "grad_norm": 0.0812440738081932,
      "learning_rate": 6.714405764645391e-05,
      "loss": 0.0998,
      "step": 10920
    },
    {
      "epoch": 4.952100554863549,
      "grad_norm": 0.07612130790948868,
      "learning_rate": 6.697085705078447e-05,
      "loss": 0.1007,
      "step": 10930
    },
    {
      "epoch": 4.956630053221605,
      "grad_norm": 0.112273670732975,
      "learning_rate": 6.679776759886581e-05,
      "loss": 0.0987,
      "step": 10940
    },
    {
      "epoch": 4.961159551579662,
      "grad_norm": 0.07123211026191711,
      "learning_rate": 6.662478987314751e-05,
      "loss": 0.0987,
      "step": 10950
    },
    {
      "epoch": 4.965689049937719,
      "grad_norm": 0.0752432569861412,
      "learning_rate": 6.645192445570321e-05,
      "loss": 0.0986,
      "step": 10960
    },
    {
      "epoch": 4.970218548295776,
      "grad_norm": 0.08591726422309875,
      "learning_rate": 6.627917192822862e-05,
      "loss": 0.0987,
      "step": 10970
    },
    {
      "epoch": 4.974748046653833,
      "grad_norm": 0.0789419561624527,
      "learning_rate": 6.610653287203959e-05,
      "loss": 0.1001,
      "step": 10980
    },
    {
      "epoch": 4.97927754501189,
      "grad_norm": 0.07303869724273682,
      "learning_rate": 6.593400786807011e-05,
      "loss": 0.1005,
      "step": 10990
    },
    {
      "epoch": 4.983807043369946,
      "grad_norm": 0.062059495598077774,
      "learning_rate": 6.57615974968704e-05,
      "loss": 0.0993,
      "step": 11000
    },
    {
      "epoch": 4.988336541728003,
      "grad_norm": 0.07526618242263794,
      "learning_rate": 6.558930233860497e-05,
      "loss": 0.0994,
      "step": 11010
    },
    {
      "epoch": 4.99286604008606,
      "grad_norm": 0.05961596965789795,
      "learning_rate": 6.541712297305054e-05,
      "loss": 0.0994,
      "step": 11020
    },
    {
      "epoch": 4.997395538444117,
      "grad_norm": 0.08421042561531067,
      "learning_rate": 6.524505997959425e-05,
      "loss": 0.0992,
      "step": 11030
    },
    {
      "epoch": 4.999660287623145,
      "eval_loss": 0.1612485647201538,
      "eval_runtime": 617.4712,
      "eval_samples_per_second": 12.746,
      "eval_steps_per_second": 1.594,
      "step": 11035
    }
  ],
  "logging_steps": 10,
  "max_steps": 17656,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 8,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 4.476002265936691e+18,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}