{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.1175174439955931,
  "eval_steps": 375,
  "global_step": 1500,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 7.834496266372873e-05,
      "grad_norm": 0.11012636870145798,
      "learning_rate": 2e-05,
      "loss": 1.8412,
      "step": 1
    },
    {
      "epoch": 0.00015668992532745746,
      "grad_norm": 0.11480977386236191,
      "learning_rate": 4e-05,
      "loss": 1.8818,
      "step": 2
    },
    {
      "epoch": 0.00023503488799118618,
      "grad_norm": 0.13130366802215576,
      "learning_rate": 6e-05,
      "loss": 1.9226,
      "step": 3
    },
    {
      "epoch": 0.0003133798506549149,
      "grad_norm": 0.13790903985500336,
      "learning_rate": 8e-05,
      "loss": 1.9123,
      "step": 4
    },
    {
      "epoch": 0.00039172481331864364,
      "grad_norm": 0.16480465233325958,
      "learning_rate": 0.0001,
      "loss": 1.995,
      "step": 5
    },
    {
      "epoch": 0.00047006977598237237,
      "grad_norm": 0.18596908450126648,
      "learning_rate": 0.00012,
      "loss": 1.8867,
      "step": 6
    },
    {
      "epoch": 0.0005484147386461011,
      "grad_norm": 0.24490658938884735,
      "learning_rate": 0.00014,
      "loss": 1.9141,
      "step": 7
    },
    {
      "epoch": 0.0006267597013098298,
      "grad_norm": 0.20747147500514984,
      "learning_rate": 0.00016,
      "loss": 1.9496,
      "step": 8
    },
    {
      "epoch": 0.0007051046639735586,
      "grad_norm": 0.18241910636425018,
      "learning_rate": 0.00018,
      "loss": 1.8111,
      "step": 9
    },
    {
      "epoch": 0.0007834496266372873,
      "grad_norm": 0.17779040336608887,
      "learning_rate": 0.0002,
      "loss": 1.8579,
      "step": 10
    },
    {
      "epoch": 0.000861794589301016,
      "grad_norm": 0.21613579988479614,
      "learning_rate": 0.00019999977772170748,
      "loss": 1.8948,
      "step": 11
    },
    {
      "epoch": 0.0009401395519647447,
      "grad_norm": 0.2052331566810608,
      "learning_rate": 0.00019999911088781805,
      "loss": 1.8124,
      "step": 12
    },
    {
      "epoch": 0.0010184845146284736,
      "grad_norm": 0.21469108760356903,
      "learning_rate": 0.0001999979995012962,
      "loss": 1.8544,
      "step": 13
    },
    {
      "epoch": 0.0010968294772922022,
      "grad_norm": 0.23381111025810242,
      "learning_rate": 0.00019999644356708261,
      "loss": 1.8339,
      "step": 14
    },
    {
      "epoch": 0.001175174439955931,
      "grad_norm": 0.25566965341567993,
      "learning_rate": 0.00019999444309209432,
      "loss": 1.7336,
      "step": 15
    },
    {
      "epoch": 0.0012535194026196596,
      "grad_norm": 0.2458016574382782,
      "learning_rate": 0.0001999919980852246,
      "loss": 1.7147,
      "step": 16
    },
    {
      "epoch": 0.0013318643652833885,
      "grad_norm": 0.23092295229434967,
      "learning_rate": 0.00019998910855734288,
      "loss": 1.7202,
      "step": 17
    },
    {
      "epoch": 0.001410209327947117,
      "grad_norm": 0.2409643679857254,
      "learning_rate": 0.0001999857745212947,
      "loss": 1.7317,
      "step": 18
    },
    {
      "epoch": 0.001488554290610846,
      "grad_norm": 0.2521589994430542,
      "learning_rate": 0.00019998199599190178,
      "loss": 1.6662,
      "step": 19
    },
    {
      "epoch": 0.0015668992532745746,
      "grad_norm": 0.2570747137069702,
      "learning_rate": 0.0001999777729859618,
      "loss": 1.703,
      "step": 20
    },
    {
      "epoch": 0.0016452442159383034,
      "grad_norm": 0.2573222815990448,
      "learning_rate": 0.00019997310552224846,
      "loss": 1.649,
      "step": 21
    },
    {
      "epoch": 0.001723589178602032,
      "grad_norm": 0.2677202522754669,
      "learning_rate": 0.00019996799362151122,
      "loss": 1.6824,
      "step": 22
    },
    {
      "epoch": 0.0018019341412657609,
      "grad_norm": 0.2607167363166809,
      "learning_rate": 0.00019996243730647538,
      "loss": 1.6849,
      "step": 23
    },
    {
      "epoch": 0.0018802791039294895,
      "grad_norm": 0.26537400484085083,
      "learning_rate": 0.00019995643660184191,
      "loss": 1.637,
      "step": 24
    },
    {
      "epoch": 0.0019586240665932183,
      "grad_norm": 0.2788941562175751,
      "learning_rate": 0.00019994999153428737,
      "loss": 1.6444,
      "step": 25
    },
    {
      "epoch": 0.002036969029256947,
      "grad_norm": 0.27478837966918945,
      "learning_rate": 0.00019994310213246368,
      "loss": 1.6056,
      "step": 26
    },
    {
      "epoch": 0.0021153139919206755,
      "grad_norm": 0.31844207644462585,
      "learning_rate": 0.00019993576842699816,
      "loss": 1.6412,
      "step": 27
    },
    {
      "epoch": 0.0021936589545844044,
      "grad_norm": 0.3017025291919708,
      "learning_rate": 0.0001999279904504933,
      "loss": 1.6434,
      "step": 28
    },
    {
      "epoch": 0.0022720039172481332,
      "grad_norm": 0.3126547336578369,
      "learning_rate": 0.00019991976823752653,
      "loss": 1.6644,
      "step": 29
    },
    {
      "epoch": 0.002350348879911862,
      "grad_norm": 0.3255501687526703,
      "learning_rate": 0.00019991110182465032,
      "loss": 1.6458,
      "step": 30
    },
    {
      "epoch": 0.0024286938425755905,
      "grad_norm": 0.3130417764186859,
      "learning_rate": 0.00019990199125039174,
      "loss": 1.5491,
      "step": 31
    },
    {
      "epoch": 0.0025070388052393193,
      "grad_norm": 0.3223370909690857,
      "learning_rate": 0.00019989243655525247,
      "loss": 1.5132,
      "step": 32
    },
    {
      "epoch": 0.002585383767903048,
      "grad_norm": 0.33564382791519165,
      "learning_rate": 0.00019988243778170853,
      "loss": 1.6211,
      "step": 33
    },
    {
      "epoch": 0.002663728730566777,
      "grad_norm": 0.3454884886741638,
      "learning_rate": 0.0001998719949742101,
      "loss": 1.5996,
      "step": 34
    },
    {
      "epoch": 0.0027420736932305054,
      "grad_norm": 0.369476318359375,
      "learning_rate": 0.0001998611081791814,
      "loss": 1.6505,
      "step": 35
    },
    {
      "epoch": 0.002820418655894234,
      "grad_norm": 0.38112762570381165,
      "learning_rate": 0.00019984977744502038,
      "loss": 1.6009,
      "step": 36
    },
    {
      "epoch": 0.002898763618557963,
      "grad_norm": 0.3833240568637848,
      "learning_rate": 0.00019983800282209857,
      "loss": 1.6417,
      "step": 37
    },
    {
      "epoch": 0.002977108581221692,
      "grad_norm": 0.37293824553489685,
      "learning_rate": 0.00019982578436276082,
      "loss": 1.6028,
      "step": 38
    },
    {
      "epoch": 0.0030554535438854203,
      "grad_norm": 0.38788530230522156,
      "learning_rate": 0.00019981312212132512,
      "loss": 1.5838,
      "step": 39
    },
    {
      "epoch": 0.003133798506549149,
      "grad_norm": 0.38999536633491516,
      "learning_rate": 0.00019980001615408228,
      "loss": 1.6144,
      "step": 40
    },
    {
      "epoch": 0.003212143469212878,
      "grad_norm": 0.38882675766944885,
      "learning_rate": 0.00019978646651929572,
      "loss": 1.5204,
      "step": 41
    },
    {
      "epoch": 0.003290488431876607,
      "grad_norm": 0.4062388241291046,
      "learning_rate": 0.00019977247327720128,
      "loss": 1.5398,
      "step": 42
    },
    {
      "epoch": 0.0033688333945403356,
      "grad_norm": 0.40528327226638794,
      "learning_rate": 0.0001997580364900068,
      "loss": 1.5339,
      "step": 43
    },
    {
      "epoch": 0.003447178357204064,
      "grad_norm": 0.4166843891143799,
      "learning_rate": 0.000199743156221892,
      "loss": 1.4448,
      "step": 44
    },
    {
      "epoch": 0.003525523319867793,
      "grad_norm": 0.44149351119995117,
      "learning_rate": 0.00019972783253900808,
      "loss": 1.4938,
      "step": 45
    },
    {
      "epoch": 0.0036038682825315217,
      "grad_norm": 0.44970932602882385,
      "learning_rate": 0.00019971206550947748,
      "loss": 1.5211,
      "step": 46
    },
    {
      "epoch": 0.0036822132451952505,
      "grad_norm": 0.46988338232040405,
      "learning_rate": 0.00019969585520339354,
      "loss": 1.5133,
      "step": 47
    },
    {
      "epoch": 0.003760558207858979,
      "grad_norm": 0.5024349093437195,
      "learning_rate": 0.0001996792016928203,
      "loss": 1.6294,
      "step": 48
    },
    {
      "epoch": 0.0038389031705227078,
      "grad_norm": 0.5115700364112854,
      "learning_rate": 0.00019966210505179197,
      "loss": 1.591,
      "step": 49
    },
    {
      "epoch": 0.003917248133186437,
      "grad_norm": 0.6075470447540283,
      "learning_rate": 0.00019964456535631286,
      "loss": 1.571,
      "step": 50
    },
    {
      "epoch": 0.003995593095850165,
      "grad_norm": 0.37934571504592896,
      "learning_rate": 0.0001996265826843568,
      "loss": 1.6056,
      "step": 51
    },
    {
      "epoch": 0.004073938058513894,
      "grad_norm": 0.36703038215637207,
      "learning_rate": 0.00019960815711586696,
      "loss": 1.6148,
      "step": 52
    },
    {
      "epoch": 0.004152283021177623,
      "grad_norm": 0.3382447361946106,
      "learning_rate": 0.00019958928873275539,
      "loss": 1.57,
      "step": 53
    },
    {
      "epoch": 0.004230627983841351,
      "grad_norm": 0.30973222851753235,
      "learning_rate": 0.00019956997761890277,
      "loss": 1.541,
      "step": 54
    },
    {
      "epoch": 0.00430897294650508,
      "grad_norm": 0.32393398880958557,
      "learning_rate": 0.00019955022386015792,
      "loss": 1.5419,
      "step": 55
    },
    {
      "epoch": 0.004387317909168809,
      "grad_norm": 0.3480280637741089,
      "learning_rate": 0.00019953002754433743,
      "loss": 1.5843,
      "step": 56
    },
    {
      "epoch": 0.004465662871832538,
      "grad_norm": 0.33009037375450134,
      "learning_rate": 0.00019950938876122542,
      "loss": 1.5161,
      "step": 57
    },
    {
      "epoch": 0.0045440078344962664,
      "grad_norm": 0.3616495430469513,
      "learning_rate": 0.00019948830760257291,
      "loss": 1.5979,
      "step": 58
    },
    {
      "epoch": 0.004622352797159995,
      "grad_norm": 0.3591860830783844,
      "learning_rate": 0.0001994667841620976,
      "loss": 1.4726,
      "step": 59
    },
    {
      "epoch": 0.004700697759823724,
      "grad_norm": 0.3442656993865967,
      "learning_rate": 0.00019944481853548335,
      "loss": 1.5667,
      "step": 60
    },
    {
      "epoch": 0.0047790427224874525,
      "grad_norm": 0.34518304467201233,
      "learning_rate": 0.00019942241082037982,
      "loss": 1.461,
      "step": 61
    },
    {
      "epoch": 0.004857387685151181,
      "grad_norm": 0.3565404415130615,
      "learning_rate": 0.00019939956111640197,
      "loss": 1.4466,
      "step": 62
    },
    {
      "epoch": 0.00493573264781491,
      "grad_norm": 0.3490299880504608,
      "learning_rate": 0.00019937626952512964,
      "loss": 1.3744,
      "step": 63
    },
    {
      "epoch": 0.005014077610478639,
      "grad_norm": 0.3861285150051117,
      "learning_rate": 0.0001993525361501072,
      "loss": 1.4727,
      "step": 64
    },
    {
      "epoch": 0.005092422573142368,
      "grad_norm": 0.3615933656692505,
      "learning_rate": 0.00019932836109684286,
      "loss": 1.3741,
      "step": 65
    },
    {
      "epoch": 0.005170767535806096,
      "grad_norm": 0.393293172121048,
      "learning_rate": 0.00019930374447280845,
      "loss": 1.4839,
      "step": 66
    },
    {
      "epoch": 0.005249112498469825,
      "grad_norm": 0.3850820064544678,
      "learning_rate": 0.00019927868638743875,
      "loss": 1.4982,
      "step": 67
    },
    {
      "epoch": 0.005327457461133554,
      "grad_norm": 0.37637901306152344,
      "learning_rate": 0.0001992531869521312,
      "loss": 1.4757,
      "step": 68
    },
    {
      "epoch": 0.005405802423797282,
      "grad_norm": 0.3732868432998657,
      "learning_rate": 0.00019922724628024515,
      "loss": 1.436,
      "step": 69
    },
    {
      "epoch": 0.005484147386461011,
      "grad_norm": 0.38126805424690247,
      "learning_rate": 0.0001992008644871016,
      "loss": 1.4328,
      "step": 70
    },
    {
      "epoch": 0.00556249234912474,
      "grad_norm": 0.40005892515182495,
      "learning_rate": 0.00019917404168998256,
      "loss": 1.3873,
      "step": 71
    },
    {
      "epoch": 0.005640837311788468,
      "grad_norm": 0.4045179784297943,
      "learning_rate": 0.0001991467780081305,
      "loss": 1.4313,
      "step": 72
    },
    {
      "epoch": 0.005719182274452198,
      "grad_norm": 0.4270530641078949,
      "learning_rate": 0.00019911907356274795,
      "loss": 1.4373,
      "step": 73
    },
    {
      "epoch": 0.005797527237115926,
      "grad_norm": 0.42510777711868286,
      "learning_rate": 0.00019909092847699683,
      "loss": 1.4324,
      "step": 74
    },
    {
      "epoch": 0.0058758721997796545,
      "grad_norm": 0.41587164998054504,
      "learning_rate": 0.00019906234287599798,
      "loss": 1.3853,
      "step": 75
    },
    {
      "epoch": 0.005954217162443384,
      "grad_norm": 0.45534926652908325,
      "learning_rate": 0.00019903331688683057,
      "loss": 1.3981,
      "step": 76
    },
    {
      "epoch": 0.006032562125107112,
      "grad_norm": 0.4507717788219452,
      "learning_rate": 0.00019900385063853154,
      "loss": 1.4447,
      "step": 77
    },
    {
      "epoch": 0.006110907087770841,
      "grad_norm": 0.42379727959632874,
      "learning_rate": 0.00019897394426209505,
      "loss": 1.4356,
      "step": 78
    },
    {
      "epoch": 0.00618925205043457,
      "grad_norm": 0.4491114616394043,
      "learning_rate": 0.00019894359789047187,
      "loss": 1.5539,
      "step": 79
    },
    {
      "epoch": 0.006267597013098298,
      "grad_norm": 0.44699203968048096,
      "learning_rate": 0.00019891281165856873,
      "loss": 1.4443,
      "step": 80
    },
    {
      "epoch": 0.0063459419757620275,
      "grad_norm": 0.4280024468898773,
      "learning_rate": 0.00019888158570324795,
      "loss": 1.4031,
      "step": 81
    },
    {
      "epoch": 0.006424286938425756,
      "grad_norm": 0.4260213375091553,
      "learning_rate": 0.0001988499201633265,
      "loss": 1.367,
      "step": 82
    },
    {
      "epoch": 0.006502631901089484,
      "grad_norm": 0.4543246328830719,
      "learning_rate": 0.00019881781517957562,
      "loss": 1.4067,
      "step": 83
    },
    {
      "epoch": 0.006580976863753214,
      "grad_norm": 0.4658738672733307,
      "learning_rate": 0.0001987852708947202,
      "loss": 1.4041,
      "step": 84
    },
    {
      "epoch": 0.006659321826416942,
      "grad_norm": 0.4837609827518463,
      "learning_rate": 0.00019875228745343794,
      "loss": 1.4445,
      "step": 85
    },
    {
      "epoch": 0.006737666789080671,
      "grad_norm": 0.4966667890548706,
      "learning_rate": 0.0001987188650023589,
      "loss": 1.5743,
      "step": 86
    },
    {
      "epoch": 0.0068160117517444,
      "grad_norm": 0.4910103380680084,
      "learning_rate": 0.0001986850036900648,
      "loss": 1.4027,
      "step": 87
    },
    {
      "epoch": 0.006894356714408128,
      "grad_norm": 0.5030618906021118,
      "learning_rate": 0.00019865070366708836,
      "loss": 1.3639,
      "step": 88
    },
    {
      "epoch": 0.006972701677071857,
      "grad_norm": 0.4866407513618469,
      "learning_rate": 0.00019861596508591255,
      "loss": 1.4004,
      "step": 89
    },
    {
      "epoch": 0.007051046639735586,
      "grad_norm": 0.5032888650894165,
      "learning_rate": 0.00019858078810097002,
      "loss": 1.4674,
      "step": 90
    },
    {
      "epoch": 0.007129391602399314,
      "grad_norm": 0.5000621676445007,
      "learning_rate": 0.00019854517286864245,
      "loss": 1.4622,
      "step": 91
    },
    {
      "epoch": 0.007207736565063043,
      "grad_norm": 0.5066353678703308,
      "learning_rate": 0.0001985091195472596,
      "loss": 1.4113,
      "step": 92
    },
    {
      "epoch": 0.007286081527726772,
      "grad_norm": 0.5122791528701782,
      "learning_rate": 0.0001984726282970989,
      "loss": 1.3527,
      "step": 93
    },
    {
      "epoch": 0.007364426490390501,
      "grad_norm": 0.5167717933654785,
      "learning_rate": 0.0001984356992803847,
      "loss": 1.4329,
      "step": 94
    },
    {
      "epoch": 0.0074427714530542295,
      "grad_norm": 0.519763708114624,
      "learning_rate": 0.00019839833266128724,
      "loss": 1.3893,
      "step": 95
    },
    {
      "epoch": 0.007521116415717958,
      "grad_norm": 0.5226858258247375,
      "learning_rate": 0.00019836052860592237,
      "loss": 1.3997,
      "step": 96
    },
    {
      "epoch": 0.007599461378381687,
      "grad_norm": 0.5523319840431213,
      "learning_rate": 0.0001983222872823505,
      "loss": 1.4984,
      "step": 97
    },
    {
      "epoch": 0.0076778063410454156,
      "grad_norm": 0.5361623764038086,
      "learning_rate": 0.00019828360886057594,
      "loss": 1.372,
      "step": 98
    },
    {
      "epoch": 0.007756151303709144,
      "grad_norm": 0.5446317791938782,
      "learning_rate": 0.00019824449351254616,
      "loss": 1.4598,
      "step": 99
    },
    {
      "epoch": 0.007834496266372873,
      "grad_norm": 0.6812742948532104,
      "learning_rate": 0.00019820494141215104,
      "loss": 1.4828,
      "step": 100
    },
    {
      "epoch": 0.007912841229036603,
      "grad_norm": 0.45730656385421753,
      "learning_rate": 0.000198164952735222,
      "loss": 1.5294,
      "step": 101
    },
    {
      "epoch": 0.00799118619170033,
      "grad_norm": 0.4038701355457306,
      "learning_rate": 0.00019812452765953135,
      "loss": 1.519,
      "step": 102
    },
    {
      "epoch": 0.00806953115436406,
      "grad_norm": 0.36960339546203613,
      "learning_rate": 0.00019808366636479147,
      "loss": 1.5083,
      "step": 103
    },
    {
      "epoch": 0.008147876117027789,
      "grad_norm": 0.3737085461616516,
      "learning_rate": 0.00019804236903265388,
      "loss": 1.5159,
      "step": 104
    },
    {
      "epoch": 0.008226221079691516,
      "grad_norm": 0.3733561635017395,
      "learning_rate": 0.00019800063584670863,
      "loss": 1.4416,
      "step": 105
    },
    {
      "epoch": 0.008304566042355245,
      "grad_norm": 0.3910823166370392,
      "learning_rate": 0.00019795846699248332,
      "loss": 1.4446,
      "step": 106
    },
    {
      "epoch": 0.008382911005018975,
      "grad_norm": 0.39208412170410156,
      "learning_rate": 0.00019791586265744237,
      "loss": 1.413,
      "step": 107
    },
    {
      "epoch": 0.008461255967682702,
      "grad_norm": 0.4279414713382721,
      "learning_rate": 0.00019787282303098617,
      "loss": 1.4181,
      "step": 108
    },
    {
      "epoch": 0.008539600930346431,
      "grad_norm": 0.40572303533554077,
      "learning_rate": 0.0001978293483044502,
      "loss": 1.3924,
      "step": 109
    },
    {
      "epoch": 0.00861794589301016,
      "grad_norm": 0.38105741143226624,
      "learning_rate": 0.00019778543867110426,
      "loss": 1.3711,
      "step": 110
    },
    {
      "epoch": 0.008696290855673888,
      "grad_norm": 0.4144526422023773,
      "learning_rate": 0.00019774109432615147,
      "loss": 1.2899,
      "step": 111
    },
    {
      "epoch": 0.008774635818337618,
      "grad_norm": 0.45159849524497986,
      "learning_rate": 0.00019769631546672756,
      "loss": 1.4632,
      "step": 112
    },
    {
      "epoch": 0.008852980781001347,
      "grad_norm": 0.41448378562927246,
      "learning_rate": 0.00019765110229189988,
      "loss": 1.3146,
      "step": 113
    },
    {
      "epoch": 0.008931325743665076,
      "grad_norm": 0.41356509923934937,
      "learning_rate": 0.00019760545500266657,
      "loss": 1.4271,
      "step": 114
    },
    {
      "epoch": 0.009009670706328804,
      "grad_norm": 0.4052821099758148,
      "learning_rate": 0.00019755937380195568,
      "loss": 1.3105,
      "step": 115
    },
    {
      "epoch": 0.009088015668992533,
      "grad_norm": 0.43113771080970764,
      "learning_rate": 0.00019751285889462423,
      "loss": 1.3791,
      "step": 116
    },
    {
      "epoch": 0.009166360631656262,
      "grad_norm": 0.40686243772506714,
      "learning_rate": 0.0001974659104874573,
      "loss": 1.3071,
      "step": 117
    },
    {
      "epoch": 0.00924470559431999,
      "grad_norm": 0.4009365141391754,
      "learning_rate": 0.0001974185287891671,
      "loss": 1.3476,
      "step": 118
    },
    {
      "epoch": 0.009323050556983719,
      "grad_norm": 0.4123646914958954,
      "learning_rate": 0.0001973707140103921,
      "loss": 1.4379,
      "step": 119
    },
    {
      "epoch": 0.009401395519647448,
      "grad_norm": 0.42723411321640015,
      "learning_rate": 0.00019732246636369605,
      "loss": 1.3479,
      "step": 120
    },
    {
      "epoch": 0.009479740482311176,
      "grad_norm": 0.42701831459999084,
      "learning_rate": 0.00019727378606356703,
      "loss": 1.4059,
      "step": 121
    },
    {
      "epoch": 0.009558085444974905,
      "grad_norm": 0.4539695978164673,
      "learning_rate": 0.00019722467332641656,
      "loss": 1.4322,
      "step": 122
    },
    {
      "epoch": 0.009636430407638634,
      "grad_norm": 0.44526031613349915,
      "learning_rate": 0.00019717512837057855,
      "loss": 1.3978,
      "step": 123
    },
    {
      "epoch": 0.009714775370302362,
      "grad_norm": 0.4382779896259308,
      "learning_rate": 0.0001971251514163083,
      "loss": 1.3021,
      "step": 124
    },
    {
      "epoch": 0.009793120332966091,
      "grad_norm": 0.432614803314209,
      "learning_rate": 0.0001970747426857817,
      "loss": 1.3708,
      "step": 125
    },
    {
      "epoch": 0.00987146529562982,
      "grad_norm": 0.4484560191631317,
      "learning_rate": 0.00019702390240309404,
      "loss": 1.3447,
      "step": 126
    },
    {
      "epoch": 0.00994981025829355,
      "grad_norm": 0.43727797269821167,
      "learning_rate": 0.0001969726307942592,
      "loss": 1.3187,
      "step": 127
    },
    {
      "epoch": 0.010028155220957277,
      "grad_norm": 0.45576003193855286,
      "learning_rate": 0.00019692092808720846,
      "loss": 1.4293,
      "step": 128
    },
    {
      "epoch": 0.010106500183621006,
      "grad_norm": 0.45744049549102783,
      "learning_rate": 0.0001968687945117896,
      "loss": 1.3038,
      "step": 129
    },
    {
      "epoch": 0.010184845146284736,
      "grad_norm": 0.49940407276153564,
      "learning_rate": 0.00019681623029976588,
      "loss": 1.3606,
      "step": 130
    },
    {
      "epoch": 0.010263190108948463,
      "grad_norm": 0.4905509054660797,
      "learning_rate": 0.00019676323568481498,
      "loss": 1.3401,
      "step": 131
    },
    {
      "epoch": 0.010341535071612193,
      "grad_norm": 0.47822022438049316,
      "learning_rate": 0.00019670981090252792,
      "loss": 1.305,
      "step": 132
    },
    {
      "epoch": 0.010419880034275922,
      "grad_norm": 0.49738600850105286,
      "learning_rate": 0.00019665595619040808,
      "loss": 1.3132,
      "step": 133
    },
    {
      "epoch": 0.01049822499693965,
      "grad_norm": 0.48337796330451965,
      "learning_rate": 0.0001966016717878702,
      "loss": 1.368,
      "step": 134
    },
    {
      "epoch": 0.010576569959603379,
      "grad_norm": 0.4971446394920349,
      "learning_rate": 0.00019654695793623907,
      "loss": 1.3062,
      "step": 135
    },
    {
      "epoch": 0.010654914922267108,
      "grad_norm": 0.5166601538658142,
      "learning_rate": 0.0001964918148787488,
      "loss": 1.307,
      "step": 136
    },
    {
      "epoch": 0.010733259884930835,
      "grad_norm": 0.539474368095398,
      "learning_rate": 0.00019643624286054144,
      "loss": 1.5138,
      "step": 137
    },
    {
      "epoch": 0.010811604847594565,
      "grad_norm": 0.5235951542854309,
      "learning_rate": 0.00019638024212866606,
      "loss": 1.3398,
      "step": 138
    },
    {
      "epoch": 0.010889949810258294,
      "grad_norm": 0.5071476101875305,
      "learning_rate": 0.0001963238129320776,
      "loss": 1.3339,
      "step": 139
    },
    {
      "epoch": 0.010968294772922021,
      "grad_norm": 0.5104919075965881,
      "learning_rate": 0.00019626695552163578,
      "loss": 1.3481,
      "step": 140
    },
    {
      "epoch": 0.01104663973558575,
      "grad_norm": 0.5464200973510742,
      "learning_rate": 0.00019620967015010395,
      "loss": 1.4337,
      "step": 141
    },
    {
      "epoch": 0.01112498469824948,
      "grad_norm": 0.5190021991729736,
      "learning_rate": 0.00019615195707214803,
      "loss": 1.3469,
      "step": 142
    },
    {
      "epoch": 0.01120332966091321,
      "grad_norm": 0.5103228092193604,
      "learning_rate": 0.0001960938165443353,
      "loss": 1.3904,
      "step": 143
    },
    {
      "epoch": 0.011281674623576937,
      "grad_norm": 0.5334668755531311,
      "learning_rate": 0.00019603524882513327,
      "loss": 1.4019,
      "step": 144
    },
    {
      "epoch": 0.011360019586240666,
      "grad_norm": 0.5413353443145752,
      "learning_rate": 0.0001959762541749086,
      "loss": 1.3907,
      "step": 145
    },
    {
      "epoch": 0.011438364548904395,
      "grad_norm": 0.543463945388794,
      "learning_rate": 0.00019591683285592593,
      "loss": 1.4155,
      "step": 146
    },
    {
      "epoch": 0.011516709511568123,
      "grad_norm": 0.5719887018203735,
      "learning_rate": 0.00019585698513234663,
      "loss": 1.3821,
      "step": 147
    },
    {
      "epoch": 0.011595054474231852,
      "grad_norm": 0.5884215235710144,
      "learning_rate": 0.0001957967112702277,
      "loss": 1.4216,
      "step": 148
    },
    {
      "epoch": 0.011673399436895581,
      "grad_norm": 0.5672863125801086,
      "learning_rate": 0.00019573601153752052,
      "loss": 1.3504,
      "step": 149
    },
    {
      "epoch": 0.011751744399559309,
      "grad_norm": 0.6755869388580322,
      "learning_rate": 0.00019567488620406983,
      "loss": 1.3656,
      "step": 150
    },
    {
      "epoch": 0.011830089362223038,
      "grad_norm": 0.4480510652065277,
      "learning_rate": 0.00019561333554161224,
      "loss": 1.4675,
      "step": 151
    },
    {
      "epoch": 0.011908434324886768,
      "grad_norm": 0.4243980944156647,
      "learning_rate": 0.0001955513598237753,
      "loss": 1.4606,
      "step": 152
    },
    {
      "epoch": 0.011986779287550495,
      "grad_norm": 0.3876170814037323,
      "learning_rate": 0.00019548895932607621,
      "loss": 1.4259,
      "step": 153
    },
    {
      "epoch": 0.012065124250214224,
      "grad_norm": 0.37085992097854614,
      "learning_rate": 0.00019542613432592038,
      "loss": 1.4087,
      "step": 154
    },
    {
      "epoch": 0.012143469212877954,
      "grad_norm": 0.37537187337875366,
      "learning_rate": 0.00019536288510260056,
      "loss": 1.3348,
      "step": 155
    },
    {
      "epoch": 0.012221814175541681,
      "grad_norm": 0.39421841502189636,
      "learning_rate": 0.00019529921193729534,
      "loss": 1.3509,
      "step": 156
    },
    {
      "epoch": 0.01230015913820541,
      "grad_norm": 0.4055032432079315,
      "learning_rate": 0.00019523511511306793,
      "loss": 1.3405,
      "step": 157
    },
    {
      "epoch": 0.01237850410086914,
      "grad_norm": 0.4147191643714905,
      "learning_rate": 0.000195170594914865,
      "loss": 1.4372,
      "step": 158
    },
    {
      "epoch": 0.012456849063532869,
      "grad_norm": 0.3974634110927582,
      "learning_rate": 0.00019510565162951537,
      "loss": 1.3181,
      "step": 159
    },
    {
      "epoch": 0.012535194026196596,
      "grad_norm": 0.43127840757369995,
      "learning_rate": 0.00019504028554572864,
      "loss": 1.3436,
      "step": 160
    },
    {
      "epoch": 0.012613538988860326,
      "grad_norm": 0.4472779631614685,
      "learning_rate": 0.00019497449695409408,
      "loss": 1.3245,
      "step": 161
    },
    {
      "epoch": 0.012691883951524055,
      "grad_norm": 0.4574436843395233,
      "learning_rate": 0.00019490828614707916,
      "loss": 1.3051,
      "step": 162
    },
    {
      "epoch": 0.012770228914187783,
      "grad_norm": 0.44519227743148804,
      "learning_rate": 0.00019484165341902845,
      "loss": 1.2524,
      "step": 163
    },
    {
      "epoch": 0.012848573876851512,
      "grad_norm": 0.41843706369400024,
      "learning_rate": 0.00019477459906616206,
      "loss": 1.2937,
      "step": 164
    },
    {
      "epoch": 0.012926918839515241,
      "grad_norm": 0.4203381836414337,
      "learning_rate": 0.00019470712338657458,
      "loss": 1.271,
      "step": 165
    },
    {
      "epoch": 0.013005263802178969,
      "grad_norm": 0.45581403374671936,
      "learning_rate": 0.0001946392266802336,
      "loss": 1.3473,
      "step": 166
    },
    {
      "epoch": 0.013083608764842698,
      "grad_norm": 0.4543730914592743,
      "learning_rate": 0.0001945709092489783,
      "loss": 1.2794,
      "step": 167
    },
    {
      "epoch": 0.013161953727506427,
      "grad_norm": 0.4399360120296478,
      "learning_rate": 0.00019450217139651844,
      "loss": 1.3179,
      "step": 168
    },
    {
      "epoch": 0.013240298690170155,
      "grad_norm": 0.4290754497051239,
      "learning_rate": 0.0001944330134284326,
      "loss": 1.326,
      "step": 169
    },
    {
      "epoch": 0.013318643652833884,
      "grad_norm": 0.4400535821914673,
      "learning_rate": 0.00019436343565216711,
      "loss": 1.3446,
      "step": 170
    },
    {
      "epoch": 0.013396988615497613,
      "grad_norm": 0.45459607243537903,
      "learning_rate": 0.00019429343837703455,
      "loss": 1.3141,
      "step": 171
    },
    {
      "epoch": 0.013475333578161343,
      "grad_norm": 0.44144049286842346,
      "learning_rate": 0.0001942230219142124,
      "loss": 1.306,
      "step": 172
    },
    {
      "epoch": 0.01355367854082507,
      "grad_norm": 0.4634656310081482,
      "learning_rate": 0.0001941521865767417,
      "loss": 1.3074,
      "step": 173
    },
    {
      "epoch": 0.0136320235034888,
      "grad_norm": 0.4630074203014374,
      "learning_rate": 0.0001940809326795256,
      "loss": 1.3346,
      "step": 174
    },
    {
      "epoch": 0.013710368466152529,
      "grad_norm": 0.4592036008834839,
      "learning_rate": 0.000194009260539328,
      "loss": 1.3667,
      "step": 175
    },
    {
      "epoch": 0.013788713428816256,
      "grad_norm": 0.46623334288597107,
      "learning_rate": 0.0001939371704747721,
      "loss": 1.3246,
      "step": 176
    },
    {
      "epoch": 0.013867058391479985,
      "grad_norm": 0.5210692286491394,
      "learning_rate": 0.00019386466280633906,
      "loss": 1.3345,
      "step": 177
    },
    {
      "epoch": 0.013945403354143715,
      "grad_norm": 0.47700172662734985,
      "learning_rate": 0.00019379173785636646,
      "loss": 1.3089,
      "step": 178
    },
    {
      "epoch": 0.014023748316807442,
      "grad_norm": 0.49091291427612305,
      "learning_rate": 0.000193718395949047,
      "loss": 1.328,
      "step": 179
    },
    {
      "epoch": 0.014102093279471171,
      "grad_norm": 0.49323323369026184,
      "learning_rate": 0.00019364463741042694,
      "loss": 1.3078,
      "step": 180
    },
    {
      "epoch": 0.0141804382421349,
      "grad_norm": 0.47682517766952515,
      "learning_rate": 0.00019357046256840473,
      "loss": 1.3445,
      "step": 181
    },
    {
      "epoch": 0.014258783204798628,
      "grad_norm": 0.47255444526672363,
      "learning_rate": 0.00019349587175272948,
      "loss": 1.2966,
      "step": 182
    },
    {
      "epoch": 0.014337128167462358,
      "grad_norm": 0.4990159273147583,
      "learning_rate": 0.0001934208652949996,
      "loss": 1.3896,
      "step": 183
    },
    {
      "epoch": 0.014415473130126087,
      "grad_norm": 0.48159611225128174,
      "learning_rate": 0.00019334544352866127,
      "loss": 1.346,
      "step": 184
    },
    {
      "epoch": 0.014493818092789814,
      "grad_norm": 0.4954829216003418,
      "learning_rate": 0.00019326960678900688,
      "loss": 1.3668,
      "step": 185
    },
    {
      "epoch": 0.014572163055453544,
      "grad_norm": 0.5071098208427429,
      "learning_rate": 0.00019319335541317361,
      "loss": 1.258,
      "step": 186
    },
    {
      "epoch": 0.014650508018117273,
      "grad_norm": 0.5122650265693665,
      "learning_rate": 0.00019311668974014208,
      "loss": 1.3803,
      "step": 187
    },
    {
      "epoch": 0.014728852980781002,
      "grad_norm": 0.4992143511772156,
      "learning_rate": 0.00019303961011073447,
      "loss": 1.2259,
      "step": 188
    },
    {
      "epoch": 0.01480719794344473,
      "grad_norm": 0.505246639251709,
      "learning_rate": 0.00019296211686761346,
      "loss": 1.2587,
      "step": 189
    },
    {
      "epoch": 0.014885542906108459,
      "grad_norm": 0.5310094952583313,
      "learning_rate": 0.00019288421035528028,
      "loss": 1.2406,
      "step": 190
    },
    {
      "epoch": 0.014963887868772188,
      "grad_norm": 0.5328344106674194,
      "learning_rate": 0.00019280589092007352,
      "loss": 1.3042,
      "step": 191
    },
    {
      "epoch": 0.015042232831435916,
      "grad_norm": 0.5358893275260925,
      "learning_rate": 0.00019272715891016735,
      "loss": 1.3031,
      "step": 192
    },
    {
      "epoch": 0.015120577794099645,
      "grad_norm": 0.5202983617782593,
      "learning_rate": 0.00019264801467557007,
      "loss": 1.3326,
      "step": 193
    },
    {
      "epoch": 0.015198922756763374,
      "grad_norm": 0.5389256477355957,
      "learning_rate": 0.00019256845856812266,
      "loss": 1.3642,
      "step": 194
    },
    {
      "epoch": 0.015277267719427102,
      "grad_norm": 0.5292342305183411,
      "learning_rate": 0.000192488490941497,
      "loss": 1.3266,
      "step": 195
    },
    {
      "epoch": 0.015355612682090831,
      "grad_norm": 0.5254107713699341,
      "learning_rate": 0.00019240811215119448,
      "loss": 1.3207,
      "step": 196
    },
    {
      "epoch": 0.01543395764475456,
      "grad_norm": 0.5624019503593445,
      "learning_rate": 0.00019232732255454422,
      "loss": 1.3232,
      "step": 197
    },
    {
      "epoch": 0.015512302607418288,
      "grad_norm": 0.5755336284637451,
      "learning_rate": 0.00019224612251070175,
      "loss": 1.3231,
      "step": 198
    },
    {
      "epoch": 0.015590647570082017,
      "grad_norm": 0.5783054232597351,
      "learning_rate": 0.0001921645123806472,
      "loss": 1.3666,
      "step": 199
    },
    {
      "epoch": 0.015668992532745746,
      "grad_norm": 0.6754869818687439,
      "learning_rate": 0.0001920824925271838,
      "loss": 1.3605,
      "step": 200
    },
    {
      "epoch": 0.015747337495409474,
      "grad_norm": 0.49732184410095215,
      "learning_rate": 0.0001920000633149362,
      "loss": 1.537,
      "step": 201
    },
    {
      "epoch": 0.015825682458073205,
      "grad_norm": 0.4202033281326294,
      "learning_rate": 0.00019191722511034884,
      "loss": 1.3613,
      "step": 202
    },
    {
      "epoch": 0.015904027420736933,
      "grad_norm": 0.3999340534210205,
      "learning_rate": 0.00019183397828168448,
      "loss": 1.4643,
      "step": 203
    },
    {
      "epoch": 0.01598237238340066,
      "grad_norm": 0.38896042108535767,
      "learning_rate": 0.00019175032319902234,
      "loss": 1.3682,
      "step": 204
    },
    {
      "epoch": 0.01606071734606439,
      "grad_norm": 0.3742179572582245,
      "learning_rate": 0.00019166626023425662,
      "loss": 1.2884,
      "step": 205
    },
    {
      "epoch": 0.01613906230872812,
      "grad_norm": 0.377903550863266,
      "learning_rate": 0.00019158178976109476,
      "loss": 1.3659,
      "step": 206
    },
    {
      "epoch": 0.016217407271391846,
      "grad_norm": 0.3795458972454071,
      "learning_rate": 0.0001914969121550558,
      "loss": 1.3372,
      "step": 207
    },
    {
      "epoch": 0.016295752234055577,
      "grad_norm": 0.4021768569946289,
      "learning_rate": 0.00019141162779346874,
      "loss": 1.4205,
      "step": 208
    },
    {
      "epoch": 0.016374097196719305,
      "grad_norm": 0.40581566095352173,
      "learning_rate": 0.00019132593705547082,
      "loss": 1.3607,
      "step": 209
    },
    {
      "epoch": 0.016452442159383032,
      "grad_norm": 0.43098798394203186,
      "learning_rate": 0.00019123984032200586,
      "loss": 1.3681,
      "step": 210
    },
    {
      "epoch": 0.016530787122046763,
      "grad_norm": 0.43153515458106995,
      "learning_rate": 0.00019115333797582254,
      "loss": 1.3018,
      "step": 211
    },
    {
      "epoch": 0.01660913208471049,
      "grad_norm": 0.40921536087989807,
      "learning_rate": 0.00019106643040147278,
      "loss": 1.2715,
      "step": 212
    },
    {
      "epoch": 0.01668747704737422,
      "grad_norm": 0.4170644283294678,
      "learning_rate": 0.00019097911798530987,
      "loss": 1.2592,
      "step": 213
    },
    {
      "epoch": 0.01676582201003795,
      "grad_norm": 0.39732956886291504,
      "learning_rate": 0.00019089140111548696,
      "loss": 1.2114,
      "step": 214
    },
    {
      "epoch": 0.016844166972701677,
      "grad_norm": 0.43494462966918945,
      "learning_rate": 0.00019080328018195513,
      "loss": 1.3176,
      "step": 215
    },
    {
      "epoch": 0.016922511935365404,
      "grad_norm": 0.4068714380264282,
      "learning_rate": 0.0001907147555764618,
      "loss": 1.2465,
      "step": 216
    },
    {
      "epoch": 0.017000856898029135,
      "grad_norm": 0.43535855412483215,
      "learning_rate": 0.00019062582769254895,
      "loss": 1.297,
      "step": 217
    },
    {
      "epoch": 0.017079201860692863,
      "grad_norm": 0.44057929515838623,
      "learning_rate": 0.00019053649692555135,
      "loss": 1.2939,
      "step": 218
    },
    {
      "epoch": 0.01715754682335659,
      "grad_norm": 0.4203212261199951,
      "learning_rate": 0.00019044676367259476,
      "loss": 1.2791,
      "step": 219
    },
    {
      "epoch": 0.01723589178602032,
      "grad_norm": 0.45015063881874084,
      "learning_rate": 0.00019035662833259432,
      "loss": 1.3152,
      "step": 220
    },
    {
      "epoch": 0.01731423674868405,
      "grad_norm": 0.42480942606925964,
      "learning_rate": 0.00019026609130625257,
      "loss": 1.2558,
      "step": 221
    },
    {
      "epoch": 0.017392581711347777,
      "grad_norm": 0.40614911913871765,
      "learning_rate": 0.00019017515299605788,
      "loss": 1.2196,
      "step": 222
    },
    {
      "epoch": 0.017470926674011508,
      "grad_norm": 0.44584280252456665,
      "learning_rate": 0.00019008381380628247,
      "loss": 1.1507,
      "step": 223
    },
    {
      "epoch": 0.017549271636675235,
      "grad_norm": 0.4633735418319702,
      "learning_rate": 0.00018999207414298067,
      "loss": 1.3378,
      "step": 224
    },
    {
      "epoch": 0.017627616599338966,
      "grad_norm": 0.4716997742652893,
      "learning_rate": 0.00018989993441398726,
      "loss": 1.1553,
      "step": 225
    },
    {
      "epoch": 0.017705961562002694,
      "grad_norm": 0.5066790580749512,
      "learning_rate": 0.00018980739502891546,
      "loss": 1.3275,
      "step": 226
    },
    {
      "epoch": 0.01778430652466642,
      "grad_norm": 0.4649965167045593,
      "learning_rate": 0.0001897144563991552,
      "loss": 1.2329,
      "step": 227
    },
    {
      "epoch": 0.017862651487330152,
      "grad_norm": 0.47231435775756836,
      "learning_rate": 0.00018962111893787128,
      "loss": 1.2693,
      "step": 228
    },
    {
      "epoch": 0.01794099644999388,
      "grad_norm": 0.4940277636051178,
      "learning_rate": 0.00018952738306000151,
      "loss": 1.296,
      "step": 229
    },
    {
      "epoch": 0.018019341412657607,
      "grad_norm": 0.4991278648376465,
      "learning_rate": 0.00018943324918225494,
      "loss": 1.2701,
      "step": 230
    },
    {
      "epoch": 0.018097686375321338,
      "grad_norm": 0.4756813049316406,
      "learning_rate": 0.0001893387177231099,
      "loss": 1.3004,
      "step": 231
    },
    {
      "epoch": 0.018176031337985066,
      "grad_norm": 0.47642046213150024,
      "learning_rate": 0.0001892437891028122,
      "loss": 1.3601,
      "step": 232
    },
    {
      "epoch": 0.018254376300648793,
      "grad_norm": 0.5128637552261353,
      "learning_rate": 0.0001891484637433733,
      "loss": 1.3658,
      "step": 233
    },
    {
      "epoch": 0.018332721263312524,
      "grad_norm": 0.5015532374382019,
      "learning_rate": 0.00018905274206856837,
      "loss": 1.2785,
      "step": 234
    },
    {
      "epoch": 0.018411066225976252,
      "grad_norm": 0.4901654124259949,
      "learning_rate": 0.00018895662450393438,
      "loss": 1.3066,
      "step": 235
    },
    {
      "epoch": 0.01848941118863998,
      "grad_norm": 0.4827311933040619,
      "learning_rate": 0.00018886011147676833,
      "loss": 1.2403,
      "step": 236
    },
    {
      "epoch": 0.01856775615130371,
      "grad_norm": 0.48891541361808777,
      "learning_rate": 0.00018876320341612522,
      "loss": 1.3061,
      "step": 237
    },
    {
      "epoch": 0.018646101113967438,
      "grad_norm": 0.4732613265514374,
      "learning_rate": 0.00018866590075281624,
      "loss": 1.3212,
      "step": 238
    },
    {
      "epoch": 0.018724446076631165,
      "grad_norm": 0.49036893248558044,
      "learning_rate": 0.00018856820391940674,
      "loss": 1.235,
      "step": 239
    },
    {
      "epoch": 0.018802791039294896,
      "grad_norm": 0.49880170822143555,
      "learning_rate": 0.00018847011335021449,
      "loss": 1.3253,
      "step": 240
    },
    {
      "epoch": 0.018881136001958624,
      "grad_norm": 0.51186603307724,
      "learning_rate": 0.00018837162948130752,
      "loss": 1.3484,
      "step": 241
    },
    {
      "epoch": 0.01895948096462235,
      "grad_norm": 0.5156365633010864,
      "learning_rate": 0.00018827275275050233,
      "loss": 1.3041,
      "step": 242
    },
    {
      "epoch": 0.019037825927286083,
      "grad_norm": 0.519436776638031,
      "learning_rate": 0.00018817348359736203,
      "loss": 1.3217,
      "step": 243
    },
    {
      "epoch": 0.01911617088994981,
      "grad_norm": 0.5441625714302063,
      "learning_rate": 0.00018807382246319412,
      "loss": 1.2349,
      "step": 244
    },
    {
      "epoch": 0.019194515852613538,
      "grad_norm": 0.5212113261222839,
      "learning_rate": 0.00018797376979104872,
      "loss": 1.2105,
      "step": 245
    },
    {
      "epoch": 0.01927286081527727,
      "grad_norm": 0.5269845724105835,
      "learning_rate": 0.00018787332602571662,
      "loss": 1.2415,
      "step": 246
    },
    {
      "epoch": 0.019351205777940996,
      "grad_norm": 0.5516814589500427,
      "learning_rate": 0.00018777249161372713,
      "loss": 1.2529,
      "step": 247
    },
    {
      "epoch": 0.019429550740604724,
      "grad_norm": 0.5667453408241272,
      "learning_rate": 0.00018767126700334634,
      "loss": 1.3345,
      "step": 248
    },
    {
      "epoch": 0.019507895703268455,
      "grad_norm": 0.5887094140052795,
      "learning_rate": 0.0001875696526445749,
      "loss": 1.3813,
      "step": 249
    },
    {
      "epoch": 0.019586240665932182,
      "grad_norm": 0.6332471370697021,
      "learning_rate": 0.0001874676489891461,
      "loss": 1.3911,
      "step": 250
    },
    {
      "epoch": 0.01966458562859591,
      "grad_norm": 0.44399815797805786,
      "learning_rate": 0.00018736525649052394,
      "loss": 1.5018,
      "step": 251
    },
    {
      "epoch": 0.01974293059125964,
      "grad_norm": 0.4137808382511139,
      "learning_rate": 0.00018726247560390099,
      "loss": 1.479,
      "step": 252
    },
    {
      "epoch": 0.01982127555392337,
      "grad_norm": 0.42330119013786316,
      "learning_rate": 0.00018715930678619644,
      "loss": 1.4036,
      "step": 253
    },
    {
      "epoch": 0.0198996205165871,
      "grad_norm": 0.3760945200920105,
      "learning_rate": 0.00018705575049605413,
      "loss": 1.4208,
      "step": 254
    },
    {
      "epoch": 0.019977965479250827,
      "grad_norm": 0.4009228050708771,
      "learning_rate": 0.00018695180719384029,
      "loss": 1.3448,
      "step": 255
    },
    {
      "epoch": 0.020056310441914554,
      "grad_norm": 0.3954510986804962,
      "learning_rate": 0.00018684747734164177,
      "loss": 1.3804,
      "step": 256
    },
    {
      "epoch": 0.020134655404578285,
      "grad_norm": 0.3941332697868347,
      "learning_rate": 0.00018674276140326376,
      "loss": 1.2756,
      "step": 257
    },
    {
      "epoch": 0.020213000367242013,
      "grad_norm": 0.41024017333984375,
      "learning_rate": 0.00018663765984422786,
      "loss": 1.3637,
      "step": 258
    },
    {
      "epoch": 0.02029134532990574,
      "grad_norm": 0.3936559557914734,
      "learning_rate": 0.00018653217313177004,
      "loss": 1.2227,
      "step": 259
    },
    {
      "epoch": 0.02036969029256947,
      "grad_norm": 0.4026889503002167,
      "learning_rate": 0.00018642630173483832,
      "loss": 1.2813,
      "step": 260
    },
    {
      "epoch": 0.0204480352552332,
      "grad_norm": 0.40904757380485535,
      "learning_rate": 0.00018632004612409103,
      "loss": 1.233,
      "step": 261
    },
    {
      "epoch": 0.020526380217896927,
      "grad_norm": 0.4337332248687744,
      "learning_rate": 0.00018621340677189453,
      "loss": 1.2299,
      "step": 262
    },
    {
      "epoch": 0.020604725180560658,
      "grad_norm": 0.4140579104423523,
      "learning_rate": 0.00018610638415232097,
      "loss": 1.265,
      "step": 263
    },
    {
      "epoch": 0.020683070143224385,
      "grad_norm": 0.4338636100292206,
      "learning_rate": 0.00018599897874114652,
      "loss": 1.2325,
      "step": 264
    },
    {
      "epoch": 0.020761415105888113,
      "grad_norm": 0.4114868640899658,
      "learning_rate": 0.00018589119101584898,
      "loss": 1.3204,
      "step": 265
    },
    {
      "epoch": 0.020839760068551844,
      "grad_norm": 0.41462254524230957,
      "learning_rate": 0.00018578302145560584,
      "loss": 1.2059,
      "step": 266
    },
    {
      "epoch": 0.02091810503121557,
      "grad_norm": 0.43015801906585693,
      "learning_rate": 0.00018567447054129195,
      "loss": 1.2629,
      "step": 267
    },
    {
      "epoch": 0.0209964499938793,
      "grad_norm": 0.41914331912994385,
      "learning_rate": 0.00018556553875547754,
      "loss": 1.2218,
      "step": 268
    },
    {
      "epoch": 0.02107479495654303,
      "grad_norm": 0.43287229537963867,
      "learning_rate": 0.00018545622658242607,
      "loss": 1.3261,
      "step": 269
    },
    {
      "epoch": 0.021153139919206757,
      "grad_norm": 0.4415687918663025,
      "learning_rate": 0.00018534653450809197,
      "loss": 1.3573,
      "step": 270
    },
    {
      "epoch": 0.021231484881870485,
      "grad_norm": 0.4490932822227478,
      "learning_rate": 0.00018523646302011867,
      "loss": 1.362,
      "step": 271
    },
    {
      "epoch": 0.021309829844534216,
      "grad_norm": 0.44051307439804077,
      "learning_rate": 0.00018512601260783606,
      "loss": 1.2513,
      "step": 272
    },
    {
      "epoch": 0.021388174807197943,
      "grad_norm": 0.4329812526702881,
      "learning_rate": 0.00018501518376225887,
      "loss": 1.3023,
      "step": 273
    },
    {
      "epoch": 0.02146651976986167,
      "grad_norm": 0.46083012223243713,
      "learning_rate": 0.00018490397697608395,
      "loss": 1.2947,
      "step": 274
    },
    {
      "epoch": 0.021544864732525402,
      "grad_norm": 0.4257919490337372,
      "learning_rate": 0.0001847923927436884,
      "loss": 1.2811,
      "step": 275
    },
    {
      "epoch": 0.02162320969518913,
      "grad_norm": 0.4368825852870941,
      "learning_rate": 0.00018468043156112728,
      "loss": 1.1995,
      "step": 276
    },
    {
      "epoch": 0.021701554657852857,
      "grad_norm": 0.4363982081413269,
      "learning_rate": 0.0001845680939261314,
      "loss": 1.2158,
      "step": 277
    },
    {
      "epoch": 0.021779899620516588,
      "grad_norm": 0.4466744363307953,
      "learning_rate": 0.00018445538033810515,
      "loss": 1.191,
      "step": 278
    },
    {
      "epoch": 0.021858244583180315,
      "grad_norm": 0.49113065004348755,
      "learning_rate": 0.00018434229129812418,
      "loss": 1.2116,
      "step": 279
    },
    {
      "epoch": 0.021936589545844043,
      "grad_norm": 0.47716984152793884,
      "learning_rate": 0.0001842288273089332,
      "loss": 1.302,
      "step": 280
    },
    {
      "epoch": 0.022014934508507774,
      "grad_norm": 0.4885740578174591,
      "learning_rate": 0.00018411498887494396,
      "loss": 1.2767,
      "step": 281
    },
    {
      "epoch": 0.0220932794711715,
      "grad_norm": 0.506224513053894,
      "learning_rate": 0.00018400077650223263,
      "loss": 1.2116,
      "step": 282
    },
    {
      "epoch": 0.02217162443383523,
      "grad_norm": 0.4998411536216736,
      "learning_rate": 0.0001838861906985379,
      "loss": 1.303,
      "step": 283
    },
    {
      "epoch": 0.02224996939649896,
      "grad_norm": 0.48306339979171753,
      "learning_rate": 0.00018377123197325842,
      "loss": 1.3139,
      "step": 284
    },
    {
      "epoch": 0.022328314359162688,
      "grad_norm": 0.4735255241394043,
      "learning_rate": 0.00018365590083745085,
      "loss": 1.259,
      "step": 285
    },
    {
      "epoch": 0.02240665932182642,
      "grad_norm": 0.47821345925331116,
      "learning_rate": 0.00018354019780382735,
      "loss": 1.2591,
      "step": 286
    },
    {
      "epoch": 0.022485004284490146,
      "grad_norm": 0.48855042457580566,
      "learning_rate": 0.0001834241233867533,
      "loss": 1.2736,
      "step": 287
    },
    {
      "epoch": 0.022563349247153874,
      "grad_norm": 0.4879337251186371,
      "learning_rate": 0.00018330767810224524,
      "loss": 1.266,
      "step": 288
    },
    {
      "epoch": 0.022641694209817605,
      "grad_norm": 0.5132434964179993,
      "learning_rate": 0.0001831908624679683,
      "loss": 1.2615,
      "step": 289
    },
    {
      "epoch": 0.022720039172481332,
      "grad_norm": 0.4936336874961853,
      "learning_rate": 0.0001830736770032341,
      "loss": 1.2328,
      "step": 290
    },
    {
      "epoch": 0.02279838413514506,
      "grad_norm": 0.5007899403572083,
      "learning_rate": 0.0001829561222289984,
      "loss": 1.2664,
      "step": 291
    },
    {
      "epoch": 0.02287672909780879,
      "grad_norm": 0.5542747974395752,
      "learning_rate": 0.00018283819866785853,
      "loss": 1.254,
      "step": 292
    },
    {
      "epoch": 0.02295507406047252,
      "grad_norm": 0.518920361995697,
      "learning_rate": 0.0001827199068440516,
      "loss": 1.2532,
      "step": 293
    },
    {
      "epoch": 0.023033419023136246,
      "grad_norm": 0.5219298601150513,
      "learning_rate": 0.00018260124728345162,
      "loss": 1.2638,
      "step": 294
    },
    {
      "epoch": 0.023111763985799977,
      "grad_norm": 0.5221090912818909,
      "learning_rate": 0.00018248222051356754,
      "loss": 1.2442,
      "step": 295
    },
    {
      "epoch": 0.023190108948463704,
      "grad_norm": 0.5303108096122742,
      "learning_rate": 0.00018236282706354063,
      "loss": 1.2764,
      "step": 296
    },
    {
      "epoch": 0.023268453911127432,
      "grad_norm": 0.5526202917098999,
      "learning_rate": 0.00018224306746414238,
      "loss": 1.2117,
      "step": 297
    },
    {
      "epoch": 0.023346798873791163,
      "grad_norm": 0.5329868793487549,
      "learning_rate": 0.00018212294224777197,
      "loss": 1.3146,
      "step": 298
    },
    {
      "epoch": 0.02342514383645489,
      "grad_norm": 0.5609994530677795,
      "learning_rate": 0.00018200245194845399,
      "loss": 1.2554,
      "step": 299
    },
    {
      "epoch": 0.023503488799118618,
      "grad_norm": 0.6401338577270508,
      "learning_rate": 0.00018188159710183594,
      "loss": 1.4057,
      "step": 300
    },
    {
      "epoch": 0.02358183376178235,
      "grad_norm": 0.46809446811676025,
      "learning_rate": 0.000181760378245186,
      "loss": 1.4866,
      "step": 301
    },
    {
      "epoch": 0.023660178724446077,
      "grad_norm": 0.4433870017528534,
      "learning_rate": 0.00018163879591739067,
      "loss": 1.4549,
      "step": 302
    },
    {
      "epoch": 0.023738523687109804,
      "grad_norm": 0.3919863700866699,
      "learning_rate": 0.0001815168506589521,
      "loss": 1.3466,
      "step": 303
    },
    {
      "epoch": 0.023816868649773535,
      "grad_norm": 0.3823968470096588,
      "learning_rate": 0.000181394543011986,
      "loss": 1.3537,
      "step": 304
    },
    {
      "epoch": 0.023895213612437263,
      "grad_norm": 0.36389902234077454,
      "learning_rate": 0.00018127187352021907,
      "loss": 1.3165,
      "step": 305
    },
    {
      "epoch": 0.02397355857510099,
      "grad_norm": 0.38264113664627075,
      "learning_rate": 0.0001811488427289866,
      "loss": 1.3364,
      "step": 306
    },
    {
      "epoch": 0.02405190353776472,
      "grad_norm": 0.38618284463882446,
      "learning_rate": 0.00018102545118523007,
      "loss": 1.3413,
      "step": 307
    },
    {
      "epoch": 0.02413024850042845,
      "grad_norm": 0.3944401443004608,
      "learning_rate": 0.00018090169943749476,
      "loss": 1.2728,
      "step": 308
    },
    {
      "epoch": 0.024208593463092176,
      "grad_norm": 0.3908911645412445,
      "learning_rate": 0.00018077758803592718,
      "loss": 1.3272,
      "step": 309
    },
    {
      "epoch": 0.024286938425755907,
      "grad_norm": 0.4080474376678467,
      "learning_rate": 0.00018065311753227273,
      "loss": 1.2783,
      "step": 310
    },
    {
      "epoch": 0.024365283388419635,
      "grad_norm": 0.43202194571495056,
      "learning_rate": 0.0001805282884798732,
      "loss": 1.2938,
      "step": 311
    },
    {
      "epoch": 0.024443628351083362,
      "grad_norm": 0.41085144877433777,
      "learning_rate": 0.00018040310143366446,
      "loss": 1.298,
      "step": 312
    },
    {
      "epoch": 0.024521973313747093,
      "grad_norm": 0.436095654964447,
      "learning_rate": 0.00018027755695017368,
      "loss": 1.2734,
      "step": 313
    },
    {
      "epoch": 0.02460031827641082,
      "grad_norm": 0.409112811088562,
      "learning_rate": 0.00018015165558751717,
      "loss": 1.1546,
      "step": 314
    },
    {
      "epoch": 0.024678663239074552,
      "grad_norm": 0.4123115837574005,
      "learning_rate": 0.00018002539790539773,
      "loss": 1.2295,
      "step": 315
    },
    {
      "epoch": 0.02475700820173828,
      "grad_norm": 0.41137269139289856,
      "learning_rate": 0.00017989878446510215,
      "loss": 1.3173,
      "step": 316
    },
    {
      "epoch": 0.024835353164402007,
      "grad_norm": 0.41488227248191833,
      "learning_rate": 0.00017977181582949888,
      "loss": 1.2165,
      "step": 317
    },
    {
      "epoch": 0.024913698127065738,
      "grad_norm": 0.43079352378845215,
      "learning_rate": 0.0001796444925630353,
      "loss": 1.3168,
      "step": 318
    },
    {
      "epoch": 0.024992043089729465,
      "grad_norm": 0.4182320833206177,
      "learning_rate": 0.00017951681523173542,
      "loss": 1.2875,
      "step": 319
    },
    {
      "epoch": 0.025070388052393193,
      "grad_norm": 0.41059568524360657,
      "learning_rate": 0.0001793887844031972,
      "loss": 1.2527,
      "step": 320
    },
    {
      "epoch": 0.025148733015056924,
      "grad_norm": 0.4243466854095459,
      "learning_rate": 0.00017926040064659014,
      "loss": 1.2268,
      "step": 321
    },
    {
      "epoch": 0.02522707797772065,
      "grad_norm": 0.4048912227153778,
      "learning_rate": 0.0001791316645326526,
      "loss": 1.2434,
      "step": 322
    },
    {
      "epoch": 0.02530542294038438,
      "grad_norm": 0.4457692801952362,
      "learning_rate": 0.00017900257663368963,
      "loss": 1.2083,
      "step": 323
    },
    {
      "epoch": 0.02538376790304811,
      "grad_norm": 0.44402652978897095,
      "learning_rate": 0.0001788731375235698,
      "loss": 1.2933,
      "step": 324
    },
    {
      "epoch": 0.025462112865711838,
      "grad_norm": 0.4264296293258667,
      "learning_rate": 0.00017874334777772327,
      "loss": 1.2126,
      "step": 325
    },
    {
      "epoch": 0.025540457828375565,
      "grad_norm": 0.4270697236061096,
      "learning_rate": 0.00017861320797313892,
      "loss": 1.2833,
      "step": 326
    },
    {
      "epoch": 0.025618802791039296,
      "grad_norm": 0.4520895481109619,
      "learning_rate": 0.0001784827186883618,
      "loss": 1.245,
      "step": 327
    },
    {
      "epoch": 0.025697147753703024,
      "grad_norm": 0.4442002475261688,
      "learning_rate": 0.00017835188050349064,
      "loss": 1.2139,
      "step": 328
    },
    {
      "epoch": 0.02577549271636675,
      "grad_norm": 0.43554794788360596,
      "learning_rate": 0.00017822069400017516,
      "loss": 1.2,
      "step": 329
    },
    {
      "epoch": 0.025853837679030482,
      "grad_norm": 0.4636242091655731,
      "learning_rate": 0.00017808915976161362,
      "loss": 1.2777,
      "step": 330
    },
    {
      "epoch": 0.02593218264169421,
      "grad_norm": 0.43238431215286255,
      "learning_rate": 0.00017795727837255015,
      "loss": 1.1784,
      "step": 331
    },
    {
      "epoch": 0.026010527604357937,
      "grad_norm": 0.4706323742866516,
      "learning_rate": 0.00017782505041927216,
      "loss": 1.2102,
      "step": 332
    },
    {
      "epoch": 0.026088872567021668,
      "grad_norm": 0.4927287697792053,
      "learning_rate": 0.00017769247648960774,
      "loss": 1.2294,
      "step": 333
    },
    {
      "epoch": 0.026167217529685396,
      "grad_norm": 0.49712416529655457,
      "learning_rate": 0.00017755955717292296,
      "loss": 1.2679,
      "step": 334
    },
    {
      "epoch": 0.026245562492349123,
      "grad_norm": 0.477616548538208,
      "learning_rate": 0.00017742629306011944,
      "loss": 1.2353,
      "step": 335
    },
    {
      "epoch": 0.026323907455012854,
      "grad_norm": 0.4922584593296051,
      "learning_rate": 0.00017729268474363154,
      "loss": 1.2507,
      "step": 336
    },
    {
      "epoch": 0.026402252417676582,
      "grad_norm": 0.5184577107429504,
      "learning_rate": 0.0001771587328174239,
      "loss": 1.2328,
      "step": 337
    },
    {
      "epoch": 0.02648059738034031,
      "grad_norm": 0.47266048192977905,
      "learning_rate": 0.0001770244378769885,
      "loss": 1.23,
      "step": 338
    },
    {
      "epoch": 0.02655894234300404,
      "grad_norm": 0.49949193000793457,
      "learning_rate": 0.0001768898005193425,
      "loss": 1.329,
      "step": 339
    },
    {
      "epoch": 0.026637287305667768,
      "grad_norm": 0.49911656975746155,
      "learning_rate": 0.000176754821343025,
      "loss": 1.2145,
      "step": 340
    },
    {
      "epoch": 0.026715632268331495,
      "grad_norm": 0.518074631690979,
      "learning_rate": 0.0001766195009480949,
      "loss": 1.2164,
      "step": 341
    },
    {
      "epoch": 0.026793977230995226,
      "grad_norm": 0.5205205678939819,
      "learning_rate": 0.0001764838399361279,
      "loss": 1.2822,
      "step": 342
    },
    {
      "epoch": 0.026872322193658954,
      "grad_norm": 0.5048027038574219,
      "learning_rate": 0.00017634783891021393,
      "loss": 1.1556,
      "step": 343
    },
    {
      "epoch": 0.026950667156322685,
      "grad_norm": 0.5067052841186523,
      "learning_rate": 0.00017621149847495458,
      "loss": 1.2002,
      "step": 344
    },
    {
      "epoch": 0.027029012118986413,
      "grad_norm": 0.5316886901855469,
      "learning_rate": 0.00017607481923646016,
      "loss": 1.2441,
      "step": 345
    },
    {
      "epoch": 0.02710735708165014,
      "grad_norm": 0.5075282454490662,
      "learning_rate": 0.0001759378018023473,
      "loss": 1.1944,
      "step": 346
    },
    {
      "epoch": 0.02718570204431387,
      "grad_norm": 0.5339784026145935,
      "learning_rate": 0.00017580044678173592,
      "loss": 1.3461,
      "step": 347
    },
    {
      "epoch": 0.0272640470069776,
      "grad_norm": 0.5256333351135254,
      "learning_rate": 0.00017566275478524693,
      "loss": 1.2217,
      "step": 348
    },
    {
      "epoch": 0.027342391969641326,
      "grad_norm": 0.5366851687431335,
      "learning_rate": 0.0001755247264249991,
      "loss": 1.2767,
      "step": 349
    },
    {
      "epoch": 0.027420736932305057,
      "grad_norm": 0.6311237812042236,
      "learning_rate": 0.0001753863623146066,
      "loss": 1.2912,
      "step": 350
    },
    {
      "epoch": 0.027499081894968785,
      "grad_norm": 0.38734281063079834,
      "learning_rate": 0.00017524766306917618,
      "loss": 1.4296,
      "step": 351
    },
    {
      "epoch": 0.027577426857632512,
      "grad_norm": 0.4209500849246979,
      "learning_rate": 0.0001751086293053045,
      "loss": 1.3212,
      "step": 352
    },
    {
      "epoch": 0.027655771820296243,
      "grad_norm": 0.40009668469429016,
      "learning_rate": 0.0001749692616410753,
      "loss": 1.3459,
      "step": 353
    },
    {
      "epoch": 0.02773411678295997,
      "grad_norm": 0.40022388100624084,
      "learning_rate": 0.00017482956069605668,
      "loss": 1.308,
      "step": 354
    },
    {
      "epoch": 0.0278124617456237,
      "grad_norm": 0.38287827372550964,
      "learning_rate": 0.00017468952709129846,
      "loss": 1.4042,
      "step": 355
    },
    {
      "epoch": 0.02789080670828743,
      "grad_norm": 0.36313536763191223,
      "learning_rate": 0.00017454916144932922,
      "loss": 1.2891,
      "step": 356
    },
    {
      "epoch": 0.027969151670951157,
      "grad_norm": 0.390920490026474,
      "learning_rate": 0.0001744084643941536,
      "loss": 1.3448,
      "step": 357
    },
    {
      "epoch": 0.028047496633614884,
      "grad_norm": 0.40037965774536133,
      "learning_rate": 0.00017426743655124974,
      "loss": 1.2282,
      "step": 358
    },
    {
      "epoch": 0.028125841596278615,
      "grad_norm": 0.4012708067893982,
      "learning_rate": 0.0001741260785475661,
      "loss": 1.2136,
      "step": 359
    },
    {
      "epoch": 0.028204186558942343,
      "grad_norm": 0.38531285524368286,
      "learning_rate": 0.00017398439101151905,
      "loss": 1.2563,
      "step": 360
    },
    {
      "epoch": 0.02828253152160607,
      "grad_norm": 0.4052734673023224,
      "learning_rate": 0.00017384237457298987,
      "loss": 1.1841,
      "step": 361
    },
    {
      "epoch": 0.0283608764842698,
      "grad_norm": 0.44545602798461914,
      "learning_rate": 0.00017370002986332193,
      "loss": 1.2448,
      "step": 362
    },
    {
      "epoch": 0.02843922144693353,
      "grad_norm": 0.4010905921459198,
      "learning_rate": 0.00017355735751531807,
      "loss": 1.2141,
      "step": 363
    },
    {
      "epoch": 0.028517566409597257,
      "grad_norm": 0.4038582146167755,
      "learning_rate": 0.00017341435816323756,
      "loss": 1.1547,
      "step": 364
    },
    {
      "epoch": 0.028595911372260988,
      "grad_norm": 0.4128500521183014,
      "learning_rate": 0.00017327103244279348,
      "loss": 1.1778,
      "step": 365
    },
    {
      "epoch": 0.028674256334924715,
      "grad_norm": 0.41994166374206543,
      "learning_rate": 0.00017312738099114973,
      "loss": 1.1828,
      "step": 366
    },
    {
      "epoch": 0.028752601297588443,
      "grad_norm": 0.3904254734516144,
      "learning_rate": 0.00017298340444691835,
      "loss": 1.141,
      "step": 367
    },
    {
      "epoch": 0.028830946260252174,
      "grad_norm": 0.4371585249900818,
      "learning_rate": 0.00017283910345015647,
      "loss": 1.1815,
      "step": 368
    },
    {
      "epoch": 0.0289092912229159,
      "grad_norm": 0.43185967206954956,
      "learning_rate": 0.0001726944786423637,
      "loss": 1.2361,
      "step": 369
    },
    {
      "epoch": 0.02898763618557963,
      "grad_norm": 0.40754735469818115,
      "learning_rate": 0.00017254953066647913,
      "loss": 1.205,
      "step": 370
    },
    {
      "epoch": 0.02906598114824336,
      "grad_norm": 0.4483480155467987,
      "learning_rate": 0.00017240426016687863,
      "loss": 1.1777,
      "step": 371
    },
    {
      "epoch": 0.029144326110907087,
      "grad_norm": 0.4522221088409424,
      "learning_rate": 0.00017225866778937165,
      "loss": 1.2835,
      "step": 372
    },
    {
      "epoch": 0.029222671073570815,
      "grad_norm": 0.4321610629558563,
      "learning_rate": 0.00017211275418119876,
      "loss": 1.1799,
      "step": 373
    },
    {
      "epoch": 0.029301016036234546,
      "grad_norm": 0.44762396812438965,
      "learning_rate": 0.0001719665199910285,
      "loss": 1.2548,
      "step": 374
    },
    {
      "epoch": 0.029379360998898273,
      "grad_norm": 0.45074963569641113,
      "learning_rate": 0.00017181996586895454,
      "loss": 1.2727,
      "step": 375
    },
    {
      "epoch": 0.029379360998898273,
      "eval_loss": 1.2427510023117065,
      "eval_runtime": 1246.6587,
      "eval_samples_per_second": 17.244,
      "eval_steps_per_second": 8.622,
      "step": 375
    },
    {
      "epoch": 0.029457705961562004,
      "grad_norm": 0.44078585505485535,
      "learning_rate": 0.00017167309246649297,
      "loss": 1.2013,
      "step": 376
    },
    {
      "epoch": 0.029536050924225732,
      "grad_norm": 0.45901721715927124,
      "learning_rate": 0.0001715259004365791,
      "loss": 1.1753,
      "step": 377
    },
    {
      "epoch": 0.02961439588688946,
      "grad_norm": 0.47743135690689087,
      "learning_rate": 0.00017137839043356484,
      "loss": 1.2613,
      "step": 378
    },
    {
      "epoch": 0.02969274084955319,
      "grad_norm": 0.43343403935432434,
      "learning_rate": 0.00017123056311321562,
      "loss": 1.2402,
      "step": 379
    },
    {
      "epoch": 0.029771085812216918,
      "grad_norm": 0.4393913447856903,
      "learning_rate": 0.0001710824191327075,
      "loss": 1.2536,
      "step": 380
    },
    {
      "epoch": 0.029849430774880645,
      "grad_norm": 0.4603627920150757,
      "learning_rate": 0.00017093395915062428,
      "loss": 1.2603,
      "step": 381
    },
    {
      "epoch": 0.029927775737544376,
      "grad_norm": 0.460477739572525,
      "learning_rate": 0.00017078518382695465,
      "loss": 1.1763,
      "step": 382
    },
    {
      "epoch": 0.030006120700208104,
      "grad_norm": 0.499552458524704,
      "learning_rate": 0.00017063609382308908,
      "loss": 1.2757,
      "step": 383
    },
    {
      "epoch": 0.03008446566287183,
      "grad_norm": 0.4741479158401489,
      "learning_rate": 0.00017048668980181698,
      "loss": 1.2008,
      "step": 384
    },
    {
      "epoch": 0.030162810625535563,
      "grad_norm": 0.4950721859931946,
      "learning_rate": 0.00017033697242732377,
      "loss": 1.0649,
      "step": 385
    },
    {
      "epoch": 0.03024115558819929,
      "grad_norm": 0.47332140803337097,
      "learning_rate": 0.0001701869423651879,
      "loss": 1.2307,
      "step": 386
    },
    {
      "epoch": 0.030319500550863018,
      "grad_norm": 0.50202876329422,
      "learning_rate": 0.00017003660028237793,
      "loss": 1.2646,
      "step": 387
    },
    {
      "epoch": 0.03039784551352675,
      "grad_norm": 0.5147776007652283,
      "learning_rate": 0.00016988594684724947,
      "loss": 1.3233,
      "step": 388
    },
    {
      "epoch": 0.030476190476190476,
      "grad_norm": 0.51446133852005,
      "learning_rate": 0.00016973498272954222,
      "loss": 1.3157,
      "step": 389
    },
    {
      "epoch": 0.030554535438854204,
      "grad_norm": 0.49135905504226685,
      "learning_rate": 0.00016958370860037717,
      "loss": 1.2433,
      "step": 390
    },
    {
      "epoch": 0.030632880401517935,
      "grad_norm": 0.49905887246131897,
      "learning_rate": 0.00016943212513225345,
      "loss": 1.2022,
      "step": 391
    },
    {
      "epoch": 0.030711225364181662,
      "grad_norm": 0.4781387746334076,
      "learning_rate": 0.00016928023299904533,
      "loss": 1.2318,
      "step": 392
    },
    {
      "epoch": 0.03078957032684539,
      "grad_norm": 0.48968085646629333,
      "learning_rate": 0.0001691280328759992,
      "loss": 1.1302,
      "step": 393
    },
    {
      "epoch": 0.03086791528950912,
      "grad_norm": 0.5074313282966614,
      "learning_rate": 0.00016897552543973084,
      "loss": 1.1992,
      "step": 394
    },
    {
      "epoch": 0.03094626025217285,
      "grad_norm": 0.5225225687026978,
      "learning_rate": 0.00016882271136822206,
      "loss": 1.2395,
      "step": 395
    },
    {
      "epoch": 0.031024605214836576,
      "grad_norm": 0.5086467862129211,
      "learning_rate": 0.0001686695913408179,
      "loss": 1.2049,
      "step": 396
    },
    {
      "epoch": 0.031102950177500307,
      "grad_norm": 0.5477538704872131,
      "learning_rate": 0.0001685161660382235,
      "loss": 1.3312,
      "step": 397
    },
    {
      "epoch": 0.031181295140164034,
      "grad_norm": 0.5293663144111633,
      "learning_rate": 0.00016836243614250113,
      "loss": 1.2728,
      "step": 398
    },
    {
      "epoch": 0.031259640102827765,
      "grad_norm": 0.5568727850914001,
      "learning_rate": 0.00016820840233706719,
      "loss": 1.3276,
      "step": 399
    },
    {
      "epoch": 0.03133798506549149,
      "grad_norm": 0.6577198505401611,
      "learning_rate": 0.0001680540653066891,
      "loss": 1.3476,
      "step": 400
    },
    {
      "epoch": 0.03141633002815522,
      "grad_norm": 0.4057585597038269,
      "learning_rate": 0.00016789942573748232,
      "loss": 1.4215,
      "step": 401
    },
    {
      "epoch": 0.03149467499081895,
      "grad_norm": 0.38544735312461853,
      "learning_rate": 0.0001677444843169072,
      "loss": 1.3033,
      "step": 402
    },
    {
      "epoch": 0.031573019953482676,
      "grad_norm": 0.3730418086051941,
      "learning_rate": 0.00016758924173376603,
      "loss": 1.3406,
      "step": 403
    },
    {
      "epoch": 0.03165136491614641,
      "grad_norm": 0.37801846861839294,
      "learning_rate": 0.0001674336986781999,
      "loss": 1.2636,
      "step": 404
    },
    {
      "epoch": 0.03172970987881014,
      "grad_norm": 0.3744243085384369,
      "learning_rate": 0.00016727785584168581,
      "loss": 1.2778,
      "step": 405
    },
    {
      "epoch": 0.031808054841473865,
      "grad_norm": 0.3941481411457062,
      "learning_rate": 0.0001671217139170333,
      "loss": 1.2761,
      "step": 406
    },
    {
      "epoch": 0.03188639980413759,
      "grad_norm": 0.37829315662384033,
      "learning_rate": 0.00016696527359838154,
      "loss": 1.3228,
      "step": 407
    },
    {
      "epoch": 0.03196474476680132,
      "grad_norm": 0.3844050467014313,
      "learning_rate": 0.00016680853558119632,
      "loss": 1.2406,
      "step": 408
    },
    {
      "epoch": 0.03204308972946505,
      "grad_norm": 0.38365525007247925,
      "learning_rate": 0.0001666515005622668,
      "loss": 1.3143,
      "step": 409
    },
    {
      "epoch": 0.03212143469212878,
      "grad_norm": 0.3988514244556427,
      "learning_rate": 0.0001664941692397025,
      "loss": 1.172,
      "step": 410
    },
    {
      "epoch": 0.03219977965479251,
      "grad_norm": 0.374083548784256,
      "learning_rate": 0.00016633654231293013,
      "loss": 1.2279,
      "step": 411
    },
    {
      "epoch": 0.03227812461745624,
      "grad_norm": 0.39852356910705566,
      "learning_rate": 0.00016617862048269065,
      "loss": 1.2707,
      "step": 412
    },
    {
      "epoch": 0.032356469580119965,
      "grad_norm": 0.4226730167865753,
      "learning_rate": 0.00016602040445103588,
      "loss": 1.2648,
      "step": 413
    },
    {
      "epoch": 0.03243481454278369,
      "grad_norm": 0.41341307759284973,
      "learning_rate": 0.00016586189492132566,
      "loss": 1.2003,
      "step": 414
    },
    {
      "epoch": 0.03251315950544742,
      "grad_norm": 0.4280199408531189,
      "learning_rate": 0.00016570309259822453,
      "loss": 1.2255,
      "step": 415
    },
    {
      "epoch": 0.032591504468111154,
      "grad_norm": 0.4263734519481659,
      "learning_rate": 0.0001655439981876987,
      "loss": 1.2029,
      "step": 416
    },
    {
      "epoch": 0.03266984943077488,
      "grad_norm": 0.4122945964336395,
      "learning_rate": 0.00016538461239701277,
      "loss": 1.3275,
      "step": 417
    },
    {
      "epoch": 0.03274819439343861,
      "grad_norm": 0.42403191328048706,
      "learning_rate": 0.00016522493593472683,
      "loss": 1.1548,
      "step": 418
    },
    {
      "epoch": 0.03282653935610234,
      "grad_norm": 0.4307742714881897,
      "learning_rate": 0.0001650649695106931,
      "loss": 1.1043,
      "step": 419
    },
    {
      "epoch": 0.032904884318766064,
      "grad_norm": 0.41977277398109436,
      "learning_rate": 0.00016490471383605288,
      "loss": 1.1569,
      "step": 420
    },
    {
      "epoch": 0.0329832292814298,
      "grad_norm": 0.43012556433677673,
      "learning_rate": 0.00016474416962323325,
      "loss": 1.131,
      "step": 421
    },
    {
      "epoch": 0.033061574244093526,
      "grad_norm": 0.44877296686172485,
      "learning_rate": 0.00016458333758594414,
      "loss": 1.2524,
      "step": 422
    },
    {
      "epoch": 0.033139919206757254,
      "grad_norm": 0.4409235715866089,
      "learning_rate": 0.00016442221843917496,
      "loss": 1.1903,
      "step": 423
    },
    {
      "epoch": 0.03321826416942098,
      "grad_norm": 0.44959577918052673,
      "learning_rate": 0.00016426081289919143,
      "loss": 1.2206,
      "step": 424
    },
    {
      "epoch": 0.03329660913208471,
      "grad_norm": 0.43128538131713867,
      "learning_rate": 0.0001640991216835326,
      "loss": 1.2808,
      "step": 425
    },
    {
      "epoch": 0.03337495409474844,
      "grad_norm": 0.4202805459499359,
      "learning_rate": 0.00016393714551100734,
      "loss": 1.1412,
      "step": 426
    },
    {
      "epoch": 0.03345329905741217,
      "grad_norm": 0.43932345509529114,
      "learning_rate": 0.0001637748851016914,
      "loss": 1.1485,
      "step": 427
    },
    {
      "epoch": 0.0335316440200759,
      "grad_norm": 0.4711817502975464,
      "learning_rate": 0.00016361234117692413,
      "loss": 1.226,
      "step": 428
    },
    {
      "epoch": 0.033609988982739626,
      "grad_norm": 0.4302517771720886,
      "learning_rate": 0.00016344951445930526,
      "loss": 1.1981,
      "step": 429
    },
    {
      "epoch": 0.033688333945403354,
      "grad_norm": 0.44343101978302,
      "learning_rate": 0.0001632864056726917,
      "loss": 1.2521,
      "step": 430
    },
    {
      "epoch": 0.03376667890806708,
      "grad_norm": 0.4627985954284668,
      "learning_rate": 0.00016312301554219426,
      "loss": 1.2012,
      "step": 431
    },
    {
      "epoch": 0.03384502387073081,
      "grad_norm": 0.4855777621269226,
      "learning_rate": 0.00016295934479417453,
      "loss": 1.2098,
      "step": 432
    },
    {
      "epoch": 0.03392336883339454,
      "grad_norm": 0.465034544467926,
      "learning_rate": 0.00016279539415624164,
      "loss": 1.195,
      "step": 433
    },
    {
      "epoch": 0.03400171379605827,
      "grad_norm": 0.49196258187294006,
      "learning_rate": 0.0001626311643572489,
      "loss": 1.2032,
      "step": 434
    },
    {
      "epoch": 0.034080058758722,
      "grad_norm": 0.49396681785583496,
      "learning_rate": 0.00016246665612729074,
      "loss": 1.1673,
      "step": 435
    },
    {
      "epoch": 0.034158403721385726,
      "grad_norm": 0.49189287424087524,
      "learning_rate": 0.00016230187019769928,
      "loss": 1.2652,
      "step": 436
    },
    {
      "epoch": 0.03423674868404945,
      "grad_norm": 0.468046098947525,
      "learning_rate": 0.00016213680730104124,
      "loss": 1.1791,
      "step": 437
    },
    {
      "epoch": 0.03431509364671318,
      "grad_norm": 0.4820192754268646,
      "learning_rate": 0.0001619714681711146,
      "loss": 1.2157,
      "step": 438
    },
    {
      "epoch": 0.034393438609376915,
      "grad_norm": 0.4766773581504822,
      "learning_rate": 0.00016180585354294536,
      "loss": 1.1609,
      "step": 439
    },
    {
      "epoch": 0.03447178357204064,
      "grad_norm": 0.5230548977851868,
      "learning_rate": 0.00016163996415278424,
      "loss": 1.1501,
      "step": 440
    },
    {
      "epoch": 0.03455012853470437,
      "grad_norm": 0.514694333076477,
      "learning_rate": 0.00016147380073810346,
      "loss": 1.1936,
      "step": 441
    },
    {
      "epoch": 0.0346284734973681,
      "grad_norm": 0.4862557351589203,
      "learning_rate": 0.0001613073640375934,
      "loss": 1.1264,
      "step": 442
    },
    {
      "epoch": 0.034706818460031826,
      "grad_norm": 0.5257333517074585,
      "learning_rate": 0.00016114065479115946,
      "loss": 1.1931,
      "step": 443
    },
    {
      "epoch": 0.03478516342269555,
      "grad_norm": 0.5132349133491516,
      "learning_rate": 0.00016097367373991842,
      "loss": 1.1813,
      "step": 444
    },
    {
      "epoch": 0.03486350838535929,
      "grad_norm": 0.548621654510498,
      "learning_rate": 0.00016080642162619565,
      "loss": 1.2232,
      "step": 445
    },
    {
      "epoch": 0.034941853348023015,
      "grad_norm": 0.5434390306472778,
      "learning_rate": 0.0001606388991935214,
      "loss": 1.2292,
      "step": 446
    },
    {
      "epoch": 0.03502019831068674,
      "grad_norm": 0.5405848026275635,
      "learning_rate": 0.0001604711071866277,
      "loss": 1.2416,
      "step": 447
    },
    {
      "epoch": 0.03509854327335047,
      "grad_norm": 0.5233471393585205,
      "learning_rate": 0.00016030304635144494,
      "loss": 1.2456,
      "step": 448
    },
    {
      "epoch": 0.0351768882360142,
      "grad_norm": 0.5333254337310791,
      "learning_rate": 0.00016013471743509862,
      "loss": 1.214,
      "step": 449
    },
    {
      "epoch": 0.03525523319867793,
      "grad_norm": 0.6354783773422241,
      "learning_rate": 0.00015996612118590603,
      "loss": 1.3036,
      "step": 450
    },
    {
      "epoch": 0.03533357816134166,
      "grad_norm": 0.3894365429878235,
      "learning_rate": 0.00015979725835337294,
      "loss": 1.4144,
      "step": 451
    },
    {
      "epoch": 0.03541192312400539,
      "grad_norm": 0.4302983582019806,
      "learning_rate": 0.00015962812968819016,
      "loss": 1.3748,
      "step": 452
    },
    {
      "epoch": 0.035490268086669115,
      "grad_norm": 0.3887327015399933,
      "learning_rate": 0.0001594587359422303,
      "loss": 1.3238,
      "step": 453
    },
    {
      "epoch": 0.03556861304933284,
      "grad_norm": 0.4129120409488678,
      "learning_rate": 0.0001592890778685444,
      "loss": 1.2523,
      "step": 454
    },
    {
      "epoch": 0.03564695801199657,
      "grad_norm": 0.37533944845199585,
      "learning_rate": 0.00015911915622135862,
      "loss": 1.321,
      "step": 455
    },
    {
      "epoch": 0.035725302974660304,
      "grad_norm": 0.346565842628479,
      "learning_rate": 0.00015894897175607086,
      "loss": 1.3123,
      "step": 456
    },
    {
      "epoch": 0.03580364793732403,
      "grad_norm": 0.3653600811958313,
      "learning_rate": 0.00015877852522924732,
      "loss": 1.2282,
      "step": 457
    },
    {
      "epoch": 0.03588199289998776,
      "grad_norm": 0.37427979707717896,
      "learning_rate": 0.00015860781739861928,
      "loss": 1.2032,
      "step": 458
    },
    {
      "epoch": 0.03596033786265149,
      "grad_norm": 0.3815060555934906,
      "learning_rate": 0.00015843684902307962,
      "loss": 1.2174,
      "step": 459
    },
    {
      "epoch": 0.036038682825315214,
      "grad_norm": 0.3867487907409668,
      "learning_rate": 0.00015826562086267956,
      "loss": 1.2737,
      "step": 460
    },
    {
      "epoch": 0.03611702778797894,
      "grad_norm": 0.37967556715011597,
      "learning_rate": 0.00015809413367862512,
      "loss": 1.2325,
      "step": 461
    },
    {
      "epoch": 0.036195372750642676,
      "grad_norm": 0.3892078399658203,
      "learning_rate": 0.00015792238823327388,
      "loss": 1.1983,
      "step": 462
    },
    {
      "epoch": 0.036273717713306404,
      "grad_norm": 0.3894343078136444,
      "learning_rate": 0.00015775038529013152,
      "loss": 1.1434,
      "step": 463
    },
    {
      "epoch": 0.03635206267597013,
      "grad_norm": 0.3961750566959381,
      "learning_rate": 0.0001575781256138485,
      "loss": 1.1242,
      "step": 464
    },
    {
      "epoch": 0.03643040763863386,
      "grad_norm": 0.4290062189102173,
      "learning_rate": 0.00015740560997021648,
      "loss": 1.2404,
      "step": 465
    },
    {
      "epoch": 0.03650875260129759,
      "grad_norm": 0.4267151951789856,
      "learning_rate": 0.00015723283912616513,
      "loss": 1.1537,
      "step": 466
    },
    {
      "epoch": 0.036587097563961314,
      "grad_norm": 0.415931761264801,
      "learning_rate": 0.00015705981384975866,
      "loss": 1.214,
      "step": 467
    },
    {
      "epoch": 0.03666544252662505,
      "grad_norm": 0.4329909384250641,
      "learning_rate": 0.0001568865349101923,
      "loss": 1.188,
      "step": 468
    },
    {
      "epoch": 0.036743787489288776,
      "grad_norm": 0.4026258885860443,
      "learning_rate": 0.00015671300307778898,
      "loss": 1.1124,
      "step": 469
    },
    {
      "epoch": 0.036822132451952504,
      "grad_norm": 0.42110636830329895,
      "learning_rate": 0.00015653921912399589,
      "loss": 1.1738,
      "step": 470
    },
    {
      "epoch": 0.03690047741461623,
      "grad_norm": 0.41307154297828674,
      "learning_rate": 0.00015636518382138107,
      "loss": 1.1994,
      "step": 471
    },
    {
      "epoch": 0.03697882237727996,
      "grad_norm": 0.42048266530036926,
      "learning_rate": 0.0001561908979436299,
      "loss": 1.1718,
      "step": 472
    },
    {
      "epoch": 0.037057167339943686,
      "grad_norm": 0.4396165609359741,
      "learning_rate": 0.00015601636226554168,
      "loss": 1.1061,
      "step": 473
    },
    {
      "epoch": 0.03713551230260742,
      "grad_norm": 0.42690032720565796,
      "learning_rate": 0.00015584157756302634,
      "loss": 1.1602,
      "step": 474
    },
    {
      "epoch": 0.03721385726527115,
      "grad_norm": 0.42889055609703064,
      "learning_rate": 0.0001556665446131007,
      "loss": 1.1831,
      "step": 475
    },
    {
      "epoch": 0.037292202227934876,
      "grad_norm": 0.44917774200439453,
      "learning_rate": 0.00015549126419388536,
      "loss": 1.2035,
      "step": 476
    },
    {
      "epoch": 0.0373705471905986,
      "grad_norm": 0.44356608390808105,
      "learning_rate": 0.0001553157370846009,
      "loss": 1.1528,
      "step": 477
    },
    {
      "epoch": 0.03744889215326233,
      "grad_norm": 0.45513540506362915,
      "learning_rate": 0.00015513996406556465,
      "loss": 1.1221,
      "step": 478
    },
    {
      "epoch": 0.037527237115926065,
      "grad_norm": 0.448281854391098,
      "learning_rate": 0.00015496394591818716,
      "loss": 1.2846,
      "step": 479
    },
    {
      "epoch": 0.03760558207858979,
      "grad_norm": 0.4431270658969879,
      "learning_rate": 0.0001547876834249687,
      "loss": 1.1744,
      "step": 480
    },
    {
      "epoch": 0.03768392704125352,
      "grad_norm": 0.4597230553627014,
      "learning_rate": 0.00015461117736949577,
      "loss": 1.3024,
      "step": 481
    },
    {
      "epoch": 0.03776227200391725,
      "grad_norm": 0.4794450104236603,
      "learning_rate": 0.00015443442853643762,
      "loss": 1.199,
      "step": 482
    },
    {
      "epoch": 0.037840616966580976,
      "grad_norm": 0.43280094861984253,
      "learning_rate": 0.00015425743771154294,
      "loss": 1.0617,
      "step": 483
    },
    {
      "epoch": 0.0379189619292447,
      "grad_norm": 0.4818930923938751,
      "learning_rate": 0.00015408020568163602,
      "loss": 1.194,
      "step": 484
    },
    {
      "epoch": 0.03799730689190844,
      "grad_norm": 0.4841797947883606,
      "learning_rate": 0.00015390273323461352,
      "loss": 1.284,
      "step": 485
    },
    {
      "epoch": 0.038075651854572165,
      "grad_norm": 0.46566689014434814,
      "learning_rate": 0.0001537250211594409,
      "loss": 1.1607,
      "step": 486
    },
    {
      "epoch": 0.03815399681723589,
      "grad_norm": 0.48732447624206543,
      "learning_rate": 0.0001535470702461489,
      "loss": 1.213,
      "step": 487
    },
    {
      "epoch": 0.03823234177989962,
      "grad_norm": 0.48213687539100647,
      "learning_rate": 0.00015336888128583,
      "loss": 1.2306,
      "step": 488
    },
    {
      "epoch": 0.03831068674256335,
      "grad_norm": 0.5001534819602966,
      "learning_rate": 0.000153190455070635,
      "loss": 1.2336,
      "step": 489
    },
    {
      "epoch": 0.038389031705227075,
      "grad_norm": 0.4767666757106781,
      "learning_rate": 0.00015301179239376938,
      "loss": 1.2146,
      "step": 490
    },
    {
      "epoch": 0.03846737666789081,
      "grad_norm": 0.49262741208076477,
      "learning_rate": 0.00015283289404948976,
      "loss": 1.2116,
      "step": 491
    },
    {
      "epoch": 0.03854572163055454,
      "grad_norm": 0.5117635726928711,
      "learning_rate": 0.0001526537608331006,
      "loss": 1.2912,
      "step": 492
    },
    {
      "epoch": 0.038624066593218265,
      "grad_norm": 0.5239751935005188,
      "learning_rate": 0.00015247439354095041,
      "loss": 1.2067,
      "step": 493
    },
    {
      "epoch": 0.03870241155588199,
      "grad_norm": 0.49632078409194946,
      "learning_rate": 0.00015229479297042823,
      "loss": 1.1554,
      "step": 494
    },
    {
      "epoch": 0.03878075651854572,
      "grad_norm": 0.5315183401107788,
      "learning_rate": 0.00015211495991996027,
      "loss": 1.339,
      "step": 495
    },
    {
      "epoch": 0.03885910148120945,
      "grad_norm": 0.5026578903198242,
      "learning_rate": 0.0001519348951890062,
      "loss": 1.2243,
      "step": 496
    },
    {
      "epoch": 0.03893744644387318,
      "grad_norm": 0.5162907242774963,
      "learning_rate": 0.0001517545995780556,
      "loss": 1.2074,
      "step": 497
    },
    {
      "epoch": 0.03901579140653691,
      "grad_norm": 0.5461807250976562,
      "learning_rate": 0.00015157407388862452,
      "loss": 1.23,
      "step": 498
    },
    {
      "epoch": 0.03909413636920064,
      "grad_norm": 0.5413105487823486,
      "learning_rate": 0.00015139331892325179,
      "loss": 1.1624,
      "step": 499
    },
    {
      "epoch": 0.039172481331864364,
      "grad_norm": 0.7263563275337219,
      "learning_rate": 0.0001512123354854955,
      "loss": 1.2142,
      "step": 500
    },
    {
      "epoch": 0.03925082629452809,
      "grad_norm": 0.4093267321586609,
      "learning_rate": 0.0001510311243799295,
      "loss": 1.4339,
      "step": 501
    },
    {
      "epoch": 0.03932917125719182,
      "grad_norm": 0.3880285620689392,
      "learning_rate": 0.00015084968641213958,
      "loss": 1.3406,
      "step": 502
    },
    {
      "epoch": 0.039407516219855554,
      "grad_norm": 0.40622588992118835,
      "learning_rate": 0.00015066802238872023,
      "loss": 1.2693,
      "step": 503
    },
    {
      "epoch": 0.03948586118251928,
      "grad_norm": 0.38315778970718384,
      "learning_rate": 0.0001504861331172709,
      "loss": 1.3106,
      "step": 504
    },
    {
      "epoch": 0.03956420614518301,
      "grad_norm": 0.39149489998817444,
      "learning_rate": 0.0001503040194063922,
      "loss": 1.1801,
      "step": 505
    },
    {
      "epoch": 0.03964255110784674,
      "grad_norm": 0.40476876497268677,
      "learning_rate": 0.00015012168206568268,
      "loss": 1.2565,
      "step": 506
    },
    {
      "epoch": 0.039720896070510464,
      "grad_norm": 0.3548630177974701,
      "learning_rate": 0.00014993912190573505,
      "loss": 1.2891,
      "step": 507
    },
    {
      "epoch": 0.0397992410331742,
      "grad_norm": 0.3876534700393677,
      "learning_rate": 0.00014975633973813242,
      "loss": 1.2298,
      "step": 508
    },
    {
      "epoch": 0.039877585995837926,
      "grad_norm": 0.41062456369400024,
      "learning_rate": 0.00014957333637544503,
      "loss": 1.2309,
      "step": 509
    },
    {
      "epoch": 0.039955930958501654,
      "grad_norm": 0.40528056025505066,
      "learning_rate": 0.00014939011263122634,
      "loss": 1.2958,
      "step": 510
    },
    {
      "epoch": 0.04003427592116538,
      "grad_norm": 0.4309001863002777,
      "learning_rate": 0.0001492066693200096,
      "loss": 1.1761,
      "step": 511
    },
    {
      "epoch": 0.04011262088382911,
      "grad_norm": 0.4265783131122589,
      "learning_rate": 0.00014902300725730413,
      "loss": 1.1992,
      "step": 512
    },
    {
      "epoch": 0.040190965846492836,
      "grad_norm": 0.42253953218460083,
      "learning_rate": 0.00014883912725959167,
      "loss": 1.2603,
      "step": 513
    },
    {
      "epoch": 0.04026931080915657,
      "grad_norm": 0.40575289726257324,
      "learning_rate": 0.00014865503014432292,
      "loss": 1.1909,
      "step": 514
    },
    {
      "epoch": 0.0403476557718203,
      "grad_norm": 0.4071483314037323,
      "learning_rate": 0.00014847071672991367,
      "loss": 1.2301,
      "step": 515
    },
    {
      "epoch": 0.040426000734484026,
      "grad_norm": 0.3755032420158386,
      "learning_rate": 0.0001482861878357414,
      "loss": 1.1751,
      "step": 516
    },
    {
      "epoch": 0.04050434569714775,
      "grad_norm": 0.4166601598262787,
      "learning_rate": 0.00014810144428214144,
      "loss": 1.1963,
      "step": 517
    },
    {
      "epoch": 0.04058269065981148,
      "grad_norm": 0.4142020046710968,
      "learning_rate": 0.0001479164868904034,
      "loss": 1.1345,
      "step": 518
    },
    {
      "epoch": 0.04066103562247521,
      "grad_norm": 0.4145183265209198,
      "learning_rate": 0.00014773131648276758,
      "loss": 1.1608,
      "step": 519
    },
    {
      "epoch": 0.04073938058513894,
      "grad_norm": 0.43257778882980347,
      "learning_rate": 0.00014754593388242117,
      "loss": 1.2767,
      "step": 520
    },
    {
      "epoch": 0.04081772554780267,
      "grad_norm": 0.43545371294021606,
      "learning_rate": 0.0001473603399134948,
      "loss": 1.1278,
      "step": 521
    },
    {
      "epoch": 0.0408960705104664,
      "grad_norm": 0.4284803569316864,
      "learning_rate": 0.0001471745354010586,
      "loss": 1.2429,
      "step": 522
    },
    {
      "epoch": 0.040974415473130125,
      "grad_norm": 0.4235517978668213,
      "learning_rate": 0.00014698852117111884,
      "loss": 1.1341,
      "step": 523
    },
    {
      "epoch": 0.04105276043579385,
      "grad_norm": 0.4515255093574524,
      "learning_rate": 0.000146802298050614,
      "loss": 1.2867,
      "step": 524
    },
    {
      "epoch": 0.04113110539845758,
      "grad_norm": 0.4235045909881592,
      "learning_rate": 0.0001466158668674112,
      "loss": 1.198,
      "step": 525
    },
    {
      "epoch": 0.041209450361121315,
      "grad_norm": 0.4312467575073242,
      "learning_rate": 0.00014642922845030257,
      "loss": 1.1988,
      "step": 526
    },
    {
      "epoch": 0.04128779532378504,
      "grad_norm": 0.43950265645980835,
      "learning_rate": 0.0001462423836290015,
      "loss": 1.1871,
      "step": 527
    },
    {
      "epoch": 0.04136614028644877,
      "grad_norm": 0.4404868185520172,
      "learning_rate": 0.00014605533323413887,
      "loss": 1.1621,
      "step": 528
    },
    {
      "epoch": 0.0414444852491125,
      "grad_norm": 0.41780486702919006,
      "learning_rate": 0.00014586807809725962,
      "loss": 1.2825,
      "step": 529
    },
    {
      "epoch": 0.041522830211776225,
      "grad_norm": 0.4706159830093384,
      "learning_rate": 0.00014568061905081875,
      "loss": 1.217,
      "step": 530
    },
    {
      "epoch": 0.04160117517443995,
      "grad_norm": 0.4512428641319275,
      "learning_rate": 0.00014549295692817778,
      "loss": 1.2339,
      "step": 531
    },
    {
      "epoch": 0.04167952013710369,
      "grad_norm": 0.4451870620250702,
      "learning_rate": 0.00014530509256360102,
      "loss": 1.1225,
      "step": 532
    },
    {
      "epoch": 0.041757865099767415,
      "grad_norm": 0.4810135066509247,
      "learning_rate": 0.00014511702679225193,
      "loss": 1.2128,
      "step": 533
    },
    {
      "epoch": 0.04183621006243114,
      "grad_norm": 0.4643438756465912,
      "learning_rate": 0.0001449287604501893,
      "loss": 1.0583,
      "step": 534
    },
    {
      "epoch": 0.04191455502509487,
      "grad_norm": 0.4826042950153351,
      "learning_rate": 0.00014474029437436348,
      "loss": 1.1802,
      "step": 535
    },
    {
      "epoch": 0.0419928999877586,
      "grad_norm": 0.48042407631874084,
      "learning_rate": 0.00014455162940261285,
      "loss": 1.2453,
      "step": 536
    },
    {
      "epoch": 0.042071244950422325,
      "grad_norm": 0.4951672852039337,
      "learning_rate": 0.0001443627663736599,
      "loss": 1.2025,
      "step": 537
    },
    {
      "epoch": 0.04214958991308606,
      "grad_norm": 0.47600606083869934,
      "learning_rate": 0.00014417370612710778,
      "loss": 1.1889,
      "step": 538
    },
    {
      "epoch": 0.04222793487574979,
      "grad_norm": 0.4909793436527252,
      "learning_rate": 0.00014398444950343623,
      "loss": 1.2065,
      "step": 539
    },
    {
      "epoch": 0.042306279838413514,
      "grad_norm": 0.4800887405872345,
      "learning_rate": 0.00014379499734399798,
      "loss": 1.184,
      "step": 540
    },
    {
      "epoch": 0.04238462480107724,
      "grad_norm": 0.4835248291492462,
      "learning_rate": 0.0001436053504910151,
      "loss": 1.1876,
      "step": 541
    },
    {
      "epoch": 0.04246296976374097,
      "grad_norm": 0.4787767231464386,
      "learning_rate": 0.0001434155097875752,
      "loss": 1.0212,
      "step": 542
    },
    {
      "epoch": 0.042541314726404704,
      "grad_norm": 0.5047454237937927,
      "learning_rate": 0.00014322547607762762,
      "loss": 1.2094,
      "step": 543
    },
    {
      "epoch": 0.04261965968906843,
      "grad_norm": 0.49324071407318115,
      "learning_rate": 0.0001430352502059797,
      "loss": 1.1441,
      "step": 544
    },
    {
      "epoch": 0.04269800465173216,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0001428448330182931,
      "loss": 1.2123,
      "step": 545
    },
    {
      "epoch": 0.04277634961439589,
      "grad_norm": 0.5302244424819946,
      "learning_rate": 0.00014265422536107993,
      "loss": 1.1635,
      "step": 546
    },
    {
      "epoch": 0.042854694577059614,
      "grad_norm": 0.5225191712379456,
      "learning_rate": 0.00014246342808169914,
      "loss": 1.1384,
      "step": 547
    },
    {
      "epoch": 0.04293303953972334,
      "grad_norm": 0.5288655161857605,
      "learning_rate": 0.00014227244202835257,
      "loss": 1.2109,
      "step": 548
    },
    {
      "epoch": 0.043011384502387076,
      "grad_norm": 0.5668557286262512,
      "learning_rate": 0.0001420812680500813,
      "loss": 1.1915,
      "step": 549
    },
    {
      "epoch": 0.043089729465050804,
      "grad_norm": 0.7222416400909424,
      "learning_rate": 0.00014188990699676184,
      "loss": 1.3411,
      "step": 550
    },
    {
      "epoch": 0.04316807442771453,
      "grad_norm": 0.4197130501270294,
      "learning_rate": 0.00014169835971910238,
      "loss": 1.3935,
      "step": 551
    },
    {
      "epoch": 0.04324641939037826,
      "grad_norm": 0.39615297317504883,
      "learning_rate": 0.0001415066270686389,
      "loss": 1.3558,
      "step": 552
    },
    {
      "epoch": 0.043324764353041986,
      "grad_norm": 0.40393057465553284,
      "learning_rate": 0.00014131470989773158,
      "loss": 1.3589,
      "step": 553
    },
    {
      "epoch": 0.043403109315705714,
      "grad_norm": 0.3855709731578827,
      "learning_rate": 0.0001411226090595608,
      "loss": 1.1973,
      "step": 554
    },
    {
      "epoch": 0.04348145427836945,
      "grad_norm": 0.39517712593078613,
      "learning_rate": 0.00014093032540812348,
      "loss": 1.2387,
      "step": 555
    },
    {
      "epoch": 0.043559799241033176,
      "grad_norm": 0.3599204123020172,
      "learning_rate": 0.0001407378597982293,
      "loss": 1.3126,
      "step": 556
    },
    {
      "epoch": 0.0436381442036969,
      "grad_norm": 0.37399980425834656,
      "learning_rate": 0.00014054521308549673,
      "loss": 1.2605,
      "step": 557
    },
    {
      "epoch": 0.04371648916636063,
      "grad_norm": 0.3636051118373871,
      "learning_rate": 0.0001403523861263495,
      "loss": 1.2396,
      "step": 558
    },
    {
      "epoch": 0.04379483412902436,
      "grad_norm": 0.37457379698753357,
      "learning_rate": 0.00014015937977801256,
      "loss": 1.2253,
      "step": 559
    },
    {
      "epoch": 0.043873179091688086,
      "grad_norm": 0.37975382804870605,
      "learning_rate": 0.00013996619489850822,
      "loss": 1.1478,
      "step": 560
    },
    {
      "epoch": 0.04395152405435182,
      "grad_norm": 0.400045245885849,
      "learning_rate": 0.00013977283234665273,
      "loss": 1.0677,
      "step": 561
    },
    {
      "epoch": 0.04402986901701555,
      "grad_norm": 0.4459371566772461,
      "learning_rate": 0.00013957929298205195,
      "loss": 1.1461,
      "step": 562
    },
    {
      "epoch": 0.044108213979679275,
      "grad_norm": 0.4207040071487427,
      "learning_rate": 0.00013938557766509792,
      "loss": 1.2126,
      "step": 563
    },
    {
      "epoch": 0.044186558942343,
      "grad_norm": 0.4282989203929901,
      "learning_rate": 0.0001391916872569648,
      "loss": 1.2303,
      "step": 564
    },
    {
      "epoch": 0.04426490390500673,
      "grad_norm": 0.43613648414611816,
      "learning_rate": 0.00013899762261960518,
      "loss": 1.1959,
      "step": 565
    },
    {
      "epoch": 0.04434324886767046,
      "grad_norm": 0.4153980016708374,
      "learning_rate": 0.0001388033846157462,
      "loss": 1.1933,
      "step": 566
    },
    {
      "epoch": 0.04442159383033419,
      "grad_norm": 0.42921727895736694,
      "learning_rate": 0.0001386089741088857,
      "loss": 1.1681,
      "step": 567
    },
    {
      "epoch": 0.04449993879299792,
      "grad_norm": 0.4292379319667816,
      "learning_rate": 0.00013841439196328836,
      "loss": 1.16,
      "step": 568
    },
    {
      "epoch": 0.04457828375566165,
      "grad_norm": 0.4011994004249573,
      "learning_rate": 0.00013821963904398193,
      "loss": 1.2082,
      "step": 569
    },
    {
      "epoch": 0.044656628718325375,
      "grad_norm": 0.39417943358421326,
      "learning_rate": 0.00013802471621675338,
      "loss": 1.0294,
      "step": 570
    },
    {
      "epoch": 0.0447349736809891,
      "grad_norm": 0.4259450435638428,
      "learning_rate": 0.00013782962434814492,
      "loss": 1.1207,
      "step": 571
    },
    {
      "epoch": 0.04481331864365284,
      "grad_norm": 0.4216308295726776,
      "learning_rate": 0.00013763436430545034,
      "loss": 1.1031,
      "step": 572
    },
    {
      "epoch": 0.044891663606316565,
      "grad_norm": 0.4183354675769806,
      "learning_rate": 0.00013743893695671096,
      "loss": 1.1427,
      "step": 573
    },
    {
      "epoch": 0.04497000856898029,
      "grad_norm": 0.44053199887275696,
      "learning_rate": 0.00013724334317071198,
      "loss": 1.1417,
      "step": 574
    },
    {
      "epoch": 0.04504835353164402,
      "grad_norm": 0.438971608877182,
      "learning_rate": 0.00013704758381697844,
      "loss": 1.2514,
      "step": 575
    },
    {
      "epoch": 0.04512669849430775,
      "grad_norm": 0.43944665789604187,
      "learning_rate": 0.00013685165976577146,
      "loss": 1.0888,
      "step": 576
    },
    {
      "epoch": 0.045205043456971475,
      "grad_norm": 0.46363306045532227,
      "learning_rate": 0.0001366555718880843,
      "loss": 1.0789,
      "step": 577
    },
    {
      "epoch": 0.04528338841963521,
      "grad_norm": 0.4657100737094879,
      "learning_rate": 0.00013645932105563844,
      "loss": 1.1781,
      "step": 578
    },
    {
      "epoch": 0.04536173338229894,
      "grad_norm": 0.43347063660621643,
      "learning_rate": 0.00013626290814088005,
      "loss": 1.1493,
      "step": 579
    },
    {
      "epoch": 0.045440078344962664,
      "grad_norm": 0.4676891267299652,
      "learning_rate": 0.00013606633401697557,
      "loss": 1.1648,
      "step": 580
    },
    {
      "epoch": 0.04551842330762639,
      "grad_norm": 0.47304680943489075,
      "learning_rate": 0.00013586959955780824,
      "loss": 1.1083,
      "step": 581
    },
    {
      "epoch": 0.04559676827029012,
      "grad_norm": 0.4852352738380432,
      "learning_rate": 0.00013567270563797398,
      "loss": 1.1791,
      "step": 582
    },
    {
      "epoch": 0.04567511323295385,
      "grad_norm": 0.4632869064807892,
      "learning_rate": 0.00013547565313277776,
      "loss": 1.2537,
      "step": 583
    },
    {
      "epoch": 0.04575345819561758,
      "grad_norm": 0.4718014597892761,
      "learning_rate": 0.00013527844291822948,
      "loss": 1.1939,
      "step": 584
    },
    {
      "epoch": 0.04583180315828131,
      "grad_norm": 0.4801928699016571,
      "learning_rate": 0.0001350810758710401,
      "loss": 1.1781,
      "step": 585
    },
    {
      "epoch": 0.04591014812094504,
      "grad_norm": 0.47959664463996887,
      "learning_rate": 0.00013488355286861783,
      "loss": 1.2436,
      "step": 586
    },
    {
      "epoch": 0.045988493083608764,
      "grad_norm": 0.5004463791847229,
      "learning_rate": 0.0001346858747890642,
      "loss": 1.1801,
      "step": 587
    },
    {
      "epoch": 0.04606683804627249,
      "grad_norm": 0.5092592239379883,
      "learning_rate": 0.00013448804251117003,
      "loss": 1.2276,
      "step": 588
    },
    {
      "epoch": 0.04614518300893622,
      "grad_norm": 0.48704129457473755,
      "learning_rate": 0.0001342900569144119,
      "loss": 1.2448,
      "step": 589
    },
    {
      "epoch": 0.046223527971599954,
      "grad_norm": 0.4864962697029114,
      "learning_rate": 0.0001340919188789477,
      "loss": 1.1406,
      "step": 590
    },
    {
      "epoch": 0.04630187293426368,
      "grad_norm": 0.48829805850982666,
      "learning_rate": 0.00013389362928561317,
      "loss": 1.1548,
      "step": 591
    },
    {
      "epoch": 0.04638021789692741,
      "grad_norm": 0.5181609988212585,
      "learning_rate": 0.00013369518901591772,
      "loss": 1.2216,
      "step": 592
    },
    {
      "epoch": 0.046458562859591136,
      "grad_norm": 0.5432479977607727,
      "learning_rate": 0.00013349659895204067,
      "loss": 1.1883,
      "step": 593
    },
    {
      "epoch": 0.046536907822254864,
      "grad_norm": 0.5042788982391357,
      "learning_rate": 0.0001332978599768272,
      "loss": 1.2088,
      "step": 594
    },
    {
      "epoch": 0.04661525278491859,
      "grad_norm": 0.5235041379928589,
      "learning_rate": 0.00013309897297378455,
      "loss": 1.2579,
      "step": 595
    },
    {
      "epoch": 0.046693597747582326,
      "grad_norm": 0.5056635141372681,
      "learning_rate": 0.00013289993882707797,
      "loss": 1.1784,
      "step": 596
    },
    {
      "epoch": 0.04677194271024605,
      "grad_norm": 0.5192187428474426,
      "learning_rate": 0.00013270075842152678,
      "loss": 1.1772,
      "step": 597
    },
    {
      "epoch": 0.04685028767290978,
      "grad_norm": 0.5330082178115845,
      "learning_rate": 0.00013250143264260074,
      "loss": 1.2798,
      "step": 598
    },
    {
      "epoch": 0.04692863263557351,
      "grad_norm": 0.5532104969024658,
      "learning_rate": 0.0001323019623764156,
      "loss": 1.2997,
      "step": 599
    },
    {
      "epoch": 0.047006977598237236,
      "grad_norm": 0.5668428540229797,
      "learning_rate": 0.00013210234850972964,
      "loss": 1.2623,
      "step": 600
    },
    {
      "epoch": 0.04708532256090097,
      "grad_norm": 0.36805716156959534,
      "learning_rate": 0.0001319025919299394,
      "loss": 1.3239,
      "step": 601
    },
    {
      "epoch": 0.0471636675235647,
      "grad_norm": 0.4047999382019043,
      "learning_rate": 0.00013170269352507597,
      "loss": 1.3631,
      "step": 602
    },
    {
      "epoch": 0.047242012486228425,
      "grad_norm": 0.3646692633628845,
      "learning_rate": 0.0001315026541838008,
      "loss": 1.2407,
      "step": 603
    },
    {
      "epoch": 0.04732035744889215,
      "grad_norm": 0.37424129247665405,
      "learning_rate": 0.00013130247479540202,
      "loss": 1.337,
      "step": 604
    },
    {
      "epoch": 0.04739870241155588,
      "grad_norm": 0.3659909963607788,
      "learning_rate": 0.00013110215624979025,
      "loss": 1.2026,
      "step": 605
    },
    {
      "epoch": 0.04747704737421961,
      "grad_norm": 0.3739708364009857,
      "learning_rate": 0.00013090169943749476,
      "loss": 1.1784,
      "step": 606
    },
    {
      "epoch": 0.04755539233688334,
      "grad_norm": 0.3792712688446045,
      "learning_rate": 0.00013070110524965954,
      "loss": 1.2997,
      "step": 607
    },
    {
      "epoch": 0.04763373729954707,
      "grad_norm": 0.3991223871707916,
      "learning_rate": 0.00013050037457803924,
      "loss": 1.2169,
      "step": 608
    },
    {
      "epoch": 0.0477120822622108,
      "grad_norm": 0.38135266304016113,
      "learning_rate": 0.0001302995083149953,
      "loss": 1.2607,
      "step": 609
    },
    {
      "epoch": 0.047790427224874525,
      "grad_norm": 0.4095083773136139,
      "learning_rate": 0.0001300985073534919,
      "loss": 1.2516,
      "step": 610
    },
    {
      "epoch": 0.04786877218753825,
      "grad_norm": 0.3835287392139435,
      "learning_rate": 0.00012989737258709203,
      "loss": 1.229,
      "step": 611
    },
    {
      "epoch": 0.04794711715020198,
      "grad_norm": 0.42555931210517883,
      "learning_rate": 0.00012969610490995358,
      "loss": 1.2805,
      "step": 612
    },
    {
      "epoch": 0.048025462112865715,
      "grad_norm": 0.40137478709220886,
      "learning_rate": 0.00012949470521682528,
      "loss": 1.2095,
      "step": 613
    },
    {
      "epoch": 0.04810380707552944,
      "grad_norm": 0.4143039882183075,
      "learning_rate": 0.0001292931744030427,
      "loss": 1.2637,
      "step": 614
    },
    {
      "epoch": 0.04818215203819317,
      "grad_norm": 0.39292111992836,
      "learning_rate": 0.0001290915133645243,
      "loss": 1.1568,
      "step": 615
    },
    {
      "epoch": 0.0482604970008569,
      "grad_norm": 0.42336979508399963,
      "learning_rate": 0.00012888972299776754,
      "loss": 1.1492,
      "step": 616
    },
    {
      "epoch": 0.048338841963520625,
      "grad_norm": 0.4312611222267151,
      "learning_rate": 0.00012868780419984482,
      "loss": 1.184,
      "step": 617
    },
    {
      "epoch": 0.04841718692618435,
      "grad_norm": 0.4236939251422882,
      "learning_rate": 0.00012848575786839943,
      "loss": 1.141,
      "step": 618
    },
    {
      "epoch": 0.04849553188884809,
      "grad_norm": 0.41727617383003235,
      "learning_rate": 0.0001282835849016416,
      "loss": 1.2181,
      "step": 619
    },
    {
      "epoch": 0.048573876851511814,
      "grad_norm": 0.4086792767047882,
      "learning_rate": 0.00012808128619834461,
      "loss": 1.1502,
      "step": 620
    },
    {
      "epoch": 0.04865222181417554,
      "grad_norm": 0.4620724022388458,
      "learning_rate": 0.0001278788626578407,
      "loss": 1.1237,
      "step": 621
    },
    {
      "epoch": 0.04873056677683927,
      "grad_norm": 0.44080933928489685,
      "learning_rate": 0.00012767631518001698,
      "loss": 1.2276,
      "step": 622
    },
    {
      "epoch": 0.048808911739503,
      "grad_norm": 0.4258344769477844,
      "learning_rate": 0.00012747364466531163,
      "loss": 1.1686,
      "step": 623
    },
    {
      "epoch": 0.048887256702166725,
      "grad_norm": 0.42549586296081543,
      "learning_rate": 0.00012727085201470973,
      "loss": 1.1682,
      "step": 624
    },
    {
      "epoch": 0.04896560166483046,
      "grad_norm": 0.4473251700401306,
      "learning_rate": 0.00012706793812973941,
      "loss": 1.168,
      "step": 625
    },
    {
      "epoch": 0.04904394662749419,
      "grad_norm": 0.44273677468299866,
      "learning_rate": 0.0001268649039124677,
      "loss": 1.1461,
      "step": 626
    },
    {
      "epoch": 0.049122291590157914,
      "grad_norm": 0.4452832043170929,
      "learning_rate": 0.00012666175026549662,
      "loss": 1.1869,
      "step": 627
    },
    {
      "epoch": 0.04920063655282164,
      "grad_norm": 0.44716915488243103,
      "learning_rate": 0.000126458478091959,
      "loss": 1.1323,
      "step": 628
    },
    {
      "epoch": 0.04927898151548537,
      "grad_norm": 0.4714427888393402,
      "learning_rate": 0.00012625508829551473,
      "loss": 1.107,
      "step": 629
    },
    {
      "epoch": 0.049357326478149104,
      "grad_norm": 0.4697887897491455,
      "learning_rate": 0.00012605158178034654,
      "loss": 1.2152,
      "step": 630
    },
    {
      "epoch": 0.04943567144081283,
      "grad_norm": 0.4758431017398834,
      "learning_rate": 0.00012584795945115603,
      "loss": 1.1581,
      "step": 631
    },
    {
      "epoch": 0.04951401640347656,
      "grad_norm": 0.4659261703491211,
      "learning_rate": 0.0001256442222131597,
      "loss": 1.1881,
      "step": 632
    },
    {
      "epoch": 0.049592361366140286,
      "grad_norm": 0.481614351272583,
      "learning_rate": 0.0001254403709720848,
      "loss": 1.1561,
      "step": 633
    },
    {
      "epoch": 0.049670706328804014,
      "grad_norm": 0.46273618936538696,
      "learning_rate": 0.0001252364066341655,
      "loss": 1.1987,
      "step": 634
    },
    {
      "epoch": 0.04974905129146774,
      "grad_norm": 0.4649180471897125,
      "learning_rate": 0.00012503233010613865,
      "loss": 1.1181,
      "step": 635
    },
    {
      "epoch": 0.049827396254131476,
      "grad_norm": 0.4850238263607025,
      "learning_rate": 0.00012482814229523997,
      "loss": 1.1066,
      "step": 636
    },
    {
      "epoch": 0.0499057412167952,
      "grad_norm": 0.44447779655456543,
      "learning_rate": 0.00012462384410919975,
      "loss": 1.0881,
      "step": 637
    },
    {
      "epoch": 0.04998408617945893,
      "grad_norm": 0.48689916729927063,
      "learning_rate": 0.00012441943645623903,
      "loss": 1.1838,
      "step": 638
    },
    {
      "epoch": 0.05006243114212266,
      "grad_norm": 0.5137833952903748,
      "learning_rate": 0.00012421492024506555,
      "loss": 1.2445,
      "step": 639
    },
    {
      "epoch": 0.050140776104786386,
      "grad_norm": 0.47995707392692566,
      "learning_rate": 0.00012401029638486953,
      "loss": 1.2018,
      "step": 640
    },
    {
      "epoch": 0.05021912106745011,
      "grad_norm": 0.5112536549568176,
      "learning_rate": 0.0001238055657853198,
      "loss": 1.2022,
      "step": 641
    },
    {
      "epoch": 0.05029746603011385,
      "grad_norm": 0.5067533850669861,
      "learning_rate": 0.00012360072935655982,
      "loss": 1.148,
      "step": 642
    },
    {
      "epoch": 0.050375810992777575,
      "grad_norm": 0.4849134385585785,
      "learning_rate": 0.00012339578800920332,
      "loss": 1.1211,
      "step": 643
    },
    {
      "epoch": 0.0504541559554413,
      "grad_norm": 0.5170997381210327,
      "learning_rate": 0.00012319074265433063,
      "loss": 1.0342,
      "step": 644
    },
    {
      "epoch": 0.05053250091810503,
      "grad_norm": 0.5178540945053101,
      "learning_rate": 0.00012298559420348437,
      "loss": 1.099,
      "step": 645
    },
    {
      "epoch": 0.05061084588076876,
      "grad_norm": 0.5151291489601135,
      "learning_rate": 0.00012278034356866545,
      "loss": 1.0965,
      "step": 646
    },
    {
      "epoch": 0.050689190843432486,
      "grad_norm": 0.5555174946784973,
      "learning_rate": 0.00012257499166232907,
      "loss": 1.1639,
      "step": 647
    },
    {
      "epoch": 0.05076753580609622,
      "grad_norm": 0.5475037097930908,
      "learning_rate": 0.0001223695393973807,
      "loss": 1.2142,
      "step": 648
    },
    {
      "epoch": 0.05084588076875995,
      "grad_norm": 0.5840250253677368,
      "learning_rate": 0.0001221639876871719,
      "loss": 1.3187,
      "step": 649
    },
    {
      "epoch": 0.050924225731423675,
      "grad_norm": 0.6090502738952637,
      "learning_rate": 0.0001219583374454963,
      "loss": 1.2196,
      "step": 650
    },
    {
      "epoch": 0.0510025706940874,
      "grad_norm": 0.38071927428245544,
      "learning_rate": 0.00012175258958658564,
      "loss": 1.2787,
      "step": 651
    },
    {
      "epoch": 0.05108091565675113,
      "grad_norm": 0.42059245705604553,
      "learning_rate": 0.00012154674502510555,
      "loss": 1.2688,
      "step": 652
    },
    {
      "epoch": 0.05115926061941486,
      "grad_norm": 0.3874751031398773,
      "learning_rate": 0.00012134080467615159,
      "loss": 1.2482,
      "step": 653
    },
    {
      "epoch": 0.05123760558207859,
      "grad_norm": 0.3942827880382538,
      "learning_rate": 0.00012113476945524513,
      "loss": 1.2014,
      "step": 654
    },
    {
      "epoch": 0.05131595054474232,
      "grad_norm": 0.3571486473083496,
      "learning_rate": 0.00012092864027832933,
      "loss": 1.2227,
      "step": 655
    },
    {
      "epoch": 0.05139429550740605,
      "grad_norm": 0.3769378662109375,
      "learning_rate": 0.000120722418061765,
      "loss": 1.1993,
      "step": 656
    },
    {
      "epoch": 0.051472640470069775,
      "grad_norm": 0.37608572840690613,
      "learning_rate": 0.0001205161037223266,
      "loss": 1.2474,
      "step": 657
    },
    {
      "epoch": 0.0515509854327335,
      "grad_norm": 0.4009941518306732,
      "learning_rate": 0.00012030969817719808,
      "loss": 1.1365,
      "step": 658
    },
    {
      "epoch": 0.05162933039539724,
      "grad_norm": 0.37794604897499084,
      "learning_rate": 0.00012010320234396894,
      "loss": 1.1563,
      "step": 659
    },
    {
      "epoch": 0.051707675358060964,
      "grad_norm": 0.39232224225997925,
      "learning_rate": 0.00011989661714062999,
      "loss": 1.2191,
      "step": 660
    },
    {
      "epoch": 0.05178602032072469,
      "grad_norm": 0.4009186327457428,
      "learning_rate": 0.0001196899434855693,
      "loss": 1.2156,
      "step": 661
    },
    {
      "epoch": 0.05186436528338842,
      "grad_norm": 0.39284589886665344,
      "learning_rate": 0.00011948318229756827,
      "loss": 1.1972,
      "step": 662
    },
    {
      "epoch": 0.05194271024605215,
      "grad_norm": 0.4393344521522522,
      "learning_rate": 0.00011927633449579735,
      "loss": 1.1237,
      "step": 663
    },
    {
      "epoch": 0.052021055208715875,
      "grad_norm": 0.41640540957450867,
      "learning_rate": 0.0001190694009998121,
      "loss": 1.1803,
      "step": 664
    },
    {
      "epoch": 0.05209940017137961,
      "grad_norm": 0.3909531831741333,
      "learning_rate": 0.00011886238272954897,
      "loss": 1.2127,
      "step": 665
    },
    {
      "epoch": 0.052177745134043337,
      "grad_norm": 0.39532339572906494,
      "learning_rate": 0.00011865528060532127,
      "loss": 1.1546,
      "step": 666
    },
    {
      "epoch": 0.052256090096707064,
      "grad_norm": 0.4327848553657532,
      "learning_rate": 0.0001184480955478152,
      "loss": 1.157,
      "step": 667
    },
    {
      "epoch": 0.05233443505937079,
      "grad_norm": 0.423936665058136,
      "learning_rate": 0.00011824082847808558,
      "loss": 1.0475,
      "step": 668
    },
    {
      "epoch": 0.05241278002203452,
      "grad_norm": 0.40001678466796875,
      "learning_rate": 0.00011803348031755179,
      "loss": 1.1347,
      "step": 669
    },
    {
      "epoch": 0.05249112498469825,
      "grad_norm": 0.41585302352905273,
      "learning_rate": 0.0001178260519879937,
      "loss": 1.0482,
      "step": 670
    },
    {
      "epoch": 0.05256946994736198,
      "grad_norm": 0.4359322488307953,
      "learning_rate": 0.00011761854441154767,
      "loss": 1.2555,
      "step": 671
    },
    {
      "epoch": 0.05264781491002571,
      "grad_norm": 0.44869065284729004,
      "learning_rate": 0.00011741095851070228,
      "loss": 1.1967,
      "step": 672
    },
    {
      "epoch": 0.052726159872689436,
      "grad_norm": 0.42980316281318665,
      "learning_rate": 0.00011720329520829429,
      "loss": 1.1082,
      "step": 673
    },
    {
      "epoch": 0.052804504835353164,
      "grad_norm": 0.43151360750198364,
      "learning_rate": 0.0001169955554275046,
      "loss": 1.1551,
      "step": 674
    },
    {
      "epoch": 0.05288284979801689,
      "grad_norm": 0.4733516573905945,
      "learning_rate": 0.0001167877400918541,
      "loss": 1.1537,
      "step": 675
    },
    {
      "epoch": 0.05296119476068062,
      "grad_norm": 0.45715925097465515,
      "learning_rate": 0.00011657985012519952,
      "loss": 1.1996,
      "step": 676
    },
    {
      "epoch": 0.05303953972334435,
      "grad_norm": 0.4418784976005554,
      "learning_rate": 0.00011637188645172944,
      "loss": 1.0906,
      "step": 677
    },
    {
      "epoch": 0.05311788468600808,
      "grad_norm": 0.4408128261566162,
      "learning_rate": 0.00011616384999596006,
      "loss": 1.1625,
      "step": 678
    },
    {
      "epoch": 0.05319622964867181,
      "grad_norm": 0.4611113667488098,
      "learning_rate": 0.00011595574168273111,
      "loss": 1.1081,
      "step": 679
    },
    {
      "epoch": 0.053274574611335536,
      "grad_norm": 0.4458661675453186,
      "learning_rate": 0.0001157475624372018,
      "loss": 1.1557,
      "step": 680
    },
    {
      "epoch": 0.05335291957399926,
      "grad_norm": 0.4743911623954773,
      "learning_rate": 0.0001155393131848467,
      "loss": 1.2183,
      "step": 681
    },
    {
      "epoch": 0.05343126453666299,
      "grad_norm": 0.48600122332572937,
      "learning_rate": 0.00011533099485145155,
      "loss": 1.2014,
      "step": 682
    },
    {
      "epoch": 0.053509609499326725,
      "grad_norm": 0.4794973134994507,
      "learning_rate": 0.00011512260836310924,
      "loss": 1.1545,
      "step": 683
    },
    {
      "epoch": 0.05358795446199045,
      "grad_norm": 0.4735858738422394,
      "learning_rate": 0.00011491415464621562,
      "loss": 1.2166,
      "step": 684
    },
    {
      "epoch": 0.05366629942465418,
      "grad_norm": 0.4754095673561096,
      "learning_rate": 0.00011470563462746541,
      "loss": 1.1738,
      "step": 685
    },
    {
      "epoch": 0.05374464438731791,
      "grad_norm": 0.478889137506485,
      "learning_rate": 0.00011449704923384812,
      "loss": 1.1475,
      "step": 686
    },
    {
      "epoch": 0.053822989349981636,
      "grad_norm": 0.47856733202934265,
      "learning_rate": 0.00011428839939264382,
      "loss": 1.1327,
      "step": 687
    },
    {
      "epoch": 0.05390133431264537,
      "grad_norm": 0.5017616748809814,
      "learning_rate": 0.0001140796860314191,
      "loss": 1.1852,
      "step": 688
    },
    {
      "epoch": 0.0539796792753091,
      "grad_norm": 0.47990772128105164,
      "learning_rate": 0.00011387091007802297,
      "loss": 1.1604,
      "step": 689
    },
    {
      "epoch": 0.054058024237972825,
      "grad_norm": 0.5150591731071472,
      "learning_rate": 0.0001136620724605827,
      "loss": 1.1896,
      "step": 690
    },
    {
      "epoch": 0.05413636920063655,
      "grad_norm": 0.4946371614933014,
      "learning_rate": 0.00011345317410749964,
      "loss": 1.1687,
      "step": 691
    },
    {
      "epoch": 0.05421471416330028,
      "grad_norm": 0.4927017390727997,
      "learning_rate": 0.00011324421594744516,
      "loss": 1.1485,
      "step": 692
    },
    {
      "epoch": 0.05429305912596401,
      "grad_norm": 0.5342018604278564,
      "learning_rate": 0.00011303519890935656,
      "loss": 1.2185,
      "step": 693
    },
    {
      "epoch": 0.05437140408862774,
      "grad_norm": 0.5281359553337097,
      "learning_rate": 0.00011282612392243286,
      "loss": 1.119,
      "step": 694
    },
    {
      "epoch": 0.05444974905129147,
      "grad_norm": 0.5320961475372314,
      "learning_rate": 0.00011261699191613066,
      "loss": 1.1659,
      "step": 695
    },
    {
      "epoch": 0.0545280940139552,
      "grad_norm": 0.5068988800048828,
      "learning_rate": 0.00011240780382016005,
      "loss": 1.1799,
      "step": 696
    },
    {
      "epoch": 0.054606438976618925,
      "grad_norm": 0.509369432926178,
      "learning_rate": 0.00011219856056448051,
      "loss": 1.1772,
      "step": 697
    },
    {
      "epoch": 0.05468478393928265,
      "grad_norm": 0.5363962650299072,
      "learning_rate": 0.00011198926307929664,
      "loss": 1.2582,
      "step": 698
    },
    {
      "epoch": 0.05476312890194638,
      "grad_norm": 0.5542522072792053,
      "learning_rate": 0.00011177991229505431,
      "loss": 1.2173,
      "step": 699
    },
    {
      "epoch": 0.054841473864610114,
      "grad_norm": 0.6321282386779785,
      "learning_rate": 0.00011157050914243614,
      "loss": 1.2243,
      "step": 700
    },
    {
      "epoch": 0.05491981882727384,
      "grad_norm": 0.3558381199836731,
      "learning_rate": 0.00011136105455235766,
      "loss": 1.3264,
      "step": 701
    },
    {
      "epoch": 0.05499816378993757,
      "grad_norm": 0.37042444944381714,
      "learning_rate": 0.00011115154945596305,
      "loss": 1.2808,
      "step": 702
    },
    {
      "epoch": 0.0550765087526013,
      "grad_norm": 0.39512741565704346,
      "learning_rate": 0.00011094199478462095,
      "loss": 1.2881,
      "step": 703
    },
    {
      "epoch": 0.055154853715265025,
      "grad_norm": 0.3720415532588959,
      "learning_rate": 0.00011073239146992054,
      "loss": 1.2618,
      "step": 704
    },
    {
      "epoch": 0.05523319867792875,
      "grad_norm": 0.3746611773967743,
      "learning_rate": 0.00011052274044366711,
      "loss": 1.25,
      "step": 705
    },
    {
      "epoch": 0.055311543640592487,
      "grad_norm": 0.36809730529785156,
      "learning_rate": 0.00011031304263787812,
      "loss": 1.2209,
      "step": 706
    },
    {
      "epoch": 0.055389888603256214,
      "grad_norm": 0.37831300497055054,
      "learning_rate": 0.00011010329898477891,
      "loss": 1.2406,
      "step": 707
    },
    {
      "epoch": 0.05546823356591994,
      "grad_norm": 0.3810480535030365,
      "learning_rate": 0.0001098935104167988,
      "loss": 1.2443,
      "step": 708
    },
    {
      "epoch": 0.05554657852858367,
      "grad_norm": 0.3750072717666626,
      "learning_rate": 0.00010968367786656663,
      "loss": 1.1922,
      "step": 709
    },
    {
      "epoch": 0.0556249234912474,
      "grad_norm": 0.397428423166275,
      "learning_rate": 0.00010947380226690684,
      "loss": 1.1264,
      "step": 710
    },
    {
      "epoch": 0.055703268453911124,
      "grad_norm": 0.3839744031429291,
      "learning_rate": 0.00010926388455083522,
      "loss": 1.1794,
      "step": 711
    },
    {
      "epoch": 0.05578161341657486,
      "grad_norm": 0.3893216550350189,
      "learning_rate": 0.00010905392565155477,
      "loss": 1.2202,
      "step": 712
    },
    {
      "epoch": 0.055859958379238586,
      "grad_norm": 0.385083943605423,
      "learning_rate": 0.00010884392650245165,
      "loss": 1.0894,
      "step": 713
    },
    {
      "epoch": 0.055938303341902314,
      "grad_norm": 0.4127908945083618,
      "learning_rate": 0.00010863388803709089,
      "loss": 1.1954,
      "step": 714
    },
    {
      "epoch": 0.05601664830456604,
      "grad_norm": 0.4130711853504181,
      "learning_rate": 0.00010842381118921232,
      "loss": 1.2281,
      "step": 715
    },
    {
      "epoch": 0.05609499326722977,
      "grad_norm": 0.4281599819660187,
      "learning_rate": 0.00010821369689272638,
      "loss": 1.0856,
      "step": 716
    },
    {
      "epoch": 0.0561733382298935,
      "grad_norm": 0.4075188934803009,
      "learning_rate": 0.00010800354608171003,
      "loss": 1.095,
      "step": 717
    },
    {
      "epoch": 0.05625168319255723,
      "grad_norm": 0.3951125741004944,
      "learning_rate": 0.00010779335969040252,
      "loss": 1.1187,
      "step": 718
    },
    {
      "epoch": 0.05633002815522096,
      "grad_norm": 0.43971776962280273,
      "learning_rate": 0.00010758313865320134,
      "loss": 1.1529,
      "step": 719
    },
    {
      "epoch": 0.056408373117884686,
      "grad_norm": 0.43674010038375854,
      "learning_rate": 0.00010737288390465792,
      "loss": 1.2506,
      "step": 720
    },
    {
      "epoch": 0.05648671808054841,
      "grad_norm": 0.43417030572891235,
      "learning_rate": 0.00010716259637947357,
      "loss": 1.0711,
      "step": 721
    },
    {
      "epoch": 0.05656506304321214,
      "grad_norm": 0.4498785138130188,
      "learning_rate": 0.00010695227701249537,
      "loss": 1.1948,
      "step": 722
    },
    {
      "epoch": 0.056643408005875875,
      "grad_norm": 0.42481786012649536,
      "learning_rate": 0.00010674192673871191,
      "loss": 1.0872,
      "step": 723
    },
    {
      "epoch": 0.0567217529685396,
      "grad_norm": 0.4479183852672577,
      "learning_rate": 0.00010653154649324917,
      "loss": 1.213,
      "step": 724
    },
    {
      "epoch": 0.05680009793120333,
      "grad_norm": 0.4353281557559967,
      "learning_rate": 0.00010632113721136636,
      "loss": 1.2453,
      "step": 725
    },
    {
      "epoch": 0.05687844289386706,
      "grad_norm": 0.44100305438041687,
      "learning_rate": 0.00010611069982845183,
      "loss": 1.0588,
      "step": 726
    },
    {
      "epoch": 0.056956787856530786,
      "grad_norm": 0.4422265291213989,
      "learning_rate": 0.00010590023528001884,
      "loss": 1.1665,
      "step": 727
    },
    {
      "epoch": 0.05703513281919451,
      "grad_norm": 0.43531396985054016,
      "learning_rate": 0.00010568974450170139,
      "loss": 1.0991,
      "step": 728
    },
    {
      "epoch": 0.05711347778185825,
      "grad_norm": 0.4306783974170685,
      "learning_rate": 0.00010547922842925008,
      "loss": 1.1782,
      "step": 729
    },
    {
      "epoch": 0.057191822744521975,
      "grad_norm": 0.4309874475002289,
      "learning_rate": 0.00010526868799852796,
      "loss": 1.1626,
      "step": 730
    },
    {
      "epoch": 0.0572701677071857,
      "grad_norm": 0.4556257128715515,
      "learning_rate": 0.0001050581241455064,
      "loss": 1.1758,
      "step": 731
    },
    {
      "epoch": 0.05734851266984943,
      "grad_norm": 0.4722212255001068,
      "learning_rate": 0.00010484753780626089,
      "loss": 1.268,
      "step": 732
    },
    {
      "epoch": 0.05742685763251316,
      "grad_norm": 0.49605971574783325,
      "learning_rate": 0.00010463692991696685,
      "loss": 1.1937,
      "step": 733
    },
    {
      "epoch": 0.057505202595176885,
      "grad_norm": 0.48402661085128784,
      "learning_rate": 0.00010442630141389549,
      "loss": 1.1519,
      "step": 734
    },
    {
      "epoch": 0.05758354755784062,
      "grad_norm": 0.4601403474807739,
      "learning_rate": 0.00010421565323340971,
      "loss": 1.127,
      "step": 735
    },
    {
      "epoch": 0.05766189252050435,
      "grad_norm": 0.47399795055389404,
      "learning_rate": 0.00010400498631195992,
      "loss": 1.2446,
      "step": 736
    },
    {
      "epoch": 0.057740237483168075,
      "grad_norm": 0.4836205840110779,
      "learning_rate": 0.00010379430158607975,
      "loss": 1.1253,
      "step": 737
    },
    {
      "epoch": 0.0578185824458318,
      "grad_norm": 0.49899110198020935,
      "learning_rate": 0.000103583599992382,
      "loss": 1.0872,
      "step": 738
    },
    {
      "epoch": 0.05789692740849553,
      "grad_norm": 0.5052352547645569,
      "learning_rate": 0.0001033728824675545,
      "loss": 1.253,
      "step": 739
    },
    {
      "epoch": 0.05797527237115926,
      "grad_norm": 0.4813212454319,
      "learning_rate": 0.0001031621499483559,
      "loss": 1.1302,
      "step": 740
    },
    {
      "epoch": 0.05805361733382299,
      "grad_norm": 0.513744592666626,
      "learning_rate": 0.00010295140337161146,
      "loss": 1.2553,
      "step": 741
    },
    {
      "epoch": 0.05813196229648672,
      "grad_norm": 0.4893876314163208,
      "learning_rate": 0.00010274064367420897,
      "loss": 1.2581,
      "step": 742
    },
    {
      "epoch": 0.05821030725915045,
      "grad_norm": 0.507595956325531,
      "learning_rate": 0.00010252987179309459,
      "loss": 1.1856,
      "step": 743
    },
    {
      "epoch": 0.058288652221814174,
      "grad_norm": 0.5469101071357727,
      "learning_rate": 0.00010231908866526851,
      "loss": 1.2098,
      "step": 744
    },
    {
      "epoch": 0.0583669971844779,
      "grad_norm": 0.5233719944953918,
      "learning_rate": 0.00010210829522778111,
      "loss": 1.1518,
      "step": 745
    },
    {
      "epoch": 0.05844534214714163,
      "grad_norm": 0.536382257938385,
      "learning_rate": 0.00010189749241772844,
      "loss": 1.1709,
      "step": 746
    },
    {
      "epoch": 0.058523687109805364,
      "grad_norm": 0.5432570576667786,
      "learning_rate": 0.00010168668117224825,
      "loss": 1.2673,
      "step": 747
    },
    {
      "epoch": 0.05860203207246909,
      "grad_norm": 0.5360643267631531,
      "learning_rate": 0.00010147586242851585,
      "loss": 1.2415,
      "step": 748
    },
    {
      "epoch": 0.05868037703513282,
      "grad_norm": 0.5654575228691101,
      "learning_rate": 0.00010126503712373982,
      "loss": 1.2565,
      "step": 749
    },
    {
      "epoch": 0.05875872199779655,
      "grad_norm": 0.6646549701690674,
      "learning_rate": 0.00010105420619515798,
      "loss": 1.2923,
      "step": 750
    },
    {
      "epoch": 0.05875872199779655,
      "eval_loss": 1.170549750328064,
      "eval_runtime": 1246.2848,
      "eval_samples_per_second": 17.25,
      "eval_steps_per_second": 8.625,
      "step": 750
    },
    {
      "epoch": 0.058837066960460274,
      "grad_norm": 0.3812882900238037,
      "learning_rate": 0.00010084337058003303,
      "loss": 1.2359,
      "step": 751
    },
    {
      "epoch": 0.05891541192312401,
      "grad_norm": 0.4087880253791809,
      "learning_rate": 0.00010063253121564868,
      "loss": 1.2384,
      "step": 752
    },
    {
      "epoch": 0.058993756885787736,
      "grad_norm": 0.39350512623786926,
      "learning_rate": 0.00010042168903930514,
      "loss": 1.2176,
      "step": 753
    },
    {
      "epoch": 0.059072101848451464,
      "grad_norm": 0.3747313618659973,
      "learning_rate": 0.00010021084498831522,
      "loss": 1.2421,
      "step": 754
    },
    {
      "epoch": 0.05915044681111519,
      "grad_norm": 0.3814522325992584,
      "learning_rate": 0.0001,
      "loss": 1.213,
      "step": 755
    },
    {
      "epoch": 0.05922879177377892,
      "grad_norm": 0.3732205629348755,
      "learning_rate": 9.97891550116848e-05,
      "loss": 1.1592,
      "step": 756
    },
    {
      "epoch": 0.059307136736442646,
      "grad_norm": 0.3789285123348236,
      "learning_rate": 9.957831096069488e-05,
      "loss": 1.186,
      "step": 757
    },
    {
      "epoch": 0.05938548169910638,
      "grad_norm": 0.3761287331581116,
      "learning_rate": 9.936746878435136e-05,
      "loss": 1.245,
      "step": 758
    },
    {
      "epoch": 0.05946382666177011,
      "grad_norm": 0.3878104090690613,
      "learning_rate": 9.915662941996699e-05,
      "loss": 1.1703,
      "step": 759
    },
    {
      "epoch": 0.059542171624433836,
      "grad_norm": 0.4000292420387268,
      "learning_rate": 9.894579380484204e-05,
      "loss": 1.1985,
      "step": 760
    },
    {
      "epoch": 0.05962051658709756,
      "grad_norm": 0.4062594175338745,
      "learning_rate": 9.873496287626019e-05,
      "loss": 1.0736,
      "step": 761
    },
    {
      "epoch": 0.05969886154976129,
      "grad_norm": 0.3939819037914276,
      "learning_rate": 9.852413757148417e-05,
      "loss": 1.1404,
      "step": 762
    },
    {
      "epoch": 0.05977720651242502,
      "grad_norm": 0.4011702537536621,
      "learning_rate": 9.831331882775178e-05,
      "loss": 1.0946,
      "step": 763
    },
    {
      "epoch": 0.05985555147508875,
      "grad_norm": 0.4024744927883148,
      "learning_rate": 9.81025075822716e-05,
      "loss": 1.1295,
      "step": 764
    },
    {
      "epoch": 0.05993389643775248,
      "grad_norm": 0.47131964564323425,
      "learning_rate": 9.789170477221891e-05,
      "loss": 1.1194,
      "step": 765
    },
    {
      "epoch": 0.06001224140041621,
      "grad_norm": 0.42416810989379883,
      "learning_rate": 9.76809113347315e-05,
      "loss": 1.13,
      "step": 766
    },
    {
      "epoch": 0.060090586363079936,
      "grad_norm": 0.4430331289768219,
      "learning_rate": 9.747012820690543e-05,
      "loss": 1.092,
      "step": 767
    },
    {
      "epoch": 0.06016893132574366,
      "grad_norm": 0.438995897769928,
      "learning_rate": 9.725935632579104e-05,
      "loss": 1.1626,
      "step": 768
    },
    {
      "epoch": 0.06024727628840739,
      "grad_norm": 0.4369300603866577,
      "learning_rate": 9.704859662838855e-05,
      "loss": 1.1587,
      "step": 769
    },
    {
      "epoch": 0.060325621251071125,
      "grad_norm": 0.46221229434013367,
      "learning_rate": 9.683785005164411e-05,
      "loss": 1.2247,
      "step": 770
    },
    {
      "epoch": 0.06040396621373485,
      "grad_norm": 0.4203993082046509,
      "learning_rate": 9.662711753244551e-05,
      "loss": 1.1244,
      "step": 771
    },
    {
      "epoch": 0.06048231117639858,
      "grad_norm": 0.4376964867115021,
      "learning_rate": 9.641640000761802e-05,
      "loss": 1.1359,
      "step": 772
    },
    {
      "epoch": 0.06056065613906231,
      "grad_norm": 0.42524343729019165,
      "learning_rate": 9.620569841392029e-05,
      "loss": 1.1063,
      "step": 773
    },
    {
      "epoch": 0.060639001101726035,
      "grad_norm": 0.4465005099773407,
      "learning_rate": 9.59950136880401e-05,
      "loss": 1.1377,
      "step": 774
    },
    {
      "epoch": 0.06071734606438976,
      "grad_norm": 0.45765620470046997,
      "learning_rate": 9.57843467665903e-05,
      "loss": 1.1033,
      "step": 775
    },
    {
      "epoch": 0.0607956910270535,
      "grad_norm": 0.4436481297016144,
      "learning_rate": 9.557369858610453e-05,
      "loss": 1.126,
      "step": 776
    },
    {
      "epoch": 0.060874035989717225,
      "grad_norm": 0.4590737819671631,
      "learning_rate": 9.53630700830332e-05,
      "loss": 1.208,
      "step": 777
    },
    {
      "epoch": 0.06095238095238095,
      "grad_norm": 0.46464455127716064,
      "learning_rate": 9.51524621937391e-05,
      "loss": 1.0821,
      "step": 778
    },
    {
      "epoch": 0.06103072591504468,
      "grad_norm": 0.5014022588729858,
      "learning_rate": 9.494187585449358e-05,
      "loss": 1.2033,
      "step": 779
    },
    {
      "epoch": 0.06110907087770841,
      "grad_norm": 0.5150489807128906,
      "learning_rate": 9.473131200147205e-05,
      "loss": 1.2814,
      "step": 780
    },
    {
      "epoch": 0.06118741584037214,
      "grad_norm": 0.49404630064964294,
      "learning_rate": 9.452077157074994e-05,
      "loss": 1.1559,
      "step": 781
    },
    {
      "epoch": 0.06126576080303587,
      "grad_norm": 0.48717767000198364,
      "learning_rate": 9.431025549829862e-05,
      "loss": 1.2049,
      "step": 782
    },
    {
      "epoch": 0.0613441057656996,
      "grad_norm": 0.47839295864105225,
      "learning_rate": 9.409976471998118e-05,
      "loss": 1.164,
      "step": 783
    },
    {
      "epoch": 0.061422450728363324,
      "grad_norm": 0.501578152179718,
      "learning_rate": 9.388930017154819e-05,
      "loss": 1.248,
      "step": 784
    },
    {
      "epoch": 0.06150079569102705,
      "grad_norm": 0.4857689142227173,
      "learning_rate": 9.367886278863366e-05,
      "loss": 0.9963,
      "step": 785
    },
    {
      "epoch": 0.06157914065369078,
      "grad_norm": 0.48613014817237854,
      "learning_rate": 9.346845350675088e-05,
      "loss": 1.1498,
      "step": 786
    },
    {
      "epoch": 0.061657485616354514,
      "grad_norm": 0.46135273575782776,
      "learning_rate": 9.325807326128814e-05,
      "loss": 1.149,
      "step": 787
    },
    {
      "epoch": 0.06173583057901824,
      "grad_norm": 0.48477447032928467,
      "learning_rate": 9.304772298750463e-05,
      "loss": 1.2144,
      "step": 788
    },
    {
      "epoch": 0.06181417554168197,
      "grad_norm": 0.4864654839038849,
      "learning_rate": 9.283740362052642e-05,
      "loss": 1.1397,
      "step": 789
    },
    {
      "epoch": 0.0618925205043457,
      "grad_norm": 0.5204869508743286,
      "learning_rate": 9.26271160953421e-05,
      "loss": 1.2091,
      "step": 790
    },
    {
      "epoch": 0.061970865467009424,
      "grad_norm": 0.5060577988624573,
      "learning_rate": 9.241686134679867e-05,
      "loss": 1.1275,
      "step": 791
    },
    {
      "epoch": 0.06204921042967315,
      "grad_norm": 0.5035790205001831,
      "learning_rate": 9.220664030959749e-05,
      "loss": 1.0656,
      "step": 792
    },
    {
      "epoch": 0.062127555392336886,
      "grad_norm": 0.5267331600189209,
      "learning_rate": 9.199645391828999e-05,
      "loss": 1.1133,
      "step": 793
    },
    {
      "epoch": 0.062205900355000614,
      "grad_norm": 0.516671359539032,
      "learning_rate": 9.178630310727365e-05,
      "loss": 1.1482,
      "step": 794
    },
    {
      "epoch": 0.06228424531766434,
      "grad_norm": 0.5254691243171692,
      "learning_rate": 9.157618881078772e-05,
      "loss": 1.152,
      "step": 795
    },
    {
      "epoch": 0.06236259028032807,
      "grad_norm": 0.5494266748428345,
      "learning_rate": 9.136611196290915e-05,
      "loss": 1.1784,
      "step": 796
    },
    {
      "epoch": 0.062440935242991796,
      "grad_norm": 0.5325770974159241,
      "learning_rate": 9.115607349754834e-05,
      "loss": 1.1693,
      "step": 797
    },
    {
      "epoch": 0.06251928020565553,
      "grad_norm": 0.5401846170425415,
      "learning_rate": 9.094607434844523e-05,
      "loss": 1.1518,
      "step": 798
    },
    {
      "epoch": 0.06259762516831925,
      "grad_norm": 0.568489134311676,
      "learning_rate": 9.07361154491648e-05,
      "loss": 1.197,
      "step": 799
    },
    {
      "epoch": 0.06267597013098299,
      "grad_norm": 0.6798611879348755,
      "learning_rate": 9.052619773309317e-05,
      "loss": 1.1634,
      "step": 800
    },
    {
      "epoch": 0.0627543150936467,
      "grad_norm": 0.4148300588130951,
      "learning_rate": 9.031632213343339e-05,
      "loss": 1.4085,
      "step": 801
    },
    {
      "epoch": 0.06283266005631044,
      "grad_norm": 0.39692842960357666,
      "learning_rate": 9.01064895832012e-05,
      "loss": 1.2894,
      "step": 802
    },
    {
      "epoch": 0.06291100501897418,
      "grad_norm": 0.39125558733940125,
      "learning_rate": 8.98967010152211e-05,
      "loss": 1.21,
      "step": 803
    },
    {
      "epoch": 0.0629893499816379,
      "grad_norm": 0.39769890904426575,
      "learning_rate": 8.968695736212193e-05,
      "loss": 1.2866,
      "step": 804
    },
    {
      "epoch": 0.06306769494430163,
      "grad_norm": 0.37786003947257996,
      "learning_rate": 8.947725955633294e-05,
      "loss": 1.1515,
      "step": 805
    },
    {
      "epoch": 0.06314603990696535,
      "grad_norm": 0.38245052099227905,
      "learning_rate": 8.926760853007946e-05,
      "loss": 1.188,
      "step": 806
    },
    {
      "epoch": 0.06322438486962909,
      "grad_norm": 0.3967549502849579,
      "learning_rate": 8.905800521537905e-05,
      "loss": 1.1867,
      "step": 807
    },
    {
      "epoch": 0.06330272983229282,
      "grad_norm": 0.398270845413208,
      "learning_rate": 8.884845054403699e-05,
      "loss": 1.2019,
      "step": 808
    },
    {
      "epoch": 0.06338107479495654,
      "grad_norm": 0.3813151717185974,
      "learning_rate": 8.863894544764236e-05,
      "loss": 1.122,
      "step": 809
    },
    {
      "epoch": 0.06345941975762028,
      "grad_norm": 0.41701894998550415,
      "learning_rate": 8.84294908575639e-05,
      "loss": 1.0956,
      "step": 810
    },
    {
      "epoch": 0.063537764720284,
      "grad_norm": 0.4135468602180481,
      "learning_rate": 8.822008770494572e-05,
      "loss": 1.2475,
      "step": 811
    },
    {
      "epoch": 0.06361610968294773,
      "grad_norm": 0.4082343578338623,
      "learning_rate": 8.801073692070337e-05,
      "loss": 1.1945,
      "step": 812
    },
    {
      "epoch": 0.06369445464561146,
      "grad_norm": 0.42507418990135193,
      "learning_rate": 8.780143943551954e-05,
      "loss": 1.0954,
      "step": 813
    },
    {
      "epoch": 0.06377279960827519,
      "grad_norm": 0.41107457876205444,
      "learning_rate": 8.759219617983999e-05,
      "loss": 1.0814,
      "step": 814
    },
    {
      "epoch": 0.06385114457093892,
      "grad_norm": 0.4498427212238312,
      "learning_rate": 8.738300808386935e-05,
      "loss": 1.1862,
      "step": 815
    },
    {
      "epoch": 0.06392948953360264,
      "grad_norm": 0.414180725812912,
      "learning_rate": 8.717387607756713e-05,
      "loss": 1.2108,
      "step": 816
    },
    {
      "epoch": 0.06400783449626637,
      "grad_norm": 0.44032788276672363,
      "learning_rate": 8.696480109064342e-05,
      "loss": 1.1211,
      "step": 817
    },
    {
      "epoch": 0.0640861794589301,
      "grad_norm": 0.44938984513282776,
      "learning_rate": 8.675578405255485e-05,
      "loss": 1.1684,
      "step": 818
    },
    {
      "epoch": 0.06416452442159383,
      "grad_norm": 0.4386635422706604,
      "learning_rate": 8.654682589250038e-05,
      "loss": 1.0735,
      "step": 819
    },
    {
      "epoch": 0.06424286938425756,
      "grad_norm": 0.4124806523323059,
      "learning_rate": 8.633792753941733e-05,
      "loss": 1.076,
      "step": 820
    },
    {
      "epoch": 0.06432121434692128,
      "grad_norm": 0.41725942492485046,
      "learning_rate": 8.612908992197705e-05,
      "loss": 1.1255,
      "step": 821
    },
    {
      "epoch": 0.06439955930958502,
      "grad_norm": 0.4375162422657013,
      "learning_rate": 8.592031396858093e-05,
      "loss": 1.1195,
      "step": 822
    },
    {
      "epoch": 0.06447790427224874,
      "grad_norm": 0.4395070970058441,
      "learning_rate": 8.571160060735624e-05,
      "loss": 1.196,
      "step": 823
    },
    {
      "epoch": 0.06455624923491247,
      "grad_norm": 0.4477600157260895,
      "learning_rate": 8.550295076615188e-05,
      "loss": 1.0811,
      "step": 824
    },
    {
      "epoch": 0.06463459419757621,
      "grad_norm": 0.4496559202671051,
      "learning_rate": 8.529436537253458e-05,
      "loss": 1.2235,
      "step": 825
    },
    {
      "epoch": 0.06471293916023993,
      "grad_norm": 0.45790883898735046,
      "learning_rate": 8.508584535378439e-05,
      "loss": 1.0906,
      "step": 826
    },
    {
      "epoch": 0.06479128412290366,
      "grad_norm": 0.4710276126861572,
      "learning_rate": 8.487739163689079e-05,
      "loss": 1.0966,
      "step": 827
    },
    {
      "epoch": 0.06486962908556738,
      "grad_norm": 0.42628613114356995,
      "learning_rate": 8.466900514854847e-05,
      "loss": 1.1187,
      "step": 828
    },
    {
      "epoch": 0.06494797404823112,
      "grad_norm": 0.45254388451576233,
      "learning_rate": 8.446068681515334e-05,
      "loss": 1.0615,
      "step": 829
    },
    {
      "epoch": 0.06502631901089484,
      "grad_norm": 0.4577297568321228,
      "learning_rate": 8.425243756279824e-05,
      "loss": 1.0643,
      "step": 830
    },
    {
      "epoch": 0.06510466397355857,
      "grad_norm": 0.45044586062431335,
      "learning_rate": 8.404425831726894e-05,
      "loss": 1.1396,
      "step": 831
    },
    {
      "epoch": 0.06518300893622231,
      "grad_norm": 0.4625331163406372,
      "learning_rate": 8.383615000404e-05,
      "loss": 1.0966,
      "step": 832
    },
    {
      "epoch": 0.06526135389888603,
      "grad_norm": 0.49711155891418457,
      "learning_rate": 8.362811354827059e-05,
      "loss": 1.0385,
      "step": 833
    },
    {
      "epoch": 0.06533969886154976,
      "grad_norm": 0.505687415599823,
      "learning_rate": 8.342014987480047e-05,
      "loss": 1.1772,
      "step": 834
    },
    {
      "epoch": 0.06541804382421348,
      "grad_norm": 0.49129584431648254,
      "learning_rate": 8.321225990814591e-05,
      "loss": 1.0607,
      "step": 835
    },
    {
      "epoch": 0.06549638878687722,
      "grad_norm": 0.49116963148117065,
      "learning_rate": 8.300444457249543e-05,
      "loss": 1.1662,
      "step": 836
    },
    {
      "epoch": 0.06557473374954095,
      "grad_norm": 0.4928470253944397,
      "learning_rate": 8.279670479170573e-05,
      "loss": 1.1443,
      "step": 837
    },
    {
      "epoch": 0.06565307871220467,
      "grad_norm": 0.47446438670158386,
      "learning_rate": 8.258904148929775e-05,
      "loss": 1.1333,
      "step": 838
    },
    {
      "epoch": 0.06573142367486841,
      "grad_norm": 0.5181599259376526,
      "learning_rate": 8.238145558845235e-05,
      "loss": 1.2092,
      "step": 839
    },
    {
      "epoch": 0.06580976863753213,
      "grad_norm": 0.5148423910140991,
      "learning_rate": 8.217394801200631e-05,
      "loss": 1.1715,
      "step": 840
    },
    {
      "epoch": 0.06588811360019586,
      "grad_norm": 0.5073970556259155,
      "learning_rate": 8.196651968244826e-05,
      "loss": 1.1637,
      "step": 841
    },
    {
      "epoch": 0.0659664585628596,
      "grad_norm": 0.5069762468338013,
      "learning_rate": 8.175917152191447e-05,
      "loss": 1.1968,
      "step": 842
    },
    {
      "epoch": 0.06604480352552332,
      "grad_norm": 0.49383002519607544,
      "learning_rate": 8.15519044521848e-05,
      "loss": 1.0916,
      "step": 843
    },
    {
      "epoch": 0.06612314848818705,
      "grad_norm": 0.5084606409072876,
      "learning_rate": 8.134471939467874e-05,
      "loss": 1.0055,
      "step": 844
    },
    {
      "epoch": 0.06620149345085077,
      "grad_norm": 0.5330470204353333,
      "learning_rate": 8.113761727045105e-05,
      "loss": 1.1851,
      "step": 845
    },
    {
      "epoch": 0.06627983841351451,
      "grad_norm": 0.5233162045478821,
      "learning_rate": 8.093059900018792e-05,
      "loss": 1.0959,
      "step": 846
    },
    {
      "epoch": 0.06635818337617823,
      "grad_norm": 0.543324887752533,
      "learning_rate": 8.072366550420266e-05,
      "loss": 1.2079,
      "step": 847
    },
    {
      "epoch": 0.06643652833884196,
      "grad_norm": 0.5404165983200073,
      "learning_rate": 8.051681770243175e-05,
      "loss": 1.1684,
      "step": 848
    },
    {
      "epoch": 0.0665148733015057,
      "grad_norm": 0.559863269329071,
      "learning_rate": 8.031005651443073e-05,
      "loss": 1.2099,
      "step": 849
    },
    {
      "epoch": 0.06659321826416942,
      "grad_norm": 0.5945868492126465,
      "learning_rate": 8.010338285937006e-05,
      "loss": 1.2232,
      "step": 850
    },
    {
      "epoch": 0.06667156322683315,
      "grad_norm": 0.37446722388267517,
      "learning_rate": 7.989679765603108e-05,
      "loss": 1.3773,
      "step": 851
    },
    {
      "epoch": 0.06674990818949687,
      "grad_norm": 0.39923956990242004,
      "learning_rate": 7.969030182280192e-05,
      "loss": 1.3213,
      "step": 852
    },
    {
      "epoch": 0.06682825315216061,
      "grad_norm": 0.39316117763519287,
      "learning_rate": 7.948389627767343e-05,
      "loss": 1.2187,
      "step": 853
    },
    {
      "epoch": 0.06690659811482434,
      "grad_norm": 0.3985760807991028,
      "learning_rate": 7.927758193823501e-05,
      "loss": 1.2066,
      "step": 854
    },
    {
      "epoch": 0.06698494307748806,
      "grad_norm": 0.4063001275062561,
      "learning_rate": 7.907135972167069e-05,
      "loss": 1.133,
      "step": 855
    },
    {
      "epoch": 0.0670632880401518,
      "grad_norm": 0.38180387020111084,
      "learning_rate": 7.88652305447549e-05,
      "loss": 1.1766,
      "step": 856
    },
    {
      "epoch": 0.06714163300281552,
      "grad_norm": 0.37992820143699646,
      "learning_rate": 7.865919532384844e-05,
      "loss": 1.1016,
      "step": 857
    },
    {
      "epoch": 0.06721997796547925,
      "grad_norm": 0.37833482027053833,
      "learning_rate": 7.845325497489449e-05,
      "loss": 1.2316,
      "step": 858
    },
    {
      "epoch": 0.06729832292814297,
      "grad_norm": 0.3972760736942291,
      "learning_rate": 7.82474104134144e-05,
      "loss": 1.158,
      "step": 859
    },
    {
      "epoch": 0.06737666789080671,
      "grad_norm": 0.3930393159389496,
      "learning_rate": 7.804166255450373e-05,
      "loss": 1.0831,
      "step": 860
    },
    {
      "epoch": 0.06745501285347044,
      "grad_norm": 0.41444727778434753,
      "learning_rate": 7.783601231282812e-05,
      "loss": 1.1074,
      "step": 861
    },
    {
      "epoch": 0.06753335781613416,
      "grad_norm": 0.3979882597923279,
      "learning_rate": 7.763046060261932e-05,
      "loss": 1.2299,
      "step": 862
    },
    {
      "epoch": 0.0676117027787979,
      "grad_norm": 0.41418978571891785,
      "learning_rate": 7.742500833767094e-05,
      "loss": 1.1311,
      "step": 863
    },
    {
      "epoch": 0.06769004774146162,
      "grad_norm": 0.39623910188674927,
      "learning_rate": 7.721965643133458e-05,
      "loss": 1.154,
      "step": 864
    },
    {
      "epoch": 0.06776839270412535,
      "grad_norm": 0.4204125702381134,
      "learning_rate": 7.701440579651566e-05,
      "loss": 1.1618,
      "step": 865
    },
    {
      "epoch": 0.06784673766678909,
      "grad_norm": 0.4094708561897278,
      "learning_rate": 7.680925734566937e-05,
      "loss": 1.0885,
      "step": 866
    },
    {
      "epoch": 0.06792508262945281,
      "grad_norm": 0.43490758538246155,
      "learning_rate": 7.660421199079669e-05,
      "loss": 1.0885,
      "step": 867
    },
    {
      "epoch": 0.06800342759211654,
      "grad_norm": 0.42297589778900146,
      "learning_rate": 7.639927064344022e-05,
      "loss": 1.0835,
      "step": 868
    },
    {
      "epoch": 0.06808177255478026,
      "grad_norm": 0.4530564844608307,
      "learning_rate": 7.619443421468021e-05,
      "loss": 1.0788,
      "step": 869
    },
    {
      "epoch": 0.068160117517444,
      "grad_norm": 0.42588484287261963,
      "learning_rate": 7.598970361513051e-05,
      "loss": 1.0745,
      "step": 870
    },
    {
      "epoch": 0.06823846248010773,
      "grad_norm": 0.4487486183643341,
      "learning_rate": 7.578507975493448e-05,
      "loss": 1.1319,
      "step": 871
    },
    {
      "epoch": 0.06831680744277145,
      "grad_norm": 0.445369154214859,
      "learning_rate": 7.558056354376098e-05,
      "loss": 1.0554,
      "step": 872
    },
    {
      "epoch": 0.06839515240543519,
      "grad_norm": 0.45909443497657776,
      "learning_rate": 7.537615589080027e-05,
      "loss": 1.1078,
      "step": 873
    },
    {
      "epoch": 0.0684734973680989,
      "grad_norm": 0.46978673338890076,
      "learning_rate": 7.517185770476006e-05,
      "loss": 1.1455,
      "step": 874
    },
    {
      "epoch": 0.06855184233076264,
      "grad_norm": 0.45589518547058105,
      "learning_rate": 7.496766989386136e-05,
      "loss": 1.1667,
      "step": 875
    },
    {
      "epoch": 0.06863018729342636,
      "grad_norm": 0.47690197825431824,
      "learning_rate": 7.476359336583454e-05,
      "loss": 1.1971,
      "step": 876
    },
    {
      "epoch": 0.0687085322560901,
      "grad_norm": 0.4466693103313446,
      "learning_rate": 7.455962902791522e-05,
      "loss": 1.1202,
      "step": 877
    },
    {
      "epoch": 0.06878687721875383,
      "grad_norm": 0.4644797146320343,
      "learning_rate": 7.435577778684033e-05,
      "loss": 1.0636,
      "step": 878
    },
    {
      "epoch": 0.06886522218141755,
      "grad_norm": 0.47319331765174866,
      "learning_rate": 7.415204054884399e-05,
      "loss": 1.0218,
      "step": 879
    },
    {
      "epoch": 0.06894356714408129,
      "grad_norm": 0.4583319127559662,
      "learning_rate": 7.394841821965345e-05,
      "loss": 1.0773,
      "step": 880
    },
    {
      "epoch": 0.069021912106745,
      "grad_norm": 0.4626580774784088,
      "learning_rate": 7.374491170448525e-05,
      "loss": 1.138,
      "step": 881
    },
    {
      "epoch": 0.06910025706940874,
      "grad_norm": 0.46906033158302307,
      "learning_rate": 7.3541521908041e-05,
      "loss": 1.1091,
      "step": 882
    },
    {
      "epoch": 0.06917860203207248,
      "grad_norm": 0.4789484143257141,
      "learning_rate": 7.33382497345034e-05,
      "loss": 1.1202,
      "step": 883
    },
    {
      "epoch": 0.0692569469947362,
      "grad_norm": 0.4761325418949127,
      "learning_rate": 7.313509608753231e-05,
      "loss": 1.098,
      "step": 884
    },
    {
      "epoch": 0.06933529195739993,
      "grad_norm": 0.4896888732910156,
      "learning_rate": 7.293206187026061e-05,
      "loss": 1.0482,
      "step": 885
    },
    {
      "epoch": 0.06941363692006365,
      "grad_norm": 0.49275484681129456,
      "learning_rate": 7.27291479852903e-05,
      "loss": 1.1023,
      "step": 886
    },
    {
      "epoch": 0.06949198188272739,
      "grad_norm": 0.5020777583122253,
      "learning_rate": 7.252635533468843e-05,
      "loss": 1.157,
      "step": 887
    },
    {
      "epoch": 0.0695703268453911,
      "grad_norm": 0.5004637241363525,
      "learning_rate": 7.232368481998309e-05,
      "loss": 1.0502,
      "step": 888
    },
    {
      "epoch": 0.06964867180805484,
      "grad_norm": 0.49100300669670105,
      "learning_rate": 7.212113734215932e-05,
      "loss": 1.0966,
      "step": 889
    },
    {
      "epoch": 0.06972701677071858,
      "grad_norm": 0.5020002722740173,
      "learning_rate": 7.191871380165538e-05,
      "loss": 1.0443,
      "step": 890
    },
    {
      "epoch": 0.0698053617333823,
      "grad_norm": 0.49531564116477966,
      "learning_rate": 7.17164150983584e-05,
      "loss": 1.1782,
      "step": 891
    },
    {
      "epoch": 0.06988370669604603,
      "grad_norm": 0.522063136100769,
      "learning_rate": 7.151424213160061e-05,
      "loss": 1.1498,
      "step": 892
    },
    {
      "epoch": 0.06996205165870975,
      "grad_norm": 0.5027164220809937,
      "learning_rate": 7.131219580015521e-05,
      "loss": 1.1413,
      "step": 893
    },
    {
      "epoch": 0.07004039662137349,
      "grad_norm": 0.5357491970062256,
      "learning_rate": 7.11102770022325e-05,
      "loss": 1.2277,
      "step": 894
    },
    {
      "epoch": 0.07011874158403722,
      "grad_norm": 0.5372970700263977,
      "learning_rate": 7.090848663547574e-05,
      "loss": 1.0961,
      "step": 895
    },
    {
      "epoch": 0.07019708654670094,
      "grad_norm": 0.5371811389923096,
      "learning_rate": 7.070682559695736e-05,
      "loss": 1.1502,
      "step": 896
    },
    {
      "epoch": 0.07027543150936467,
      "grad_norm": 0.5532520413398743,
      "learning_rate": 7.050529478317476e-05,
      "loss": 1.0432,
      "step": 897
    },
    {
      "epoch": 0.0703537764720284,
      "grad_norm": 0.5610207915306091,
      "learning_rate": 7.03038950900464e-05,
      "loss": 1.2003,
      "step": 898
    },
    {
      "epoch": 0.07043212143469213,
      "grad_norm": 0.5368883013725281,
      "learning_rate": 7.010262741290798e-05,
      "loss": 1.1937,
      "step": 899
    },
    {
      "epoch": 0.07051046639735586,
      "grad_norm": 0.724024772644043,
      "learning_rate": 6.990149264650814e-05,
      "loss": 1.2696,
      "step": 900
    },
    {
      "epoch": 0.07058881136001958,
      "grad_norm": 0.37022101879119873,
      "learning_rate": 6.970049168500474e-05,
      "loss": 1.4093,
      "step": 901
    },
    {
      "epoch": 0.07066715632268332,
      "grad_norm": 0.3854112923145294,
      "learning_rate": 6.94996254219608e-05,
      "loss": 1.2521,
      "step": 902
    },
    {
      "epoch": 0.07074550128534704,
      "grad_norm": 0.3780088424682617,
      "learning_rate": 6.929889475034048e-05,
      "loss": 1.3062,
      "step": 903
    },
    {
      "epoch": 0.07082384624801077,
      "grad_norm": 0.3919535279273987,
      "learning_rate": 6.909830056250527e-05,
      "loss": 1.2211,
      "step": 904
    },
    {
      "epoch": 0.0709021912106745,
      "grad_norm": 0.39125964045524597,
      "learning_rate": 6.889784375020978e-05,
      "loss": 1.2692,
      "step": 905
    },
    {
      "epoch": 0.07098053617333823,
      "grad_norm": 0.37484312057495117,
      "learning_rate": 6.869752520459803e-05,
      "loss": 1.1629,
      "step": 906
    },
    {
      "epoch": 0.07105888113600196,
      "grad_norm": 0.374899685382843,
      "learning_rate": 6.849734581619918e-05,
      "loss": 1.2062,
      "step": 907
    },
    {
      "epoch": 0.07113722609866568,
      "grad_norm": 0.3861204981803894,
      "learning_rate": 6.829730647492404e-05,
      "loss": 1.1498,
      "step": 908
    },
    {
      "epoch": 0.07121557106132942,
      "grad_norm": 0.4125773012638092,
      "learning_rate": 6.80974080700606e-05,
      "loss": 1.2307,
      "step": 909
    },
    {
      "epoch": 0.07129391602399314,
      "grad_norm": 0.3923010230064392,
      "learning_rate": 6.789765149027039e-05,
      "loss": 1.1063,
      "step": 910
    },
    {
      "epoch": 0.07137226098665687,
      "grad_norm": 0.40621620416641235,
      "learning_rate": 6.769803762358443e-05,
      "loss": 1.0863,
      "step": 911
    },
    {
      "epoch": 0.07145060594932061,
      "grad_norm": 0.41953402757644653,
      "learning_rate": 6.749856735739928e-05,
      "loss": 1.1824,
      "step": 912
    },
    {
      "epoch": 0.07152895091198433,
      "grad_norm": 0.41983386874198914,
      "learning_rate": 6.729924157847323e-05,
      "loss": 1.1299,
      "step": 913
    },
    {
      "epoch": 0.07160729587464806,
      "grad_norm": 0.4587327241897583,
      "learning_rate": 6.710006117292209e-05,
      "loss": 1.1534,
      "step": 914
    },
    {
      "epoch": 0.07168564083731178,
      "grad_norm": 0.39675331115722656,
      "learning_rate": 6.690102702621548e-05,
      "loss": 1.0324,
      "step": 915
    },
    {
      "epoch": 0.07176398579997552,
      "grad_norm": 0.43569979071617126,
      "learning_rate": 6.670214002317278e-05,
      "loss": 1.0814,
      "step": 916
    },
    {
      "epoch": 0.07184233076263924,
      "grad_norm": 0.4049634635448456,
      "learning_rate": 6.650340104795932e-05,
      "loss": 0.9567,
      "step": 917
    },
    {
      "epoch": 0.07192067572530297,
      "grad_norm": 0.41237834095954895,
      "learning_rate": 6.630481098408228e-05,
      "loss": 1.0609,
      "step": 918
    },
    {
      "epoch": 0.07199902068796671,
      "grad_norm": 0.43984654545783997,
      "learning_rate": 6.610637071438686e-05,
      "loss": 1.0786,
      "step": 919
    },
    {
      "epoch": 0.07207736565063043,
      "grad_norm": 0.43872323632240295,
      "learning_rate": 6.590808112105232e-05,
      "loss": 1.0945,
      "step": 920
    },
    {
      "epoch": 0.07215571061329416,
      "grad_norm": 0.45204272866249084,
      "learning_rate": 6.570994308558812e-05,
      "loss": 1.0863,
      "step": 921
    },
    {
      "epoch": 0.07223405557595788,
      "grad_norm": 0.4495495557785034,
      "learning_rate": 6.551195748882997e-05,
      "loss": 1.1318,
      "step": 922
    },
    {
      "epoch": 0.07231240053862162,
      "grad_norm": 0.45540329813957214,
      "learning_rate": 6.531412521093586e-05,
      "loss": 1.042,
      "step": 923
    },
    {
      "epoch": 0.07239074550128535,
      "grad_norm": 0.44801199436187744,
      "learning_rate": 6.51164471313822e-05,
      "loss": 1.1472,
      "step": 924
    },
    {
      "epoch": 0.07246909046394907,
      "grad_norm": 0.44244349002838135,
      "learning_rate": 6.491892412895995e-05,
      "loss": 1.0621,
      "step": 925
    },
    {
      "epoch": 0.07254743542661281,
      "grad_norm": 0.4766879677772522,
      "learning_rate": 6.472155708177052e-05,
      "loss": 1.0995,
      "step": 926
    },
    {
      "epoch": 0.07262578038927653,
      "grad_norm": 0.45152172446250916,
      "learning_rate": 6.452434686722224e-05,
      "loss": 1.0477,
      "step": 927
    },
    {
      "epoch": 0.07270412535194026,
      "grad_norm": 0.4631468653678894,
      "learning_rate": 6.432729436202604e-05,
      "loss": 1.1687,
      "step": 928
    },
    {
      "epoch": 0.072782470314604,
      "grad_norm": 0.46769213676452637,
      "learning_rate": 6.41304004421918e-05,
      "loss": 1.0275,
      "step": 929
    },
    {
      "epoch": 0.07286081527726772,
      "grad_norm": 0.48174363374710083,
      "learning_rate": 6.393366598302446e-05,
      "loss": 1.1029,
      "step": 930
    },
    {
      "epoch": 0.07293916023993145,
      "grad_norm": 0.4883330762386322,
      "learning_rate": 6.373709185911998e-05,
      "loss": 1.1633,
      "step": 931
    },
    {
      "epoch": 0.07301750520259517,
      "grad_norm": 0.47460901737213135,
      "learning_rate": 6.354067894436155e-05,
      "loss": 1.1011,
      "step": 932
    },
    {
      "epoch": 0.07309585016525891,
      "grad_norm": 0.4657032787799835,
      "learning_rate": 6.334442811191576e-05,
      "loss": 1.0537,
      "step": 933
    },
    {
      "epoch": 0.07317419512792263,
      "grad_norm": 0.4701787531375885,
      "learning_rate": 6.314834023422858e-05,
      "loss": 1.1378,
      "step": 934
    },
    {
      "epoch": 0.07325254009058636,
      "grad_norm": 0.46948012709617615,
      "learning_rate": 6.295241618302156e-05,
      "loss": 1.1276,
      "step": 935
    },
    {
      "epoch": 0.0733308850532501,
      "grad_norm": 0.507037878036499,
      "learning_rate": 6.275665682928803e-05,
      "loss": 1.1863,
      "step": 936
    },
    {
      "epoch": 0.07340923001591382,
      "grad_norm": 0.5407412648200989,
      "learning_rate": 6.256106304328905e-05,
      "loss": 1.1767,
      "step": 937
    },
    {
      "epoch": 0.07348757497857755,
      "grad_norm": 0.5067650079727173,
      "learning_rate": 6.23656356945497e-05,
      "loss": 1.1573,
      "step": 938
    },
    {
      "epoch": 0.07356591994124127,
      "grad_norm": 0.5172148942947388,
      "learning_rate": 6.21703756518551e-05,
      "loss": 1.0429,
      "step": 939
    },
    {
      "epoch": 0.07364426490390501,
      "grad_norm": 0.5165372490882874,
      "learning_rate": 6.197528378324665e-05,
      "loss": 1.1168,
      "step": 940
    },
    {
      "epoch": 0.07372260986656874,
      "grad_norm": 0.5046288967132568,
      "learning_rate": 6.17803609560181e-05,
      "loss": 1.1377,
      "step": 941
    },
    {
      "epoch": 0.07380095482923246,
      "grad_norm": 0.5120004415512085,
      "learning_rate": 6.158560803671168e-05,
      "loss": 1.0357,
      "step": 942
    },
    {
      "epoch": 0.0738792997918962,
      "grad_norm": 0.5110841989517212,
      "learning_rate": 6.139102589111435e-05,
      "loss": 1.1167,
      "step": 943
    },
    {
      "epoch": 0.07395764475455992,
      "grad_norm": 0.5234955549240112,
      "learning_rate": 6.119661538425381e-05,
      "loss": 1.1309,
      "step": 944
    },
    {
      "epoch": 0.07403598971722365,
      "grad_norm": 0.5314657688140869,
      "learning_rate": 6.100237738039484e-05,
      "loss": 1.1228,
      "step": 945
    },
    {
      "epoch": 0.07411433467988737,
      "grad_norm": 0.5234545469284058,
      "learning_rate": 6.0808312743035236e-05,
      "loss": 1.0457,
      "step": 946
    },
    {
      "epoch": 0.07419267964255111,
      "grad_norm": 0.5617552995681763,
      "learning_rate": 6.061442233490211e-05,
      "loss": 1.1154,
      "step": 947
    },
    {
      "epoch": 0.07427102460521484,
      "grad_norm": 0.5804521441459656,
      "learning_rate": 6.042070701794806e-05,
      "loss": 1.2255,
      "step": 948
    },
    {
      "epoch": 0.07434936956787856,
      "grad_norm": 0.5870845913887024,
      "learning_rate": 6.0227167653347305e-05,
      "loss": 1.1868,
      "step": 949
    },
    {
      "epoch": 0.0744277145305423,
      "grad_norm": 0.6318448185920715,
      "learning_rate": 6.0033805101491794e-05,
      "loss": 1.2027,
      "step": 950
    },
    {
      "epoch": 0.07450605949320602,
      "grad_norm": 0.36945706605911255,
      "learning_rate": 5.98406202219875e-05,
      "loss": 1.2931,
      "step": 951
    },
    {
      "epoch": 0.07458440445586975,
      "grad_norm": 0.43300434947013855,
      "learning_rate": 5.964761387365052e-05,
      "loss": 1.2998,
      "step": 952
    },
    {
      "epoch": 0.07466274941853349,
      "grad_norm": 0.40080395340919495,
      "learning_rate": 5.9454786914503255e-05,
      "loss": 1.2054,
      "step": 953
    },
    {
      "epoch": 0.0747410943811972,
      "grad_norm": 0.3850192725658417,
      "learning_rate": 5.926214020177074e-05,
      "loss": 1.2091,
      "step": 954
    },
    {
      "epoch": 0.07481943934386094,
      "grad_norm": 0.38075020909309387,
      "learning_rate": 5.9069674591876534e-05,
      "loss": 1.1856,
      "step": 955
    },
    {
      "epoch": 0.07489778430652466,
      "grad_norm": 0.39125916361808777,
      "learning_rate": 5.887739094043923e-05,
      "loss": 1.1619,
      "step": 956
    },
    {
      "epoch": 0.0749761292691884,
      "grad_norm": 0.3917125165462494,
      "learning_rate": 5.868529010226845e-05,
      "loss": 1.0875,
      "step": 957
    },
    {
      "epoch": 0.07505447423185213,
      "grad_norm": 0.40417227149009705,
      "learning_rate": 5.849337293136112e-05,
      "loss": 1.1689,
      "step": 958
    },
    {
      "epoch": 0.07513281919451585,
      "grad_norm": 0.4005070626735687,
      "learning_rate": 5.830164028089766e-05,
      "loss": 1.2382,
      "step": 959
    },
    {
      "epoch": 0.07521116415717959,
      "grad_norm": 0.40312036871910095,
      "learning_rate": 5.811009300323818e-05,
      "loss": 1.1802,
      "step": 960
    },
    {
      "epoch": 0.0752895091198433,
      "grad_norm": 0.3933444917201996,
      "learning_rate": 5.791873194991872e-05,
      "loss": 1.1501,
      "step": 961
    },
    {
      "epoch": 0.07536785408250704,
      "grad_norm": 0.38689032196998596,
      "learning_rate": 5.7727557971647427e-05,
      "loss": 1.0572,
      "step": 962
    },
    {
      "epoch": 0.07544619904517076,
      "grad_norm": 0.3900209367275238,
      "learning_rate": 5.7536571918300864e-05,
      "loss": 1.111,
      "step": 963
    },
    {
      "epoch": 0.0755245440078345,
      "grad_norm": 0.41055718064308167,
      "learning_rate": 5.734577463892008e-05,
      "loss": 1.1191,
      "step": 964
    },
    {
      "epoch": 0.07560288897049823,
      "grad_norm": 0.4443601369857788,
      "learning_rate": 5.7155166981706956e-05,
      "loss": 1.1334,
      "step": 965
    },
    {
      "epoch": 0.07568123393316195,
      "grad_norm": 0.41863465309143066,
      "learning_rate": 5.6964749794020354e-05,
      "loss": 1.1444,
      "step": 966
    },
    {
      "epoch": 0.07575957889582569,
      "grad_norm": 0.4376700222492218,
      "learning_rate": 5.6774523922372394e-05,
      "loss": 1.064,
      "step": 967
    },
    {
      "epoch": 0.0758379238584894,
      "grad_norm": 0.4373525083065033,
      "learning_rate": 5.6584490212424804e-05,
      "loss": 1.0984,
      "step": 968
    },
    {
      "epoch": 0.07591626882115314,
      "grad_norm": 0.4313715100288391,
      "learning_rate": 5.639464950898491e-05,
      "loss": 1.1315,
      "step": 969
    },
    {
      "epoch": 0.07599461378381688,
      "grad_norm": 0.41985103487968445,
      "learning_rate": 5.620500265600206e-05,
      "loss": 1.065,
      "step": 970
    },
    {
      "epoch": 0.0760729587464806,
      "grad_norm": 0.4454399347305298,
      "learning_rate": 5.601555049656382e-05,
      "loss": 1.0921,
      "step": 971
    },
    {
      "epoch": 0.07615130370914433,
      "grad_norm": 0.45515504479408264,
      "learning_rate": 5.58262938728922e-05,
      "loss": 1.0804,
      "step": 972
    },
    {
      "epoch": 0.07622964867180805,
      "grad_norm": 0.4555879533290863,
      "learning_rate": 5.563723362634008e-05,
      "loss": 1.0759,
      "step": 973
    },
    {
      "epoch": 0.07630799363447179,
      "grad_norm": 0.4908626675605774,
      "learning_rate": 5.544837059738719e-05,
      "loss": 1.1897,
      "step": 974
    },
    {
      "epoch": 0.0763863385971355,
      "grad_norm": 0.46564704179763794,
      "learning_rate": 5.525970562563656e-05,
      "loss": 1.052,
      "step": 975
    },
    {
      "epoch": 0.07646468355979924,
      "grad_norm": 0.4767431318759918,
      "learning_rate": 5.507123954981073e-05,
      "loss": 1.096,
      "step": 976
    },
    {
      "epoch": 0.07654302852246297,
      "grad_norm": 0.471125990152359,
      "learning_rate": 5.488297320774807e-05,
      "loss": 1.1619,
      "step": 977
    },
    {
      "epoch": 0.0766213734851267,
      "grad_norm": 0.4691462218761444,
      "learning_rate": 5.4694907436399e-05,
      "loss": 1.0948,
      "step": 978
    },
    {
      "epoch": 0.07669971844779043,
      "grad_norm": 0.4710885286331177,
      "learning_rate": 5.4507043071822284e-05,
      "loss": 1.0901,
      "step": 979
    },
    {
      "epoch": 0.07677806341045415,
      "grad_norm": 0.4840475022792816,
      "learning_rate": 5.431938094918132e-05,
      "loss": 1.0909,
      "step": 980
    },
    {
      "epoch": 0.07685640837311788,
      "grad_norm": 0.4941357970237732,
      "learning_rate": 5.41319219027404e-05,
      "loss": 1.2105,
      "step": 981
    },
    {
      "epoch": 0.07693475333578162,
      "grad_norm": 0.5001948475837708,
      "learning_rate": 5.394466676586114e-05,
      "loss": 1.1184,
      "step": 982
    },
    {
      "epoch": 0.07701309829844534,
      "grad_norm": 0.4935653507709503,
      "learning_rate": 5.375761637099854e-05,
      "loss": 1.1412,
      "step": 983
    },
    {
      "epoch": 0.07709144326110907,
      "grad_norm": 0.5028783679008484,
      "learning_rate": 5.357077154969742e-05,
      "loss": 1.1111,
      "step": 984
    },
    {
      "epoch": 0.0771697882237728,
      "grad_norm": 0.47954893112182617,
      "learning_rate": 5.3384133132588784e-05,
      "loss": 1.0475,
      "step": 985
    },
    {
      "epoch": 0.07724813318643653,
      "grad_norm": 0.4942528307437897,
      "learning_rate": 5.3197701949386e-05,
      "loss": 1.1282,
      "step": 986
    },
    {
      "epoch": 0.07732647814910026,
      "grad_norm": 0.4841119647026062,
      "learning_rate": 5.301147882888116e-05,
      "loss": 1.0851,
      "step": 987
    },
    {
      "epoch": 0.07740482311176398,
      "grad_norm": 0.48279228806495667,
      "learning_rate": 5.28254645989414e-05,
      "loss": 1.1894,
      "step": 988
    },
    {
      "epoch": 0.07748316807442772,
      "grad_norm": 0.5077778100967407,
      "learning_rate": 5.2639660086505226e-05,
      "loss": 1.0837,
      "step": 989
    },
    {
      "epoch": 0.07756151303709144,
      "grad_norm": 0.508114755153656,
      "learning_rate": 5.2454066117578815e-05,
      "loss": 1.1058,
      "step": 990
    },
    {
      "epoch": 0.07763985799975517,
      "grad_norm": 0.5129190683364868,
      "learning_rate": 5.226868351723244e-05,
      "loss": 1.0707,
      "step": 991
    },
    {
      "epoch": 0.0777182029624189,
      "grad_norm": 0.5074262619018555,
      "learning_rate": 5.2083513109596616e-05,
      "loss": 1.1568,
      "step": 992
    },
    {
      "epoch": 0.07779654792508263,
      "grad_norm": 0.5439121723175049,
      "learning_rate": 5.189855571785859e-05,
      "loss": 1.1738,
      "step": 993
    },
    {
      "epoch": 0.07787489288774636,
      "grad_norm": 0.5379933714866638,
      "learning_rate": 5.171381216425863e-05,
      "loss": 1.1335,
      "step": 994
    },
    {
      "epoch": 0.07795323785041008,
      "grad_norm": 0.5314556360244751,
      "learning_rate": 5.152928327008635e-05,
      "loss": 1.1323,
      "step": 995
    },
    {
      "epoch": 0.07803158281307382,
      "grad_norm": 0.5343230366706848,
      "learning_rate": 5.134496985567714e-05,
      "loss": 1.0974,
      "step": 996
    },
    {
      "epoch": 0.07810992777573754,
      "grad_norm": 0.5355282425880432,
      "learning_rate": 5.116087274040837e-05,
      "loss": 1.0526,
      "step": 997
    },
    {
      "epoch": 0.07818827273840127,
      "grad_norm": 0.5822039842605591,
      "learning_rate": 5.0976992742695925e-05,
      "loss": 1.2389,
      "step": 998
    },
    {
      "epoch": 0.07826661770106501,
      "grad_norm": 0.591698944568634,
      "learning_rate": 5.07933306799904e-05,
      "loss": 1.1747,
      "step": 999
    },
    {
      "epoch": 0.07834496266372873,
      "grad_norm": 0.6244161128997803,
      "learning_rate": 5.060988736877366e-05,
      "loss": 1.1784,
      "step": 1000
    },
    {
      "epoch": 0.07842330762639246,
      "grad_norm": 0.3750407099723816,
      "learning_rate": 5.042666362455498e-05,
      "loss": 1.2334,
      "step": 1001
    },
    {
      "epoch": 0.07850165258905618,
      "grad_norm": 0.3821364939212799,
      "learning_rate": 5.024366026186755e-05,
      "loss": 1.219,
      "step": 1002
    },
    {
      "epoch": 0.07857999755171992,
      "grad_norm": 0.38167905807495117,
      "learning_rate": 5.006087809426496e-05,
      "loss": 1.2616,
      "step": 1003
    },
    {
      "epoch": 0.07865834251438364,
      "grad_norm": 0.3886505365371704,
      "learning_rate": 4.987831793431731e-05,
      "loss": 1.1928,
      "step": 1004
    },
    {
      "epoch": 0.07873668747704737,
      "grad_norm": 0.3972698450088501,
      "learning_rate": 4.9695980593607817e-05,
      "loss": 1.1518,
      "step": 1005
    },
    {
      "epoch": 0.07881503243971111,
      "grad_norm": 0.37696775794029236,
      "learning_rate": 4.9513866882729146e-05,
      "loss": 1.21,
      "step": 1006
    },
    {
      "epoch": 0.07889337740237483,
      "grad_norm": 0.39594751596450806,
      "learning_rate": 4.9331977611279777e-05,
      "loss": 1.2149,
      "step": 1007
    },
    {
      "epoch": 0.07897172236503856,
      "grad_norm": 0.3855533003807068,
      "learning_rate": 4.9150313587860433e-05,
      "loss": 1.1942,
      "step": 1008
    },
    {
      "epoch": 0.07905006732770228,
      "grad_norm": 0.4094398319721222,
      "learning_rate": 4.896887562007054e-05,
      "loss": 1.1454,
      "step": 1009
    },
    {
      "epoch": 0.07912841229036602,
      "grad_norm": 0.4174932837486267,
      "learning_rate": 4.8787664514504504e-05,
      "loss": 1.1759,
      "step": 1010
    },
    {
      "epoch": 0.07920675725302975,
      "grad_norm": 0.403642475605011,
      "learning_rate": 4.860668107674823e-05,
      "loss": 1.1173,
      "step": 1011
    },
    {
      "epoch": 0.07928510221569347,
      "grad_norm": 0.4042931795120239,
      "learning_rate": 4.8425926111375506e-05,
      "loss": 1.1298,
      "step": 1012
    },
    {
      "epoch": 0.07936344717835721,
      "grad_norm": 0.40965530276298523,
      "learning_rate": 4.824540042194443e-05,
      "loss": 1.1651,
      "step": 1013
    },
    {
      "epoch": 0.07944179214102093,
      "grad_norm": 0.45746517181396484,
      "learning_rate": 4.8065104810993856e-05,
      "loss": 1.2724,
      "step": 1014
    },
    {
      "epoch": 0.07952013710368466,
      "grad_norm": 0.41803720593452454,
      "learning_rate": 4.788504008003978e-05,
      "loss": 1.0282,
      "step": 1015
    },
    {
      "epoch": 0.0795984820663484,
      "grad_norm": 0.4313998818397522,
      "learning_rate": 4.770520702957182e-05,
      "loss": 1.0428,
      "step": 1016
    },
    {
      "epoch": 0.07967682702901212,
      "grad_norm": 0.43880629539489746,
      "learning_rate": 4.752560645904962e-05,
      "loss": 1.0077,
      "step": 1017
    },
    {
      "epoch": 0.07975517199167585,
      "grad_norm": 0.41808998584747314,
      "learning_rate": 4.734623916689941e-05,
      "loss": 1.1024,
      "step": 1018
    },
    {
      "epoch": 0.07983351695433957,
      "grad_norm": 0.4434151351451874,
      "learning_rate": 4.716710595051022e-05,
      "loss": 1.0821,
      "step": 1019
    },
    {
      "epoch": 0.07991186191700331,
      "grad_norm": 0.46219417452812195,
      "learning_rate": 4.698820760623064e-05,
      "loss": 1.0544,
      "step": 1020
    },
    {
      "epoch": 0.07999020687966703,
      "grad_norm": 0.464462548494339,
      "learning_rate": 4.6809544929365004e-05,
      "loss": 1.0619,
      "step": 1021
    },
    {
      "epoch": 0.08006855184233076,
      "grad_norm": 0.4974566102027893,
      "learning_rate": 4.663111871417e-05,
      "loss": 1.1953,
      "step": 1022
    },
    {
      "epoch": 0.0801468968049945,
      "grad_norm": 0.48158615827560425,
      "learning_rate": 4.645292975385111e-05,
      "loss": 1.0326,
      "step": 1023
    },
    {
      "epoch": 0.08022524176765822,
      "grad_norm": 0.4762982428073883,
      "learning_rate": 4.627497884055912e-05,
      "loss": 1.0629,
      "step": 1024
    },
    {
      "epoch": 0.08030358673032195,
      "grad_norm": 0.4608519971370697,
      "learning_rate": 4.609726676538652e-05,
      "loss": 1.083,
      "step": 1025
    },
    {
      "epoch": 0.08038193169298567,
      "grad_norm": 0.45988157391548157,
      "learning_rate": 4.591979431836402e-05,
      "loss": 0.9996,
      "step": 1026
    },
    {
      "epoch": 0.08046027665564941,
      "grad_norm": 0.4690000116825104,
      "learning_rate": 4.574256228845706e-05,
      "loss": 1.1166,
      "step": 1027
    },
    {
      "epoch": 0.08053862161831314,
      "grad_norm": 0.50283282995224,
      "learning_rate": 4.5565571463562365e-05,
      "loss": 1.0845,
      "step": 1028
    },
    {
      "epoch": 0.08061696658097686,
      "grad_norm": 0.46561843156814575,
      "learning_rate": 4.5388822630504256e-05,
      "loss": 1.1239,
      "step": 1029
    },
    {
      "epoch": 0.0806953115436406,
      "grad_norm": 0.4737747311592102,
      "learning_rate": 4.521231657503132e-05,
      "loss": 1.1279,
      "step": 1030
    },
    {
      "epoch": 0.08077365650630432,
      "grad_norm": 0.46608635783195496,
      "learning_rate": 4.503605408181286e-05,
      "loss": 1.145,
      "step": 1031
    },
    {
      "epoch": 0.08085200146896805,
      "grad_norm": 0.47830522060394287,
      "learning_rate": 4.486003593443537e-05,
      "loss": 1.0707,
      "step": 1032
    },
    {
      "epoch": 0.08093034643163177,
      "grad_norm": 0.48862457275390625,
      "learning_rate": 4.468426291539914e-05,
      "loss": 1.1757,
      "step": 1033
    },
    {
      "epoch": 0.0810086913942955,
      "grad_norm": 0.48864656686782837,
      "learning_rate": 4.4508735806114654e-05,
      "loss": 1.1438,
      "step": 1034
    },
    {
      "epoch": 0.08108703635695924,
      "grad_norm": 0.505339503288269,
      "learning_rate": 4.433345538689929e-05,
      "loss": 1.1166,
      "step": 1035
    },
    {
      "epoch": 0.08116538131962296,
      "grad_norm": 0.491178035736084,
      "learning_rate": 4.415842243697369e-05,
      "loss": 1.1626,
      "step": 1036
    },
    {
      "epoch": 0.0812437262822867,
      "grad_norm": 0.5165088176727295,
      "learning_rate": 4.39836377344583e-05,
      "loss": 1.2049,
      "step": 1037
    },
    {
      "epoch": 0.08132207124495042,
      "grad_norm": 0.5025286674499512,
      "learning_rate": 4.380910205637012e-05,
      "loss": 1.0899,
      "step": 1038
    },
    {
      "epoch": 0.08140041620761415,
      "grad_norm": 0.4979354441165924,
      "learning_rate": 4.363481617861893e-05,
      "loss": 1.0805,
      "step": 1039
    },
    {
      "epoch": 0.08147876117027789,
      "grad_norm": 0.5302996039390564,
      "learning_rate": 4.346078087600412e-05,
      "loss": 1.1896,
      "step": 1040
    },
    {
      "epoch": 0.0815571061329416,
      "grad_norm": 0.5509054064750671,
      "learning_rate": 4.3286996922211034e-05,
      "loss": 1.1299,
      "step": 1041
    },
    {
      "epoch": 0.08163545109560534,
      "grad_norm": 0.5337339639663696,
      "learning_rate": 4.311346508980772e-05,
      "loss": 1.1955,
      "step": 1042
    },
    {
      "epoch": 0.08171379605826906,
      "grad_norm": 0.5642865896224976,
      "learning_rate": 4.2940186150241365e-05,
      "loss": 1.1998,
      "step": 1043
    },
    {
      "epoch": 0.0817921410209328,
      "grad_norm": 0.5151014924049377,
      "learning_rate": 4.27671608738349e-05,
      "loss": 1.0722,
      "step": 1044
    },
    {
      "epoch": 0.08187048598359652,
      "grad_norm": 0.5270311832427979,
      "learning_rate": 4.2594390029783534e-05,
      "loss": 1.1499,
      "step": 1045
    },
    {
      "epoch": 0.08194883094626025,
      "grad_norm": 0.5583679676055908,
      "learning_rate": 4.242187438615153e-05,
      "loss": 1.1063,
      "step": 1046
    },
    {
      "epoch": 0.08202717590892399,
      "grad_norm": 0.5639045238494873,
      "learning_rate": 4.224961470986849e-05,
      "loss": 1.0815,
      "step": 1047
    },
    {
      "epoch": 0.0821055208715877,
      "grad_norm": 0.5711216330528259,
      "learning_rate": 4.207761176672614e-05,
      "loss": 1.1619,
      "step": 1048
    },
    {
      "epoch": 0.08218386583425144,
      "grad_norm": 0.541878879070282,
      "learning_rate": 4.190586632137491e-05,
      "loss": 1.089,
      "step": 1049
    },
    {
      "epoch": 0.08226221079691516,
      "grad_norm": 0.5969764590263367,
      "learning_rate": 4.173437913732048e-05,
      "loss": 1.3004,
      "step": 1050
    },
    {
      "epoch": 0.0823405557595789,
      "grad_norm": 0.36126160621643066,
      "learning_rate": 4.156315097692037e-05,
      "loss": 1.3331,
      "step": 1051
    },
    {
      "epoch": 0.08241890072224263,
      "grad_norm": 0.3938901424407959,
      "learning_rate": 4.139218260138074e-05,
      "loss": 1.2065,
      "step": 1052
    },
    {
      "epoch": 0.08249724568490635,
      "grad_norm": 0.3869309723377228,
      "learning_rate": 4.12214747707527e-05,
      "loss": 1.2981,
      "step": 1053
    },
    {
      "epoch": 0.08257559064757009,
      "grad_norm": 0.4042980670928955,
      "learning_rate": 4.1051028243929125e-05,
      "loss": 1.1512,
      "step": 1054
    },
    {
      "epoch": 0.0826539356102338,
      "grad_norm": 0.3839588761329651,
      "learning_rate": 4.088084377864135e-05,
      "loss": 1.2503,
      "step": 1055
    },
    {
      "epoch": 0.08273228057289754,
      "grad_norm": 0.3963595926761627,
      "learning_rate": 4.07109221314556e-05,
      "loss": 1.2668,
      "step": 1056
    },
    {
      "epoch": 0.08281062553556127,
      "grad_norm": 0.40311238169670105,
      "learning_rate": 4.054126405776971e-05,
      "loss": 1.2063,
      "step": 1057
    },
    {
      "epoch": 0.082888970498225,
      "grad_norm": 0.4082013666629791,
      "learning_rate": 4.037187031180985e-05,
      "loss": 1.2525,
      "step": 1058
    },
    {
      "epoch": 0.08296731546088873,
      "grad_norm": 0.43117374181747437,
      "learning_rate": 4.020274164662707e-05,
      "loss": 1.1965,
      "step": 1059
    },
    {
      "epoch": 0.08304566042355245,
      "grad_norm": 0.4185318648815155,
      "learning_rate": 4.003387881409397e-05,
      "loss": 1.1701,
      "step": 1060
    },
    {
      "epoch": 0.08312400538621618,
      "grad_norm": 0.41748011112213135,
      "learning_rate": 3.986528256490141e-05,
      "loss": 1.0682,
      "step": 1061
    },
    {
      "epoch": 0.0832023503488799,
      "grad_norm": 0.3937755525112152,
      "learning_rate": 3.969695364855511e-05,
      "loss": 1.1081,
      "step": 1062
    },
    {
      "epoch": 0.08328069531154364,
      "grad_norm": 0.4313085973262787,
      "learning_rate": 3.952889281337235e-05,
      "loss": 1.0958,
      "step": 1063
    },
    {
      "epoch": 0.08335904027420737,
      "grad_norm": 0.40610572695732117,
      "learning_rate": 3.93611008064786e-05,
      "loss": 1.0525,
      "step": 1064
    },
    {
      "epoch": 0.0834373852368711,
      "grad_norm": 0.4173303544521332,
      "learning_rate": 3.9193578373804364e-05,
      "loss": 1.0696,
      "step": 1065
    },
    {
      "epoch": 0.08351573019953483,
      "grad_norm": 0.4257800281047821,
      "learning_rate": 3.90263262600816e-05,
      "loss": 1.0199,
      "step": 1066
    },
    {
      "epoch": 0.08359407516219855,
      "grad_norm": 0.44796115159988403,
      "learning_rate": 3.88593452088406e-05,
      "loss": 1.1176,
      "step": 1067
    },
    {
      "epoch": 0.08367242012486228,
      "grad_norm": 0.433329701423645,
      "learning_rate": 3.869263596240661e-05,
      "loss": 1.0542,
      "step": 1068
    },
    {
      "epoch": 0.08375076508752602,
      "grad_norm": 0.43709632754325867,
      "learning_rate": 3.8526199261896544e-05,
      "loss": 0.9899,
      "step": 1069
    },
    {
      "epoch": 0.08382911005018974,
      "grad_norm": 0.4480457305908203,
      "learning_rate": 3.836003584721577e-05,
      "loss": 1.073,
      "step": 1070
    },
    {
      "epoch": 0.08390745501285347,
      "grad_norm": 0.48730719089508057,
      "learning_rate": 3.8194146457054655e-05,
      "loss": 1.036,
      "step": 1071
    },
    {
      "epoch": 0.0839857999755172,
      "grad_norm": 0.458539754152298,
      "learning_rate": 3.802853182888543e-05,
      "loss": 1.0493,
      "step": 1072
    },
    {
      "epoch": 0.08406414493818093,
      "grad_norm": 0.47539329528808594,
      "learning_rate": 3.786319269895877e-05,
      "loss": 1.1192,
      "step": 1073
    },
    {
      "epoch": 0.08414248990084465,
      "grad_norm": 0.4842391610145569,
      "learning_rate": 3.769812980230074e-05,
      "loss": 1.1572,
      "step": 1074
    },
    {
      "epoch": 0.08422083486350838,
      "grad_norm": 0.4938884973526001,
      "learning_rate": 3.7533343872709294e-05,
      "loss": 1.1574,
      "step": 1075
    },
    {
      "epoch": 0.08429917982617212,
      "grad_norm": 0.47382158041000366,
      "learning_rate": 3.736883564275112e-05,
      "loss": 1.1172,
      "step": 1076
    },
    {
      "epoch": 0.08437752478883584,
      "grad_norm": 0.46845105290412903,
      "learning_rate": 3.7204605843758386e-05,
      "loss": 1.0728,
      "step": 1077
    },
    {
      "epoch": 0.08445586975149957,
      "grad_norm": 0.4972006678581238,
      "learning_rate": 3.704065520582549e-05,
      "loss": 1.0671,
      "step": 1078
    },
    {
      "epoch": 0.0845342147141633,
      "grad_norm": 0.4726537764072418,
      "learning_rate": 3.6876984457805786e-05,
      "loss": 1.0946,
      "step": 1079
    },
    {
      "epoch": 0.08461255967682703,
      "grad_norm": 0.46564632654190063,
      "learning_rate": 3.671359432730834e-05,
      "loss": 1.1258,
      "step": 1080
    },
    {
      "epoch": 0.08469090463949076,
      "grad_norm": 0.47741085290908813,
      "learning_rate": 3.655048554069478e-05,
      "loss": 1.0833,
      "step": 1081
    },
    {
      "epoch": 0.08476924960215448,
      "grad_norm": 0.46830156445503235,
      "learning_rate": 3.638765882307589e-05,
      "loss": 0.9729,
      "step": 1082
    },
    {
      "epoch": 0.08484759456481822,
      "grad_norm": 0.5075531005859375,
      "learning_rate": 3.6225114898308634e-05,
      "loss": 1.1691,
      "step": 1083
    },
    {
      "epoch": 0.08492593952748194,
      "grad_norm": 0.4942563772201538,
      "learning_rate": 3.6062854488992714e-05,
      "loss": 1.104,
      "step": 1084
    },
    {
      "epoch": 0.08500428449014567,
      "grad_norm": 0.4872496426105499,
      "learning_rate": 3.5900878316467454e-05,
      "loss": 1.0521,
      "step": 1085
    },
    {
      "epoch": 0.08508262945280941,
      "grad_norm": 0.4965282380580902,
      "learning_rate": 3.573918710080857e-05,
      "loss": 1.0717,
      "step": 1086
    },
    {
      "epoch": 0.08516097441547313,
      "grad_norm": 0.49593499302864075,
      "learning_rate": 3.5577781560825066e-05,
      "loss": 1.0146,
      "step": 1087
    },
    {
      "epoch": 0.08523931937813686,
      "grad_norm": 0.5088752508163452,
      "learning_rate": 3.541666241405588e-05,
      "loss": 1.0512,
      "step": 1088
    },
    {
      "epoch": 0.08531766434080058,
      "grad_norm": 0.4912209212779999,
      "learning_rate": 3.5255830376766764e-05,
      "loss": 1.0565,
      "step": 1089
    },
    {
      "epoch": 0.08539600930346432,
      "grad_norm": 0.5265125632286072,
      "learning_rate": 3.509528616394716e-05,
      "loss": 1.1569,
      "step": 1090
    },
    {
      "epoch": 0.08547435426612804,
      "grad_norm": 0.5197625756263733,
      "learning_rate": 3.4935030489306883e-05,
      "loss": 1.1193,
      "step": 1091
    },
    {
      "epoch": 0.08555269922879177,
      "grad_norm": 0.5055370926856995,
      "learning_rate": 3.4775064065273165e-05,
      "loss": 1.1107,
      "step": 1092
    },
    {
      "epoch": 0.08563104419145551,
      "grad_norm": 0.5455195903778076,
      "learning_rate": 3.4615387602987236e-05,
      "loss": 1.0543,
      "step": 1093
    },
    {
      "epoch": 0.08570938915411923,
      "grad_norm": 0.5461145043373108,
      "learning_rate": 3.445600181230134e-05,
      "loss": 1.1906,
      "step": 1094
    },
    {
      "epoch": 0.08578773411678296,
      "grad_norm": 0.5477281808853149,
      "learning_rate": 3.429690740177549e-05,
      "loss": 1.1187,
      "step": 1095
    },
    {
      "epoch": 0.08586607907944668,
      "grad_norm": 0.5278500914573669,
      "learning_rate": 3.413810507867436e-05,
      "loss": 1.1351,
      "step": 1096
    },
    {
      "epoch": 0.08594442404211042,
      "grad_norm": 0.5773242712020874,
      "learning_rate": 3.397959554896415e-05,
      "loss": 1.1184,
      "step": 1097
    },
    {
      "epoch": 0.08602276900477415,
      "grad_norm": 0.5698307752609253,
      "learning_rate": 3.3821379517309405e-05,
      "loss": 1.1128,
      "step": 1098
    },
    {
      "epoch": 0.08610111396743787,
      "grad_norm": 0.5456797480583191,
      "learning_rate": 3.3663457687069924e-05,
      "loss": 1.0736,
      "step": 1099
    },
    {
      "epoch": 0.08617945893010161,
      "grad_norm": 0.657433032989502,
      "learning_rate": 3.350583076029754e-05,
      "loss": 1.2439,
      "step": 1100
    },
    {
      "epoch": 0.08625780389276533,
      "grad_norm": 0.3880974054336548,
      "learning_rate": 3.334849943773323e-05,
      "loss": 1.371,
      "step": 1101
    },
    {
      "epoch": 0.08633614885542906,
      "grad_norm": 0.3801203966140747,
      "learning_rate": 3.319146441880371e-05,
      "loss": 1.1488,
      "step": 1102
    },
    {
      "epoch": 0.08641449381809278,
      "grad_norm": 0.38711631298065186,
      "learning_rate": 3.3034726401618444e-05,
      "loss": 1.2748,
      "step": 1103
    },
    {
      "epoch": 0.08649283878075652,
      "grad_norm": 0.41175416111946106,
      "learning_rate": 3.28782860829667e-05,
      "loss": 1.1534,
      "step": 1104
    },
    {
      "epoch": 0.08657118374342025,
      "grad_norm": 0.3892963230609894,
      "learning_rate": 3.272214415831418e-05,
      "loss": 1.1648,
      "step": 1105
    },
    {
      "epoch": 0.08664952870608397,
      "grad_norm": 0.41087549924850464,
      "learning_rate": 3.2566301321800085e-05,
      "loss": 1.1505,
      "step": 1106
    },
    {
      "epoch": 0.08672787366874771,
      "grad_norm": 0.4008182883262634,
      "learning_rate": 3.241075826623401e-05,
      "loss": 1.1309,
      "step": 1107
    },
    {
      "epoch": 0.08680621863141143,
      "grad_norm": 0.43020978569984436,
      "learning_rate": 3.225551568309284e-05,
      "loss": 1.2311,
      "step": 1108
    },
    {
      "epoch": 0.08688456359407516,
      "grad_norm": 0.4175223112106323,
      "learning_rate": 3.210057426251773e-05,
      "loss": 1.1035,
      "step": 1109
    },
    {
      "epoch": 0.0869629085567389,
      "grad_norm": 0.4182739555835724,
      "learning_rate": 3.1945934693310896e-05,
      "loss": 1.1519,
      "step": 1110
    },
    {
      "epoch": 0.08704125351940262,
      "grad_norm": 0.4100036025047302,
      "learning_rate": 3.179159766293282e-05,
      "loss": 1.1418,
      "step": 1111
    },
    {
      "epoch": 0.08711959848206635,
      "grad_norm": 0.42560237646102905,
      "learning_rate": 3.163756385749889e-05,
      "loss": 1.0714,
      "step": 1112
    },
    {
      "epoch": 0.08719794344473007,
      "grad_norm": 0.4106239676475525,
      "learning_rate": 3.148383396177653e-05,
      "loss": 1.1196,
      "step": 1113
    },
    {
      "epoch": 0.0872762884073938,
      "grad_norm": 0.43340468406677246,
      "learning_rate": 3.133040865918213e-05,
      "loss": 1.1216,
      "step": 1114
    },
    {
      "epoch": 0.08735463337005754,
      "grad_norm": 0.44383150339126587,
      "learning_rate": 3.117728863177796e-05,
      "loss": 1.145,
      "step": 1115
    },
    {
      "epoch": 0.08743297833272126,
      "grad_norm": 0.44158828258514404,
      "learning_rate": 3.102447456026919e-05,
      "loss": 1.1274,
      "step": 1116
    },
    {
      "epoch": 0.087511323295385,
      "grad_norm": 0.4587971866130829,
      "learning_rate": 3.0871967124000834e-05,
      "loss": 1.1019,
      "step": 1117
    },
    {
      "epoch": 0.08758966825804872,
      "grad_norm": 0.4540809094905853,
      "learning_rate": 3.0719767000954714e-05,
      "loss": 1.1186,
      "step": 1118
    },
    {
      "epoch": 0.08766801322071245,
      "grad_norm": 0.44051122665405273,
      "learning_rate": 3.056787486774656e-05,
      "loss": 1.1503,
      "step": 1119
    },
    {
      "epoch": 0.08774635818337617,
      "grad_norm": 0.4524381160736084,
      "learning_rate": 3.041629139962283e-05,
      "loss": 1.1311,
      "step": 1120
    },
    {
      "epoch": 0.0878247031460399,
      "grad_norm": 0.4504469335079193,
      "learning_rate": 3.0265017270457775e-05,
      "loss": 1.0587,
      "step": 1121
    },
    {
      "epoch": 0.08790304810870364,
      "grad_norm": 0.4633992314338684,
      "learning_rate": 3.0114053152750556e-05,
      "loss": 1.2,
      "step": 1122
    },
    {
      "epoch": 0.08798139307136736,
      "grad_norm": 0.48333939909935,
      "learning_rate": 2.9963399717622077e-05,
      "loss": 1.0203,
      "step": 1123
    },
    {
      "epoch": 0.0880597380340311,
      "grad_norm": 0.470495343208313,
      "learning_rate": 2.98130576348121e-05,
      "loss": 1.1095,
      "step": 1124
    },
    {
      "epoch": 0.08813808299669482,
      "grad_norm": 0.4696677029132843,
      "learning_rate": 2.966302757267625e-05,
      "loss": 1.1084,
      "step": 1125
    },
    {
      "epoch": 0.08813808299669482,
      "eval_loss": 1.12795889377594,
      "eval_runtime": 1245.9335,
      "eval_samples_per_second": 17.255,
      "eval_steps_per_second": 8.627,
      "step": 1125
    },
    {
      "epoch": 0.08821642795935855,
      "grad_norm": 0.4910545349121094,
      "learning_rate": 2.9513310198183065e-05,
      "loss": 1.1471,
      "step": 1126
    },
    {
      "epoch": 0.08829477292202229,
      "grad_norm": 0.4889172911643982,
      "learning_rate": 2.936390617691097e-05,
      "loss": 1.0385,
      "step": 1127
    },
    {
      "epoch": 0.088373117884686,
      "grad_norm": 0.4979681670665741,
      "learning_rate": 2.9214816173045356e-05,
      "loss": 1.0898,
      "step": 1128
    },
    {
      "epoch": 0.08845146284734974,
      "grad_norm": 0.496200829744339,
      "learning_rate": 2.906604084937572e-05,
      "loss": 1.1914,
      "step": 1129
    },
    {
      "epoch": 0.08852980781001346,
      "grad_norm": 0.47941964864730835,
      "learning_rate": 2.8917580867292526e-05,
      "loss": 1.1198,
      "step": 1130
    },
    {
      "epoch": 0.0886081527726772,
      "grad_norm": 0.4793228209018707,
      "learning_rate": 2.8769436886784408e-05,
      "loss": 1.0848,
      "step": 1131
    },
    {
      "epoch": 0.08868649773534092,
      "grad_norm": 0.49455526471138,
      "learning_rate": 2.862160956643517e-05,
      "loss": 1.1342,
      "step": 1132
    },
    {
      "epoch": 0.08876484269800465,
      "grad_norm": 0.4978616535663605,
      "learning_rate": 2.847409956342092e-05,
      "loss": 1.1167,
      "step": 1133
    },
    {
      "epoch": 0.08884318766066839,
      "grad_norm": 0.5256900787353516,
      "learning_rate": 2.8326907533507074e-05,
      "loss": 1.0786,
      "step": 1134
    },
    {
      "epoch": 0.0889215326233321,
      "grad_norm": 0.494637131690979,
      "learning_rate": 2.8180034131045464e-05,
      "loss": 1.0392,
      "step": 1135
    },
    {
      "epoch": 0.08899987758599584,
      "grad_norm": 0.48890551924705505,
      "learning_rate": 2.8033480008971546e-05,
      "loss": 1.1137,
      "step": 1136
    },
    {
      "epoch": 0.08907822254865956,
      "grad_norm": 0.5034106969833374,
      "learning_rate": 2.7887245818801277e-05,
      "loss": 1.1026,
      "step": 1137
    },
    {
      "epoch": 0.0891565675113233,
      "grad_norm": 0.5240775942802429,
      "learning_rate": 2.7741332210628345e-05,
      "loss": 1.0984,
      "step": 1138
    },
    {
      "epoch": 0.08923491247398703,
      "grad_norm": 0.5571820139884949,
      "learning_rate": 2.759573983312138e-05,
      "loss": 1.0926,
      "step": 1139
    },
    {
      "epoch": 0.08931325743665075,
      "grad_norm": 0.5243178606033325,
      "learning_rate": 2.7450469333520855e-05,
      "loss": 1.0427,
      "step": 1140
    },
    {
      "epoch": 0.08939160239931448,
      "grad_norm": 0.5414931178092957,
      "learning_rate": 2.730552135763632e-05,
      "loss": 1.0668,
      "step": 1141
    },
    {
      "epoch": 0.0894699473619782,
      "grad_norm": 0.5219239592552185,
      "learning_rate": 2.7160896549843562e-05,
      "loss": 1.018,
      "step": 1142
    },
    {
      "epoch": 0.08954829232464194,
      "grad_norm": 0.523133397102356,
      "learning_rate": 2.701659555308169e-05,
      "loss": 1.1294,
      "step": 1143
    },
    {
      "epoch": 0.08962663728730567,
      "grad_norm": 0.5678591728210449,
      "learning_rate": 2.6872619008850274e-05,
      "loss": 1.1057,
      "step": 1144
    },
    {
      "epoch": 0.0897049822499694,
      "grad_norm": 0.5368099212646484,
      "learning_rate": 2.672896755720654e-05,
      "loss": 1.0938,
      "step": 1145
    },
    {
      "epoch": 0.08978332721263313,
      "grad_norm": 0.5538229942321777,
      "learning_rate": 2.6585641836762433e-05,
      "loss": 1.1275,
      "step": 1146
    },
    {
      "epoch": 0.08986167217529685,
      "grad_norm": 0.5391066670417786,
      "learning_rate": 2.6442642484681944e-05,
      "loss": 1.0075,
      "step": 1147
    },
    {
      "epoch": 0.08994001713796058,
      "grad_norm": 0.5901098847389221,
      "learning_rate": 2.6299970136678077e-05,
      "loss": 1.0972,
      "step": 1148
    },
    {
      "epoch": 0.0900183621006243,
      "grad_norm": 0.5861957669258118,
      "learning_rate": 2.6157625427010156e-05,
      "loss": 1.1474,
      "step": 1149
    },
    {
      "epoch": 0.09009670706328804,
      "grad_norm": 0.6997668147087097,
      "learning_rate": 2.6015608988480955e-05,
      "loss": 1.1954,
      "step": 1150
    },
    {
      "epoch": 0.09017505202595177,
      "grad_norm": 0.36257416009902954,
      "learning_rate": 2.5873921452433915e-05,
      "loss": 1.2617,
      "step": 1151
    },
    {
      "epoch": 0.0902533969886155,
      "grad_norm": 0.4150715172290802,
      "learning_rate": 2.57325634487503e-05,
      "loss": 1.268,
      "step": 1152
    },
    {
      "epoch": 0.09033174195127923,
      "grad_norm": 0.3900600075721741,
      "learning_rate": 2.5591535605846383e-05,
      "loss": 1.1422,
      "step": 1153
    },
    {
      "epoch": 0.09041008691394295,
      "grad_norm": 0.4253217577934265,
      "learning_rate": 2.5450838550670808e-05,
      "loss": 1.2048,
      "step": 1154
    },
    {
      "epoch": 0.09048843187660668,
      "grad_norm": 0.4106198251247406,
      "learning_rate": 2.5310472908701555e-05,
      "loss": 1.2613,
      "step": 1155
    },
    {
      "epoch": 0.09056677683927042,
      "grad_norm": 0.42879074811935425,
      "learning_rate": 2.5170439303943294e-05,
      "loss": 1.1389,
      "step": 1156
    },
    {
      "epoch": 0.09064512180193414,
      "grad_norm": 0.3987874984741211,
      "learning_rate": 2.503073835892471e-05,
      "loss": 1.137,
      "step": 1157
    },
    {
      "epoch": 0.09072346676459787,
      "grad_norm": 0.4240276515483856,
      "learning_rate": 2.4891370694695517e-05,
      "loss": 1.0938,
      "step": 1158
    },
    {
      "epoch": 0.0908018117272616,
      "grad_norm": 0.4218462109565735,
      "learning_rate": 2.4752336930823837e-05,
      "loss": 1.164,
      "step": 1159
    },
    {
      "epoch": 0.09088015668992533,
      "grad_norm": 0.43836328387260437,
      "learning_rate": 2.4613637685393432e-05,
      "loss": 1.1944,
      "step": 1160
    },
    {
      "epoch": 0.09095850165258905,
      "grad_norm": 0.42615264654159546,
      "learning_rate": 2.4475273575000936e-05,
      "loss": 1.0577,
      "step": 1161
    },
    {
      "epoch": 0.09103684661525278,
      "grad_norm": 0.4362429976463318,
      "learning_rate": 2.4337245214753103e-05,
      "loss": 1.0593,
      "step": 1162
    },
    {
      "epoch": 0.09111519157791652,
      "grad_norm": 0.4395478069782257,
      "learning_rate": 2.4199553218264093e-05,
      "loss": 1.095,
      "step": 1163
    },
    {
      "epoch": 0.09119353654058024,
      "grad_norm": 0.44554927945137024,
      "learning_rate": 2.4062198197652752e-05,
      "loss": 1.2067,
      "step": 1164
    },
    {
      "epoch": 0.09127188150324397,
      "grad_norm": 0.4227106273174286,
      "learning_rate": 2.3925180763539844e-05,
      "loss": 0.9961,
      "step": 1165
    },
    {
      "epoch": 0.0913502264659077,
      "grad_norm": 0.4419343173503876,
      "learning_rate": 2.3788501525045438e-05,
      "loss": 1.098,
      "step": 1166
    },
    {
      "epoch": 0.09142857142857143,
      "grad_norm": 0.471080482006073,
      "learning_rate": 2.3652161089786086e-05,
      "loss": 1.24,
      "step": 1167
    },
    {
      "epoch": 0.09150691639123516,
      "grad_norm": 0.4317072927951813,
      "learning_rate": 2.351616006387214e-05,
      "loss": 1.0406,
      "step": 1168
    },
    {
      "epoch": 0.09158526135389888,
      "grad_norm": 0.45404738187789917,
      "learning_rate": 2.3380499051905137e-05,
      "loss": 1.0361,
      "step": 1169
    },
    {
      "epoch": 0.09166360631656262,
      "grad_norm": 0.4574817717075348,
      "learning_rate": 2.324517865697501e-05,
      "loss": 1.1985,
      "step": 1170
    },
    {
      "epoch": 0.09174195127922634,
      "grad_norm": 0.44846662878990173,
      "learning_rate": 2.3110199480657525e-05,
      "loss": 1.1218,
      "step": 1171
    },
    {
      "epoch": 0.09182029624189007,
      "grad_norm": 0.4746021628379822,
      "learning_rate": 2.2975562123011495e-05,
      "loss": 1.1262,
      "step": 1172
    },
    {
      "epoch": 0.09189864120455381,
      "grad_norm": 0.43726250529289246,
      "learning_rate": 2.2841267182576143e-05,
      "loss": 1.1046,
      "step": 1173
    },
    {
      "epoch": 0.09197698616721753,
      "grad_norm": 0.48553499579429626,
      "learning_rate": 2.2707315256368433e-05,
      "loss": 1.1084,
      "step": 1174
    },
    {
      "epoch": 0.09205533112988126,
      "grad_norm": 0.46998992562294006,
      "learning_rate": 2.2573706939880555e-05,
      "loss": 1.1692,
      "step": 1175
    },
    {
      "epoch": 0.09213367609254498,
      "grad_norm": 0.4948861002922058,
      "learning_rate": 2.2440442827077045e-05,
      "loss": 1.1291,
      "step": 1176
    },
    {
      "epoch": 0.09221202105520872,
      "grad_norm": 0.48474419116973877,
      "learning_rate": 2.230752351039228e-05,
      "loss": 1.1497,
      "step": 1177
    },
    {
      "epoch": 0.09229036601787244,
      "grad_norm": 0.498870849609375,
      "learning_rate": 2.2174949580727832e-05,
      "loss": 1.0574,
      "step": 1178
    },
    {
      "epoch": 0.09236871098053617,
      "grad_norm": 0.5117761492729187,
      "learning_rate": 2.2042721627449846e-05,
      "loss": 1.1451,
      "step": 1179
    },
    {
      "epoch": 0.09244705594319991,
      "grad_norm": 0.4923282861709595,
      "learning_rate": 2.1910840238386398e-05,
      "loss": 1.1078,
      "step": 1180
    },
    {
      "epoch": 0.09252540090586363,
      "grad_norm": 0.509192705154419,
      "learning_rate": 2.1779305999824884e-05,
      "loss": 1.0757,
      "step": 1181
    },
    {
      "epoch": 0.09260374586852736,
      "grad_norm": 0.5092316269874573,
      "learning_rate": 2.164811949650942e-05,
      "loss": 1.1873,
      "step": 1182
    },
    {
      "epoch": 0.09268209083119108,
      "grad_norm": 0.4958292543888092,
      "learning_rate": 2.1517281311638217e-05,
      "loss": 1.1447,
      "step": 1183
    },
    {
      "epoch": 0.09276043579385482,
      "grad_norm": 0.518912136554718,
      "learning_rate": 2.1386792026861103e-05,
      "loss": 1.0947,
      "step": 1184
    },
    {
      "epoch": 0.09283878075651855,
      "grad_norm": 0.4908933639526367,
      "learning_rate": 2.125665222227675e-05,
      "loss": 1.0739,
      "step": 1185
    },
    {
      "epoch": 0.09291712571918227,
      "grad_norm": 0.5106286406517029,
      "learning_rate": 2.112686247643024e-05,
      "loss": 1.0821,
      "step": 1186
    },
    {
      "epoch": 0.09299547068184601,
      "grad_norm": 0.5050370693206787,
      "learning_rate": 2.09974233663104e-05,
      "loss": 1.0915,
      "step": 1187
    },
    {
      "epoch": 0.09307381564450973,
      "grad_norm": 0.4927884638309479,
      "learning_rate": 2.0868335467347366e-05,
      "loss": 1.0511,
      "step": 1188
    },
    {
      "epoch": 0.09315216060717346,
      "grad_norm": 0.5186102986335754,
      "learning_rate": 2.073959935340988e-05,
      "loss": 1.2094,
      "step": 1189
    },
    {
      "epoch": 0.09323050556983718,
      "grad_norm": 0.5381916165351868,
      "learning_rate": 2.06112155968028e-05,
      "loss": 1.0948,
      "step": 1190
    },
    {
      "epoch": 0.09330885053250092,
      "grad_norm": 0.5464083552360535,
      "learning_rate": 2.0483184768264596e-05,
      "loss": 1.0677,
      "step": 1191
    },
    {
      "epoch": 0.09338719549516465,
      "grad_norm": 0.5364001393318176,
      "learning_rate": 2.035550743696468e-05,
      "loss": 1.073,
      "step": 1192
    },
    {
      "epoch": 0.09346554045782837,
      "grad_norm": 0.5333187580108643,
      "learning_rate": 2.022818417050113e-05,
      "loss": 1.1531,
      "step": 1193
    },
    {
      "epoch": 0.0935438854204921,
      "grad_norm": 0.5392650365829468,
      "learning_rate": 2.0101215534897855e-05,
      "loss": 1.1432,
      "step": 1194
    },
    {
      "epoch": 0.09362223038315583,
      "grad_norm": 0.5564077496528625,
      "learning_rate": 1.99746020946023e-05,
      "loss": 1.1559,
      "step": 1195
    },
    {
      "epoch": 0.09370057534581956,
      "grad_norm": 0.5720154643058777,
      "learning_rate": 1.9848344412482854e-05,
      "loss": 1.1414,
      "step": 1196
    },
    {
      "epoch": 0.0937789203084833,
      "grad_norm": 0.6089186072349548,
      "learning_rate": 1.9722443049826344e-05,
      "loss": 1.1875,
      "step": 1197
    },
    {
      "epoch": 0.09385726527114702,
      "grad_norm": 0.5809041857719421,
      "learning_rate": 1.9596898566335576e-05,
      "loss": 1.1335,
      "step": 1198
    },
    {
      "epoch": 0.09393561023381075,
      "grad_norm": 0.587197482585907,
      "learning_rate": 1.9471711520126824e-05,
      "loss": 1.0966,
      "step": 1199
    },
    {
      "epoch": 0.09401395519647447,
      "grad_norm": 0.6980307102203369,
      "learning_rate": 1.9346882467727325e-05,
      "loss": 1.1641,
      "step": 1200
    },
    {
      "epoch": 0.0940923001591382,
      "grad_norm": 0.37644922733306885,
      "learning_rate": 1.9222411964072884e-05,
      "loss": 1.3815,
      "step": 1201
    },
    {
      "epoch": 0.09417064512180194,
      "grad_norm": 0.39368802309036255,
      "learning_rate": 1.9098300562505266e-05,
      "loss": 1.2468,
      "step": 1202
    },
    {
      "epoch": 0.09424899008446566,
      "grad_norm": 0.3998163938522339,
      "learning_rate": 1.8974548814769944e-05,
      "loss": 1.2285,
      "step": 1203
    },
    {
      "epoch": 0.0943273350471294,
      "grad_norm": 0.40057632327079773,
      "learning_rate": 1.8851157271013442e-05,
      "loss": 1.1794,
      "step": 1204
    },
    {
      "epoch": 0.09440568000979312,
      "grad_norm": 0.4083056151866913,
      "learning_rate": 1.872812647978095e-05,
      "loss": 1.2811,
      "step": 1205
    },
    {
      "epoch": 0.09448402497245685,
      "grad_norm": 0.4027949571609497,
      "learning_rate": 1.8605456988014015e-05,
      "loss": 1.2044,
      "step": 1206
    },
    {
      "epoch": 0.09456236993512057,
      "grad_norm": 0.4153192341327667,
      "learning_rate": 1.8483149341047923e-05,
      "loss": 1.0763,
      "step": 1207
    },
    {
      "epoch": 0.0946407148977843,
      "grad_norm": 0.41438376903533936,
      "learning_rate": 1.8361204082609352e-05,
      "loss": 1.2278,
      "step": 1208
    },
    {
      "epoch": 0.09471905986044804,
      "grad_norm": 0.4125533103942871,
      "learning_rate": 1.8239621754813995e-05,
      "loss": 1.0878,
      "step": 1209
    },
    {
      "epoch": 0.09479740482311176,
      "grad_norm": 0.42661428451538086,
      "learning_rate": 1.811840289816409e-05,
      "loss": 1.162,
      "step": 1210
    },
    {
      "epoch": 0.0948757497857755,
      "grad_norm": 0.4160750210285187,
      "learning_rate": 1.799754805154603e-05,
      "loss": 1.0867,
      "step": 1211
    },
    {
      "epoch": 0.09495409474843922,
      "grad_norm": 0.42740440368652344,
      "learning_rate": 1.787705775222802e-05,
      "loss": 1.1133,
      "step": 1212
    },
    {
      "epoch": 0.09503243971110295,
      "grad_norm": 0.42732688784599304,
      "learning_rate": 1.775693253585763e-05,
      "loss": 1.0633,
      "step": 1213
    },
    {
      "epoch": 0.09511078467376669,
      "grad_norm": 0.42770740389823914,
      "learning_rate": 1.763717293645939e-05,
      "loss": 1.0596,
      "step": 1214
    },
    {
      "epoch": 0.0951891296364304,
      "grad_norm": 0.43408942222595215,
      "learning_rate": 1.7517779486432495e-05,
      "loss": 1.2369,
      "step": 1215
    },
    {
      "epoch": 0.09526747459909414,
      "grad_norm": 0.4356013238430023,
      "learning_rate": 1.7398752716548395e-05,
      "loss": 1.0442,
      "step": 1216
    },
    {
      "epoch": 0.09534581956175786,
      "grad_norm": 0.4209655821323395,
      "learning_rate": 1.728009315594843e-05,
      "loss": 1.0576,
      "step": 1217
    },
    {
      "epoch": 0.0954241645244216,
      "grad_norm": 0.45031672716140747,
      "learning_rate": 1.716180133214149e-05,
      "loss": 1.0025,
      "step": 1218
    },
    {
      "epoch": 0.09550250948708532,
      "grad_norm": 0.4586241841316223,
      "learning_rate": 1.704387777100165e-05,
      "loss": 1.133,
      "step": 1219
    },
    {
      "epoch": 0.09558085444974905,
      "grad_norm": 0.4401054084300995,
      "learning_rate": 1.6926322996765897e-05,
      "loss": 1.0827,
      "step": 1220
    },
    {
      "epoch": 0.09565919941241278,
      "grad_norm": 0.43541887402534485,
      "learning_rate": 1.6809137532031704e-05,
      "loss": 0.9984,
      "step": 1221
    },
    {
      "epoch": 0.0957375443750765,
      "grad_norm": 0.48529478907585144,
      "learning_rate": 1.6692321897754758e-05,
      "loss": 1.1414,
      "step": 1222
    },
    {
      "epoch": 0.09581588933774024,
      "grad_norm": 0.4560273587703705,
      "learning_rate": 1.65758766132467e-05,
      "loss": 1.104,
      "step": 1223
    },
    {
      "epoch": 0.09589423430040396,
      "grad_norm": 0.47996437549591064,
      "learning_rate": 1.6459802196172668e-05,
      "loss": 1.0341,
      "step": 1224
    },
    {
      "epoch": 0.0959725792630677,
      "grad_norm": 0.4700030982494354,
      "learning_rate": 1.634409916254914e-05,
      "loss": 1.1742,
      "step": 1225
    },
    {
      "epoch": 0.09605092422573143,
      "grad_norm": 0.4639776945114136,
      "learning_rate": 1.622876802674158e-05,
      "loss": 1.0412,
      "step": 1226
    },
    {
      "epoch": 0.09612926918839515,
      "grad_norm": 0.48344701528549194,
      "learning_rate": 1.6113809301462125e-05,
      "loss": 1.1368,
      "step": 1227
    },
    {
      "epoch": 0.09620761415105888,
      "grad_norm": 0.4758746922016144,
      "learning_rate": 1.599922349776738e-05,
      "loss": 1.104,
      "step": 1228
    },
    {
      "epoch": 0.0962859591137226,
      "grad_norm": 0.47304674983024597,
      "learning_rate": 1.5885011125056047e-05,
      "loss": 1.1115,
      "step": 1229
    },
    {
      "epoch": 0.09636430407638634,
      "grad_norm": 0.49041444063186646,
      "learning_rate": 1.5771172691066794e-05,
      "loss": 1.1172,
      "step": 1230
    },
    {
      "epoch": 0.09644264903905007,
      "grad_norm": 0.4809967875480652,
      "learning_rate": 1.565770870187585e-05,
      "loss": 1.2295,
      "step": 1231
    },
    {
      "epoch": 0.0965209940017138,
      "grad_norm": 0.5289474129676819,
      "learning_rate": 1.5544619661894864e-05,
      "loss": 1.1063,
      "step": 1232
    },
    {
      "epoch": 0.09659933896437753,
      "grad_norm": 0.4936351180076599,
      "learning_rate": 1.543190607386861e-05,
      "loss": 1.0661,
      "step": 1233
    },
    {
      "epoch": 0.09667768392704125,
      "grad_norm": 0.5052477121353149,
      "learning_rate": 1.5319568438872745e-05,
      "loss": 1.0719,
      "step": 1234
    },
    {
      "epoch": 0.09675602888970498,
      "grad_norm": 0.5151761174201965,
      "learning_rate": 1.520760725631164e-05,
      "loss": 1.1353,
      "step": 1235
    },
    {
      "epoch": 0.0968343738523687,
      "grad_norm": 0.5038467645645142,
      "learning_rate": 1.5096023023916094e-05,
      "loss": 1.0901,
      "step": 1236
    },
    {
      "epoch": 0.09691271881503244,
      "grad_norm": 0.5200169682502747,
      "learning_rate": 1.498481623774115e-05,
      "loss": 1.1964,
      "step": 1237
    },
    {
      "epoch": 0.09699106377769617,
      "grad_norm": 0.5259817242622375,
      "learning_rate": 1.4873987392163947e-05,
      "loss": 1.224,
      "step": 1238
    },
    {
      "epoch": 0.0970694087403599,
      "grad_norm": 0.5359392166137695,
      "learning_rate": 1.4763536979881354e-05,
      "loss": 1.0927,
      "step": 1239
    },
    {
      "epoch": 0.09714775370302363,
      "grad_norm": 0.5364776849746704,
      "learning_rate": 1.4653465491908003e-05,
      "loss": 1.1784,
      "step": 1240
    },
    {
      "epoch": 0.09722609866568735,
      "grad_norm": 0.5425063967704773,
      "learning_rate": 1.4543773417573925e-05,
      "loss": 1.1507,
      "step": 1241
    },
    {
      "epoch": 0.09730444362835108,
      "grad_norm": 0.5210185647010803,
      "learning_rate": 1.4434461244522458e-05,
      "loss": 1.0648,
      "step": 1242
    },
    {
      "epoch": 0.09738278859101482,
      "grad_norm": 0.5285274386405945,
      "learning_rate": 1.4325529458708065e-05,
      "loss": 1.1519,
      "step": 1243
    },
    {
      "epoch": 0.09746113355367854,
      "grad_norm": 0.547809898853302,
      "learning_rate": 1.4216978544394177e-05,
      "loss": 1.1842,
      "step": 1244
    },
    {
      "epoch": 0.09753947851634227,
      "grad_norm": 0.5531432628631592,
      "learning_rate": 1.4108808984151023e-05,
      "loss": 1.1693,
      "step": 1245
    },
    {
      "epoch": 0.097617823479006,
      "grad_norm": 0.5595632791519165,
      "learning_rate": 1.4001021258853509e-05,
      "loss": 1.2328,
      "step": 1246
    },
    {
      "epoch": 0.09769616844166973,
      "grad_norm": 0.5714864134788513,
      "learning_rate": 1.3893615847679065e-05,
      "loss": 1.1321,
      "step": 1247
    },
    {
      "epoch": 0.09777451340433345,
      "grad_norm": 0.5734665393829346,
      "learning_rate": 1.3786593228105494e-05,
      "loss": 1.2083,
      "step": 1248
    },
    {
      "epoch": 0.09785285836699718,
      "grad_norm": 0.5943968892097473,
      "learning_rate": 1.3679953875908957e-05,
      "loss": 1.1398,
      "step": 1249
    },
    {
      "epoch": 0.09793120332966092,
      "grad_norm": 0.6662271618843079,
      "learning_rate": 1.3573698265161683e-05,
      "loss": 1.1634,
      "step": 1250
    },
    {
      "epoch": 0.09800954829232464,
      "grad_norm": 0.36959338188171387,
      "learning_rate": 1.3467826868229994e-05,
      "loss": 1.2342,
      "step": 1251
    },
    {
      "epoch": 0.09808789325498837,
      "grad_norm": 0.35666030645370483,
      "learning_rate": 1.3362340155772146e-05,
      "loss": 1.2718,
      "step": 1252
    },
    {
      "epoch": 0.0981662382176521,
      "grad_norm": 0.4210350811481476,
      "learning_rate": 1.3257238596736266e-05,
      "loss": 1.1595,
      "step": 1253
    },
    {
      "epoch": 0.09824458318031583,
      "grad_norm": 0.40612831711769104,
      "learning_rate": 1.3152522658358245e-05,
      "loss": 1.1636,
      "step": 1254
    },
    {
      "epoch": 0.09832292814297956,
      "grad_norm": 0.403480589389801,
      "learning_rate": 1.3048192806159721e-05,
      "loss": 1.2203,
      "step": 1255
    },
    {
      "epoch": 0.09840127310564328,
      "grad_norm": 0.41380438208580017,
      "learning_rate": 1.2944249503945894e-05,
      "loss": 1.1275,
      "step": 1256
    },
    {
      "epoch": 0.09847961806830702,
      "grad_norm": 0.4320584833621979,
      "learning_rate": 1.2840693213803545e-05,
      "loss": 1.1903,
      "step": 1257
    },
    {
      "epoch": 0.09855796303097074,
      "grad_norm": 0.4262147843837738,
      "learning_rate": 1.2737524396099032e-05,
      "loss": 1.253,
      "step": 1258
    },
    {
      "epoch": 0.09863630799363447,
      "grad_norm": 0.44414055347442627,
      "learning_rate": 1.2634743509476088e-05,
      "loss": 1.049,
      "step": 1259
    },
    {
      "epoch": 0.09871465295629821,
      "grad_norm": 0.4373965561389923,
      "learning_rate": 1.2532351010853916e-05,
      "loss": 1.1751,
      "step": 1260
    },
    {
      "epoch": 0.09879299791896193,
      "grad_norm": 0.41962453722953796,
      "learning_rate": 1.243034735542512e-05,
      "loss": 1.0827,
      "step": 1261
    },
    {
      "epoch": 0.09887134288162566,
      "grad_norm": 0.4122726023197174,
      "learning_rate": 1.2328732996653669e-05,
      "loss": 1.1597,
      "step": 1262
    },
    {
      "epoch": 0.09894968784428938,
      "grad_norm": 0.4097723960876465,
      "learning_rate": 1.2227508386272878e-05,
      "loss": 1.0581,
      "step": 1263
    },
    {
      "epoch": 0.09902803280695312,
      "grad_norm": 0.4239391088485718,
      "learning_rate": 1.212667397428342e-05,
      "loss": 1.0936,
      "step": 1264
    },
    {
      "epoch": 0.09910637776961684,
      "grad_norm": 0.4428197741508484,
      "learning_rate": 1.2026230208951306e-05,
      "loss": 1.1002,
      "step": 1265
    },
    {
      "epoch": 0.09918472273228057,
      "grad_norm": 0.4440290927886963,
      "learning_rate": 1.1926177536805905e-05,
      "loss": 1.135,
      "step": 1266
    },
    {
      "epoch": 0.0992630676949443,
      "grad_norm": 0.41977569460868835,
      "learning_rate": 1.1826516402637989e-05,
      "loss": 1.0839,
      "step": 1267
    },
    {
      "epoch": 0.09934141265760803,
      "grad_norm": 0.45359280705451965,
      "learning_rate": 1.1727247249497685e-05,
      "loss": 1.0336,
      "step": 1268
    },
    {
      "epoch": 0.09941975762027176,
      "grad_norm": 0.44501766562461853,
      "learning_rate": 1.1628370518692533e-05,
      "loss": 1.1493,
      "step": 1269
    },
    {
      "epoch": 0.09949810258293548,
      "grad_norm": 0.4487149715423584,
      "learning_rate": 1.152988664978556e-05,
      "loss": 1.0575,
      "step": 1270
    },
    {
      "epoch": 0.09957644754559922,
      "grad_norm": 0.44062313437461853,
      "learning_rate": 1.1431796080593283e-05,
      "loss": 1.1403,
      "step": 1271
    },
    {
      "epoch": 0.09965479250826295,
      "grad_norm": 0.46482810378074646,
      "learning_rate": 1.1334099247183783e-05,
      "loss": 1.1157,
      "step": 1272
    },
    {
      "epoch": 0.09973313747092667,
      "grad_norm": 0.4648359417915344,
      "learning_rate": 1.1236796583874787e-05,
      "loss": 1.091,
      "step": 1273
    },
    {
      "epoch": 0.0998114824335904,
      "grad_norm": 0.47364991903305054,
      "learning_rate": 1.1139888523231678e-05,
      "loss": 1.1543,
      "step": 1274
    },
    {
      "epoch": 0.09988982739625413,
      "grad_norm": 0.45395785570144653,
      "learning_rate": 1.1043375496065611e-05,
      "loss": 1.136,
      "step": 1275
    },
    {
      "epoch": 0.09996817235891786,
      "grad_norm": 0.4827251434326172,
      "learning_rate": 1.0947257931431642e-05,
      "loss": 1.1365,
      "step": 1276
    },
    {
      "epoch": 0.10004651732158158,
      "grad_norm": 0.4845375120639801,
      "learning_rate": 1.0851536256626705e-05,
      "loss": 1.1045,
      "step": 1277
    },
    {
      "epoch": 0.10012486228424532,
      "grad_norm": 0.48088154196739197,
      "learning_rate": 1.0756210897187812e-05,
      "loss": 1.1556,
      "step": 1278
    },
    {
      "epoch": 0.10020320724690905,
      "grad_norm": 0.4848470687866211,
      "learning_rate": 1.0661282276890127e-05,
      "loss": 1.1991,
      "step": 1279
    },
    {
      "epoch": 0.10028155220957277,
      "grad_norm": 0.5004432797431946,
      "learning_rate": 1.0566750817745074e-05,
      "loss": 1.096,
      "step": 1280
    },
    {
      "epoch": 0.1003598971722365,
      "grad_norm": 0.4744996428489685,
      "learning_rate": 1.0472616939998492e-05,
      "loss": 0.9832,
      "step": 1281
    },
    {
      "epoch": 0.10043824213490023,
      "grad_norm": 0.49262624979019165,
      "learning_rate": 1.0378881062128731e-05,
      "loss": 1.1081,
      "step": 1282
    },
    {
      "epoch": 0.10051658709756396,
      "grad_norm": 0.5394381284713745,
      "learning_rate": 1.0285543600844804e-05,
      "loss": 1.0725,
      "step": 1283
    },
    {
      "epoch": 0.1005949320602277,
      "grad_norm": 0.504439115524292,
      "learning_rate": 1.019260497108453e-05,
      "loss": 1.0691,
      "step": 1284
    },
    {
      "epoch": 0.10067327702289142,
      "grad_norm": 0.4841468930244446,
      "learning_rate": 1.010006558601274e-05,
      "loss": 1.0552,
      "step": 1285
    },
    {
      "epoch": 0.10075162198555515,
      "grad_norm": 0.5203286409378052,
      "learning_rate": 1.000792585701934e-05,
      "loss": 1.1453,
      "step": 1286
    },
    {
      "epoch": 0.10082996694821887,
      "grad_norm": 0.5142883062362671,
      "learning_rate": 9.91618619371757e-06,
      "loss": 1.0611,
      "step": 1287
    },
    {
      "epoch": 0.1009083119108826,
      "grad_norm": 0.5068500638008118,
      "learning_rate": 9.82484700394215e-06,
      "loss": 1.1541,
      "step": 1288
    },
    {
      "epoch": 0.10098665687354634,
      "grad_norm": 0.5264947414398193,
      "learning_rate": 9.73390869374743e-06,
      "loss": 1.1257,
      "step": 1289
    },
    {
      "epoch": 0.10106500183621006,
      "grad_norm": 0.5481449365615845,
      "learning_rate": 9.643371667405698e-06,
      "loss": 1.1888,
      "step": 1290
    },
    {
      "epoch": 0.1011433467988738,
      "grad_norm": 0.5199002623558044,
      "learning_rate": 9.553236327405246e-06,
      "loss": 1.125,
      "step": 1291
    },
    {
      "epoch": 0.10122169176153752,
      "grad_norm": 0.5189064741134644,
      "learning_rate": 9.463503074448677e-06,
      "loss": 1.0066,
      "step": 1292
    },
    {
      "epoch": 0.10130003672420125,
      "grad_norm": 0.530421257019043,
      "learning_rate": 9.374172307451068e-06,
      "loss": 1.0814,
      "step": 1293
    },
    {
      "epoch": 0.10137838168686497,
      "grad_norm": 0.5463245511054993,
      "learning_rate": 9.285244423538197e-06,
      "loss": 1.0494,
      "step": 1294
    },
    {
      "epoch": 0.1014567266495287,
      "grad_norm": 0.5266291499137878,
      "learning_rate": 9.196719818044886e-06,
      "loss": 1.0762,
      "step": 1295
    },
    {
      "epoch": 0.10153507161219244,
      "grad_norm": 0.5389321446418762,
      "learning_rate": 9.108598884513053e-06,
      "loss": 1.062,
      "step": 1296
    },
    {
      "epoch": 0.10161341657485616,
      "grad_norm": 0.5461342334747314,
      "learning_rate": 9.020882014690136e-06,
      "loss": 1.1465,
      "step": 1297
    },
    {
      "epoch": 0.1016917615375199,
      "grad_norm": 0.5799329876899719,
      "learning_rate": 8.933569598527247e-06,
      "loss": 1.1094,
      "step": 1298
    },
    {
      "epoch": 0.10177010650018362,
      "grad_norm": 0.573814332485199,
      "learning_rate": 8.846662024177477e-06,
      "loss": 1.1033,
      "step": 1299
    },
    {
      "epoch": 0.10184845146284735,
      "grad_norm": 0.700884997844696,
      "learning_rate": 8.760159677994172e-06,
      "loss": 1.2401,
      "step": 1300
    },
    {
      "epoch": 0.10192679642551108,
      "grad_norm": 0.36446645855903625,
      "learning_rate": 8.674062944529216e-06,
      "loss": 1.3024,
      "step": 1301
    },
    {
      "epoch": 0.1020051413881748,
      "grad_norm": 0.384741872549057,
      "learning_rate": 8.588372206531292e-06,
      "loss": 1.1611,
      "step": 1302
    },
    {
      "epoch": 0.10208348635083854,
      "grad_norm": 0.38279175758361816,
      "learning_rate": 8.503087844944213e-06,
      "loss": 1.2037,
      "step": 1303
    },
    {
      "epoch": 0.10216183131350226,
      "grad_norm": 0.4111591875553131,
      "learning_rate": 8.418210238905256e-06,
      "loss": 1.2468,
      "step": 1304
    },
    {
      "epoch": 0.102240176276166,
      "grad_norm": 0.4168432950973511,
      "learning_rate": 8.333739765743398e-06,
      "loss": 1.2223,
      "step": 1305
    },
    {
      "epoch": 0.10231852123882972,
      "grad_norm": 0.40022289752960205,
      "learning_rate": 8.249676800977658e-06,
      "loss": 1.1721,
      "step": 1306
    },
    {
      "epoch": 0.10239686620149345,
      "grad_norm": 0.4048837721347809,
      "learning_rate": 8.16602171831553e-06,
      "loss": 1.2017,
      "step": 1307
    },
    {
      "epoch": 0.10247521116415718,
      "grad_norm": 0.44955334067344666,
      "learning_rate": 8.082774889651168e-06,
      "loss": 1.1661,
      "step": 1308
    },
    {
      "epoch": 0.1025535561268209,
      "grad_norm": 0.7218623757362366,
      "learning_rate": 7.999936685063835e-06,
      "loss": 1.0343,
      "step": 1309
    },
    {
      "epoch": 0.10263190108948464,
      "grad_norm": 0.4335215091705322,
      "learning_rate": 7.91750747281621e-06,
      "loss": 1.1134,
      "step": 1310
    },
    {
      "epoch": 0.10271024605214836,
      "grad_norm": 0.41626808047294617,
      "learning_rate": 7.835487619352811e-06,
      "loss": 1.1322,
      "step": 1311
    },
    {
      "epoch": 0.1027885910148121,
      "grad_norm": 0.42900004982948303,
      "learning_rate": 7.753877489298244e-06,
      "loss": 1.1207,
      "step": 1312
    },
    {
      "epoch": 0.10286693597747583,
      "grad_norm": 0.43957793712615967,
      "learning_rate": 7.67267744545579e-06,
      "loss": 1.0947,
      "step": 1313
    },
    {
      "epoch": 0.10294528094013955,
      "grad_norm": 0.4466787874698639,
      "learning_rate": 7.591887848805545e-06,
      "loss": 1.0228,
      "step": 1314
    },
    {
      "epoch": 0.10302362590280328,
      "grad_norm": 0.42099255323410034,
      "learning_rate": 7.5115090585029966e-06,
      "loss": 1.0101,
      "step": 1315
    },
    {
      "epoch": 0.103101970865467,
      "grad_norm": 0.44691202044487,
      "learning_rate": 7.431541431877342e-06,
      "loss": 1.0955,
      "step": 1316
    },
    {
      "epoch": 0.10318031582813074,
      "grad_norm": 0.4512006938457489,
      "learning_rate": 7.351985324429933e-06,
      "loss": 1.0548,
      "step": 1317
    },
    {
      "epoch": 0.10325866079079447,
      "grad_norm": 0.41942787170410156,
      "learning_rate": 7.272841089832694e-06,
      "loss": 1.0658,
      "step": 1318
    },
    {
      "epoch": 0.1033370057534582,
      "grad_norm": 0.4628060758113861,
      "learning_rate": 7.194109079926514e-06,
      "loss": 1.1995,
      "step": 1319
    },
    {
      "epoch": 0.10341535071612193,
      "grad_norm": 0.44624853134155273,
      "learning_rate": 7.115789644719728e-06,
      "loss": 1.0902,
      "step": 1320
    },
    {
      "epoch": 0.10349369567878565,
      "grad_norm": 0.44822925329208374,
      "learning_rate": 7.037883132386547e-06,
      "loss": 1.0454,
      "step": 1321
    },
    {
      "epoch": 0.10357204064144938,
      "grad_norm": 0.469937264919281,
      "learning_rate": 6.960389889265517e-06,
      "loss": 1.1,
      "step": 1322
    },
    {
      "epoch": 0.1036503856041131,
      "grad_norm": 0.4529452621936798,
      "learning_rate": 6.883310259857944e-06,
      "loss": 1.0131,
      "step": 1323
    },
    {
      "epoch": 0.10372873056677684,
      "grad_norm": 0.4627101421356201,
      "learning_rate": 6.806644586826383e-06,
      "loss": 1.0687,
      "step": 1324
    },
    {
      "epoch": 0.10380707552944057,
      "grad_norm": 0.4663199186325073,
      "learning_rate": 6.730393210993147e-06,
      "loss": 1.1028,
      "step": 1325
    },
    {
      "epoch": 0.1038854204921043,
      "grad_norm": 0.4554134011268616,
      "learning_rate": 6.654556471338746e-06,
      "loss": 1.077,
      "step": 1326
    },
    {
      "epoch": 0.10396376545476803,
      "grad_norm": 0.4813619554042816,
      "learning_rate": 6.579134705000412e-06,
      "loss": 1.0843,
      "step": 1327
    },
    {
      "epoch": 0.10404211041743175,
      "grad_norm": 0.45825836062431335,
      "learning_rate": 6.504128247270546e-06,
      "loss": 1.0201,
      "step": 1328
    },
    {
      "epoch": 0.10412045538009548,
      "grad_norm": 0.5132623910903931,
      "learning_rate": 6.429537431595312e-06,
      "loss": 1.2252,
      "step": 1329
    },
    {
      "epoch": 0.10419880034275922,
      "grad_norm": 0.46038496494293213,
      "learning_rate": 6.355362589573077e-06,
      "loss": 1.0437,
      "step": 1330
    },
    {
      "epoch": 0.10427714530542294,
      "grad_norm": 0.4790898263454437,
      "learning_rate": 6.2816040509530165e-06,
      "loss": 1.061,
      "step": 1331
    },
    {
      "epoch": 0.10435549026808667,
      "grad_norm": 0.525292158126831,
      "learning_rate": 6.2082621436335475e-06,
      "loss": 1.0981,
      "step": 1332
    },
    {
      "epoch": 0.1044338352307504,
      "grad_norm": 0.5006564855575562,
      "learning_rate": 6.135337193660962e-06,
      "loss": 1.0783,
      "step": 1333
    },
    {
      "epoch": 0.10451218019341413,
      "grad_norm": 0.47540128231048584,
      "learning_rate": 6.062829525227909e-06,
      "loss": 0.9626,
      "step": 1334
    },
    {
      "epoch": 0.10459052515607785,
      "grad_norm": 0.48567578196525574,
      "learning_rate": 5.990739460672024e-06,
      "loss": 1.1575,
      "step": 1335
    },
    {
      "epoch": 0.10466887011874158,
      "grad_norm": 0.5332645773887634,
      "learning_rate": 5.9190673204744255e-06,
      "loss": 1.1785,
      "step": 1336
    },
    {
      "epoch": 0.10474721508140532,
      "grad_norm": 0.5039668083190918,
      "learning_rate": 5.84781342325833e-06,
      "loss": 1.1073,
      "step": 1337
    },
    {
      "epoch": 0.10482556004406904,
      "grad_norm": 0.5136082172393799,
      "learning_rate": 5.77697808578761e-06,
      "loss": 1.2007,
      "step": 1338
    },
    {
      "epoch": 0.10490390500673277,
      "grad_norm": 0.5263255834579468,
      "learning_rate": 5.706561622965467e-06,
      "loss": 1.0476,
      "step": 1339
    },
    {
      "epoch": 0.1049822499693965,
      "grad_norm": 0.5161282420158386,
      "learning_rate": 5.636564347832907e-06,
      "loss": 1.0806,
      "step": 1340
    },
    {
      "epoch": 0.10506059493206023,
      "grad_norm": 0.5314702391624451,
      "learning_rate": 5.566986571567401e-06,
      "loss": 1.0011,
      "step": 1341
    },
    {
      "epoch": 0.10513893989472396,
      "grad_norm": 0.5144210457801819,
      "learning_rate": 5.497828603481569e-06,
      "loss": 1.1342,
      "step": 1342
    },
    {
      "epoch": 0.10521728485738768,
      "grad_norm": 0.5476627945899963,
      "learning_rate": 5.429090751021704e-06,
      "loss": 1.1107,
      "step": 1343
    },
    {
      "epoch": 0.10529562982005142,
      "grad_norm": 0.5834900140762329,
      "learning_rate": 5.3607733197664436e-06,
      "loss": 1.1768,
      "step": 1344
    },
    {
      "epoch": 0.10537397478271514,
      "grad_norm": 0.5557948350906372,
      "learning_rate": 5.2928766134254345e-06,
      "loss": 1.0228,
      "step": 1345
    },
    {
      "epoch": 0.10545231974537887,
      "grad_norm": 0.5306999087333679,
      "learning_rate": 5.225400933837954e-06,
      "loss": 1.1278,
      "step": 1346
    },
    {
      "epoch": 0.1055306647080426,
      "grad_norm": 0.5484148263931274,
      "learning_rate": 5.158346580971573e-06,
      "loss": 1.1243,
      "step": 1347
    },
    {
      "epoch": 0.10560900967070633,
      "grad_norm": 0.6021387577056885,
      "learning_rate": 5.091713852920854e-06,
      "loss": 1.1479,
      "step": 1348
    },
    {
      "epoch": 0.10568735463337006,
      "grad_norm": 0.587417483329773,
      "learning_rate": 5.025503045905933e-06,
      "loss": 1.1523,
      "step": 1349
    },
    {
      "epoch": 0.10576569959603378,
      "grad_norm": 0.6315544843673706,
      "learning_rate": 4.959714454271369e-06,
      "loss": 1.2034,
      "step": 1350
    },
    {
      "epoch": 0.10584404455869752,
      "grad_norm": 0.3594697415828705,
      "learning_rate": 4.8943483704846475e-06,
      "loss": 1.2517,
      "step": 1351
    },
    {
      "epoch": 0.10592238952136124,
      "grad_norm": 0.3642602562904358,
      "learning_rate": 4.829405085134997e-06,
      "loss": 1.2263,
      "step": 1352
    },
    {
      "epoch": 0.10600073448402497,
      "grad_norm": 0.3936339318752289,
      "learning_rate": 4.764884886932086e-06,
      "loss": 1.2611,
      "step": 1353
    },
    {
      "epoch": 0.1060790794466887,
      "grad_norm": 0.3688259422779083,
      "learning_rate": 4.700788062704687e-06,
      "loss": 1.1427,
      "step": 1354
    },
    {
      "epoch": 0.10615742440935243,
      "grad_norm": 0.3992277681827545,
      "learning_rate": 4.6371148973994525e-06,
      "loss": 1.1416,
      "step": 1355
    },
    {
      "epoch": 0.10623576937201616,
      "grad_norm": 0.410209983587265,
      "learning_rate": 4.573865674079625e-06,
      "loss": 1.2615,
      "step": 1356
    },
    {
      "epoch": 0.10631411433467988,
      "grad_norm": 0.4068666398525238,
      "learning_rate": 4.511040673923828e-06,
      "loss": 1.1726,
      "step": 1357
    },
    {
      "epoch": 0.10639245929734362,
      "grad_norm": 0.39426878094673157,
      "learning_rate": 4.448640176224694e-06,
      "loss": 1.2314,
      "step": 1358
    },
    {
      "epoch": 0.10647080426000735,
      "grad_norm": 0.43537309765815735,
      "learning_rate": 4.386664458387779e-06,
      "loss": 1.0869,
      "step": 1359
    },
    {
      "epoch": 0.10654914922267107,
      "grad_norm": 0.46012115478515625,
      "learning_rate": 4.325113795930203e-06,
      "loss": 1.183,
      "step": 1360
    },
    {
      "epoch": 0.1066274941853348,
      "grad_norm": 0.3974609971046448,
      "learning_rate": 4.263988462479484e-06,
      "loss": 1.0515,
      "step": 1361
    },
    {
      "epoch": 0.10670583914799853,
      "grad_norm": 0.4300929605960846,
      "learning_rate": 4.203288729772326e-06,
      "loss": 1.1242,
      "step": 1362
    },
    {
      "epoch": 0.10678418411066226,
      "grad_norm": 0.4123721420764923,
      "learning_rate": 4.143014867653383e-06,
      "loss": 1.0596,
      "step": 1363
    },
    {
      "epoch": 0.10686252907332598,
      "grad_norm": 0.42057672142982483,
      "learning_rate": 4.083167144074073e-06,
      "loss": 1.0097,
      "step": 1364
    },
    {
      "epoch": 0.10694087403598972,
      "grad_norm": 0.45428499579429626,
      "learning_rate": 4.023745825091407e-06,
      "loss": 1.1258,
      "step": 1365
    },
    {
      "epoch": 0.10701921899865345,
      "grad_norm": 0.4700961112976074,
      "learning_rate": 3.964751174866765e-06,
      "loss": 1.1256,
      "step": 1366
    },
    {
      "epoch": 0.10709756396131717,
      "grad_norm": 0.4578542411327362,
      "learning_rate": 3.906183455664725e-06,
      "loss": 1.0715,
      "step": 1367
    },
    {
      "epoch": 0.1071759089239809,
      "grad_norm": 0.47131696343421936,
      "learning_rate": 3.84804292785198e-06,
      "loss": 0.9909,
      "step": 1368
    },
    {
      "epoch": 0.10725425388664463,
      "grad_norm": 0.43221354484558105,
      "learning_rate": 3.7903298498960572e-06,
      "loss": 0.9484,
      "step": 1369
    },
    {
      "epoch": 0.10733259884930836,
      "grad_norm": 0.44728797674179077,
      "learning_rate": 3.7330444783642338e-06,
      "loss": 1.074,
      "step": 1370
    },
    {
      "epoch": 0.1074109438119721,
      "grad_norm": 0.4940069615840912,
      "learning_rate": 3.676187067922421e-06,
      "loss": 1.16,
      "step": 1371
    },
    {
      "epoch": 0.10748928877463582,
      "grad_norm": 0.4720197319984436,
      "learning_rate": 3.619757871333973e-06,
      "loss": 1.1246,
      "step": 1372
    },
    {
      "epoch": 0.10756763373729955,
      "grad_norm": 0.47246596217155457,
      "learning_rate": 3.563757139458579e-06,
      "loss": 1.0692,
      "step": 1373
    },
    {
      "epoch": 0.10764597869996327,
      "grad_norm": 0.48493492603302,
      "learning_rate": 3.5081851212512175e-06,
      "loss": 1.1573,
      "step": 1374
    },
    {
      "epoch": 0.107724323662627,
      "grad_norm": 0.4595898985862732,
      "learning_rate": 3.4530420637609363e-06,
      "loss": 0.9683,
      "step": 1375
    },
    {
      "epoch": 0.10780266862529074,
      "grad_norm": 0.478460431098938,
      "learning_rate": 3.3983282121298086e-06,
      "loss": 1.0704,
      "step": 1376
    },
    {
      "epoch": 0.10788101358795446,
      "grad_norm": 0.5116683840751648,
      "learning_rate": 3.3440438095919126e-06,
      "loss": 1.0863,
      "step": 1377
    },
    {
      "epoch": 0.1079593585506182,
      "grad_norm": 0.4994922876358032,
      "learning_rate": 3.290189097472096e-06,
      "loss": 1.1487,
      "step": 1378
    },
    {
      "epoch": 0.10803770351328192,
      "grad_norm": 0.5034909248352051,
      "learning_rate": 3.236764315185037e-06,
      "loss": 1.0434,
      "step": 1379
    },
    {
      "epoch": 0.10811604847594565,
      "grad_norm": 0.4837183654308319,
      "learning_rate": 3.1837697002341293e-06,
      "loss": 1.0412,
      "step": 1380
    },
    {
      "epoch": 0.10819439343860937,
      "grad_norm": 0.5042411684989929,
      "learning_rate": 3.131205488210409e-06,
      "loss": 1.1243,
      "step": 1381
    },
    {
      "epoch": 0.1082727384012731,
      "grad_norm": 0.4844789206981659,
      "learning_rate": 3.0790719127915646e-06,
      "loss": 1.0637,
      "step": 1382
    },
    {
      "epoch": 0.10835108336393684,
      "grad_norm": 0.5184329748153687,
      "learning_rate": 3.0273692057408265e-06,
      "loss": 1.0331,
      "step": 1383
    },
    {
      "epoch": 0.10842942832660056,
      "grad_norm": 0.5068053603172302,
      "learning_rate": 2.976097596905969e-06,
      "loss": 1.0888,
      "step": 1384
    },
    {
      "epoch": 0.1085077732892643,
      "grad_norm": 0.5247915387153625,
      "learning_rate": 2.9252573142183326e-06,
      "loss": 1.1265,
      "step": 1385
    },
    {
      "epoch": 0.10858611825192802,
      "grad_norm": 0.5407472252845764,
      "learning_rate": 2.874848583691714e-06,
      "loss": 1.0924,
      "step": 1386
    },
    {
      "epoch": 0.10866446321459175,
      "grad_norm": 0.526506245136261,
      "learning_rate": 2.8248716294214774e-06,
      "loss": 1.2256,
      "step": 1387
    },
    {
      "epoch": 0.10874280817725548,
      "grad_norm": 0.5255727767944336,
      "learning_rate": 2.7753266735834338e-06,
      "loss": 1.0635,
      "step": 1388
    },
    {
      "epoch": 0.1088211531399192,
      "grad_norm": 0.5253761410713196,
      "learning_rate": 2.7262139364329643e-06,
      "loss": 1.2061,
      "step": 1389
    },
    {
      "epoch": 0.10889949810258294,
      "grad_norm": 0.5244067311286926,
      "learning_rate": 2.677533636303964e-06,
      "loss": 1.1152,
      "step": 1390
    },
    {
      "epoch": 0.10897784306524666,
      "grad_norm": 0.5490861535072327,
      "learning_rate": 2.6292859896079213e-06,
      "loss": 1.0868,
      "step": 1391
    },
    {
      "epoch": 0.1090561880279104,
      "grad_norm": 0.5222781300544739,
      "learning_rate": 2.581471210832931e-06,
      "loss": 1.07,
      "step": 1392
    },
    {
      "epoch": 0.10913453299057412,
      "grad_norm": 0.5698187351226807,
      "learning_rate": 2.5340895125427364e-06,
      "loss": 1.1718,
      "step": 1393
    },
    {
      "epoch": 0.10921287795323785,
      "grad_norm": 0.5439313054084778,
      "learning_rate": 2.4871411053757898e-06,
      "loss": 1.1785,
      "step": 1394
    },
    {
      "epoch": 0.10929122291590158,
      "grad_norm": 0.5571345090866089,
      "learning_rate": 2.440626198044327e-06,
      "loss": 1.1174,
      "step": 1395
    },
    {
      "epoch": 0.1093695678785653,
      "grad_norm": 0.5808391571044922,
      "learning_rate": 2.394544997333437e-06,
      "loss": 1.0697,
      "step": 1396
    },
    {
      "epoch": 0.10944791284122904,
      "grad_norm": 0.5716361403465271,
      "learning_rate": 2.3488977081001394e-06,
      "loss": 1.1588,
      "step": 1397
    },
    {
      "epoch": 0.10952625780389276,
      "grad_norm": 0.6038169264793396,
      "learning_rate": 2.3036845332724543e-06,
      "loss": 1.2586,
      "step": 1398
    },
    {
      "epoch": 0.1096046027665565,
      "grad_norm": 0.5703514218330383,
      "learning_rate": 2.2589056738485324e-06,
      "loss": 1.1463,
      "step": 1399
    },
    {
      "epoch": 0.10968294772922023,
      "grad_norm": 0.6695284843444824,
      "learning_rate": 2.2145613288957478e-06,
      "loss": 1.171,
      "step": 1400
    },
    {
      "epoch": 0.10976129269188395,
      "grad_norm": 0.3621203303337097,
      "learning_rate": 2.170651695549786e-06,
      "loss": 1.3318,
      "step": 1401
    },
    {
      "epoch": 0.10983963765454768,
      "grad_norm": 0.38630786538124084,
      "learning_rate": 2.1271769690138332e-06,
      "loss": 1.2935,
      "step": 1402
    },
    {
      "epoch": 0.1099179826172114,
      "grad_norm": 0.39187192916870117,
      "learning_rate": 2.084137342557646e-06,
      "loss": 1.2558,
      "step": 1403
    },
    {
      "epoch": 0.10999632757987514,
      "grad_norm": 0.40704530477523804,
      "learning_rate": 2.0415330075166937e-06,
      "loss": 1.2309,
      "step": 1404
    },
    {
      "epoch": 0.11007467254253887,
      "grad_norm": 0.3840426802635193,
      "learning_rate": 1.9993641532913833e-06,
      "loss": 1.195,
      "step": 1405
    },
    {
      "epoch": 0.1101530175052026,
      "grad_norm": 0.4204885959625244,
      "learning_rate": 1.9576309673461357e-06,
      "loss": 1.1882,
      "step": 1406
    },
    {
      "epoch": 0.11023136246786633,
      "grad_norm": 0.4251437485218048,
      "learning_rate": 1.916333635208556e-06,
      "loss": 1.1721,
      "step": 1407
    },
    {
      "epoch": 0.11030970743053005,
      "grad_norm": 0.43461117148399353,
      "learning_rate": 1.8754723404686425e-06,
      "loss": 1.1695,
      "step": 1408
    },
    {
      "epoch": 0.11038805239319378,
      "grad_norm": 0.3953239619731903,
      "learning_rate": 1.8350472647780116e-06,
      "loss": 1.1346,
      "step": 1409
    },
    {
      "epoch": 0.1104663973558575,
      "grad_norm": 0.42478135228157043,
      "learning_rate": 1.7950585878489856e-06,
      "loss": 1.1031,
      "step": 1410
    },
    {
      "epoch": 0.11054474231852124,
      "grad_norm": 0.4219553768634796,
      "learning_rate": 1.7555064874538397e-06,
      "loss": 1.1121,
      "step": 1411
    },
    {
      "epoch": 0.11062308728118497,
      "grad_norm": 0.41426607966423035,
      "learning_rate": 1.7163911394240672e-06,
      "loss": 1.0404,
      "step": 1412
    },
    {
      "epoch": 0.1107014322438487,
      "grad_norm": 0.43501561880111694,
      "learning_rate": 1.6777127176495043e-06,
      "loss": 1.1483,
      "step": 1413
    },
    {
      "epoch": 0.11077977720651243,
      "grad_norm": 0.4390028715133667,
      "learning_rate": 1.6394713940776296e-06,
      "loss": 1.1072,
      "step": 1414
    },
    {
      "epoch": 0.11085812216917615,
      "grad_norm": 0.45554807782173157,
      "learning_rate": 1.6016673387127646e-06,
      "loss": 1.1662,
      "step": 1415
    },
    {
      "epoch": 0.11093646713183988,
      "grad_norm": 0.45149025321006775,
      "learning_rate": 1.5643007196153302e-06,
      "loss": 1.0598,
      "step": 1416
    },
    {
      "epoch": 0.11101481209450362,
      "grad_norm": 0.4463474154472351,
      "learning_rate": 1.5273717029010925e-06,
      "loss": 1.1091,
      "step": 1417
    },
    {
      "epoch": 0.11109315705716734,
      "grad_norm": 0.45242810249328613,
      "learning_rate": 1.4908804527404286e-06,
      "loss": 1.0009,
      "step": 1418
    },
    {
      "epoch": 0.11117150201983107,
      "grad_norm": 0.46001967787742615,
      "learning_rate": 1.4548271313575835e-06,
      "loss": 1.0064,
      "step": 1419
    },
    {
      "epoch": 0.1112498469824948,
      "grad_norm": 0.4623172879219055,
      "learning_rate": 1.4192118990299707e-06,
      "loss": 0.995,
      "step": 1420
    },
    {
      "epoch": 0.11132819194515853,
      "grad_norm": 0.4702984094619751,
      "learning_rate": 1.3840349140874619e-06,
      "loss": 1.0316,
      "step": 1421
    },
    {
      "epoch": 0.11140653690782225,
      "grad_norm": 0.46736767888069153,
      "learning_rate": 1.3492963329116537e-06,
      "loss": 1.0471,
      "step": 1422
    },
    {
      "epoch": 0.11148488187048598,
      "grad_norm": 0.4690207540988922,
      "learning_rate": 1.3149963099352014e-06,
      "loss": 1.053,
      "step": 1423
    },
    {
      "epoch": 0.11156322683314972,
      "grad_norm": 0.47292476892471313,
      "learning_rate": 1.2811349976411202e-06,
      "loss": 1.0463,
      "step": 1424
    },
    {
      "epoch": 0.11164157179581344,
      "grad_norm": 0.46778547763824463,
      "learning_rate": 1.2477125465620853e-06,
      "loss": 1.1776,
      "step": 1425
    },
    {
      "epoch": 0.11171991675847717,
      "grad_norm": 0.4889307916164398,
      "learning_rate": 1.2147291052798216e-06,
      "loss": 1.1602,
      "step": 1426
    },
    {
      "epoch": 0.11179826172114089,
      "grad_norm": 0.47722291946411133,
      "learning_rate": 1.1821848204243814e-06,
      "loss": 1.0199,
      "step": 1427
    },
    {
      "epoch": 0.11187660668380463,
      "grad_norm": 0.4975906014442444,
      "learning_rate": 1.1500798366735233e-06,
      "loss": 1.0719,
      "step": 1428
    },
    {
      "epoch": 0.11195495164646836,
      "grad_norm": 0.5123575925827026,
      "learning_rate": 1.1184142967520794e-06,
      "loss": 1.1197,
      "step": 1429
    },
    {
      "epoch": 0.11203329660913208,
      "grad_norm": 0.493099570274353,
      "learning_rate": 1.0871883414312777e-06,
      "loss": 1.0985,
      "step": 1430
    },
    {
      "epoch": 0.11211164157179582,
      "grad_norm": 0.5057339668273926,
      "learning_rate": 1.0564021095281652e-06,
      "loss": 1.1314,
      "step": 1431
    },
    {
      "epoch": 0.11218998653445954,
      "grad_norm": 0.5394319295883179,
      "learning_rate": 1.0260557379049519e-06,
      "loss": 1.1138,
      "step": 1432
    },
    {
      "epoch": 0.11226833149712327,
      "grad_norm": 0.48402079939842224,
      "learning_rate": 9.96149361468457e-07,
      "loss": 1.0456,
      "step": 1433
    },
    {
      "epoch": 0.112346676459787,
      "grad_norm": 0.4809150993824005,
      "learning_rate": 9.66683113169431e-07,
      "loss": 1.031,
      "step": 1434
    },
    {
      "epoch": 0.11242502142245073,
      "grad_norm": 0.4894953966140747,
      "learning_rate": 9.376571240020227e-07,
      "loss": 1.105,
      "step": 1435
    },
    {
      "epoch": 0.11250336638511446,
      "grad_norm": 0.5086884498596191,
      "learning_rate": 9.090715230031688e-07,
      "loss": 1.1144,
      "step": 1436
    },
    {
      "epoch": 0.11258171134777818,
      "grad_norm": 0.504532516002655,
      "learning_rate": 8.809264372520609e-07,
      "loss": 1.0421,
      "step": 1437
    },
    {
      "epoch": 0.11266005631044192,
      "grad_norm": 0.518086314201355,
      "learning_rate": 8.532219918695128e-07,
      "loss": 1.0555,
      "step": 1438
    },
    {
      "epoch": 0.11273840127310564,
      "grad_norm": 0.542852520942688,
      "learning_rate": 8.259583100174606e-07,
      "loss": 1.1816,
      "step": 1439
    },
    {
      "epoch": 0.11281674623576937,
      "grad_norm": 0.5257827639579773,
      "learning_rate": 7.991355128984079e-07,
      "loss": 1.006,
      "step": 1440
    },
    {
      "epoch": 0.1128950911984331,
      "grad_norm": 0.528684675693512,
      "learning_rate": 7.727537197548707e-07,
      "loss": 1.1312,
      "step": 1441
    },
    {
      "epoch": 0.11297343616109683,
      "grad_norm": 0.5340165495872498,
      "learning_rate": 7.468130478688218e-07,
      "loss": 1.0755,
      "step": 1442
    },
    {
      "epoch": 0.11305178112376056,
      "grad_norm": 0.5632606744766235,
      "learning_rate": 7.213136125612586e-07,
      "loss": 1.158,
      "step": 1443
    },
    {
      "epoch": 0.11313012608642428,
      "grad_norm": 0.5547252893447876,
      "learning_rate": 6.962555271915805e-07,
      "loss": 1.1762,
      "step": 1444
    },
    {
      "epoch": 0.11320847104908802,
      "grad_norm": 0.542237401008606,
      "learning_rate": 6.716389031571568e-07,
      "loss": 1.0547,
      "step": 1445
    },
    {
      "epoch": 0.11328681601175175,
      "grad_norm": 0.5829638838768005,
      "learning_rate": 6.474638498928265e-07,
      "loss": 1.1053,
      "step": 1446
    },
    {
      "epoch": 0.11336516097441547,
      "grad_norm": 0.5603777170181274,
      "learning_rate": 6.237304748703543e-07,
      "loss": 1.1633,
      "step": 1447
    },
    {
      "epoch": 0.1134435059370792,
      "grad_norm": 0.5797067880630493,
      "learning_rate": 6.004388835980423e-07,
      "loss": 1.1044,
      "step": 1448
    },
    {
      "epoch": 0.11352185089974293,
      "grad_norm": 0.60732102394104,
      "learning_rate": 5.77589179620186e-07,
      "loss": 1.1517,
      "step": 1449
    },
    {
      "epoch": 0.11360019586240666,
      "grad_norm": 0.6528201103210449,
      "learning_rate": 5.55181464516652e-07,
      "loss": 1.19,
      "step": 1450
    },
    {
      "epoch": 0.11367854082507038,
      "grad_norm": 0.3552044630050659,
      "learning_rate": 5.332158379024122e-07,
      "loss": 1.2858,
      "step": 1451
    },
    {
      "epoch": 0.11375688578773412,
      "grad_norm": 0.3886828124523163,
      "learning_rate": 5.116923974270993e-07,
      "loss": 1.2483,
      "step": 1452
    },
    {
      "epoch": 0.11383523075039785,
      "grad_norm": 0.4108697772026062,
      "learning_rate": 4.906112387745965e-07,
      "loss": 1.1582,
      "step": 1453
    },
    {
      "epoch": 0.11391357571306157,
      "grad_norm": 0.38198861479759216,
      "learning_rate": 4.6997245566257064e-07,
      "loss": 1.2395,
      "step": 1454
    },
    {
      "epoch": 0.1139919206757253,
      "grad_norm": 0.4026605188846588,
      "learning_rate": 4.497761398421063e-07,
      "loss": 1.1871,
      "step": 1455
    },
    {
      "epoch": 0.11407026563838903,
      "grad_norm": 0.39659127593040466,
      "learning_rate": 4.3002238109723927e-07,
      "loss": 1.1984,
      "step": 1456
    },
    {
      "epoch": 0.11414861060105276,
      "grad_norm": 0.4216015934944153,
      "learning_rate": 4.107112672446123e-07,
      "loss": 1.1773,
      "step": 1457
    },
    {
      "epoch": 0.1142269555637165,
      "grad_norm": 0.3953450322151184,
      "learning_rate": 3.9184288413306456e-07,
      "loss": 1.0429,
      "step": 1458
    },
    {
      "epoch": 0.11430530052638022,
      "grad_norm": 0.4172496199607849,
      "learning_rate": 3.734173156432208e-07,
      "loss": 1.1343,
      "step": 1459
    },
    {
      "epoch": 0.11438364548904395,
      "grad_norm": 0.4327177405357361,
      "learning_rate": 3.554346436871581e-07,
      "loss": 1.1789,
      "step": 1460
    },
    {
      "epoch": 0.11446199045170767,
      "grad_norm": 0.4242664575576782,
      "learning_rate": 3.3789494820803957e-07,
      "loss": 1.1886,
      "step": 1461
    },
    {
      "epoch": 0.1145403354143714,
      "grad_norm": 0.41859304904937744,
      "learning_rate": 3.2079830717972606e-07,
      "loss": 1.1662,
      "step": 1462
    },
    {
      "epoch": 0.11461868037703513,
      "grad_norm": 0.42864978313446045,
      "learning_rate": 3.041447966064648e-07,
      "loss": 1.2031,
      "step": 1463
    },
    {
      "epoch": 0.11469702533969886,
      "grad_norm": 0.42380011081695557,
      "learning_rate": 2.8793449052254563e-07,
      "loss": 1.0495,
      "step": 1464
    },
    {
      "epoch": 0.1147753703023626,
      "grad_norm": 0.455555260181427,
      "learning_rate": 2.721674609919345e-07,
      "loss": 1.1411,
      "step": 1465
    },
    {
      "epoch": 0.11485371526502632,
      "grad_norm": 0.4612632095813751,
      "learning_rate": 2.568437781080069e-07,
      "loss": 1.1445,
      "step": 1466
    },
    {
      "epoch": 0.11493206022769005,
      "grad_norm": 0.4610172510147095,
      "learning_rate": 2.4196350999320384e-07,
      "loss": 1.1348,
      "step": 1467
    },
    {
      "epoch": 0.11501040519035377,
      "grad_norm": 0.44346243143081665,
      "learning_rate": 2.275267227987321e-07,
      "loss": 1.1044,
      "step": 1468
    },
    {
      "epoch": 0.1150887501530175,
      "grad_norm": 0.43853628635406494,
      "learning_rate": 2.135334807042866e-07,
      "loss": 1.0131,
      "step": 1469
    },
    {
      "epoch": 0.11516709511568124,
      "grad_norm": 0.48756298422813416,
      "learning_rate": 1.9998384591773944e-07,
      "loss": 1.1174,
      "step": 1470
    },
    {
      "epoch": 0.11524544007834496,
      "grad_norm": 0.4577620327472687,
      "learning_rate": 1.8687787867489592e-07,
      "loss": 1.1247,
      "step": 1471
    },
    {
      "epoch": 0.1153237850410087,
      "grad_norm": 0.44661858677864075,
      "learning_rate": 1.7421563723919454e-07,
      "loss": 1.011,
      "step": 1472
    },
    {
      "epoch": 0.11540213000367242,
      "grad_norm": 0.48599421977996826,
      "learning_rate": 1.6199717790145174e-07,
      "loss": 1.1582,
      "step": 1473
    },
    {
      "epoch": 0.11548047496633615,
      "grad_norm": 0.4834016263484955,
      "learning_rate": 1.5022255497962879e-07,
      "loss": 1.0873,
      "step": 1474
    },
    {
      "epoch": 0.11555881992899988,
      "grad_norm": 0.48687711358070374,
      "learning_rate": 1.3889182081860962e-07,
      "loss": 1.1049,
      "step": 1475
    },
    {
      "epoch": 0.1156371648916636,
      "grad_norm": 0.4605930745601654,
      "learning_rate": 1.2800502578991235e-07,
      "loss": 1.1053,
      "step": 1476
    },
    {
      "epoch": 0.11571550985432734,
      "grad_norm": 0.4918801188468933,
      "learning_rate": 1.1756221829148928e-07,
      "loss": 1.0386,
      "step": 1477
    },
    {
      "epoch": 0.11579385481699106,
      "grad_norm": 0.5000368356704712,
      "learning_rate": 1.0756344474753821e-07,
      "loss": 1.1137,
      "step": 1478
    },
    {
      "epoch": 0.1158721997796548,
      "grad_norm": 0.47211211919784546,
      "learning_rate": 9.800874960826933e-08,
      "loss": 0.9852,
      "step": 1479
    },
    {
      "epoch": 0.11595054474231851,
      "grad_norm": 0.5083462595939636,
      "learning_rate": 8.889817534969425e-08,
      "loss": 1.1662,
      "step": 1480
    },
    {
      "epoch": 0.11602888970498225,
      "grad_norm": 0.4971301555633545,
      "learning_rate": 8.023176247348163e-08,
      "loss": 1.1034,
      "step": 1481
    },
    {
      "epoch": 0.11610723466764598,
      "grad_norm": 0.5026264190673828,
      "learning_rate": 7.200954950673522e-08,
      "loss": 1.0798,
      "step": 1482
    },
    {
      "epoch": 0.1161855796303097,
      "grad_norm": 0.5179190039634705,
      "learning_rate": 6.423157300184946e-08,
      "loss": 1.0795,
      "step": 1483
    },
    {
      "epoch": 0.11626392459297344,
      "grad_norm": 0.5161179900169373,
      "learning_rate": 5.6897867536331864e-08,
      "loss": 1.1772,
      "step": 1484
    },
    {
      "epoch": 0.11634226955563716,
      "grad_norm": 0.5403428673744202,
      "learning_rate": 5.000846571264761e-08,
      "loss": 1.1267,
      "step": 1485
    },
    {
      "epoch": 0.1164206145183009,
      "grad_norm": 0.524458646774292,
      "learning_rate": 4.35633981580974e-08,
      "loss": 1.1563,
      "step": 1486
    },
    {
      "epoch": 0.11649895948096463,
      "grad_norm": 0.5082516670227051,
      "learning_rate": 3.756269352462871e-08,
      "loss": 1.1093,
      "step": 1487
    },
    {
      "epoch": 0.11657730444362835,
      "grad_norm": 0.5342510938644409,
      "learning_rate": 3.20063784888025e-08,
      "loss": 1.1387,
      "step": 1488
    },
    {
      "epoch": 0.11665564940629208,
      "grad_norm": 0.5075095891952515,
      "learning_rate": 2.6894477751548964e-08,
      "loss": 1.065,
      "step": 1489
    },
    {
      "epoch": 0.1167339943689558,
      "grad_norm": 0.5239048600196838,
      "learning_rate": 2.222701403818972e-08,
      "loss": 1.1563,
      "step": 1490
    },
    {
      "epoch": 0.11681233933161954,
      "grad_norm": 0.5118247866630554,
      "learning_rate": 1.8004008098226887e-08,
      "loss": 1.1068,
      "step": 1491
    },
    {
      "epoch": 0.11689068429428326,
      "grad_norm": 0.5321337580680847,
      "learning_rate": 1.4225478705309769e-08,
      "loss": 1.0374,
      "step": 1492
    },
    {
      "epoch": 0.116969029256947,
      "grad_norm": 0.5442497730255127,
      "learning_rate": 1.0891442657134932e-08,
      "loss": 1.0833,
      "step": 1493
    },
    {
      "epoch": 0.11704737421961073,
      "grad_norm": 0.5573287010192871,
      "learning_rate": 8.001914775401798e-09,
      "loss": 1.0406,
      "step": 1494
    },
    {
      "epoch": 0.11712571918227445,
      "grad_norm": 0.5467129945755005,
      "learning_rate": 5.5569079056794206e-09,
      "loss": 1.0589,
      "step": 1495
    },
    {
      "epoch": 0.11720406414493818,
      "grad_norm": 0.5662784576416016,
      "learning_rate": 3.5564329174064824e-09,
      "loss": 1.1266,
      "step": 1496
    },
    {
      "epoch": 0.1172824091076019,
      "grad_norm": 0.5662556886672974,
      "learning_rate": 2.0004987038246824e-09,
      "loss": 1.0909,
      "step": 1497
    },
    {
      "epoch": 0.11736075407026564,
      "grad_norm": 0.5524803996086121,
      "learning_rate": 8.891121819565306e-10,
      "loss": 1.1332,
      "step": 1498
    },
    {
      "epoch": 0.11743909903292937,
      "grad_norm": 0.6300129890441895,
      "learning_rate": 2.2227829252763344e-10,
      "loss": 1.2739,
      "step": 1499
    },
    {
      "epoch": 0.1175174439955931,
      "grad_norm": 0.7081108689308167,
      "learning_rate": 0.0,
      "loss": 1.2577,
      "step": 1500
    },
    {
      "epoch": 0.1175174439955931,
      "eval_loss": 1.1185698509216309,
      "eval_runtime": 1244.4809,
      "eval_samples_per_second": 17.275,
      "eval_steps_per_second": 8.637,
      "step": 1500
    }
  ],
  "logging_steps": 1,
  "max_steps": 1500,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 375,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2.0045016921790218e+18,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}