{
  "best_metric": 10.260876655578613,
  "best_model_checkpoint": "miner_id_24/checkpoint-200",
  "epoch": 0.06658343736995423,
  "eval_steps": 50,
  "global_step": 200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0003329171868497711,
      "grad_norm": 1.2723332643508911,
      "learning_rate": 7e-06,
      "loss": 41.5141,
      "step": 1
    },
    {
      "epoch": 0.0003329171868497711,
      "eval_loss": 10.374454498291016,
      "eval_runtime": 10.7185,
      "eval_samples_per_second": 471.989,
      "eval_steps_per_second": 118.02,
      "step": 1
    },
    {
      "epoch": 0.0006658343736995423,
      "grad_norm": 1.4696481227874756,
      "learning_rate": 1.4e-05,
      "loss": 41.5006,
      "step": 2
    },
    {
      "epoch": 0.0009987515605493133,
      "grad_norm": 1.355368733406067,
      "learning_rate": 2.1e-05,
      "loss": 41.4914,
      "step": 3
    },
    {
      "epoch": 0.0013316687473990845,
      "grad_norm": 1.3979071378707886,
      "learning_rate": 2.8e-05,
      "loss": 41.4982,
      "step": 4
    },
    {
      "epoch": 0.0016645859342488557,
      "grad_norm": 1.4343304634094238,
      "learning_rate": 3.5e-05,
      "loss": 41.4858,
      "step": 5
    },
    {
      "epoch": 0.0019975031210986267,
      "grad_norm": 1.582345724105835,
      "learning_rate": 4.2e-05,
      "loss": 41.5017,
      "step": 6
    },
    {
      "epoch": 0.002330420307948398,
      "grad_norm": 1.5597692728042603,
      "learning_rate": 4.899999999999999e-05,
      "loss": 41.4897,
      "step": 7
    },
    {
      "epoch": 0.002663337494798169,
      "grad_norm": 1.6229273080825806,
      "learning_rate": 5.6e-05,
      "loss": 41.4884,
      "step": 8
    },
    {
      "epoch": 0.00299625468164794,
      "grad_norm": 1.507421612739563,
      "learning_rate": 6.3e-05,
      "loss": 41.4902,
      "step": 9
    },
    {
      "epoch": 0.0033291718684977114,
      "grad_norm": 1.4420781135559082,
      "learning_rate": 7e-05,
      "loss": 41.4668,
      "step": 10
    },
    {
      "epoch": 0.003662089055347482,
      "grad_norm": 1.6588679552078247,
      "learning_rate": 6.999521567473641e-05,
      "loss": 41.466,
      "step": 11
    },
    {
      "epoch": 0.003995006242197253,
      "grad_norm": 1.7542781829833984,
      "learning_rate": 6.998086400693241e-05,
      "loss": 41.4676,
      "step": 12
    },
    {
      "epoch": 0.0043279234290470245,
      "grad_norm": 1.6211879253387451,
      "learning_rate": 6.995694892019065e-05,
      "loss": 41.4736,
      "step": 13
    },
    {
      "epoch": 0.004660840615896796,
      "grad_norm": 1.7433085441589355,
      "learning_rate": 6.99234769526571e-05,
      "loss": 41.4453,
      "step": 14
    },
    {
      "epoch": 0.004993757802746567,
      "grad_norm": 1.9194446802139282,
      "learning_rate": 6.988045725523343e-05,
      "loss": 41.4438,
      "step": 15
    },
    {
      "epoch": 0.005326674989596338,
      "grad_norm": 1.809540033340454,
      "learning_rate": 6.982790158907539e-05,
      "loss": 41.4351,
      "step": 16
    },
    {
      "epoch": 0.005659592176446109,
      "grad_norm": 1.8582813739776611,
      "learning_rate": 6.976582432237733e-05,
      "loss": 41.4342,
      "step": 17
    },
    {
      "epoch": 0.00599250936329588,
      "grad_norm": 2.042267322540283,
      "learning_rate": 6.969424242644413e-05,
      "loss": 41.3984,
      "step": 18
    },
    {
      "epoch": 0.006325426550145652,
      "grad_norm": 2.0619945526123047,
      "learning_rate": 6.961317547105138e-05,
      "loss": 41.4161,
      "step": 19
    },
    {
      "epoch": 0.006658343736995423,
      "grad_norm": 2.238077402114868,
      "learning_rate": 6.952264561909527e-05,
      "loss": 41.3963,
      "step": 20
    },
    {
      "epoch": 0.006991260923845194,
      "grad_norm": 2.1106245517730713,
      "learning_rate": 6.942267762053337e-05,
      "loss": 41.4235,
      "step": 21
    },
    {
      "epoch": 0.007324178110694964,
      "grad_norm": 2.1262357234954834,
      "learning_rate": 6.931329880561832e-05,
      "loss": 41.3771,
      "step": 22
    },
    {
      "epoch": 0.007657095297544735,
      "grad_norm": 2.1973509788513184,
      "learning_rate": 6.919453907742597e-05,
      "loss": 41.3827,
      "step": 23
    },
    {
      "epoch": 0.007990012484394507,
      "grad_norm": 2.2817211151123047,
      "learning_rate": 6.90664309036802e-05,
      "loss": 41.3684,
      "step": 24
    },
    {
      "epoch": 0.008322929671244279,
      "grad_norm": 2.1451680660247803,
      "learning_rate": 6.892900930787656e-05,
      "loss": 41.3657,
      "step": 25
    },
    {
      "epoch": 0.008655846858094049,
      "grad_norm": 2.2792739868164062,
      "learning_rate": 6.87823118597072e-05,
      "loss": 41.3401,
      "step": 26
    },
    {
      "epoch": 0.008988764044943821,
      "grad_norm": 2.215949058532715,
      "learning_rate": 6.862637866478969e-05,
      "loss": 41.3516,
      "step": 27
    },
    {
      "epoch": 0.009321681231793591,
      "grad_norm": 2.3315978050231934,
      "learning_rate": 6.846125235370252e-05,
      "loss": 41.3321,
      "step": 28
    },
    {
      "epoch": 0.009654598418643362,
      "grad_norm": 2.4486584663391113,
      "learning_rate": 6.828697807033038e-05,
      "loss": 41.3163,
      "step": 29
    },
    {
      "epoch": 0.009987515605493134,
      "grad_norm": 2.5066885948181152,
      "learning_rate": 6.81036034595222e-05,
      "loss": 41.3124,
      "step": 30
    },
    {
      "epoch": 0.010320432792342904,
      "grad_norm": 2.506309747695923,
      "learning_rate": 6.791117865406564e-05,
      "loss": 41.2818,
      "step": 31
    },
    {
      "epoch": 0.010653349979192676,
      "grad_norm": 2.4515650272369385,
      "learning_rate": 6.770975626098112e-05,
      "loss": 41.2798,
      "step": 32
    },
    {
      "epoch": 0.010986267166042446,
      "grad_norm": 2.3991332054138184,
      "learning_rate": 6.749939134713974e-05,
      "loss": 41.283,
      "step": 33
    },
    {
      "epoch": 0.011319184352892218,
      "grad_norm": 2.327986240386963,
      "learning_rate": 6.728014142420846e-05,
      "loss": 41.2918,
      "step": 34
    },
    {
      "epoch": 0.011652101539741989,
      "grad_norm": 2.2945783138275146,
      "learning_rate": 6.7052066432927e-05,
      "loss": 41.257,
      "step": 35
    },
    {
      "epoch": 0.01198501872659176,
      "grad_norm": 2.445061445236206,
      "learning_rate": 6.681522872672069e-05,
      "loss": 41.2448,
      "step": 36
    },
    {
      "epoch": 0.012317935913441531,
      "grad_norm": 2.3847179412841797,
      "learning_rate": 6.656969305465356e-05,
      "loss": 41.2389,
      "step": 37
    },
    {
      "epoch": 0.012650853100291303,
      "grad_norm": 2.1190834045410156,
      "learning_rate": 6.631552654372672e-05,
      "loss": 41.236,
      "step": 38
    },
    {
      "epoch": 0.012983770287141073,
      "grad_norm": 2.0182554721832275,
      "learning_rate": 6.60527986805264e-05,
      "loss": 41.2218,
      "step": 39
    },
    {
      "epoch": 0.013316687473990845,
      "grad_norm": 2.2660741806030273,
      "learning_rate": 6.578158129222711e-05,
      "loss": 41.2069,
      "step": 40
    },
    {
      "epoch": 0.013649604660840616,
      "grad_norm": 2.036485433578491,
      "learning_rate": 6.550194852695469e-05,
      "loss": 41.2141,
      "step": 41
    },
    {
      "epoch": 0.013982521847690388,
      "grad_norm": 2.152125597000122,
      "learning_rate": 6.521397683351509e-05,
      "loss": 41.1895,
      "step": 42
    },
    {
      "epoch": 0.014315439034540158,
      "grad_norm": 1.9263800382614136,
      "learning_rate": 6.491774494049386e-05,
      "loss": 41.1751,
      "step": 43
    },
    {
      "epoch": 0.014648356221389928,
      "grad_norm": 1.9366573095321655,
      "learning_rate": 6.461333383473272e-05,
      "loss": 41.1583,
      "step": 44
    },
    {
      "epoch": 0.0149812734082397,
      "grad_norm": 1.9731613397598267,
      "learning_rate": 6.430082673918849e-05,
      "loss": 41.142,
      "step": 45
    },
    {
      "epoch": 0.01531419059508947,
      "grad_norm": 1.8909395933151245,
      "learning_rate": 6.398030909018069e-05,
      "loss": 41.1476,
      "step": 46
    },
    {
      "epoch": 0.015647107781939243,
      "grad_norm": 1.7645783424377441,
      "learning_rate": 6.365186851403423e-05,
      "loss": 41.1339,
      "step": 47
    },
    {
      "epoch": 0.015980024968789013,
      "grad_norm": 1.76289963722229,
      "learning_rate": 6.331559480312315e-05,
      "loss": 41.1443,
      "step": 48
    },
    {
      "epoch": 0.016312942155638784,
      "grad_norm": 1.5803886651992798,
      "learning_rate": 6.297157989132236e-05,
      "loss": 41.1676,
      "step": 49
    },
    {
      "epoch": 0.016645859342488557,
      "grad_norm": 1.5209460258483887,
      "learning_rate": 6.261991782887377e-05,
      "loss": 41.1441,
      "step": 50
    },
    {
      "epoch": 0.016645859342488557,
      "eval_loss": 10.287571907043457,
      "eval_runtime": 10.7091,
      "eval_samples_per_second": 472.401,
      "eval_steps_per_second": 118.124,
      "step": 50
    },
    {
      "epoch": 0.016978776529338328,
      "grad_norm": 1.5415308475494385,
      "learning_rate": 6.226070475667393e-05,
      "loss": 41.2151,
      "step": 51
    },
    {
      "epoch": 0.017311693716188098,
      "grad_norm": 1.4335319995880127,
      "learning_rate": 6.189403887999006e-05,
      "loss": 41.1808,
      "step": 52
    },
    {
      "epoch": 0.017644610903037868,
      "grad_norm": 1.3350977897644043,
      "learning_rate": 6.152002044161171e-05,
      "loss": 41.1851,
      "step": 53
    },
    {
      "epoch": 0.017977528089887642,
      "grad_norm": 1.3534821271896362,
      "learning_rate": 6.113875169444539e-05,
      "loss": 41.1565,
      "step": 54
    },
    {
      "epoch": 0.018310445276737412,
      "grad_norm": 1.3069781064987183,
      "learning_rate": 6.0750336873559605e-05,
      "loss": 41.1256,
      "step": 55
    },
    {
      "epoch": 0.018643362463587183,
      "grad_norm": 1.2225654125213623,
      "learning_rate": 6.035488216768811e-05,
      "loss": 41.1451,
      "step": 56
    },
    {
      "epoch": 0.018976279650436953,
      "grad_norm": 1.2042195796966553,
      "learning_rate": 5.9952495690198894e-05,
      "loss": 41.1622,
      "step": 57
    },
    {
      "epoch": 0.019309196837286723,
      "grad_norm": 1.1717185974121094,
      "learning_rate": 5.954328744953709e-05,
      "loss": 41.1366,
      "step": 58
    },
    {
      "epoch": 0.019642114024136497,
      "grad_norm": 1.126446008682251,
      "learning_rate": 5.91273693191498e-05,
      "loss": 41.148,
      "step": 59
    },
    {
      "epoch": 0.019975031210986267,
      "grad_norm": 0.9775568246841431,
      "learning_rate": 5.870485500690094e-05,
      "loss": 41.1369,
      "step": 60
    },
    {
      "epoch": 0.020307948397836038,
      "grad_norm": 1.0347778797149658,
      "learning_rate": 5.827586002398468e-05,
      "loss": 41.1328,
      "step": 61
    },
    {
      "epoch": 0.020640865584685808,
      "grad_norm": 0.8622497916221619,
      "learning_rate": 5.784050165334589e-05,
      "loss": 41.144,
      "step": 62
    },
    {
      "epoch": 0.020973782771535582,
      "grad_norm": 0.9803030490875244,
      "learning_rate": 5.739889891761608e-05,
      "loss": 41.1309,
      "step": 63
    },
    {
      "epoch": 0.021306699958385352,
      "grad_norm": 0.9358128905296326,
      "learning_rate": 5.6951172546573794e-05,
      "loss": 41.1271,
      "step": 64
    },
    {
      "epoch": 0.021639617145235122,
      "grad_norm": 0.8063554763793945,
      "learning_rate": 5.6497444944138376e-05,
      "loss": 41.0897,
      "step": 65
    },
    {
      "epoch": 0.021972534332084893,
      "grad_norm": 0.9550796747207642,
      "learning_rate": 5.603784015490587e-05,
      "loss": 41.092,
      "step": 66
    },
    {
      "epoch": 0.022305451518934667,
      "grad_norm": 0.8177747130393982,
      "learning_rate": 5.557248383023655e-05,
      "loss": 41.1075,
      "step": 67
    },
    {
      "epoch": 0.022638368705784437,
      "grad_norm": 0.6729837656021118,
      "learning_rate": 5.510150319390302e-05,
      "loss": 41.1012,
      "step": 68
    },
    {
      "epoch": 0.022971285892634207,
      "grad_norm": 0.7371522784233093,
      "learning_rate": 5.4625027007308546e-05,
      "loss": 41.1085,
      "step": 69
    },
    {
      "epoch": 0.023304203079483977,
      "grad_norm": 0.6779530644416809,
      "learning_rate": 5.414318553428494e-05,
      "loss": 41.0891,
      "step": 70
    },
    {
      "epoch": 0.023637120266333748,
      "grad_norm": 0.6746012568473816,
      "learning_rate": 5.3656110505479776e-05,
      "loss": 41.096,
      "step": 71
    },
    {
      "epoch": 0.02397003745318352,
      "grad_norm": 0.8175790309906006,
      "learning_rate": 5.316393508234253e-05,
      "loss": 41.0752,
      "step": 72
    },
    {
      "epoch": 0.024302954640033292,
      "grad_norm": 0.6280568242073059,
      "learning_rate": 5.266679382071953e-05,
      "loss": 41.0621,
      "step": 73
    },
    {
      "epoch": 0.024635871826883062,
      "grad_norm": 0.6062315106391907,
      "learning_rate": 5.216482263406778e-05,
      "loss": 41.09,
      "step": 74
    },
    {
      "epoch": 0.024968789013732832,
      "grad_norm": 0.6660148501396179,
      "learning_rate": 5.1658158756297576e-05,
      "loss": 41.072,
      "step": 75
    },
    {
      "epoch": 0.025301706200582606,
      "grad_norm": 0.701021134853363,
      "learning_rate": 5.114694070425407e-05,
      "loss": 41.0871,
      "step": 76
    },
    {
      "epoch": 0.025634623387432377,
      "grad_norm": 0.6336947083473206,
      "learning_rate": 5.063130823984823e-05,
      "loss": 41.077,
      "step": 77
    },
    {
      "epoch": 0.025967540574282147,
      "grad_norm": 0.5735974311828613,
      "learning_rate": 5.011140233184724e-05,
      "loss": 41.0699,
      "step": 78
    },
    {
      "epoch": 0.026300457761131917,
      "grad_norm": 0.5765305161476135,
      "learning_rate": 4.958736511733516e-05,
      "loss": 41.0483,
      "step": 79
    },
    {
      "epoch": 0.02663337494798169,
      "grad_norm": 0.5047883987426758,
      "learning_rate": 4.905933986285393e-05,
      "loss": 41.0463,
      "step": 80
    },
    {
      "epoch": 0.02696629213483146,
      "grad_norm": 0.5121444463729858,
      "learning_rate": 4.8527470925235824e-05,
      "loss": 41.0649,
      "step": 81
    },
    {
      "epoch": 0.02729920932168123,
      "grad_norm": 0.43767592310905457,
      "learning_rate": 4.799190371213772e-05,
      "loss": 41.0737,
      "step": 82
    },
    {
      "epoch": 0.027632126508531002,
      "grad_norm": 0.6481714844703674,
      "learning_rate": 4.745278464228808e-05,
      "loss": 41.0916,
      "step": 83
    },
    {
      "epoch": 0.027965043695380776,
      "grad_norm": 0.7096500396728516,
      "learning_rate": 4.69102611054575e-05,
      "loss": 41.0521,
      "step": 84
    },
    {
      "epoch": 0.028297960882230546,
      "grad_norm": 0.5407412648200989,
      "learning_rate": 4.6364481422163926e-05,
      "loss": 41.0544,
      "step": 85
    },
    {
      "epoch": 0.028630878069080316,
      "grad_norm": 0.5357888340950012,
      "learning_rate": 4.581559480312316e-05,
      "loss": 41.0951,
      "step": 86
    },
    {
      "epoch": 0.028963795255930087,
      "grad_norm": 0.471143513917923,
      "learning_rate": 4.526375130845627e-05,
      "loss": 41.081,
      "step": 87
    },
    {
      "epoch": 0.029296712442779857,
      "grad_norm": 0.6328956484794617,
      "learning_rate": 4.4709101806664554e-05,
      "loss": 41.0147,
      "step": 88
    },
    {
      "epoch": 0.02962962962962963,
      "grad_norm": 0.5214835405349731,
      "learning_rate": 4.4151797933383685e-05,
      "loss": 41.0487,
      "step": 89
    },
    {
      "epoch": 0.0299625468164794,
      "grad_norm": 0.5765516757965088,
      "learning_rate": 4.359199204992797e-05,
      "loss": 41.0859,
      "step": 90
    },
    {
      "epoch": 0.03029546400332917,
      "grad_norm": 0.6593797206878662,
      "learning_rate": 4.30298372016363e-05,
      "loss": 41.065,
      "step": 91
    },
    {
      "epoch": 0.03062838119017894,
      "grad_norm": 0.7349061965942383,
      "learning_rate": 4.246548707603114e-05,
      "loss": 41.037,
      "step": 92
    },
    {
      "epoch": 0.030961298377028715,
      "grad_norm": 0.5501776337623596,
      "learning_rate": 4.1899095960801805e-05,
      "loss": 41.0407,
      "step": 93
    },
    {
      "epoch": 0.031294215563878486,
      "grad_norm": 0.5998566746711731,
      "learning_rate": 4.133081870162385e-05,
      "loss": 41.053,
      "step": 94
    },
    {
      "epoch": 0.03162713275072826,
      "grad_norm": 0.5956815481185913,
      "learning_rate": 4.076081065982569e-05,
      "loss": 41.0459,
      "step": 95
    },
    {
      "epoch": 0.031960049937578026,
      "grad_norm": 0.5554749369621277,
      "learning_rate": 4.018922766991447e-05,
      "loss": 41.094,
      "step": 96
    },
    {
      "epoch": 0.0322929671244278,
      "grad_norm": 0.4946866035461426,
      "learning_rate": 3.961622599697241e-05,
      "loss": 41.0471,
      "step": 97
    },
    {
      "epoch": 0.03262588431127757,
      "grad_norm": 0.7741467952728271,
      "learning_rate": 3.9041962293935516e-05,
      "loss": 41.0389,
      "step": 98
    },
    {
      "epoch": 0.03295880149812734,
      "grad_norm": 0.536220908164978,
      "learning_rate": 3.84665935587662e-05,
      "loss": 41.0309,
      "step": 99
    },
    {
      "epoch": 0.033291718684977115,
      "grad_norm": 0.7087311744689941,
      "learning_rate": 3.7890277091531636e-05,
      "loss": 41.0805,
      "step": 100
    },
    {
      "epoch": 0.033291718684977115,
      "eval_loss": 10.268265724182129,
      "eval_runtime": 10.7156,
      "eval_samples_per_second": 472.115,
      "eval_steps_per_second": 118.052,
      "step": 100
    },
    {
      "epoch": 0.03362463587182688,
      "grad_norm": 0.9653616547584534,
      "learning_rate": 3.7313170451399475e-05,
      "loss": 41.1458,
      "step": 101
    },
    {
      "epoch": 0.033957553058676655,
      "grad_norm": 0.7120814323425293,
      "learning_rate": 3.673543141356278e-05,
      "loss": 41.1225,
      "step": 102
    },
    {
      "epoch": 0.03429047024552642,
      "grad_norm": 0.7734652161598206,
      "learning_rate": 3.6157217926105783e-05,
      "loss": 41.0911,
      "step": 103
    },
    {
      "epoch": 0.034623387432376196,
      "grad_norm": 0.8058983683586121,
      "learning_rate": 3.557868806682255e-05,
      "loss": 41.1292,
      "step": 104
    },
    {
      "epoch": 0.03495630461922597,
      "grad_norm": 0.7713319659233093,
      "learning_rate": 3.5e-05,
      "loss": 41.0599,
      "step": 105
    },
    {
      "epoch": 0.035289221806075736,
      "grad_norm": 0.668918251991272,
      "learning_rate": 3.442131193317745e-05,
      "loss": 41.0562,
      "step": 106
    },
    {
      "epoch": 0.03562213899292551,
      "grad_norm": 0.6046922206878662,
      "learning_rate": 3.384278207389421e-05,
      "loss": 41.117,
      "step": 107
    },
    {
      "epoch": 0.035955056179775284,
      "grad_norm": 0.615520179271698,
      "learning_rate": 3.3264568586437216e-05,
      "loss": 41.0757,
      "step": 108
    },
    {
      "epoch": 0.03628797336662505,
      "grad_norm": 0.5750020742416382,
      "learning_rate": 3.268682954860052e-05,
      "loss": 41.0803,
      "step": 109
    },
    {
      "epoch": 0.036620890553474825,
      "grad_norm": 0.5789351463317871,
      "learning_rate": 3.210972290846837e-05,
      "loss": 41.0764,
      "step": 110
    },
    {
      "epoch": 0.03695380774032459,
      "grad_norm": 0.495280385017395,
      "learning_rate": 3.15334064412338e-05,
      "loss": 41.0853,
      "step": 111
    },
    {
      "epoch": 0.037286724927174365,
      "grad_norm": 0.607459306716919,
      "learning_rate": 3.0958037706064485e-05,
      "loss": 41.0856,
      "step": 112
    },
    {
      "epoch": 0.03761964211402414,
      "grad_norm": 0.5672668218612671,
      "learning_rate": 3.038377400302758e-05,
      "loss": 41.0905,
      "step": 113
    },
    {
      "epoch": 0.037952559300873906,
      "grad_norm": 0.4067647159099579,
      "learning_rate": 2.9810772330085524e-05,
      "loss": 41.0658,
      "step": 114
    },
    {
      "epoch": 0.03828547648772368,
      "grad_norm": 0.4445897042751312,
      "learning_rate": 2.9239189340174306e-05,
      "loss": 41.0757,
      "step": 115
    },
    {
      "epoch": 0.03861839367457345,
      "grad_norm": 0.49568378925323486,
      "learning_rate": 2.8669181298376163e-05,
      "loss": 41.0665,
      "step": 116
    },
    {
      "epoch": 0.03895131086142322,
      "grad_norm": 0.465396523475647,
      "learning_rate": 2.8100904039198193e-05,
      "loss": 41.0955,
      "step": 117
    },
    {
      "epoch": 0.039284228048272994,
      "grad_norm": 0.5162220597267151,
      "learning_rate": 2.7534512923968863e-05,
      "loss": 41.0538,
      "step": 118
    },
    {
      "epoch": 0.03961714523512276,
      "grad_norm": 0.5179729461669922,
      "learning_rate": 2.6970162798363695e-05,
      "loss": 41.0789,
      "step": 119
    },
    {
      "epoch": 0.039950062421972535,
      "grad_norm": 0.3789314329624176,
      "learning_rate": 2.640800795007203e-05,
      "loss": 41.0536,
      "step": 120
    },
    {
      "epoch": 0.04028297960882231,
      "grad_norm": 0.5198574066162109,
      "learning_rate": 2.5848202066616305e-05,
      "loss": 41.0854,
      "step": 121
    },
    {
      "epoch": 0.040615896795672075,
      "grad_norm": 0.7691577672958374,
      "learning_rate": 2.5290898193335446e-05,
      "loss": 41.0657,
      "step": 122
    },
    {
      "epoch": 0.04094881398252185,
      "grad_norm": 0.4329979419708252,
      "learning_rate": 2.4736248691543736e-05,
      "loss": 41.0486,
      "step": 123
    },
    {
      "epoch": 0.041281731169371616,
      "grad_norm": 0.4044908285140991,
      "learning_rate": 2.4184405196876842e-05,
      "loss": 41.0679,
      "step": 124
    },
    {
      "epoch": 0.04161464835622139,
      "grad_norm": 0.47338008880615234,
      "learning_rate": 2.363551857783608e-05,
      "loss": 41.0595,
      "step": 125
    },
    {
      "epoch": 0.041947565543071164,
      "grad_norm": 0.40356704592704773,
      "learning_rate": 2.308973889454249e-05,
      "loss": 41.0371,
      "step": 126
    },
    {
      "epoch": 0.04228048272992093,
      "grad_norm": 0.46097269654273987,
      "learning_rate": 2.2547215357711918e-05,
      "loss": 41.0382,
      "step": 127
    },
    {
      "epoch": 0.042613399916770704,
      "grad_norm": 0.5834002494812012,
      "learning_rate": 2.2008096287862266e-05,
      "loss": 41.0317,
      "step": 128
    },
    {
      "epoch": 0.04294631710362047,
      "grad_norm": 0.4960689842700958,
      "learning_rate": 2.1472529074764177e-05,
      "loss": 41.0702,
      "step": 129
    },
    {
      "epoch": 0.043279234290470245,
      "grad_norm": 0.5823487043380737,
      "learning_rate": 2.0940660137146074e-05,
      "loss": 41.0304,
      "step": 130
    },
    {
      "epoch": 0.04361215147732002,
      "grad_norm": 0.5733532905578613,
      "learning_rate": 2.041263488266484e-05,
      "loss": 41.0478,
      "step": 131
    },
    {
      "epoch": 0.043945068664169785,
      "grad_norm": 0.4891790449619293,
      "learning_rate": 1.988859766815275e-05,
      "loss": 41.071,
      "step": 132
    },
    {
      "epoch": 0.04427798585101956,
      "grad_norm": 0.623074471950531,
      "learning_rate": 1.9368691760151773e-05,
      "loss": 41.0059,
      "step": 133
    },
    {
      "epoch": 0.04461090303786933,
      "grad_norm": 0.46600988507270813,
      "learning_rate": 1.885305929574593e-05,
      "loss": 41.0281,
      "step": 134
    },
    {
      "epoch": 0.0449438202247191,
      "grad_norm": 0.6511916518211365,
      "learning_rate": 1.8341841243702424e-05,
      "loss": 41.0053,
      "step": 135
    },
    {
      "epoch": 0.045276737411568874,
      "grad_norm": 0.5773023962974548,
      "learning_rate": 1.7835177365932225e-05,
      "loss": 41.0085,
      "step": 136
    },
    {
      "epoch": 0.04560965459841864,
      "grad_norm": 0.629172146320343,
      "learning_rate": 1.7333206179280478e-05,
      "loss": 41.0248,
      "step": 137
    },
    {
      "epoch": 0.045942571785268414,
      "grad_norm": 0.5709488391876221,
      "learning_rate": 1.6836064917657478e-05,
      "loss": 41.0355,
      "step": 138
    },
    {
      "epoch": 0.04627548897211819,
      "grad_norm": 0.6980351209640503,
      "learning_rate": 1.6343889494520224e-05,
      "loss": 41.0265,
      "step": 139
    },
    {
      "epoch": 0.046608406158967955,
      "grad_norm": 0.6503186225891113,
      "learning_rate": 1.5856814465715064e-05,
      "loss": 41.0168,
      "step": 140
    },
    {
      "epoch": 0.04694132334581773,
      "grad_norm": 0.6362338066101074,
      "learning_rate": 1.5374972992691458e-05,
      "loss": 41.0438,
      "step": 141
    },
    {
      "epoch": 0.047274240532667496,
      "grad_norm": 0.6247021555900574,
      "learning_rate": 1.4898496806096974e-05,
      "loss": 41.0625,
      "step": 142
    },
    {
      "epoch": 0.04760715771951727,
      "grad_norm": 0.5643784999847412,
      "learning_rate": 1.4427516169763444e-05,
      "loss": 41.0386,
      "step": 143
    },
    {
      "epoch": 0.04794007490636704,
      "grad_norm": 0.657160222530365,
      "learning_rate": 1.396215984509412e-05,
      "loss": 41.0016,
      "step": 144
    },
    {
      "epoch": 0.04827299209321681,
      "grad_norm": 0.6254180669784546,
      "learning_rate": 1.3502555055861625e-05,
      "loss": 41.045,
      "step": 145
    },
    {
      "epoch": 0.048605909280066584,
      "grad_norm": 0.7680043578147888,
      "learning_rate": 1.3048827453426203e-05,
      "loss": 41.0091,
      "step": 146
    },
    {
      "epoch": 0.04893882646691636,
      "grad_norm": 0.7392878532409668,
      "learning_rate": 1.2601101082383917e-05,
      "loss": 40.9964,
      "step": 147
    },
    {
      "epoch": 0.049271743653766124,
      "grad_norm": 0.7142351269721985,
      "learning_rate": 1.2159498346654094e-05,
      "loss": 40.9972,
      "step": 148
    },
    {
      "epoch": 0.0496046608406159,
      "grad_norm": 0.6166180968284607,
      "learning_rate": 1.1724139976015306e-05,
      "loss": 41.006,
      "step": 149
    },
    {
      "epoch": 0.049937578027465665,
      "grad_norm": 0.9231532216072083,
      "learning_rate": 1.1295144993099068e-05,
      "loss": 41.0886,
      "step": 150
    },
    {
      "epoch": 0.049937578027465665,
      "eval_loss": 10.262248039245605,
      "eval_runtime": 10.7326,
      "eval_samples_per_second": 471.367,
      "eval_steps_per_second": 117.865,
      "step": 150
    },
    {
      "epoch": 0.05027049521431544,
      "grad_norm": 0.8001415729522705,
      "learning_rate": 1.0872630680850196e-05,
      "loss": 41.1012,
      "step": 151
    },
    {
      "epoch": 0.05060341240116521,
      "grad_norm": 0.7694603800773621,
      "learning_rate": 1.0456712550462898e-05,
      "loss": 41.117,
      "step": 152
    },
    {
      "epoch": 0.05093632958801498,
      "grad_norm": 0.7938184142112732,
      "learning_rate": 1.0047504309801104e-05,
      "loss": 41.103,
      "step": 153
    },
    {
      "epoch": 0.05126924677486475,
      "grad_norm": 0.5836057066917419,
      "learning_rate": 9.645117832311886e-06,
      "loss": 41.0693,
      "step": 154
    },
    {
      "epoch": 0.05160216396171453,
      "grad_norm": 0.5496195554733276,
      "learning_rate": 9.249663126440394e-06,
      "loss": 41.0669,
      "step": 155
    },
    {
      "epoch": 0.051935081148564294,
      "grad_norm": 0.6169582009315491,
      "learning_rate": 8.861248305554624e-06,
      "loss": 41.0967,
      "step": 156
    },
    {
      "epoch": 0.05226799833541407,
      "grad_norm": 0.4883742034435272,
      "learning_rate": 8.47997955838829e-06,
      "loss": 41.1008,
      "step": 157
    },
    {
      "epoch": 0.052600915522263834,
      "grad_norm": 0.5428755283355713,
      "learning_rate": 8.10596112000994e-06,
      "loss": 41.0709,
      "step": 158
    },
    {
      "epoch": 0.05293383270911361,
      "grad_norm": 0.5797662138938904,
      "learning_rate": 7.739295243326067e-06,
      "loss": 41.0321,
      "step": 159
    },
    {
      "epoch": 0.05326674989596338,
      "grad_norm": 0.6161291003227234,
      "learning_rate": 7.380082171126228e-06,
      "loss": 41.077,
      "step": 160
    },
    {
      "epoch": 0.05359966708281315,
      "grad_norm": 0.598327100276947,
      "learning_rate": 7.028420108677635e-06,
      "loss": 41.0645,
      "step": 161
    },
    {
      "epoch": 0.05393258426966292,
      "grad_norm": 0.5808107256889343,
      "learning_rate": 6.684405196876842e-06,
      "loss": 41.0265,
      "step": 162
    },
    {
      "epoch": 0.05426550145651269,
      "grad_norm": 0.6382800936698914,
      "learning_rate": 6.3481314859657675e-06,
      "loss": 41.0656,
      "step": 163
    },
    {
      "epoch": 0.05459841864336246,
      "grad_norm": 0.44673022627830505,
      "learning_rate": 6.019690909819298e-06,
      "loss": 41.0245,
      "step": 164
    },
    {
      "epoch": 0.05493133583021224,
      "grad_norm": 0.469079852104187,
      "learning_rate": 5.6991732608115e-06,
      "loss": 41.0363,
      "step": 165
    },
    {
      "epoch": 0.055264253017062004,
      "grad_norm": 0.5565744638442993,
      "learning_rate": 5.386666165267256e-06,
      "loss": 41.0467,
      "step": 166
    },
    {
      "epoch": 0.05559717020391178,
      "grad_norm": 0.6388062238693237,
      "learning_rate": 5.08225505950613e-06,
      "loss": 41.0189,
      "step": 167
    },
    {
      "epoch": 0.05593008739076155,
      "grad_norm": 0.5634681582450867,
      "learning_rate": 4.786023166484913e-06,
      "loss": 41.0364,
      "step": 168
    },
    {
      "epoch": 0.05626300457761132,
      "grad_norm": 0.5933141112327576,
      "learning_rate": 4.498051473045291e-06,
      "loss": 41.0287,
      "step": 169
    },
    {
      "epoch": 0.05659592176446109,
      "grad_norm": 0.48834025859832764,
      "learning_rate": 4.218418707772886e-06,
      "loss": 41.0612,
      "step": 170
    },
    {
      "epoch": 0.05692883895131086,
      "grad_norm": 0.5159215331077576,
      "learning_rate": 3.947201319473587e-06,
      "loss": 41.0568,
      "step": 171
    },
    {
      "epoch": 0.05726175613816063,
      "grad_norm": 0.5803120732307434,
      "learning_rate": 3.684473456273278e-06,
      "loss": 41.0266,
      "step": 172
    },
    {
      "epoch": 0.057594673325010406,
      "grad_norm": 0.57649165391922,
      "learning_rate": 3.4303069453464383e-06,
      "loss": 41.0331,
      "step": 173
    },
    {
      "epoch": 0.05792759051186017,
      "grad_norm": 0.61393141746521,
      "learning_rate": 3.184771273279312e-06,
      "loss": 41.0552,
      "step": 174
    },
    {
      "epoch": 0.05826050769870995,
      "grad_norm": 0.5317950248718262,
      "learning_rate": 2.947933567072987e-06,
      "loss": 41.0228,
      "step": 175
    },
    {
      "epoch": 0.058593424885559714,
      "grad_norm": 0.48595812916755676,
      "learning_rate": 2.719858575791534e-06,
      "loss": 41.0375,
      "step": 176
    },
    {
      "epoch": 0.05892634207240949,
      "grad_norm": 0.49754223227500916,
      "learning_rate": 2.500608652860256e-06,
      "loss": 41.0552,
      "step": 177
    },
    {
      "epoch": 0.05925925925925926,
      "grad_norm": 0.6193941831588745,
      "learning_rate": 2.2902437390188737e-06,
      "loss": 40.9956,
      "step": 178
    },
    {
      "epoch": 0.05959217644610903,
      "grad_norm": 0.5707698464393616,
      "learning_rate": 2.0888213459343587e-06,
      "loss": 41.0366,
      "step": 179
    },
    {
      "epoch": 0.0599250936329588,
      "grad_norm": 0.5854395627975464,
      "learning_rate": 1.8963965404777875e-06,
      "loss": 41.0143,
      "step": 180
    },
    {
      "epoch": 0.060258010819808576,
      "grad_norm": 0.5208054184913635,
      "learning_rate": 1.7130219296696263e-06,
      "loss": 40.9973,
      "step": 181
    },
    {
      "epoch": 0.06059092800665834,
      "grad_norm": 0.5990257859230042,
      "learning_rate": 1.5387476462974824e-06,
      "loss": 41.0235,
      "step": 182
    },
    {
      "epoch": 0.06092384519350812,
      "grad_norm": 0.5134161114692688,
      "learning_rate": 1.3736213352103147e-06,
      "loss": 41.0135,
      "step": 183
    },
    {
      "epoch": 0.06125676238035788,
      "grad_norm": 0.5945471525192261,
      "learning_rate": 1.2176881402928002e-06,
      "loss": 41.0072,
      "step": 184
    },
    {
      "epoch": 0.06158967956720766,
      "grad_norm": 0.6144059896469116,
      "learning_rate": 1.0709906921234367e-06,
      "loss": 41.0334,
      "step": 185
    },
    {
      "epoch": 0.06192259675405743,
      "grad_norm": 0.6209852695465088,
      "learning_rate": 9.33569096319799e-07,
      "loss": 41.0274,
      "step": 186
    },
    {
      "epoch": 0.0622555139409072,
      "grad_norm": 0.6287532448768616,
      "learning_rate": 8.054609225740255e-07,
      "loss": 41.0106,
      "step": 187
    },
    {
      "epoch": 0.06258843112775697,
      "grad_norm": 0.5547453761100769,
      "learning_rate": 6.867011943816724e-07,
      "loss": 41.0085,
      "step": 188
    },
    {
      "epoch": 0.06292134831460675,
      "grad_norm": 0.7114250063896179,
      "learning_rate": 5.77322379466617e-07,
      "loss": 40.9888,
      "step": 189
    },
    {
      "epoch": 0.06325426550145652,
      "grad_norm": 0.6250276565551758,
      "learning_rate": 4.773543809047186e-07,
      "loss": 41.0199,
      "step": 190
    },
    {
      "epoch": 0.06358718268830628,
      "grad_norm": 0.6356672644615173,
      "learning_rate": 3.868245289486027e-07,
      "loss": 41.0006,
      "step": 191
    },
    {
      "epoch": 0.06392009987515605,
      "grad_norm": 0.707398533821106,
      "learning_rate": 3.0575757355586817e-07,
      "loss": 41.0176,
      "step": 192
    },
    {
      "epoch": 0.06425301706200583,
      "grad_norm": 0.7974705696105957,
      "learning_rate": 2.3417567762266497e-07,
      "loss": 40.9893,
      "step": 193
    },
    {
      "epoch": 0.0645859342488556,
      "grad_norm": 0.7233973145484924,
      "learning_rate": 1.7209841092460043e-07,
      "loss": 41.0047,
      "step": 194
    },
    {
      "epoch": 0.06491885143570537,
      "grad_norm": 0.6911036372184753,
      "learning_rate": 1.1954274476655534e-07,
      "loss": 40.9815,
      "step": 195
    },
    {
      "epoch": 0.06525176862255513,
      "grad_norm": 0.6358321905136108,
      "learning_rate": 7.652304734289127e-08,
      "loss": 41.017,
      "step": 196
    },
    {
      "epoch": 0.06558468580940491,
      "grad_norm": 0.6849088072776794,
      "learning_rate": 4.30510798093342e-08,
      "loss": 41.0209,
      "step": 197
    },
    {
      "epoch": 0.06591760299625468,
      "grad_norm": 0.7729690074920654,
      "learning_rate": 1.9135993067588284e-08,
      "loss": 40.9803,
      "step": 198
    },
    {
      "epoch": 0.06625052018310446,
      "grad_norm": 0.76516193151474,
      "learning_rate": 4.784325263584854e-09,
      "loss": 41.0177,
      "step": 199
    },
    {
      "epoch": 0.06658343736995423,
      "grad_norm": 0.8407421112060547,
      "learning_rate": 0.0,
      "loss": 41.0271,
      "step": 200
    },
    {
      "epoch": 0.06658343736995423,
      "eval_loss": 10.260876655578613,
      "eval_runtime": 10.6326,
      "eval_samples_per_second": 475.801,
      "eval_steps_per_second": 118.974,
      "step": 200
    }
  ],
  "logging_steps": 1,
  "max_steps": 200,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 50,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 4,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 43713668579328.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}