Training in progress, step 535, checkpoint

360b71f verified 13 days ago

93.8 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0014025245441796,
	"eval_steps": 134,
	"global_step": 535,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0018700327255726976,
	"grad_norm": 13.994741439819336,
	"learning_rate": 2e-05,
	"loss": 3.2962,
	"step": 1
	},
	{
	"epoch": 0.0037400654511453952,
	"grad_norm": 16.602272033691406,
	"learning_rate": 4e-05,
	"loss": 3.6632,
	"step": 2
	},
	{
	"epoch": 0.005610098176718092,
	"grad_norm": 21.41153335571289,
	"learning_rate": 6e-05,
	"loss": 3.8852,
	"step": 3
	},
	{
	"epoch": 0.0074801309022907905,
	"grad_norm": 15.502434730529785,
	"learning_rate": 8e-05,
	"loss": 3.8645,
	"step": 4
	},
	{
	"epoch": 0.009350163627863487,
	"grad_norm": 14.494356155395508,
	"learning_rate": 0.0001,
	"loss": 3.868,
	"step": 5
	},
	{
	"epoch": 0.011220196353436185,
	"grad_norm": 20.01993751525879,
	"learning_rate": 0.00012,
	"loss": 3.5737,
	"step": 6
	},
	{
	"epoch": 0.013090229079008883,
	"grad_norm": 14.023553848266602,
	"learning_rate": 0.00014,
	"loss": 3.2279,
	"step": 7
	},
	{
	"epoch": 0.014960261804581581,
	"grad_norm": 15.476705551147461,
	"learning_rate": 0.00016,
	"loss": 3.8968,
	"step": 8
	},
	{
	"epoch": 0.016830294530154277,
	"grad_norm": 14.212241172790527,
	"learning_rate": 0.00018,
	"loss": 3.401,
	"step": 9
	},
	{
	"epoch": 0.018700327255726974,
	"grad_norm": 14.703544616699219,
	"learning_rate": 0.0002,
	"loss": 3.4936,
	"step": 10
	},
	{
	"epoch": 0.020570359981299673,
	"grad_norm": 14.499024391174316,
	"learning_rate": 0.00019999820960091608,
	"loss": 2.5218,
	"step": 11
	},
	{
	"epoch": 0.02244039270687237,
	"grad_norm": 16.242597579956055,
	"learning_rate": 0.00019999283846777488,
	"loss": 3.0075,
	"step": 12
	},
	{
	"epoch": 0.02431042543244507,
	"grad_norm": 16.940950393676758,
	"learning_rate": 0.00019998388679290583,
	"loss": 2.8596,
	"step": 13
	},
	{
	"epoch": 0.026180458158017766,
	"grad_norm": 13.73834228515625,
	"learning_rate": 0.00019997135489685034,
	"loss": 3.0382,
	"step": 14
	},
	{
	"epoch": 0.028050490883590462,
	"grad_norm": 16.882173538208008,
	"learning_rate": 0.00019995524322835034,
	"loss": 3.4678,
	"step": 15
	},
	{
	"epoch": 0.029920523609163162,
	"grad_norm": 15.432026863098145,
	"learning_rate": 0.00019993555236433213,
	"loss": 3.4976,
	"step": 16
	},
	{
	"epoch": 0.031790556334735855,
	"grad_norm": 16.355684280395508,
	"learning_rate": 0.00019991228300988585,
	"loss": 3.3903,
	"step": 17
	},
	{
	"epoch": 0.033660589060308554,
	"grad_norm": 13.33781909942627,
	"learning_rate": 0.00019988543599824005,
	"loss": 3.1913,
	"step": 18
	},
	{
	"epoch": 0.035530621785881254,
	"grad_norm": 18.799007415771484,
	"learning_rate": 0.0001998550122907321,
	"loss": 3.2008,
	"step": 19
	},
	{
	"epoch": 0.03740065451145395,
	"grad_norm": 13.545116424560547,
	"learning_rate": 0.0001998210129767735,
	"loss": 2.8425,
	"step": 20
	},
	{
	"epoch": 0.03927068723702665,
	"grad_norm": 14.966565132141113,
	"learning_rate": 0.00019978343927381113,
	"loss": 2.8036,
	"step": 21
	},
	{
	"epoch": 0.04114071996259935,
	"grad_norm": 17.932737350463867,
	"learning_rate": 0.00019974229252728342,
	"loss": 2.9432,
	"step": 22
	},
	{
	"epoch": 0.043010752688172046,
	"grad_norm": 16.62327766418457,
	"learning_rate": 0.0001996975742105723,
	"loss": 3.0234,
	"step": 23
	},
	{
	"epoch": 0.04488078541374474,
	"grad_norm": 17.949251174926758,
	"learning_rate": 0.00019964928592495045,
	"loss": 3.0715,
	"step": 24
	},
	{
	"epoch": 0.04675081813931744,
	"grad_norm": 18.255725860595703,
	"learning_rate": 0.00019959742939952392,
	"loss": 3.155,
	"step": 25
	},
	{
	"epoch": 0.04862085086489014,
	"grad_norm": 22.37006187438965,
	"learning_rate": 0.0001995420064911702,
	"loss": 3.0856,
	"step": 26
	},
	{
	"epoch": 0.05049088359046283,
	"grad_norm": 23.708791732788086,
	"learning_rate": 0.00019948301918447183,
	"loss": 3.1826,
	"step": 27
	},
	{
	"epoch": 0.05236091631603553,
	"grad_norm": 21.139902114868164,
	"learning_rate": 0.00019942046959164515,
	"loss": 3.1289,
	"step": 28
	},
	{
	"epoch": 0.05423094904160823,
	"grad_norm": 18.88515281677246,
	"learning_rate": 0.0001993543599524649,
	"loss": 3.2124,
	"step": 29
	},
	{
	"epoch": 0.056100981767180924,
	"grad_norm": 22.860271453857422,
	"learning_rate": 0.00019928469263418374,
	"loss": 3.1165,
	"step": 30
	},
	{
	"epoch": 0.057971014492753624,
	"grad_norm": 25.16404151916504,
	"learning_rate": 0.0001992114701314478,
	"loss": 3.6229,
	"step": 31
	},
	{
	"epoch": 0.059841047218326324,
	"grad_norm": 20.945270538330078,
	"learning_rate": 0.00019913469506620707,
	"loss": 3.2879,
	"step": 32
	},
	{
	"epoch": 0.061711079943899017,
	"grad_norm": 19.237075805664062,
	"learning_rate": 0.0001990543701876217,
	"loss": 2.9019,
	"step": 33
	},
	{
	"epoch": 0.06358111266947171,
	"grad_norm": 21.761228561401367,
	"learning_rate": 0.0001989704983719635,
	"loss": 2.7975,
	"step": 34
	},
	{
	"epoch": 0.06545114539504442,
	"grad_norm": 18.43031120300293,
	"learning_rate": 0.00019888308262251285,
	"loss": 2.6259,
	"step": 35
	},
	{
	"epoch": 0.06732117812061711,
	"grad_norm": 29.478282928466797,
	"learning_rate": 0.00019879212606945136,
	"loss": 3.4395,
	"step": 36
	},
	{
	"epoch": 0.0691912108461898,
	"grad_norm": 20.588619232177734,
	"learning_rate": 0.00019869763196974957,
	"loss": 2.4942,
	"step": 37
	},
	{
	"epoch": 0.07106124357176251,
	"grad_norm": 25.75873374938965,
	"learning_rate": 0.0001985996037070505,
	"loss": 3.6293,
	"step": 38
	},
	{
	"epoch": 0.0729312762973352,
	"grad_norm": 23.140533447265625,
	"learning_rate": 0.00019849804479154837,
	"loss": 2.928,
	"step": 39
	},
	{
	"epoch": 0.0748013090229079,
	"grad_norm": 25.42648696899414,
	"learning_rate": 0.00019839295885986296,
	"loss": 3.1603,
	"step": 40
	},
	{
	"epoch": 0.0766713417484806,
	"grad_norm": 25.744718551635742,
	"learning_rate": 0.00019828434967490943,
	"loss": 3.3389,
	"step": 41
	},
	{
	"epoch": 0.0785413744740533,
	"grad_norm": 39.95504379272461,
	"learning_rate": 0.0001981722211257634,
	"loss": 3.6146,
	"step": 42
	},
	{
	"epoch": 0.08041140719962599,
	"grad_norm": 32.589569091796875,
	"learning_rate": 0.00019805657722752202,
	"loss": 2.9932,
	"step": 43
	},
	{
	"epoch": 0.0822814399251987,
	"grad_norm": 48.44812774658203,
	"learning_rate": 0.00019793742212115978,
	"loss": 3.2977,
	"step": 44
	},
	{
	"epoch": 0.08415147265077139,
	"grad_norm": 46.82399368286133,
	"learning_rate": 0.00019781476007338058,
	"loss": 3.3127,
	"step": 45
	},
	{
	"epoch": 0.08602150537634409,
	"grad_norm": 35.45515441894531,
	"learning_rate": 0.00019768859547646478,
	"loss": 3.409,
	"step": 46
	},
	{
	"epoch": 0.08789153810191679,
	"grad_norm": 28.829622268676758,
	"learning_rate": 0.00019755893284811196,
	"loss": 3.4779,
	"step": 47
	},
	{
	"epoch": 0.08976157082748948,
	"grad_norm": 42.49812316894531,
	"learning_rate": 0.00019742577683127911,
	"loss": 3.7014,
	"step": 48
	},
	{
	"epoch": 0.09163160355306219,
	"grad_norm": 77.00621795654297,
	"learning_rate": 0.0001972891321940145,
	"loss": 5.1841,
	"step": 49
	},
	{
	"epoch": 0.09350163627863488,
	"grad_norm": 46.6325798034668,
	"learning_rate": 0.00019714900382928675,
	"loss": 3.8944,
	"step": 50
	},
	{
	"epoch": 0.09537166900420757,
	"grad_norm": 118.46067810058594,
	"learning_rate": 0.0001970053967548098,
	"loss": 5.2813,
	"step": 51
	},
	{
	"epoch": 0.09724170172978028,
	"grad_norm": 94.66202545166016,
	"learning_rate": 0.0001968583161128631,
	"loss": 4.5682,
	"step": 52
	},
	{
	"epoch": 0.09911173445535297,
	"grad_norm": 60.450828552246094,
	"learning_rate": 0.00019670776717010767,
	"loss": 3.9013,
	"step": 53
	},
	{
	"epoch": 0.10098176718092566,
	"grad_norm": 25.923925399780273,
	"learning_rate": 0.0001965537553173972,
	"loss": 3.6057,
	"step": 54
	},
	{
	"epoch": 0.10285179990649837,
	"grad_norm": 14.4677152633667,
	"learning_rate": 0.00019639628606958533,
	"loss": 3.0911,
	"step": 55
	},
	{
	"epoch": 0.10472183263207106,
	"grad_norm": 12.290410041809082,
	"learning_rate": 0.000196235365065328,
	"loss": 2.6739,
	"step": 56
	},
	{
	"epoch": 0.10659186535764376,
	"grad_norm": 14.281597137451172,
	"learning_rate": 0.0001960709980668816,
	"loss": 2.8039,
	"step": 57
	},
	{
	"epoch": 0.10846189808321646,
	"grad_norm": 12.305088996887207,
	"learning_rate": 0.0001959031909598966,
	"loss": 2.8797,
	"step": 58
	},
	{
	"epoch": 0.11033193080878916,
	"grad_norm": 12.407671928405762,
	"learning_rate": 0.00019573194975320673,
	"loss": 2.402,
	"step": 59
	},
	{
	"epoch": 0.11220196353436185,
	"grad_norm": 12.547879219055176,
	"learning_rate": 0.0001955572805786141,
	"loss": 2.5572,
	"step": 60
	},
	{
	"epoch": 0.11407199625993455,
	"grad_norm": 15.23267650604248,
	"learning_rate": 0.0001953791896906692,
	"loss": 3.1069,
	"step": 61
	},
	{
	"epoch": 0.11594202898550725,
	"grad_norm": 14.644232749938965,
	"learning_rate": 0.00019519768346644737,
	"loss": 2.4441,
	"step": 62
	},
	{
	"epoch": 0.11781206171107994,
	"grad_norm": 14.574198722839355,
	"learning_rate": 0.00019501276840532016,
	"loss": 3.1865,
	"step": 63
	},
	{
	"epoch": 0.11968209443665265,
	"grad_norm": 15.284114837646484,
	"learning_rate": 0.00019482445112872264,
	"loss": 2.7122,
	"step": 64
	},
	{
	"epoch": 0.12155212716222534,
	"grad_norm": 14.484579086303711,
	"learning_rate": 0.00019463273837991643,
	"loss": 2.9405,
	"step": 65
	},
	{
	"epoch": 0.12342215988779803,
	"grad_norm": 13.775676727294922,
	"learning_rate": 0.00019443763702374812,
	"loss": 2.8403,
	"step": 66
	},
	{
	"epoch": 0.12529219261337074,
	"grad_norm": 14.479483604431152,
	"learning_rate": 0.0001942391540464035,
	"loss": 2.9306,
	"step": 67
	},
	{
	"epoch": 0.12716222533894342,
	"grad_norm": 13.77834701538086,
	"learning_rate": 0.00019403729655515737,
	"loss": 2.7441,
	"step": 68
	},
	{
	"epoch": 0.12903225806451613,
	"grad_norm": 17.22318458557129,
	"learning_rate": 0.0001938320717781191,
	"loss": 2.793,
	"step": 69
	},
	{
	"epoch": 0.13090229079008883,
	"grad_norm": 14.486649513244629,
	"learning_rate": 0.00019362348706397373,
	"loss": 2.8446,
	"step": 70
	},
	{
	"epoch": 0.1327723235156615,
	"grad_norm": 19.49801254272461,
	"learning_rate": 0.0001934115498817189,
	"loss": 3.0295,
	"step": 71
	},
	{
	"epoch": 0.13464235624123422,
	"grad_norm": 17.23444938659668,
	"learning_rate": 0.00019319626782039734,
	"loss": 2.9814,
	"step": 72
	},
	{
	"epoch": 0.13651238896680692,
	"grad_norm": 18.949792861938477,
	"learning_rate": 0.00019297764858882514,
	"loss": 3.0234,
	"step": 73
	},
	{
	"epoch": 0.1383824216923796,
	"grad_norm": 18.541202545166016,
	"learning_rate": 0.00019275570001531578,
	"loss": 3.1777,
	"step": 74
	},
	{
	"epoch": 0.1402524544179523,
	"grad_norm": 21.238248825073242,
	"learning_rate": 0.00019253043004739968,
	"loss": 3.677,
	"step": 75
	},
	{
	"epoch": 0.14212248714352502,
	"grad_norm": 24.113332748413086,
	"learning_rate": 0.00019230184675153976,
	"loss": 3.2631,
	"step": 76
	},
	{
	"epoch": 0.1439925198690977,
	"grad_norm": 17.838098526000977,
	"learning_rate": 0.00019206995831284242,
	"loss": 2.728,
	"step": 77
	},
	{
	"epoch": 0.1458625525946704,
	"grad_norm": 18.885387420654297,
	"learning_rate": 0.00019183477303476467,
	"loss": 2.9679,
	"step": 78
	},
	{
	"epoch": 0.1477325853202431,
	"grad_norm": 19.87195587158203,
	"learning_rate": 0.00019159629933881666,
	"loss": 2.9025,
	"step": 79
	},
	{
	"epoch": 0.1496026180458158,
	"grad_norm": 19.265392303466797,
	"learning_rate": 0.0001913545457642601,
	"loss": 3.4623,
	"step": 80
	},
	{
	"epoch": 0.1514726507713885,
	"grad_norm": 19.50520133972168,
	"learning_rate": 0.00019110952096780258,
	"loss": 3.1419,
	"step": 81
	},
	{
	"epoch": 0.1533426834969612,
	"grad_norm": 20.407455444335938,
	"learning_rate": 0.00019086123372328746,
	"loss": 2.5145,
	"step": 82
	},
	{
	"epoch": 0.15521271622253388,
	"grad_norm": 42.79829788208008,
	"learning_rate": 0.00019060969292137992,
	"loss": 3.0625,
	"step": 83
	},
	{
	"epoch": 0.1570827489481066,
	"grad_norm": 20.8466796875,
	"learning_rate": 0.00019035490756924832,
	"loss": 2.9626,
	"step": 84
	},
	{
	"epoch": 0.1589527816736793,
	"grad_norm": 21.628929138183594,
	"learning_rate": 0.0001900968867902419,
	"loss": 2.8822,
	"step": 85
	},
	{
	"epoch": 0.16082281439925197,
	"grad_norm": 29.18246078491211,
	"learning_rate": 0.00018983563982356405,
	"loss": 3.4651,
	"step": 86
	},
	{
	"epoch": 0.16269284712482468,
	"grad_norm": 26.07509422302246,
	"learning_rate": 0.0001895711760239413,
	"loss": 3.0619,
	"step": 87
	},
	{
	"epoch": 0.1645628798503974,
	"grad_norm": 39.00653076171875,
	"learning_rate": 0.00018930350486128856,
	"loss": 3.1362,
	"step": 88
	},
	{
	"epoch": 0.16643291257597007,
	"grad_norm": 23.455015182495117,
	"learning_rate": 0.00018903263592036989,
	"loss": 3.4385,
	"step": 89
	},
	{
	"epoch": 0.16830294530154277,
	"grad_norm": 29.16703224182129,
	"learning_rate": 0.00018875857890045543,
	"loss": 3.1283,
	"step": 90
	},
	{
	"epoch": 0.17017297802711548,
	"grad_norm": 29.75694465637207,
	"learning_rate": 0.00018848134361497385,
	"loss": 3.0399,
	"step": 91
	},
	{
	"epoch": 0.17204301075268819,
	"grad_norm": 28.572084426879883,
	"learning_rate": 0.00018820093999116124,
	"loss": 3.8989,
	"step": 92
	},
	{
	"epoch": 0.17391304347826086,
	"grad_norm": 50.12794876098633,
	"learning_rate": 0.00018791737806970538,
	"loss": 3.6389,
	"step": 93
	},
	{
	"epoch": 0.17578307620383357,
	"grad_norm": 23.859804153442383,
	"learning_rate": 0.00018763066800438636,
	"loss": 3.1504,
	"step": 94
	},
	{
	"epoch": 0.17765310892940628,
	"grad_norm": 44.48038864135742,
	"learning_rate": 0.00018734082006171299,
	"loss": 3.1353,
	"step": 95
	},
	{
	"epoch": 0.17952314165497896,
	"grad_norm": 26.45856475830078,
	"learning_rate": 0.00018704784462055503,
	"loss": 2.7182,
	"step": 96
	},
	{
	"epoch": 0.18139317438055166,
	"grad_norm": 30.120588302612305,
	"learning_rate": 0.00018675175217177175,
	"loss": 3.6129,
	"step": 97
	},
	{
	"epoch": 0.18326320710612437,
	"grad_norm": 61.866886138916016,
	"learning_rate": 0.00018645255331783617,
	"loss": 5.1282,
	"step": 98
	},
	{
	"epoch": 0.18513323983169705,
	"grad_norm": 39.70136260986328,
	"learning_rate": 0.00018615025877245523,
	"loss": 3.8535,
	"step": 99
	},
	{
	"epoch": 0.18700327255726976,
	"grad_norm": 51.10054397583008,
	"learning_rate": 0.00018584487936018661,
	"loss": 3.8204,
	"step": 100
	},
	{
	"epoch": 0.18887330528284246,
	"grad_norm": 160.09117126464844,
	"learning_rate": 0.00018553642601605068,
	"loss": 5.7671,
	"step": 101
	},
	{
	"epoch": 0.19074333800841514,
	"grad_norm": 126.96265411376953,
	"learning_rate": 0.0001852249097851391,
	"loss": 5.543,
	"step": 102
	},
	{
	"epoch": 0.19261337073398785,
	"grad_norm": 79.90239715576172,
	"learning_rate": 0.0001849103418222194,
	"loss": 4.1758,
	"step": 103
	},
	{
	"epoch": 0.19448340345956056,
	"grad_norm": 48.66373062133789,
	"learning_rate": 0.00018459273339133537,
	"loss": 3.4729,
	"step": 104
	},
	{
	"epoch": 0.19635343618513323,
	"grad_norm": 31.121978759765625,
	"learning_rate": 0.0001842720958654039,
	"loss": 3.2988,
	"step": 105
	},
	{
	"epoch": 0.19822346891070594,
	"grad_norm": 15.884181022644043,
	"learning_rate": 0.00018394844072580773,
	"loss": 3.4934,
	"step": 106
	},
	{
	"epoch": 0.20009350163627865,
	"grad_norm": 13.574240684509277,
	"learning_rate": 0.00018362177956198408,
	"loss": 2.6176,
	"step": 107
	},
	{
	"epoch": 0.20196353436185133,
	"grad_norm": 11.254271507263184,
	"learning_rate": 0.00018329212407100994,
	"loss": 2.3752,
	"step": 108
	},
	{
	"epoch": 0.20383356708742403,
	"grad_norm": 11.554123878479004,
	"learning_rate": 0.00018295948605718314,
	"loss": 2.295,
	"step": 109
	},
	{
	"epoch": 0.20570359981299674,
	"grad_norm": 11.747841835021973,
	"learning_rate": 0.0001826238774315995,
	"loss": 2.378,
	"step": 110
	},
	{
	"epoch": 0.20757363253856942,
	"grad_norm": 13.485661506652832,
	"learning_rate": 0.00018228531021172658,
	"loss": 2.6167,
	"step": 111
	},
	{
	"epoch": 0.20944366526414213,
	"grad_norm": 12.09218692779541,
	"learning_rate": 0.0001819437965209732,
	"loss": 2.1478,
	"step": 112
	},
	{
	"epoch": 0.21131369798971483,
	"grad_norm": 15.334200859069824,
	"learning_rate": 0.0001815993485882553,
	"loss": 2.7231,
	"step": 113
	},
	{
	"epoch": 0.2131837307152875,
	"grad_norm": 14.982645988464355,
	"learning_rate": 0.0001812519787475582,
	"loss": 2.7762,
	"step": 114
	},
	{
	"epoch": 0.21505376344086022,
	"grad_norm": 15.121198654174805,
	"learning_rate": 0.00018090169943749476,
	"loss": 2.6204,
	"step": 115
	},
	{
	"epoch": 0.21692379616643293,
	"grad_norm": 12.098959922790527,
	"learning_rate": 0.0001805485232008601,
	"loss": 2.6039,
	"step": 116
	},
	{
	"epoch": 0.2187938288920056,
	"grad_norm": 13.73119068145752,
	"learning_rate": 0.0001801924626841824,
	"loss": 2.7469,
	"step": 117
	},
	{
	"epoch": 0.2206638616175783,
	"grad_norm": 14.34265422821045,
	"learning_rate": 0.00017983353063727016,
	"loss": 3.0645,
	"step": 118
	},
	{
	"epoch": 0.22253389434315102,
	"grad_norm": 13.765779495239258,
	"learning_rate": 0.00017947173991275555,
	"loss": 3.014,
	"step": 119
	},
	{
	"epoch": 0.2244039270687237,
	"grad_norm": 17.305545806884766,
	"learning_rate": 0.00017910710346563416,
	"loss": 2.9139,
	"step": 120
	},
	{
	"epoch": 0.2262739597942964,
	"grad_norm": 13.76815414428711,
	"learning_rate": 0.00017873963435280121,
	"loss": 2.6729,
	"step": 121
	},
	{
	"epoch": 0.2281439925198691,
	"grad_norm": 16.517879486083984,
	"learning_rate": 0.000178369345732584,
	"loss": 3.1773,
	"step": 122
	},
	{
	"epoch": 0.2300140252454418,
	"grad_norm": 18.648420333862305,
	"learning_rate": 0.00017799625086427064,
	"loss": 3.5063,
	"step": 123
	},
	{
	"epoch": 0.2318840579710145,
	"grad_norm": 19.074386596679688,
	"learning_rate": 0.00017762036310763532,
	"loss": 2.743,
	"step": 124
	},
	{
	"epoch": 0.2337540906965872,
	"grad_norm": 16.391334533691406,
	"learning_rate": 0.00017724169592245995,
	"loss": 2.7288,
	"step": 125
	},
	{
	"epoch": 0.23562412342215988,
	"grad_norm": 26.434553146362305,
	"learning_rate": 0.0001768602628680522,
	"loss": 2.6386,
	"step": 126
	},
	{
	"epoch": 0.2374941561477326,
	"grad_norm": 18.820554733276367,
	"learning_rate": 0.00017647607760275987,
	"loss": 3.3189,
	"step": 127
	},
	{
	"epoch": 0.2393641888733053,
	"grad_norm": 18.246240615844727,
	"learning_rate": 0.00017608915388348187,
	"loss": 2.9794,
	"step": 128
	},
	{
	"epoch": 0.24123422159887797,
	"grad_norm": 24.38311004638672,
	"learning_rate": 0.00017569950556517566,
	"loss": 2.9017,
	"step": 129
	},
	{
	"epoch": 0.24310425432445068,
	"grad_norm": 17.729557037353516,
	"learning_rate": 0.00017530714660036112,
	"loss": 2.7735,
	"step": 130
	},
	{
	"epoch": 0.2449742870500234,
	"grad_norm": 20.780271530151367,
	"learning_rate": 0.00017491209103862084,
	"loss": 3.2586,
	"step": 131
	},
	{
	"epoch": 0.24684431977559607,
	"grad_norm": 25.706838607788086,
	"learning_rate": 0.00017451435302609714,
	"loss": 2.9574,
	"step": 132
	},
	{
	"epoch": 0.24871435250116877,
	"grad_norm": 17.675687789916992,
	"learning_rate": 0.0001741139468049855,
	"loss": 2.6356,
	"step": 133
	},
	{
	"epoch": 0.2505843852267415,
	"grad_norm": 23.035436630249023,
	"learning_rate": 0.0001737108867130245,
	"loss": 3.3455,
	"step": 134
	},
	{
	"epoch": 0.2505843852267415,
	"eval_loss": 3.025357723236084,
	"eval_runtime": 12.856,
	"eval_samples_per_second": 17.579,
	"eval_steps_per_second": 8.79,
	"step": 134
	},
	{
	"epoch": 0.25245441795231416,
	"grad_norm": 17.924945831298828,
	"learning_rate": 0.00017330518718298264,
	"loss": 2.8946,
	"step": 135
	},
	{
	"epoch": 0.25432445067788684,
	"grad_norm": 20.890548706054688,
	"learning_rate": 0.00017289686274214118,
	"loss": 2.9531,
	"step": 136
	},
	{
	"epoch": 0.25619448340345957,
	"grad_norm": 19.297199249267578,
	"learning_rate": 0.0001724859280117742,
	"loss": 2.7719,
	"step": 137
	},
	{
	"epoch": 0.25806451612903225,
	"grad_norm": 23.349380493164062,
	"learning_rate": 0.000172072397706625,
	"loss": 3.5567,
	"step": 138
	},
	{
	"epoch": 0.25993454885460493,
	"grad_norm": 24.923961639404297,
	"learning_rate": 0.00017165628663437922,
	"loss": 3.113,
	"step": 139
	},
	{
	"epoch": 0.26180458158017766,
	"grad_norm": 21.864042282104492,
	"learning_rate": 0.0001712376096951345,
	"loss": 2.9502,
	"step": 140
	},
	{
	"epoch": 0.26367461430575034,
	"grad_norm": 30.322755813598633,
	"learning_rate": 0.00017081638188086697,
	"loss": 3.7115,
	"step": 141
	},
	{
	"epoch": 0.265544647031323,
	"grad_norm": 23.991077423095703,
	"learning_rate": 0.0001703926182748945,
	"loss": 3.3406,
	"step": 142
	},
	{
	"epoch": 0.26741467975689576,
	"grad_norm": 24.86219024658203,
	"learning_rate": 0.00016996633405133655,
	"loss": 3.347,
	"step": 143
	},
	{
	"epoch": 0.26928471248246844,
	"grad_norm": 29.057273864746094,
	"learning_rate": 0.00016953754447457078,
	"loss": 2.6652,
	"step": 144
	},
	{
	"epoch": 0.2711547452080411,
	"grad_norm": 25.7908992767334,
	"learning_rate": 0.00016910626489868649,
	"loss": 3.1458,
	"step": 145
	},
	{
	"epoch": 0.27302477793361385,
	"grad_norm": 27.767778396606445,
	"learning_rate": 0.00016867251076693482,
	"loss": 3.3319,
	"step": 146
	},
	{
	"epoch": 0.27489481065918653,
	"grad_norm": 30.76727294921875,
	"learning_rate": 0.0001682362976111758,
	"loss": 3.682,
	"step": 147
	},
	{
	"epoch": 0.2767648433847592,
	"grad_norm": 25.062744140625,
	"learning_rate": 0.0001677976410513221,
	"loss": 3.0067,
	"step": 148
	},
	{
	"epoch": 0.27863487611033194,
	"grad_norm": 48.073890686035156,
	"learning_rate": 0.00016735655679477979,
	"loss": 4.0274,
	"step": 149
	},
	{
	"epoch": 0.2805049088359046,
	"grad_norm": 44.6626091003418,
	"learning_rate": 0.00016691306063588583,
	"loss": 3.1489,
	"step": 150
	},
	{
	"epoch": 0.2823749415614773,
	"grad_norm": 73.71078491210938,
	"learning_rate": 0.0001664671684553426,
	"loss": 4.4787,
	"step": 151
	},
	{
	"epoch": 0.28424497428705003,
	"grad_norm": 56.24951934814453,
	"learning_rate": 0.00016601889621964904,
	"loss": 3.7768,
	"step": 152
	},
	{
	"epoch": 0.2861150070126227,
	"grad_norm": 46.72991943359375,
	"learning_rate": 0.00016556825998052924,
	"loss": 3.5245,
	"step": 153
	},
	{
	"epoch": 0.2879850397381954,
	"grad_norm": 31.89575958251953,
	"learning_rate": 0.00016511527587435737,
	"loss": 3.4228,
	"step": 154
	},
	{
	"epoch": 0.2898550724637681,
	"grad_norm": 18.977670669555664,
	"learning_rate": 0.00016465996012157995,
	"loss": 3.0195,
	"step": 155
	},
	{
	"epoch": 0.2917251051893408,
	"grad_norm": 12.196249008178711,
	"learning_rate": 0.00016420232902613523,
	"loss": 2.8431,
	"step": 156
	},
	{
	"epoch": 0.2935951379149135,
	"grad_norm": 11.746070861816406,
	"learning_rate": 0.000163742398974869,
	"loss": 2.5194,
	"step": 157
	},
	{
	"epoch": 0.2954651706404862,
	"grad_norm": 12.877666473388672,
	"learning_rate": 0.00016328018643694812,
	"loss": 2.695,
	"step": 158
	},
	{
	"epoch": 0.2973352033660589,
	"grad_norm": 11.190670013427734,
	"learning_rate": 0.00016281570796327068,
	"loss": 3.0105,
	"step": 159
	},
	{
	"epoch": 0.2992052360916316,
	"grad_norm": 12.561261177062988,
	"learning_rate": 0.00016234898018587337,
	"loss": 2.113,
	"step": 160
	},
	{
	"epoch": 0.3010752688172043,
	"grad_norm": 20.69705581665039,
	"learning_rate": 0.00016188001981733588,
	"loss": 2.7286,
	"step": 161
	},
	{
	"epoch": 0.302945301542777,
	"grad_norm": 13.717788696289062,
	"learning_rate": 0.00016140884365018252,
	"loss": 2.9779,
	"step": 162
	},
	{
	"epoch": 0.30481533426834967,
	"grad_norm": 12.364960670471191,
	"learning_rate": 0.00016093546855628084,
	"loss": 2.6577,
	"step": 163
	},
	{
	"epoch": 0.3066853669939224,
	"grad_norm": 12.219094276428223,
	"learning_rate": 0.0001604599114862375,
	"loss": 2.3431,
	"step": 164
	},
	{
	"epoch": 0.3085553997194951,
	"grad_norm": 14.56771183013916,
	"learning_rate": 0.00015998218946879138,
	"loss": 2.7715,
	"step": 165
	},
	{
	"epoch": 0.31042543244506776,
	"grad_norm": 14.490442276000977,
	"learning_rate": 0.00015950231961020373,
	"loss": 2.7294,
	"step": 166
	},
	{
	"epoch": 0.3122954651706405,
	"grad_norm": 13.455503463745117,
	"learning_rate": 0.00015902031909364564,
	"loss": 2.7422,
	"step": 167
	},
	{
	"epoch": 0.3141654978962132,
	"grad_norm": 14.774016380310059,
	"learning_rate": 0.00015853620517858276,
	"loss": 2.807,
	"step": 168
	},
	{
	"epoch": 0.31603553062178585,
	"grad_norm": 15.136216163635254,
	"learning_rate": 0.00015804999520015734,
	"loss": 2.8907,
	"step": 169
	},
	{
	"epoch": 0.3179055633473586,
	"grad_norm": 14.85161018371582,
	"learning_rate": 0.00015756170656856737,
	"loss": 2.8376,
	"step": 170
	},
	{
	"epoch": 0.31977559607293127,
	"grad_norm": 16.69162368774414,
	"learning_rate": 0.0001570713567684432,
	"loss": 2.8552,
	"step": 171
	},
	{
	"epoch": 0.32164562879850395,
	"grad_norm": 13.032023429870605,
	"learning_rate": 0.00015657896335822147,
	"loss": 3.02,
	"step": 172
	},
	{
	"epoch": 0.3235156615240767,
	"grad_norm": 16.295326232910156,
	"learning_rate": 0.00015608454396951645,
	"loss": 3.0504,
	"step": 173
	},
	{
	"epoch": 0.32538569424964936,
	"grad_norm": 15.998780250549316,
	"learning_rate": 0.00015558811630648846,
	"loss": 3.0265,
	"step": 174
	},
	{
	"epoch": 0.32725572697522204,
	"grad_norm": 25.61530113220215,
	"learning_rate": 0.00015508969814521025,
	"loss": 2.8652,
	"step": 175
	},
	{
	"epoch": 0.3291257597007948,
	"grad_norm": 15.13475227355957,
	"learning_rate": 0.00015458930733303018,
	"loss": 2.5502,
	"step": 176
	},
	{
	"epoch": 0.33099579242636745,
	"grad_norm": 13.900614738464355,
	"learning_rate": 0.00015408696178793331,
	"loss": 2.9654,
	"step": 177
	},
	{
	"epoch": 0.33286582515194013,
	"grad_norm": 16.07615852355957,
	"learning_rate": 0.00015358267949789966,
	"loss": 2.7143,
	"step": 178
	},
	{
	"epoch": 0.33473585787751287,
	"grad_norm": 18.99631118774414,
	"learning_rate": 0.0001530764785202603,
	"loss": 2.8096,
	"step": 179
	},
	{
	"epoch": 0.33660589060308554,
	"grad_norm": 20.583770751953125,
	"learning_rate": 0.00015256837698105047,
	"loss": 2.9865,
	"step": 180
	},
	{
	"epoch": 0.3384759233286583,
	"grad_norm": 18.920778274536133,
	"learning_rate": 0.00015205839307436088,
	"loss": 3.3376,
	"step": 181
	},
	{
	"epoch": 0.34034595605423096,
	"grad_norm": 18.719928741455078,
	"learning_rate": 0.00015154654506168585,
	"loss": 2.7643,
	"step": 182
	},
	{
	"epoch": 0.34221598877980364,
	"grad_norm": 22.60373878479004,
	"learning_rate": 0.00015103285127126962,
	"loss": 2.9539,
	"step": 183
	},
	{
	"epoch": 0.34408602150537637,
	"grad_norm": 19.586341857910156,
	"learning_rate": 0.00015051733009745013,
	"loss": 2.5908,
	"step": 184
	},
	{
	"epoch": 0.34595605423094905,
	"grad_norm": 20.427947998046875,
	"learning_rate": 0.00015000000000000001,
	"loss": 2.6959,
	"step": 185
	},
	{
	"epoch": 0.34782608695652173,
	"grad_norm": 19.461990356445312,
	"learning_rate": 0.000149480879503466,
	"loss": 2.9813,
	"step": 186
	},
	{
	"epoch": 0.34969611968209446,
	"grad_norm": 23.931228637695312,
	"learning_rate": 0.00014895998719650526,
	"loss": 3.047,
	"step": 187
	},
	{
	"epoch": 0.35156615240766714,
	"grad_norm": 19.459693908691406,
	"learning_rate": 0.00014843734173122002,
	"loss": 2.9688,
	"step": 188
	},
	{
	"epoch": 0.3534361851332398,
	"grad_norm": 25.261966705322266,
	"learning_rate": 0.0001479129618224895,
	"loss": 2.8956,
	"step": 189
	},
	{
	"epoch": 0.35530621785881256,
	"grad_norm": 23.84093475341797,
	"learning_rate": 0.00014738686624729986,
	"loss": 3.4096,
	"step": 190
	},
	{
	"epoch": 0.35717625058438524,
	"grad_norm": 23.549619674682617,
	"learning_rate": 0.00014685907384407186,
	"loss": 2.9033,
	"step": 191
	},
	{
	"epoch": 0.3590462833099579,
	"grad_norm": 21.206594467163086,
	"learning_rate": 0.00014632960351198618,
	"loss": 3.0757,
	"step": 192
	},
	{
	"epoch": 0.36091631603553065,
	"grad_norm": 21.78272247314453,
	"learning_rate": 0.00014579847421030678,
	"loss": 2.9197,
	"step": 193
	},
	{
	"epoch": 0.3627863487611033,
	"grad_norm": 24.570682525634766,
	"learning_rate": 0.00014526570495770194,
	"loss": 3.6499,
	"step": 194
	},
	{
	"epoch": 0.364656381486676,
	"grad_norm": 28.85085105895996,
	"learning_rate": 0.00014473131483156327,
	"loss": 2.6047,
	"step": 195
	},
	{
	"epoch": 0.36652641421224874,
	"grad_norm": 27.24856948852539,
	"learning_rate": 0.0001441953229673227,
	"loss": 3.0789,
	"step": 196
	},
	{
	"epoch": 0.3683964469378214,
	"grad_norm": 28.561187744140625,
	"learning_rate": 0.000143657748557767,
	"loss": 3.4813,
	"step": 197
	},
	{
	"epoch": 0.3702664796633941,
	"grad_norm": 27.148723602294922,
	"learning_rate": 0.00014311861085235085,
	"loss": 3.0691,
	"step": 198
	},
	{
	"epoch": 0.37213651238896683,
	"grad_norm": 31.670246124267578,
	"learning_rate": 0.00014257792915650728,
	"loss": 3.9914,
	"step": 199
	},
	{
	"epoch": 0.3740065451145395,
	"grad_norm": 42.1184196472168,
	"learning_rate": 0.00014203572283095657,
	"loss": 4.6206,
	"step": 200
	},
	{
	"epoch": 0.3758765778401122,
	"grad_norm": 40.36967086791992,
	"learning_rate": 0.00014149201129101286,
	"loss": 3.2648,
	"step": 201
	},
	{
	"epoch": 0.3777466105656849,
	"grad_norm": 38.3328971862793,
	"learning_rate": 0.00014094681400588906,
	"loss": 3.248,
	"step": 202
	},
	{
	"epoch": 0.3796166432912576,
	"grad_norm": 36.41666030883789,
	"learning_rate": 0.00014040015049799953,
	"loss": 3.2585,
	"step": 203
	},
	{
	"epoch": 0.3814866760168303,
	"grad_norm": 23.713642120361328,
	"learning_rate": 0.00013985204034226115,
	"loss": 2.8715,
	"step": 204
	},
	{
	"epoch": 0.383356708742403,
	"grad_norm": 13.198444366455078,
	"learning_rate": 0.00013930250316539238,
	"loss": 3.0464,
	"step": 205
	},
	{
	"epoch": 0.3852267414679757,
	"grad_norm": 11.255416870117188,
	"learning_rate": 0.0001387515586452103,
	"loss": 2.7254,
	"step": 206
	},
	{
	"epoch": 0.3870967741935484,
	"grad_norm": 11.445615768432617,
	"learning_rate": 0.00013819922650992625,
	"loss": 2.3275,
	"step": 207
	},
	{
	"epoch": 0.3889668069191211,
	"grad_norm": 11.428658485412598,
	"learning_rate": 0.0001376455265374392,
	"loss": 2.7019,
	"step": 208
	},
	{
	"epoch": 0.3908368396446938,
	"grad_norm": 11.425288200378418,
	"learning_rate": 0.00013709047855462765,
	"loss": 2.6879,
	"step": 209
	},
	{
	"epoch": 0.39270687237026647,
	"grad_norm": 9.648893356323242,
	"learning_rate": 0.00013653410243663952,
	"loss": 2.1931,
	"step": 210
	},
	{
	"epoch": 0.3945769050958392,
	"grad_norm": 12.493631362915039,
	"learning_rate": 0.00013597641810618073,
	"loss": 2.5069,
	"step": 211
	},
	{
	"epoch": 0.3964469378214119,
	"grad_norm": 11.868135452270508,
	"learning_rate": 0.0001354174455328015,
	"loss": 2.8156,
	"step": 212
	},
	{
	"epoch": 0.39831697054698456,
	"grad_norm": 10.956955909729004,
	"learning_rate": 0.00013485720473218154,
	"loss": 2.3458,
	"step": 213
	},
	{
	"epoch": 0.4001870032725573,
	"grad_norm": 12.486101150512695,
	"learning_rate": 0.00013429571576541315,
	"loss": 2.559,
	"step": 214
	},
	{
	"epoch": 0.40205703599813,
	"grad_norm": 13.160475730895996,
	"learning_rate": 0.00013373299873828303,
	"loss": 2.5989,
	"step": 215
	},
	{
	"epoch": 0.40392706872370265,
	"grad_norm": 14.06461238861084,
	"learning_rate": 0.00013316907380055208,
	"loss": 2.9656,
	"step": 216
	},
	{
	"epoch": 0.4057971014492754,
	"grad_norm": 13.031517028808594,
	"learning_rate": 0.0001326039611452342,
	"loss": 2.494,
	"step": 217
	},
	{
	"epoch": 0.40766713417484807,
	"grad_norm": 12.205702781677246,
	"learning_rate": 0.00013203768100787297,
	"loss": 2.4097,
	"step": 218
	},
	{
	"epoch": 0.40953716690042075,
	"grad_norm": 13.180871963500977,
	"learning_rate": 0.0001314702536658172,
	"loss": 2.5468,
	"step": 219
	},
	{
	"epoch": 0.4114071996259935,
	"grad_norm": 16.636207580566406,
	"learning_rate": 0.00013090169943749476,
	"loss": 3.3479,
	"step": 220
	},
	{
	"epoch": 0.41327723235156616,
	"grad_norm": 13.308319091796875,
	"learning_rate": 0.000130332038681685,
	"loss": 2.597,
	"step": 221
	},
	{
	"epoch": 0.41514726507713884,
	"grad_norm": 13.627033233642578,
	"learning_rate": 0.00012976129179678988,
	"loss": 2.4171,
	"step": 222
	},
	{
	"epoch": 0.4170172978027116,
	"grad_norm": 15.449974060058594,
	"learning_rate": 0.00012918947922010336,
	"loss": 3.2259,
	"step": 223
	},
	{
	"epoch": 0.41888733052828425,
	"grad_norm": 16.265350341796875,
	"learning_rate": 0.00012861662142707968,
	"loss": 2.7149,
	"step": 224
	},
	{
	"epoch": 0.42075736325385693,
	"grad_norm": 14.941640853881836,
	"learning_rate": 0.00012804273893060028,
	"loss": 2.9722,
	"step": 225
	},
	{
	"epoch": 0.42262739597942967,
	"grad_norm": 19.596858978271484,
	"learning_rate": 0.00012746785228023904,
	"loss": 2.9886,
	"step": 226
	},
	{
	"epoch": 0.42449742870500234,
	"grad_norm": 23.8212947845459,
	"learning_rate": 0.00012689198206152657,
	"loss": 3.0503,
	"step": 227
	},
	{
	"epoch": 0.426367461430575,
	"grad_norm": 16.560731887817383,
	"learning_rate": 0.0001263151488952132,
	"loss": 2.6271,
	"step": 228
	},
	{
	"epoch": 0.42823749415614776,
	"grad_norm": 16.66946029663086,
	"learning_rate": 0.00012573737343653024,
	"loss": 2.804,
	"step": 229
	},
	{
	"epoch": 0.43010752688172044,
	"grad_norm": 22.840084075927734,
	"learning_rate": 0.00012515867637445086,
	"loss": 2.7086,
	"step": 230
	},
	{
	"epoch": 0.4319775596072931,
	"grad_norm": 14.753687858581543,
	"learning_rate": 0.00012457907843094882,
	"loss": 2.5197,
	"step": 231
	},
	{
	"epoch": 0.43384759233286585,
	"grad_norm": 14.791753768920898,
	"learning_rate": 0.0001239986003602566,
	"loss": 2.394,
	"step": 232
	},
	{
	"epoch": 0.43571762505843853,
	"grad_norm": 22.011295318603516,
	"learning_rate": 0.00012341726294812238,
	"loss": 2.5769,
	"step": 233
	},
	{
	"epoch": 0.4375876577840112,
	"grad_norm": 20.5321102142334,
	"learning_rate": 0.00012283508701106557,
	"loss": 3.0704,
	"step": 234
	},
	{
	"epoch": 0.43945769050958394,
	"grad_norm": 16.91661262512207,
	"learning_rate": 0.00012225209339563145,
	"loss": 2.8309,
	"step": 235
	},
	{
	"epoch": 0.4413277232351566,
	"grad_norm": 26.08629608154297,
	"learning_rate": 0.00012166830297764471,
	"loss": 3.0209,
	"step": 236
	},
	{
	"epoch": 0.4431977559607293,
	"grad_norm": 19.537260055541992,
	"learning_rate": 0.00012108373666146191,
	"loss": 2.8018,
	"step": 237
	},
	{
	"epoch": 0.44506778868630203,
	"grad_norm": 23.111852645874023,
	"learning_rate": 0.00012049841537922307,
	"loss": 3.0249,
	"step": 238
	},
	{
	"epoch": 0.4469378214118747,
	"grad_norm": 19.322980880737305,
	"learning_rate": 0.00011991236009010183,
	"loss": 3.0254,
	"step": 239
	},
	{
	"epoch": 0.4488078541374474,
	"grad_norm": 30.11720848083496,
	"learning_rate": 0.00011932559177955533,
	"loss": 3.9059,
	"step": 240
	},
	{
	"epoch": 0.4506778868630201,
	"grad_norm": 24.715557098388672,
	"learning_rate": 0.00011873813145857249,
	"loss": 3.1555,
	"step": 241
	},
	{
	"epoch": 0.4525479195885928,
	"grad_norm": 29.622190475463867,
	"learning_rate": 0.00011815000016292164,
	"loss": 2.6222,
	"step": 242
	},
	{
	"epoch": 0.4544179523141655,
	"grad_norm": 24.93659019470215,
	"learning_rate": 0.00011756121895239753,
	"loss": 2.9839,
	"step": 243
	},
	{
	"epoch": 0.4562879850397382,
	"grad_norm": 26.67534637451172,
	"learning_rate": 0.00011697180891006689,
	"loss": 3.1704,
	"step": 244
	},
	{
	"epoch": 0.4581580177653109,
	"grad_norm": 25.920337677001953,
	"learning_rate": 0.00011638179114151377,
	"loss": 2.653,
	"step": 245
	},
	{
	"epoch": 0.4600280504908836,
	"grad_norm": 29.56134796142578,
	"learning_rate": 0.0001157911867740836,
	"loss": 2.9653,
	"step": 246
	},
	{
	"epoch": 0.4618980832164563,
	"grad_norm": 35.859981536865234,
	"learning_rate": 0.00011520001695612674,
	"loss": 3.6873,
	"step": 247
	},
	{
	"epoch": 0.463768115942029,
	"grad_norm": 41.76987838745117,
	"learning_rate": 0.00011460830285624118,
	"loss": 3.7447,
	"step": 248
	},
	{
	"epoch": 0.46563814866760167,
	"grad_norm": 38.14467239379883,
	"learning_rate": 0.0001140160656625146,
	"loss": 4.65,
	"step": 249
	},
	{
	"epoch": 0.4675081813931744,
	"grad_norm": 55.1082649230957,
	"learning_rate": 0.00011342332658176555,
	"loss": 3.6235,
	"step": 250
	},
	{
	"epoch": 0.4693782141187471,
	"grad_norm": 34.86373519897461,
	"learning_rate": 0.00011283010683878423,
	"loss": 3.1883,
	"step": 251
	},
	{
	"epoch": 0.47124824684431976,
	"grad_norm": 30.727251052856445,
	"learning_rate": 0.00011223642767557227,
	"loss": 3.3415,
	"step": 252
	},
	{
	"epoch": 0.4731182795698925,
	"grad_norm": 32.8022575378418,
	"learning_rate": 0.00011164231035058228,
	"loss": 3.1891,
	"step": 253
	},
	{
	"epoch": 0.4749883122954652,
	"grad_norm": 21.999401092529297,
	"learning_rate": 0.00011104777613795661,
	"loss": 3.1296,
	"step": 254
	},
	{
	"epoch": 0.47685834502103785,
	"grad_norm": 20.68447494506836,
	"learning_rate": 0.00011045284632676536,
	"loss": 2.7139,
	"step": 255
	},
	{
	"epoch": 0.4787283777466106,
	"grad_norm": 13.36279010772705,
	"learning_rate": 0.00010985754222024436,
	"loss": 2.4648,
	"step": 256
	},
	{
	"epoch": 0.48059841047218327,
	"grad_norm": 10.14539909362793,
	"learning_rate": 0.00010926188513503215,
	"loss": 2.4138,
	"step": 257
	},
	{
	"epoch": 0.48246844319775595,
	"grad_norm": 9.960616111755371,
	"learning_rate": 0.00010866589640040669,
	"loss": 2.7157,
	"step": 258
	},
	{
	"epoch": 0.4843384759233287,
	"grad_norm": 10.990545272827148,
	"learning_rate": 0.00010806959735752174,
	"loss": 2.4142,
	"step": 259
	},
	{
	"epoch": 0.48620850864890136,
	"grad_norm": 10.179009437561035,
	"learning_rate": 0.00010747300935864243,
	"loss": 2.0645,
	"step": 260
	},
	{
	"epoch": 0.48807854137447404,
	"grad_norm": 9.950582504272461,
	"learning_rate": 0.00010687615376638093,
	"loss": 2.2024,
	"step": 261
	},
	{
	"epoch": 0.4899485741000468,
	"grad_norm": 10.244935989379883,
	"learning_rate": 0.00010627905195293135,
	"loss": 2.1277,
	"step": 262
	},
	{
	"epoch": 0.49181860682561945,
	"grad_norm": 11.46534252166748,
	"learning_rate": 0.00010568172529930447,
	"loss": 2.534,
	"step": 263
	},
	{
	"epoch": 0.49368863955119213,
	"grad_norm": 13.022493362426758,
	"learning_rate": 0.00010508419519456219,
	"loss": 2.3155,
	"step": 264
	},
	{
	"epoch": 0.49555867227676487,
	"grad_norm": 15.116632461547852,
	"learning_rate": 0.00010448648303505151,
	"loss": 3.0314,
	"step": 265
	},
	{
	"epoch": 0.49742870500233755,
	"grad_norm": 13.014046669006348,
	"learning_rate": 0.0001038886102236385,
	"loss": 2.4966,
	"step": 266
	},
	{
	"epoch": 0.4992987377279102,
	"grad_norm": 11.42091178894043,
	"learning_rate": 0.00010329059816894186,
	"loss": 2.56,
	"step": 267
	},
	{
	"epoch": 0.501168770453483,
	"grad_norm": 12.75170612335205,
	"learning_rate": 0.00010269246828456629,
	"loss": 2.5727,
	"step": 268
	},
	{
	"epoch": 0.501168770453483,
	"eval_loss": 2.828613758087158,
	"eval_runtime": 12.8533,
	"eval_samples_per_second": 17.583,
	"eval_steps_per_second": 8.792,
	"step": 268
	},
	{
	"epoch": 0.5030388031790556,
	"grad_norm": 13.714940071105957,
	"learning_rate": 0.0001020942419883357,
	"loss": 2.4806,
	"step": 269
	},
	{
	"epoch": 0.5049088359046283,
	"grad_norm": 14.08552074432373,
	"learning_rate": 0.00010149594070152638,
	"loss": 2.7159,
	"step": 270
	},
	{
	"epoch": 0.506778868630201,
	"grad_norm": 14.860525131225586,
	"learning_rate": 0.00010089758584809979,
	"loss": 2.5984,
	"step": 271
	},
	{
	"epoch": 0.5086489013557737,
	"grad_norm": 14.785524368286133,
	"learning_rate": 0.00010029919885393563,
	"loss": 2.6805,
	"step": 272
	},
	{
	"epoch": 0.5105189340813464,
	"grad_norm": 14.939064979553223,
	"learning_rate": 9.970080114606439e-05,
	"loss": 2.4628,
	"step": 273
	},
	{
	"epoch": 0.5123889668069191,
	"grad_norm": 13.804859161376953,
	"learning_rate": 9.910241415190021e-05,
	"loss": 2.847,
	"step": 274
	},
	{
	"epoch": 0.5142589995324918,
	"grad_norm": 14.139949798583984,
	"learning_rate": 9.850405929847366e-05,
	"loss": 2.3347,
	"step": 275
	},
	{
	"epoch": 0.5161290322580645,
	"grad_norm": 16.16015625,
	"learning_rate": 9.790575801166432e-05,
	"loss": 2.7167,
	"step": 276
	},
	{
	"epoch": 0.5179990649836372,
	"grad_norm": 17.632705688476562,
	"learning_rate": 9.730753171543374e-05,
	"loss": 3.3824,
	"step": 277
	},
	{
	"epoch": 0.5198690977092099,
	"grad_norm": 20.08257484436035,
	"learning_rate": 9.670940183105812e-05,
	"loss": 3.1337,
	"step": 278
	},
	{
	"epoch": 0.5217391304347826,
	"grad_norm": 16.899017333984375,
	"learning_rate": 9.611138977636153e-05,
	"loss": 2.8295,
	"step": 279
	},
	{
	"epoch": 0.5236091631603553,
	"grad_norm": 16.086267471313477,
	"learning_rate": 9.551351696494854e-05,
	"loss": 2.2724,
	"step": 280
	},
	{
	"epoch": 0.525479195885928,
	"grad_norm": 17.3554744720459,
	"learning_rate": 9.491580480543784e-05,
	"loss": 3.0389,
	"step": 281
	},
	{
	"epoch": 0.5273492286115007,
	"grad_norm": 15.312295913696289,
	"learning_rate": 9.431827470069558e-05,
	"loss": 1.8464,
	"step": 282
	},
	{
	"epoch": 0.5292192613370734,
	"grad_norm": 14.824910163879395,
	"learning_rate": 9.372094804706867e-05,
	"loss": 2.5675,
	"step": 283
	},
	{
	"epoch": 0.531089294062646,
	"grad_norm": 62.370765686035156,
	"learning_rate": 9.312384623361909e-05,
	"loss": 3.6012,
	"step": 284
	},
	{
	"epoch": 0.5329593267882188,
	"grad_norm": 17.69074249267578,
	"learning_rate": 9.252699064135758e-05,
	"loss": 2.9718,
	"step": 285
	},
	{
	"epoch": 0.5348293595137915,
	"grad_norm": 18.726192474365234,
	"learning_rate": 9.193040264247829e-05,
	"loss": 2.6739,
	"step": 286
	},
	{
	"epoch": 0.5366993922393641,
	"grad_norm": 23.5485782623291,
	"learning_rate": 9.13341035995933e-05,
	"loss": 3.519,
	"step": 287
	},
	{
	"epoch": 0.5385694249649369,
	"grad_norm": 23.890811920166016,
	"learning_rate": 9.073811486496788e-05,
	"loss": 3.0704,
	"step": 288
	},
	{
	"epoch": 0.5404394576905096,
	"grad_norm": 21.349260330200195,
	"learning_rate": 9.014245777975565e-05,
	"loss": 3.1382,
	"step": 289
	},
	{
	"epoch": 0.5423094904160822,
	"grad_norm": 27.911243438720703,
	"learning_rate": 8.954715367323468e-05,
	"loss": 3.3497,
	"step": 290
	},
	{
	"epoch": 0.544179523141655,
	"grad_norm": 23.007844924926758,
	"learning_rate": 8.89522238620434e-05,
	"loss": 2.4557,
	"step": 291
	},
	{
	"epoch": 0.5460495558672277,
	"grad_norm": 28.537771224975586,
	"learning_rate": 8.835768964941773e-05,
	"loss": 3.3786,
	"step": 292
	},
	{
	"epoch": 0.5479195885928003,
	"grad_norm": 23.56622314453125,
	"learning_rate": 8.776357232442778e-05,
	"loss": 3.245,
	"step": 293
	},
	{
	"epoch": 0.5497896213183731,
	"grad_norm": 26.669605255126953,
	"learning_rate": 8.716989316121578e-05,
	"loss": 3.5067,
	"step": 294
	},
	{
	"epoch": 0.5516596540439458,
	"grad_norm": 25.95106315612793,
	"learning_rate": 8.657667341823448e-05,
	"loss": 2.7495,
	"step": 295
	},
	{
	"epoch": 0.5535296867695184,
	"grad_norm": 36.05848693847656,
	"learning_rate": 8.598393433748541e-05,
	"loss": 3.4859,
	"step": 296
	},
	{
	"epoch": 0.5553997194950911,
	"grad_norm": 25.490476608276367,
	"learning_rate": 8.539169714375885e-05,
	"loss": 3.1739,
	"step": 297
	},
	{
	"epoch": 0.5572697522206639,
	"grad_norm": 36.27049255371094,
	"learning_rate": 8.479998304387329e-05,
	"loss": 3.6866,
	"step": 298
	},
	{
	"epoch": 0.5591397849462365,
	"grad_norm": 33.86897277832031,
	"learning_rate": 8.420881322591642e-05,
	"loss": 2.8654,
	"step": 299
	},
	{
	"epoch": 0.5610098176718092,
	"grad_norm": 44.89165115356445,
	"learning_rate": 8.361820885848624e-05,
	"loss": 3.9259,
	"step": 300
	},
	{
	"epoch": 0.562879850397382,
	"grad_norm": 20.971372604370117,
	"learning_rate": 8.302819108993312e-05,
	"loss": 2.7844,
	"step": 301
	},
	{
	"epoch": 0.5647498831229546,
	"grad_norm": 24.576387405395508,
	"learning_rate": 8.243878104760249e-05,
	"loss": 3.0554,
	"step": 302
	},
	{
	"epoch": 0.5666199158485273,
	"grad_norm": 25.367847442626953,
	"learning_rate": 8.184999983707837e-05,
	"loss": 2.9751,
	"step": 303
	},
	{
	"epoch": 0.5684899485741001,
	"grad_norm": 20.629751205444336,
	"learning_rate": 8.126186854142752e-05,
	"loss": 2.8788,
	"step": 304
	},
	{
	"epoch": 0.5703599812996727,
	"grad_norm": 17.573223114013672,
	"learning_rate": 8.067440822044469e-05,
	"loss": 2.3871,
	"step": 305
	},
	{
	"epoch": 0.5722300140252454,
	"grad_norm": 15.68101692199707,
	"learning_rate": 8.00876399098982e-05,
	"loss": 1.9594,
	"step": 306
	},
	{
	"epoch": 0.5741000467508182,
	"grad_norm": 13.078360557556152,
	"learning_rate": 7.950158462077697e-05,
	"loss": 2.3795,
	"step": 307
	},
	{
	"epoch": 0.5759700794763908,
	"grad_norm": 11.211087226867676,
	"learning_rate": 7.891626333853812e-05,
	"loss": 2.7153,
	"step": 308
	},
	{
	"epoch": 0.5778401122019635,
	"grad_norm": 9.67572021484375,
	"learning_rate": 7.833169702235531e-05,
	"loss": 2.4531,
	"step": 309
	},
	{
	"epoch": 0.5797101449275363,
	"grad_norm": 12.671576499938965,
	"learning_rate": 7.774790660436858e-05,
	"loss": 2.2148,
	"step": 310
	},
	{
	"epoch": 0.5815801776531089,
	"grad_norm": 9.585877418518066,
	"learning_rate": 7.716491298893442e-05,
	"loss": 2.7332,
	"step": 311
	},
	{
	"epoch": 0.5834502103786816,
	"grad_norm": 10.074613571166992,
	"learning_rate": 7.658273705187761e-05,
	"loss": 2.2678,
	"step": 312
	},
	{
	"epoch": 0.5853202431042543,
	"grad_norm": 10.348039627075195,
	"learning_rate": 7.600139963974341e-05,
	"loss": 2.6394,
	"step": 313
	},
	{
	"epoch": 0.587190275829827,
	"grad_norm": 10.6520414352417,
	"learning_rate": 7.542092156905123e-05,
	"loss": 2.1318,
	"step": 314
	},
	{
	"epoch": 0.5890603085553997,
	"grad_norm": 11.883548736572266,
	"learning_rate": 7.484132362554915e-05,
	"loss": 2.5724,
	"step": 315
	},
	{
	"epoch": 0.5909303412809724,
	"grad_norm": 11.804710388183594,
	"learning_rate": 7.426262656346978e-05,
	"loss": 2.3502,
	"step": 316
	},
	{
	"epoch": 0.5928003740065451,
	"grad_norm": 12.366445541381836,
	"learning_rate": 7.368485110478685e-05,
	"loss": 2.2743,
	"step": 317
	},
	{
	"epoch": 0.5946704067321178,
	"grad_norm": 13.19687557220459,
	"learning_rate": 7.310801793847344e-05,
	"loss": 2.6187,
	"step": 318
	},
	{
	"epoch": 0.5965404394576905,
	"grad_norm": 13.92205810546875,
	"learning_rate": 7.2532147719761e-05,
	"loss": 2.8836,
	"step": 319
	},
	{
	"epoch": 0.5984104721832632,
	"grad_norm": 13.191638946533203,
	"learning_rate": 7.195726106939974e-05,
	"loss": 2.7437,
	"step": 320
	},
	{
	"epoch": 0.6002805049088359,
	"grad_norm": 12.879383087158203,
	"learning_rate": 7.138337857292034e-05,
	"loss": 2.3656,
	"step": 321
	},
	{
	"epoch": 0.6021505376344086,
	"grad_norm": 18.539752960205078,
	"learning_rate": 7.081052077989667e-05,
	"loss": 2.7168,
	"step": 322
	},
	{
	"epoch": 0.6040205703599812,
	"grad_norm": 15.435444831848145,
	"learning_rate": 7.023870820321017e-05,
	"loss": 2.8032,
	"step": 323
	},
	{
	"epoch": 0.605890603085554,
	"grad_norm": 15.457225799560547,
	"learning_rate": 6.966796131831501e-05,
	"loss": 2.9741,
	"step": 324
	},
	{
	"epoch": 0.6077606358111267,
	"grad_norm": 14.631234169006348,
	"learning_rate": 6.909830056250527e-05,
	"loss": 2.782,
	"step": 325
	},
	{
	"epoch": 0.6096306685366993,
	"grad_norm": 13.480672836303711,
	"learning_rate": 6.85297463341828e-05,
	"loss": 2.3114,
	"step": 326
	},
	{
	"epoch": 0.6115007012622721,
	"grad_norm": 15.09902572631836,
	"learning_rate": 6.796231899212704e-05,
	"loss": 2.0404,
	"step": 327
	},
	{
	"epoch": 0.6133707339878448,
	"grad_norm": 19.798410415649414,
	"learning_rate": 6.739603885476582e-05,
	"loss": 3.2275,
	"step": 328
	},
	{
	"epoch": 0.6152407667134174,
	"grad_norm": 19.74947738647461,
	"learning_rate": 6.683092619944796e-05,
	"loss": 2.8039,
	"step": 329
	},
	{
	"epoch": 0.6171107994389902,
	"grad_norm": 15.367700576782227,
	"learning_rate": 6.626700126171702e-05,
	"loss": 2.8833,
	"step": 330
	},
	{
	"epoch": 0.6189808321645629,
	"grad_norm": 18.47310447692871,
	"learning_rate": 6.570428423458687e-05,
	"loss": 2.8571,
	"step": 331
	},
	{
	"epoch": 0.6208508648901355,
	"grad_norm": 17.92266273498535,
	"learning_rate": 6.51427952678185e-05,
	"loss": 2.3749,
	"step": 332
	},
	{
	"epoch": 0.6227208976157083,
	"grad_norm": 17.863025665283203,
	"learning_rate": 6.458255446719854e-05,
	"loss": 2.6118,
	"step": 333
	},
	{
	"epoch": 0.624590930341281,
	"grad_norm": 16.579729080200195,
	"learning_rate": 6.402358189381934e-05,
	"loss": 2.2111,
	"step": 334
	},
	{
	"epoch": 0.6264609630668536,
	"grad_norm": 21.433856964111328,
	"learning_rate": 6.34658975633605e-05,
	"loss": 2.8057,
	"step": 335
	},
	{
	"epoch": 0.6283309957924264,
	"grad_norm": 17.18570899963379,
	"learning_rate": 6.290952144537241e-05,
	"loss": 2.7357,
	"step": 336
	},
	{
	"epoch": 0.6302010285179991,
	"grad_norm": 27.641077041625977,
	"learning_rate": 6.23544734625608e-05,
	"loss": 3.0753,
	"step": 337
	},
	{
	"epoch": 0.6320710612435717,
	"grad_norm": 25.628257751464844,
	"learning_rate": 6.180077349007376e-05,
	"loss": 3.2045,
	"step": 338
	},
	{
	"epoch": 0.6339410939691444,
	"grad_norm": 18.360332489013672,
	"learning_rate": 6.12484413547897e-05,
	"loss": 2.6208,
	"step": 339
	},
	{
	"epoch": 0.6358111266947172,
	"grad_norm": 52.43937683105469,
	"learning_rate": 6.069749683460765e-05,
	"loss": 3.2548,
	"step": 340
	},
	{
	"epoch": 0.6376811594202898,
	"grad_norm": 25.194255828857422,
	"learning_rate": 6.014795965773884e-05,
	"loss": 2.9652,
	"step": 341
	},
	{
	"epoch": 0.6395511921458625,
	"grad_norm": 33.8499870300293,
	"learning_rate": 5.9599849502000485e-05,
	"loss": 3.4296,
	"step": 342
	},
	{
	"epoch": 0.6414212248714353,
	"grad_norm": 33.058990478515625,
	"learning_rate": 5.9053185994110974e-05,
	"loss": 3.6159,
	"step": 343
	},
	{
	"epoch": 0.6432912575970079,
	"grad_norm": 22.76582145690918,
	"learning_rate": 5.8507988708987146e-05,
	"loss": 2.9352,
	"step": 344
	},
	{
	"epoch": 0.6451612903225806,
	"grad_norm": 27.470590591430664,
	"learning_rate": 5.796427716904347e-05,
	"loss": 3.0844,
	"step": 345
	},
	{
	"epoch": 0.6470313230481534,
	"grad_norm": 30.144134521484375,
	"learning_rate": 5.7422070843492734e-05,
	"loss": 3.3897,
	"step": 346
	},
	{
	"epoch": 0.648901355773726,
	"grad_norm": 27.228771209716797,
	"learning_rate": 5.6881389147649176e-05,
	"loss": 3.0126,
	"step": 347
	},
	{
	"epoch": 0.6507713884992987,
	"grad_norm": 30.412782669067383,
	"learning_rate": 5.634225144223302e-05,
	"loss": 2.8863,
	"step": 348
	},
	{
	"epoch": 0.6526414212248715,
	"grad_norm": 43.44699478149414,
	"learning_rate": 5.5804677032677354e-05,
	"loss": 4.0037,
	"step": 349
	},
	{
	"epoch": 0.6545114539504441,
	"grad_norm": 50.50189208984375,
	"learning_rate": 5.526868516843673e-05,
	"loss": 3.4202,
	"step": 350
	},
	{
	"epoch": 0.6563814866760168,
	"grad_norm": 17.37109375,
	"learning_rate": 5.47342950422981e-05,
	"loss": 2.9548,
	"step": 351
	},
	{
	"epoch": 0.6582515194015895,
	"grad_norm": 18.439983367919922,
	"learning_rate": 5.420152578969326e-05,
	"loss": 2.7266,
	"step": 352
	},
	{
	"epoch": 0.6601215521271622,
	"grad_norm": 20.2562313079834,
	"learning_rate": 5.3670396488013854e-05,
	"loss": 2.5423,
	"step": 353
	},
	{
	"epoch": 0.6619915848527349,
	"grad_norm": 15.055497169494629,
	"learning_rate": 5.3140926155928136e-05,
	"loss": 2.6748,
	"step": 354
	},
	{
	"epoch": 0.6638616175783076,
	"grad_norm": 13.408388137817383,
	"learning_rate": 5.261313375270014e-05,
	"loss": 2.9774,
	"step": 355
	},
	{
	"epoch": 0.6657316503038803,
	"grad_norm": 14.892769813537598,
	"learning_rate": 5.208703817751053e-05,
	"loss": 2.2886,
	"step": 356
	},
	{
	"epoch": 0.667601683029453,
	"grad_norm": 12.354819297790527,
	"learning_rate": 5.156265826877999e-05,
	"loss": 2.8214,
	"step": 357
	},
	{
	"epoch": 0.6694717157550257,
	"grad_norm": 13.169706344604492,
	"learning_rate": 5.1040012803494795e-05,
	"loss": 2.4982,
	"step": 358
	},
	{
	"epoch": 0.6713417484805985,
	"grad_norm": 12.36215591430664,
	"learning_rate": 5.0519120496534044e-05,
	"loss": 3.0511,
	"step": 359
	},
	{
	"epoch": 0.6732117812061711,
	"grad_norm": 11.116745948791504,
	"learning_rate": 5.000000000000002e-05,
	"loss": 2.3823,
	"step": 360
	},
	{
	"epoch": 0.6750818139317438,
	"grad_norm": 11.059001922607422,
	"learning_rate": 4.9482669902549894e-05,
	"loss": 2.3138,
	"step": 361
	},
	{
	"epoch": 0.6769518466573166,
	"grad_norm": 10.290990829467773,
	"learning_rate": 4.896714872873038e-05,
	"loss": 2.0308,
	"step": 362
	},
	{
	"epoch": 0.6788218793828892,
	"grad_norm": 14.33850383758545,
	"learning_rate": 4.845345493831419e-05,
	"loss": 2.6556,
	"step": 363
	},
	{
	"epoch": 0.6806919121084619,
	"grad_norm": 12.50505542755127,
	"learning_rate": 4.794160692563917e-05,
	"loss": 2.6198,
	"step": 364
	},
	{
	"epoch": 0.6825619448340347,
	"grad_norm": 11.454310417175293,
	"learning_rate": 4.743162301894952e-05,
	"loss": 2.4727,
	"step": 365
	},
	{
	"epoch": 0.6844319775596073,
	"grad_norm": 11.56086254119873,
	"learning_rate": 4.692352147973973e-05,
	"loss": 2.1338,
	"step": 366
	},
	{
	"epoch": 0.68630201028518,
	"grad_norm": 11.487324714660645,
	"learning_rate": 4.6417320502100316e-05,
	"loss": 2.4042,
	"step": 367
	},
	{
	"epoch": 0.6881720430107527,
	"grad_norm": 11.415949821472168,
	"learning_rate": 4.591303821206673e-05,
	"loss": 2.6558,
	"step": 368
	},
	{
	"epoch": 0.6900420757363254,
	"grad_norm": 12.308177947998047,
	"learning_rate": 4.541069266696984e-05,
	"loss": 2.3123,
	"step": 369
	},
	{
	"epoch": 0.6919121084618981,
	"grad_norm": 11.585166931152344,
	"learning_rate": 4.491030185478976e-05,
	"loss": 2.7433,
	"step": 370
	},
	{
	"epoch": 0.6937821411874708,
	"grad_norm": 12.77014446258545,
	"learning_rate": 4.441188369351157e-05,
	"loss": 2.646,
	"step": 371
	},
	{
	"epoch": 0.6956521739130435,
	"grad_norm": 12.757980346679688,
	"learning_rate": 4.391545603048358e-05,
	"loss": 2.702,
	"step": 372
	},
	{
	"epoch": 0.6975222066386162,
	"grad_norm": 15.349445343017578,
	"learning_rate": 4.3421036641778556e-05,
	"loss": 3.0098,
	"step": 373
	},
	{
	"epoch": 0.6993922393641889,
	"grad_norm": 15.5166597366333,
	"learning_rate": 4.2928643231556844e-05,
	"loss": 3.2723,
	"step": 374
	},
	{
	"epoch": 0.7012622720897616,
	"grad_norm": 13.189452171325684,
	"learning_rate": 4.2438293431432665e-05,
	"loss": 2.363,
	"step": 375
	},
	{
	"epoch": 0.7031323048153343,
	"grad_norm": 17.275712966918945,
	"learning_rate": 4.195000479984265e-05,
	"loss": 3.0557,
	"step": 376
	},
	{
	"epoch": 0.705002337540907,
	"grad_norm": 16.319204330444336,
	"learning_rate": 4.146379482141723e-05,
	"loss": 2.6115,
	"step": 377
	},
	{
	"epoch": 0.7068723702664796,
	"grad_norm": 14.946385383605957,
	"learning_rate": 4.097968090635439e-05,
	"loss": 2.6765,
	"step": 378
	},
	{
	"epoch": 0.7087424029920524,
	"grad_norm": 19.0872745513916,
	"learning_rate": 4.049768038979631e-05,
	"loss": 2.2803,
	"step": 379
	},
	{
	"epoch": 0.7106124357176251,
	"grad_norm": 15.21898078918457,
	"learning_rate": 4.001781053120863e-05,
	"loss": 2.4357,
	"step": 380
	},
	{
	"epoch": 0.7124824684431977,
	"grad_norm": 17.521011352539062,
	"learning_rate": 3.954008851376252e-05,
	"loss": 2.6634,
	"step": 381
	},
	{
	"epoch": 0.7143525011687705,
	"grad_norm": 16.630462646484375,
	"learning_rate": 3.90645314437192e-05,
	"loss": 2.2544,
	"step": 382
	},
	{
	"epoch": 0.7162225338943432,
	"grad_norm": 18.478824615478516,
	"learning_rate": 3.859115634981748e-05,
	"loss": 2.6528,
	"step": 383
	},
	{
	"epoch": 0.7180925666199158,
	"grad_norm": 22.990461349487305,
	"learning_rate": 3.811998018266416e-05,
	"loss": 2.8017,
	"step": 384
	},
	{
	"epoch": 0.7199625993454886,
	"grad_norm": 23.46438217163086,
	"learning_rate": 3.7651019814126654e-05,
	"loss": 3.5866,
	"step": 385
	},
	{
	"epoch": 0.7218326320710613,
	"grad_norm": 19.73815155029297,
	"learning_rate": 3.718429203672936e-05,
	"loss": 2.6817,
	"step": 386
	},
	{
	"epoch": 0.7237026647966339,
	"grad_norm": 20.134384155273438,
	"learning_rate": 3.671981356305191e-05,
	"loss": 3.4092,
	"step": 387
	},
	{
	"epoch": 0.7255726975222067,
	"grad_norm": 19.134763717651367,
	"learning_rate": 3.6257601025131026e-05,
	"loss": 2.5706,
	"step": 388
	},
	{
	"epoch": 0.7274427302477794,
	"grad_norm": 19.289335250854492,
	"learning_rate": 3.57976709738648e-05,
	"loss": 3.1928,
	"step": 389
	},
	{
	"epoch": 0.729312762973352,
	"grad_norm": 21.083354949951172,
	"learning_rate": 3.534003987842005e-05,
	"loss": 3.1004,
	"step": 390
	},
	{
	"epoch": 0.7311827956989247,
	"grad_norm": 19.628206253051758,
	"learning_rate": 3.488472412564264e-05,
	"loss": 3.0638,
	"step": 391
	},
	{
	"epoch": 0.7330528284244975,
	"grad_norm": 25.418609619140625,
	"learning_rate": 3.4431740019470774e-05,
	"loss": 3.3569,
	"step": 392
	},
	{
	"epoch": 0.7349228611500701,
	"grad_norm": 24.504236221313477,
	"learning_rate": 3.398110378035098e-05,
	"loss": 3.3934,
	"step": 393
	},
	{
	"epoch": 0.7367928938756428,
	"grad_norm": 32.00563430786133,
	"learning_rate": 3.353283154465746e-05,
	"loss": 3.3888,
	"step": 394
	},
	{
	"epoch": 0.7386629266012156,
	"grad_norm": 25.788663864135742,
	"learning_rate": 3.308693936411421e-05,
	"loss": 3.7214,
	"step": 395
	},
	{
	"epoch": 0.7405329593267882,
	"grad_norm": 29.49918556213379,
	"learning_rate": 3.264344320522024e-05,
	"loss": 3.6635,
	"step": 396
	},
	{
	"epoch": 0.7424029920523609,
	"grad_norm": 52.400569915771484,
	"learning_rate": 3.220235894867794e-05,
	"loss": 3.574,
	"step": 397
	},
	{
	"epoch": 0.7442730247779337,
	"grad_norm": 31.379642486572266,
	"learning_rate": 3.1763702388824214e-05,
	"loss": 3.8696,
	"step": 398
	},
	{
	"epoch": 0.7461430575035063,
	"grad_norm": 33.01647186279297,
	"learning_rate": 3.132748923306522e-05,
	"loss": 3.5235,
	"step": 399
	},
	{
	"epoch": 0.748013090229079,
	"grad_norm": 54.04301071166992,
	"learning_rate": 3.089373510131354e-05,
	"loss": 4.3509,
	"step": 400
	},
	{
	"epoch": 0.7498831229546518,
	"grad_norm": 9.012869834899902,
	"learning_rate": 3.0462455525429257e-05,
	"loss": 2.4901,
	"step": 401
	},
	{
	"epoch": 0.7517531556802244,
	"grad_norm": 10.679055213928223,
	"learning_rate": 3.0033665948663448e-05,
	"loss": 2.0973,
	"step": 402
	},
	{
	"epoch": 0.7517531556802244,
	"eval_loss": 2.625810146331787,
	"eval_runtime": 12.8607,
	"eval_samples_per_second": 17.573,
	"eval_steps_per_second": 8.786,
	"step": 402
	},
	{
	"epoch": 0.7536231884057971,
	"grad_norm": 9.760929107666016,
	"learning_rate": 2.960738172510551e-05,
	"loss": 2.5254,
	"step": 403
	},
	{
	"epoch": 0.7554932211313699,
	"grad_norm": 8.057788848876953,
	"learning_rate": 2.9183618119133062e-05,
	"loss": 1.8935,
	"step": 404
	},
	{
	"epoch": 0.7573632538569425,
	"grad_norm": 9.041131019592285,
	"learning_rate": 2.876239030486554e-05,
	"loss": 2.5203,
	"step": 405
	},
	{
	"epoch": 0.7592332865825152,
	"grad_norm": 9.86754322052002,
	"learning_rate": 2.8343713365620772e-05,
	"loss": 2.1501,
	"step": 406
	},
	{
	"epoch": 0.7611033193080879,
	"grad_norm": 9.489944458007812,
	"learning_rate": 2.7927602293375e-05,
	"loss": 2.1061,
	"step": 407
	},
	{
	"epoch": 0.7629733520336606,
	"grad_norm": 9.308277130126953,
	"learning_rate": 2.751407198822583e-05,
	"loss": 1.8263,
	"step": 408
	},
	{
	"epoch": 0.7648433847592333,
	"grad_norm": 10.4146728515625,
	"learning_rate": 2.7103137257858868e-05,
	"loss": 2.5591,
	"step": 409
	},
	{
	"epoch": 0.766713417484806,
	"grad_norm": 10.501506805419922,
	"learning_rate": 2.669481281701739e-05,
	"loss": 2.7704,
	"step": 410
	},
	{
	"epoch": 0.7685834502103787,
	"grad_norm": 12.172067642211914,
	"learning_rate": 2.6289113286975485e-05,
	"loss": 2.5226,
	"step": 411
	},
	{
	"epoch": 0.7704534829359514,
	"grad_norm": 12.657646179199219,
	"learning_rate": 2.5886053195014538e-05,
	"loss": 2.7101,
	"step": 412
	},
	{
	"epoch": 0.7723235156615241,
	"grad_norm": 11.94274616241455,
	"learning_rate": 2.5485646973902865e-05,
	"loss": 2.6979,
	"step": 413
	},
	{
	"epoch": 0.7741935483870968,
	"grad_norm": 11.538039207458496,
	"learning_rate": 2.508790896137918e-05,
	"loss": 2.7357,
	"step": 414
	},
	{
	"epoch": 0.7760635811126695,
	"grad_norm": 11.735588073730469,
	"learning_rate": 2.4692853399638917e-05,
	"loss": 2.7582,
	"step": 415
	},
	{
	"epoch": 0.7779336138382422,
	"grad_norm": 11.011154174804688,
	"learning_rate": 2.4300494434824373e-05,
	"loss": 2.5606,
	"step": 416
	},
	{
	"epoch": 0.7798036465638148,
	"grad_norm": 12.485893249511719,
	"learning_rate": 2.391084611651816e-05,
	"loss": 2.2526,
	"step": 417
	},
	{
	"epoch": 0.7816736792893876,
	"grad_norm": 13.266201972961426,
	"learning_rate": 2.352392239724016e-05,
	"loss": 2.7745,
	"step": 418
	},
	{
	"epoch": 0.7835437120149603,
	"grad_norm": 12.729734420776367,
	"learning_rate": 2.3139737131947824e-05,
	"loss": 2.1154,
	"step": 419
	},
	{
	"epoch": 0.7854137447405329,
	"grad_norm": 11.948831558227539,
	"learning_rate": 2.275830407754006e-05,
	"loss": 2.3556,
	"step": 420
	},
	{
	"epoch": 0.7872837774661057,
	"grad_norm": 15.799360275268555,
	"learning_rate": 2.237963689236472e-05,
	"loss": 3.1533,
	"step": 421
	},
	{
	"epoch": 0.7891538101916784,
	"grad_norm": 14.989856719970703,
	"learning_rate": 2.200374913572939e-05,
	"loss": 2.8148,
	"step": 422
	},
	{
	"epoch": 0.791023842917251,
	"grad_norm": 17.03190040588379,
	"learning_rate": 2.163065426741603e-05,
	"loss": 2.8717,
	"step": 423
	},
	{
	"epoch": 0.7928938756428238,
	"grad_norm": 16.29947280883789,
	"learning_rate": 2.1260365647198798e-05,
	"loss": 3.1721,
	"step": 424
	},
	{
	"epoch": 0.7947639083683965,
	"grad_norm": 14.097606658935547,
	"learning_rate": 2.0892896534365904e-05,
	"loss": 2.7177,
	"step": 425
	},
	{
	"epoch": 0.7966339410939691,
	"grad_norm": 18.629955291748047,
	"learning_rate": 2.0528260087244487e-05,
	"loss": 3.0088,
	"step": 426
	},
	{
	"epoch": 0.7985039738195419,
	"grad_norm": 14.538827896118164,
	"learning_rate": 2.016646936272987e-05,
	"loss": 2.5514,
	"step": 427
	},
	{
	"epoch": 0.8003740065451146,
	"grad_norm": 13.943222045898438,
	"learning_rate": 1.9807537315817604e-05,
	"loss": 2.4046,
	"step": 428
	},
	{
	"epoch": 0.8022440392706872,
	"grad_norm": 17.54332160949707,
	"learning_rate": 1.9451476799139935e-05,
	"loss": 3.5145,
	"step": 429
	},
	{
	"epoch": 0.80411407199626,
	"grad_norm": 16.975404739379883,
	"learning_rate": 1.9098300562505266e-05,
	"loss": 2.6382,
	"step": 430
	},
	{
	"epoch": 0.8059841047218327,
	"grad_norm": 18.486377716064453,
	"learning_rate": 1.8748021252441817e-05,
	"loss": 2.5148,
	"step": 431
	},
	{
	"epoch": 0.8078541374474053,
	"grad_norm": 15.601974487304688,
	"learning_rate": 1.8400651411744685e-05,
	"loss": 2.418,
	"step": 432
	},
	{
	"epoch": 0.809724170172978,
	"grad_norm": 17.163917541503906,
	"learning_rate": 1.805620347902681e-05,
	"loss": 2.592,
	"step": 433
	},
	{
	"epoch": 0.8115942028985508,
	"grad_norm": 18.376161575317383,
	"learning_rate": 1.771468978827343e-05,
	"loss": 3.3599,
	"step": 434
	},
	{
	"epoch": 0.8134642356241234,
	"grad_norm": 20.212865829467773,
	"learning_rate": 1.7376122568400532e-05,
	"loss": 3.021,
	"step": 435
	},
	{
	"epoch": 0.8153342683496961,
	"grad_norm": 26.279674530029297,
	"learning_rate": 1.7040513942816906e-05,
	"loss": 3.0855,
	"step": 436
	},
	{
	"epoch": 0.8172043010752689,
	"grad_norm": 18.360366821289062,
	"learning_rate": 1.6707875928990058e-05,
	"loss": 2.2329,
	"step": 437
	},
	{
	"epoch": 0.8190743338008415,
	"grad_norm": 25.305208206176758,
	"learning_rate": 1.6378220438015933e-05,
	"loss": 2.7794,
	"step": 438
	},
	{
	"epoch": 0.8209443665264142,
	"grad_norm": 19.780479431152344,
	"learning_rate": 1.6051559274192275e-05,
	"loss": 2.8426,
	"step": 439
	},
	{
	"epoch": 0.822814399251987,
	"grad_norm": 24.164377212524414,
	"learning_rate": 1.5727904134596083e-05,
	"loss": 3.2383,
	"step": 440
	},
	{
	"epoch": 0.8246844319775596,
	"grad_norm": 24.38163185119629,
	"learning_rate": 1.540726660866466e-05,
	"loss": 3.5773,
	"step": 441
	},
	{
	"epoch": 0.8265544647031323,
	"grad_norm": 22.310827255249023,
	"learning_rate": 1.5089658177780653e-05,
	"loss": 3.2983,
	"step": 442
	},
	{
	"epoch": 0.828424497428705,
	"grad_norm": 54.48847579956055,
	"learning_rate": 1.477509021486091e-05,
	"loss": 3.3077,
	"step": 443
	},
	{
	"epoch": 0.8302945301542777,
	"grad_norm": 23.941181182861328,
	"learning_rate": 1.4463573983949341e-05,
	"loss": 3.283,
	"step": 444
	},
	{
	"epoch": 0.8321645628798504,
	"grad_norm": 23.76746940612793,
	"learning_rate": 1.415512063981339e-05,
	"loss": 3.4818,
	"step": 445
	},
	{
	"epoch": 0.8340345956054231,
	"grad_norm": 26.566600799560547,
	"learning_rate": 1.3849741227544777e-05,
	"loss": 2.6301,
	"step": 446
	},
	{
	"epoch": 0.8359046283309958,
	"grad_norm": 30.18052864074707,
	"learning_rate": 1.3547446682163889e-05,
	"loss": 3.8662,
	"step": 447
	},
	{
	"epoch": 0.8377746610565685,
	"grad_norm": 36.08682632446289,
	"learning_rate": 1.3248247828228245e-05,
	"loss": 3.9059,
	"step": 448
	},
	{
	"epoch": 0.8396446937821412,
	"grad_norm": 39.56899642944336,
	"learning_rate": 1.2952155379444975e-05,
	"loss": 3.1025,
	"step": 449
	},
	{
	"epoch": 0.8415147265077139,
	"grad_norm": 39.47623062133789,
	"learning_rate": 1.2659179938287035e-05,
	"loss": 4.5911,
	"step": 450
	},
	{
	"epoch": 0.8433847592332866,
	"grad_norm": 8.356927871704102,
	"learning_rate": 1.2369331995613665e-05,
	"loss": 2.3298,
	"step": 451
	},
	{
	"epoch": 0.8452547919588593,
	"grad_norm": 7.952692985534668,
	"learning_rate": 1.2082621930294635e-05,
	"loss": 2.4439,
	"step": 452
	},
	{
	"epoch": 0.847124824684432,
	"grad_norm": 9.349421501159668,
	"learning_rate": 1.1799060008838791e-05,
	"loss": 2.6627,
	"step": 453
	},
	{
	"epoch": 0.8489948574100047,
	"grad_norm": 9.868120193481445,
	"learning_rate": 1.151865638502615e-05,
	"loss": 2.1623,
	"step": 454
	},
	{
	"epoch": 0.8508648901355774,
	"grad_norm": 9.13068675994873,
	"learning_rate": 1.124142109954459e-05,
	"loss": 1.9143,
	"step": 455
	},
	{
	"epoch": 0.85273492286115,
	"grad_norm": 7.523913860321045,
	"learning_rate": 1.0967364079630115e-05,
	"loss": 1.7452,
	"step": 456
	},
	{
	"epoch": 0.8546049555867228,
	"grad_norm": 8.57178783416748,
	"learning_rate": 1.069649513871147e-05,
	"loss": 1.6952,
	"step": 457
	},
	{
	"epoch": 0.8564749883122955,
	"grad_norm": 9.974442481994629,
	"learning_rate": 1.042882397605871e-05,
	"loss": 2.4002,
	"step": 458
	},
	{
	"epoch": 0.8583450210378681,
	"grad_norm": 9.599936485290527,
	"learning_rate": 1.0164360176435961e-05,
	"loss": 2.5942,
	"step": 459
	},
	{
	"epoch": 0.8602150537634409,
	"grad_norm": 9.855104446411133,
	"learning_rate": 9.903113209758096e-06,
	"loss": 1.904,
	"step": 460
	},
	{
	"epoch": 0.8620850864890136,
	"grad_norm": 11.599543571472168,
	"learning_rate": 9.6450924307517e-06,
	"loss": 1.6992,
	"step": 461
	},
	{
	"epoch": 0.8639551192145862,
	"grad_norm": 9.953221321105957,
	"learning_rate": 9.39030707862013e-06,
	"loss": 2.1692,
	"step": 462
	},
	{
	"epoch": 0.865825151940159,
	"grad_norm": 12.537870407104492,
	"learning_rate": 9.138766276712552e-06,
	"loss": 2.1261,
	"step": 463
	},
	{
	"epoch": 0.8676951846657317,
	"grad_norm": 12.677627563476562,
	"learning_rate": 8.890479032197464e-06,
	"loss": 2.4732,
	"step": 464
	},
	{
	"epoch": 0.8695652173913043,
	"grad_norm": 12.54604434967041,
	"learning_rate": 8.645454235739903e-06,
	"loss": 2.1939,
	"step": 465
	},
	{
	"epoch": 0.8714352501168771,
	"grad_norm": 11.750197410583496,
	"learning_rate": 8.403700661183355e-06,
	"loss": 2.1129,
	"step": 466
	},
	{
	"epoch": 0.8733052828424498,
	"grad_norm": 11.671151161193848,
	"learning_rate": 8.165226965235328e-06,
	"loss": 2.4747,
	"step": 467
	},
	{
	"epoch": 0.8751753155680224,
	"grad_norm": 14.79646110534668,
	"learning_rate": 7.930041687157607e-06,
	"loss": 2.1669,
	"step": 468
	},
	{
	"epoch": 0.8770453482935952,
	"grad_norm": 11.03843879699707,
	"learning_rate": 7.698153248460271e-06,
	"loss": 2.1497,
	"step": 469
	},
	{
	"epoch": 0.8789153810191679,
	"grad_norm": 12.181533813476562,
	"learning_rate": 7.46956995260033e-06,
	"loss": 2.5349,
	"step": 470
	},
	{
	"epoch": 0.8807854137447405,
	"grad_norm": 27.885995864868164,
	"learning_rate": 7.244299984684233e-06,
	"loss": 2.6204,
	"step": 471
	},
	{
	"epoch": 0.8826554464703132,
	"grad_norm": 14.558568000793457,
	"learning_rate": 7.022351411174866e-06,
	"loss": 2.2863,
	"step": 472
	},
	{
	"epoch": 0.884525479195886,
	"grad_norm": 14.143083572387695,
	"learning_rate": 6.803732179602684e-06,
	"loss": 2.2255,
	"step": 473
	},
	{
	"epoch": 0.8863955119214586,
	"grad_norm": 15.334390640258789,
	"learning_rate": 6.5884501182811084e-06,
	"loss": 2.7062,
	"step": 474
	},
	{
	"epoch": 0.8882655446470313,
	"grad_norm": 14.617964744567871,
	"learning_rate": 6.37651293602628e-06,
	"loss": 2.4742,
	"step": 475
	},
	{
	"epoch": 0.8901355773726041,
	"grad_norm": 13.574972152709961,
	"learning_rate": 6.167928221880926e-06,
	"loss": 2.6229,
	"step": 476
	},
	{
	"epoch": 0.8920056100981767,
	"grad_norm": 14.283699989318848,
	"learning_rate": 5.9627034448426545e-06,
	"loss": 2.2862,
	"step": 477
	},
	{
	"epoch": 0.8938756428237494,
	"grad_norm": 16.076574325561523,
	"learning_rate": 5.760845953596527e-06,
	"loss": 2.9803,
	"step": 478
	},
	{
	"epoch": 0.8957456755493222,
	"grad_norm": 18.35474967956543,
	"learning_rate": 5.562362976251901e-06,
	"loss": 2.6646,
	"step": 479
	},
	{
	"epoch": 0.8976157082748948,
	"grad_norm": 16.39321517944336,
	"learning_rate": 5.367261620083575e-06,
	"loss": 2.596,
	"step": 480
	},
	{
	"epoch": 0.8994857410004675,
	"grad_norm": 16.686824798583984,
	"learning_rate": 5.175548871277358e-06,
	"loss": 2.5261,
	"step": 481
	},
	{
	"epoch": 0.9013557737260403,
	"grad_norm": 16.57494354248047,
	"learning_rate": 4.9872315946798535e-06,
	"loss": 2.3015,
	"step": 482
	},
	{
	"epoch": 0.9032258064516129,
	"grad_norm": 17.73284339904785,
	"learning_rate": 4.80231653355262e-06,
	"loss": 2.7761,
	"step": 483
	},
	{
	"epoch": 0.9050958391771856,
	"grad_norm": 16.7850284576416,
	"learning_rate": 4.620810309330803e-06,
	"loss": 2.2855,
	"step": 484
	},
	{
	"epoch": 0.9069658719027583,
	"grad_norm": 18.645483016967773,
	"learning_rate": 4.442719421385922e-06,
	"loss": 3.0409,
	"step": 485
	},
	{
	"epoch": 0.908835904628331,
	"grad_norm": 17.9419002532959,
	"learning_rate": 4.268050246793276e-06,
	"loss": 2.664,
	"step": 486
	},
	{
	"epoch": 0.9107059373539037,
	"grad_norm": 17.279287338256836,
	"learning_rate": 4.096809040103444e-06,
	"loss": 2.2947,
	"step": 487
	},
	{
	"epoch": 0.9125759700794764,
	"grad_norm": 25.570619583129883,
	"learning_rate": 3.9290019331184145e-06,
	"loss": 2.6834,
	"step": 488
	},
	{
	"epoch": 0.9144460028050491,
	"grad_norm": 22.238800048828125,
	"learning_rate": 3.7646349346719955e-06,
	"loss": 3.1555,
	"step": 489
	},
	{
	"epoch": 0.9163160355306218,
	"grad_norm": 18.883892059326172,
	"learning_rate": 3.6037139304146762e-06,
	"loss": 2.4276,
	"step": 490
	},
	{
	"epoch": 0.9181860682561945,
	"grad_norm": 20.898273468017578,
	"learning_rate": 3.446244682602817e-06,
	"loss": 3.0974,
	"step": 491
	},
	{
	"epoch": 0.9200561009817672,
	"grad_norm": 19.29071044921875,
	"learning_rate": 3.292232829892361e-06,
	"loss": 2.7486,
	"step": 492
	},
	{
	"epoch": 0.9219261337073399,
	"grad_norm": 23.598310470581055,
	"learning_rate": 3.1416838871368924e-06,
	"loss": 3.4687,
	"step": 493
	},
	{
	"epoch": 0.9237961664329126,
	"grad_norm": 22.534082412719727,
	"learning_rate": 2.9946032451902194e-06,
	"loss": 3.0483,
	"step": 494
	},
	{
	"epoch": 0.9256661991584852,
	"grad_norm": 20.772890090942383,
	"learning_rate": 2.8509961707132494e-06,
	"loss": 2.8497,
	"step": 495
	},
	{
	"epoch": 0.927536231884058,
	"grad_norm": 27.105192184448242,
	"learning_rate": 2.7108678059855065e-06,
	"loss": 3.8906,
	"step": 496
	},
	{
	"epoch": 0.9294062646096307,
	"grad_norm": 29.60268211364746,
	"learning_rate": 2.5742231687209017e-06,
	"loss": 4.1652,
	"step": 497
	},
	{
	"epoch": 0.9312762973352033,
	"grad_norm": 30.220417022705078,
	"learning_rate": 2.4410671518880655e-06,
	"loss": 3.4544,
	"step": 498
	},
	{
	"epoch": 0.9331463300607761,
	"grad_norm": 34.319881439208984,
	"learning_rate": 2.311404523535243e-06,
	"loss": 3.7756,
	"step": 499
	},
	{
	"epoch": 0.9350163627863488,
	"grad_norm": 48.59423065185547,
	"learning_rate": 2.1852399266194314e-06,
	"loss": 4.6194,
	"step": 500
	},
	{
	"epoch": 0.9368863955119214,
	"grad_norm": 7.484718322753906,
	"learning_rate": 2.062577878840244e-06,
	"loss": 2.3524,
	"step": 501
	},
	{
	"epoch": 0.9387564282374942,
	"grad_norm": 8.843035697937012,
	"learning_rate": 1.9434227724779984e-06,
	"loss": 2.4799,
	"step": 502
	},
	{
	"epoch": 0.9406264609630669,
	"grad_norm": 7.7384161949157715,
	"learning_rate": 1.8277788742365965e-06,
	"loss": 1.8435,
	"step": 503
	},
	{
	"epoch": 0.9424964936886395,
	"grad_norm": 9.377725601196289,
	"learning_rate": 1.7156503250905898e-06,
	"loss": 2.1838,
	"step": 504
	},
	{
	"epoch": 0.9443665264142123,
	"grad_norm": 9.2131929397583,
	"learning_rate": 1.6070411401370334e-06,
	"loss": 2.0863,
	"step": 505
	},
	{
	"epoch": 0.946236559139785,
	"grad_norm": 9.792388916015625,
	"learning_rate": 1.501955208451633e-06,
	"loss": 2.5053,
	"step": 506
	},
	{
	"epoch": 0.9481065918653576,
	"grad_norm": 10.286921501159668,
	"learning_rate": 1.400396292949513e-06,
	"loss": 1.9311,
	"step": 507
	},
	{
	"epoch": 0.9499766245909304,
	"grad_norm": 10.273000717163086,
	"learning_rate": 1.3023680302504338e-06,
	"loss": 2.4607,
	"step": 508
	},
	{
	"epoch": 0.9518466573165031,
	"grad_norm": 9.218442916870117,
	"learning_rate": 1.207873930548653e-06,
	"loss": 1.5958,
	"step": 509
	},
	{
	"epoch": 0.9537166900420757,
	"grad_norm": 12.184614181518555,
	"learning_rate": 1.1169173774871478e-06,
	"loss": 2.7458,
	"step": 510
	},
	{
	"epoch": 0.9555867227676484,
	"grad_norm": 12.237886428833008,
	"learning_rate": 1.0295016280365112e-06,
	"loss": 2.8767,
	"step": 511
	},
	{
	"epoch": 0.9574567554932212,
	"grad_norm": 14.358260154724121,
	"learning_rate": 9.456298123782902e-07,
	"loss": 2.5067,
	"step": 512
	},
	{
	"epoch": 0.9593267882187938,
	"grad_norm": 15.50924301147461,
	"learning_rate": 8.65304933792932e-07,
	"loss": 2.7335,
	"step": 513
	},
	{
	"epoch": 0.9611968209443665,
	"grad_norm": 12.935508728027344,
	"learning_rate": 7.885298685522235e-07,
	"loss": 2.3211,
	"step": 514
	},
	{
	"epoch": 0.9630668536699393,
	"grad_norm": 13.291459083557129,
	"learning_rate": 7.153073658162646e-07,
	"loss": 2.5455,
	"step": 515
	},
	{
	"epoch": 0.9649368863955119,
	"grad_norm": 17.141666412353516,
	"learning_rate": 6.456400475351232e-07,
	"loss": 3.0588,
	"step": 516
	},
	{
	"epoch": 0.9668069191210846,
	"grad_norm": 16.180906295776367,
	"learning_rate": 5.795304083548559e-07,
	"loss": 2.8284,
	"step": 517
	},
	{
	"epoch": 0.9686769518466574,
	"grad_norm": 13.24155044555664,
	"learning_rate": 5.169808155281786e-07,
	"loss": 2.2862,
	"step": 518
	},
	{
	"epoch": 0.97054698457223,
	"grad_norm": 15.022529602050781,
	"learning_rate": 4.579935088298015e-07,
	"loss": 2.5049,
	"step": 519
	},
	{
	"epoch": 0.9724170172978027,
	"grad_norm": 18.232423782348633,
	"learning_rate": 4.025706004760932e-07,
	"loss": 3.3347,
	"step": 520
	},
	{
	"epoch": 0.9742870500233755,
	"grad_norm": 15.241950988769531,
	"learning_rate": 3.50714075049563e-07,
	"loss": 2.7126,
	"step": 521
	},
	{
	"epoch": 0.9761570827489481,
	"grad_norm": 15.458436965942383,
	"learning_rate": 3.0242578942771825e-07,
	"loss": 2.6416,
	"step": 522
	},
	{
	"epoch": 0.9780271154745208,
	"grad_norm": 18.882591247558594,
	"learning_rate": 2.577074727165951e-07,
	"loss": 2.461,
	"step": 523
	},
	{
	"epoch": 0.9798971482000935,
	"grad_norm": 17.970928192138672,
	"learning_rate": 2.1656072618887468e-07,
	"loss": 2.9272,
	"step": 524
	},
	{
	"epoch": 0.9817671809256662,
	"grad_norm": 18.435932159423828,
	"learning_rate": 1.7898702322648453e-07,
	"loss": 2.8594,
	"step": 525
	},
	{
	"epoch": 0.9836372136512389,
	"grad_norm": 19.39750099182129,
	"learning_rate": 1.449877092679075e-07,
	"loss": 2.1917,
	"step": 526
	},
	{
	"epoch": 0.9855072463768116,
	"grad_norm": 20.87994384765625,
	"learning_rate": 1.1456400175994252e-07,
	"loss": 3.1765,
	"step": 527
	},
	{
	"epoch": 0.9873772791023843,
	"grad_norm": 20.146398544311523,
	"learning_rate": 8.771699011416168e-08,
	"loss": 2.4422,
	"step": 528
	},
	{
	"epoch": 0.989247311827957,
	"grad_norm": 21.26473045349121,
	"learning_rate": 6.444763566786361e-08,
	"loss": 2.6351,
	"step": 529
	},
	{
	"epoch": 0.9911173445535297,
	"grad_norm": 24.013477325439453,
	"learning_rate": 4.475677164966774e-08,
	"loss": 3.721,
	"step": 530
	},
	{
	"epoch": 0.9929873772791024,
	"grad_norm": 29.331228256225586,
	"learning_rate": 2.86451031496604e-08,
	"loss": 3.3834,
	"step": 531
	},
	{
	"epoch": 0.9948574100046751,
	"grad_norm": 20.945201873779297,
	"learning_rate": 1.6113207094181626e-08,
	"loss": 2.846,
	"step": 532
	},
	{
	"epoch": 0.9967274427302478,
	"grad_norm": 22.861347198486328,
	"learning_rate": 7.161532225130607e-09,
	"loss": 2.9253,
	"step": 533
	},
	{
	"epoch": 0.9985974754558204,
	"grad_norm": 30.596744537353516,
	"learning_rate": 1.7903990839229779e-09,
	"loss": 4.0554,
	"step": 534
	},
	{
	"epoch": 1.0014025245441796,
	"grad_norm": 14.026424407958984,
	"learning_rate": 0.0,
	"loss": 2.7318,
	"step": 535
	}
	],
	"logging_steps": 1,
	"max_steps": 535,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 134,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.8753566709645312e+17,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}