keyword_gacha_multilingual_base / trainer_state.json

20250128

0e5a816 verified about 2 months ago

244 kB

	{
	"epoch": 0.9991671471586905,
	"global_step": 1114,
	"max_steps": 1114,
	"logging_steps": 1,
	"eval_steps": 50,
	"save_steps": 50,
	"train_batch_size": 8,
	"num_train_epochs": 1,
	"num_input_tokens_seen": 0,
	"total_flos": 6.811715592467251e+17,
	"log_history": [
	{
	"loss": 440.6308,
	"grad_norm": 98.61355590820312,
	"learning_rate": 0.0004999990058793643,
	"epoch": 0.0008969184444871549,
	"step": 1
	},
	{
	"loss": 515.3978,
	"grad_norm": 1112.0234375,
	"learning_rate": 0.0004999960235253631,
	"epoch": 0.0017938368889743098,
	"step": 2
	},
	{
	"loss": 477.4767,
	"grad_norm": 392.8102722167969,
	"learning_rate": 0.0004999910529617153,
	"epoch": 0.0026907553334614646,
	"step": 3
	},
	{
	"loss": 457.2771,
	"grad_norm": 292.9400939941406,
	"learning_rate": 0.0004999840942279514,
	"epoch": 0.0035876737779486196,
	"step": 4
	},
	{
	"loss": 444.411,
	"grad_norm": 166.66598510742188,
	"learning_rate": 0.000499975147379414,
	"epoch": 0.004484592222435775,
	"step": 5
	},
	{
	"loss": 438.7729,
	"grad_norm": 132.8984375,
	"learning_rate": 0.000499964212487257,
	"epoch": 0.005381510666922929,
	"step": 6
	},
	{
	"loss": 434.4058,
	"grad_norm": 102.88407135009766,
	"learning_rate": 0.0004999512896384454,
	"epoch": 0.006278429111410084,
	"step": 7
	},
	{
	"loss": 431.3428,
	"grad_norm": 109.61495971679688,
	"learning_rate": 0.0004999363789357541,
	"epoch": 0.007175347555897239,
	"step": 8
	},
	{
	"loss": 430.6904,
	"grad_norm": 94.442626953125,
	"learning_rate": 0.0004999194804977674,
	"epoch": 0.008072266000384394,
	"step": 9
	},
	{
	"loss": 427.7128,
	"grad_norm": 79.10123443603516,
	"learning_rate": 0.0004999005944588778,
	"epoch": 0.00896918444487155,
	"step": 10
	},
	{
	"loss": 430.6295,
	"grad_norm": 81.77398681640625,
	"learning_rate": 0.0004998797209692856,
	"epoch": 0.009866102889358703,
	"step": 11
	},
	{
	"loss": 422.6068,
	"grad_norm": 67.85909271240234,
	"learning_rate": 0.0004998568601949967,
	"epoch": 0.010763021333845858,
	"step": 12
	},
	{
	"loss": 422.3798,
	"grad_norm": 81.51007843017578,
	"learning_rate": 0.0004998320123178223,
	"epoch": 0.011659939778333014,
	"step": 13
	},
	{
	"loss": 423.3609,
	"grad_norm": 70.7045669555664,
	"learning_rate": 0.0004998051775353763,
	"epoch": 0.012556858222820167,
	"step": 14
	},
	{
	"loss": 423.232,
	"grad_norm": 75.2995834350586,
	"learning_rate": 0.0004997763560610752,
	"epoch": 0.013453776667307323,
	"step": 15
	},
	{
	"loss": 414.7621,
	"grad_norm": 63.627197265625,
	"learning_rate": 0.000499745548124135,
	"epoch": 0.014350695111794478,
	"step": 16
	},
	{
	"loss": 419.0351,
	"grad_norm": 73.96087646484375,
	"learning_rate": 0.0004997127539695701,
	"epoch": 0.015247613556281632,
	"step": 17
	},
	{
	"loss": 418.1977,
	"grad_norm": 70.3633804321289,
	"learning_rate": 0.0004996779738581913,
	"epoch": 0.016144532000768787,
	"step": 18
	},
	{
	"loss": 416.1606,
	"grad_norm": 74.2279052734375,
	"learning_rate": 0.0004996412080666037,
	"epoch": 0.017041450445255943,
	"step": 19
	},
	{
	"loss": 417.2284,
	"grad_norm": 63.311676025390625,
	"learning_rate": 0.0004996024568872042,
	"epoch": 0.0179383688897431,
	"step": 20
	},
	{
	"loss": 409.5278,
	"grad_norm": 63.21588897705078,
	"learning_rate": 0.0004995617206281797,
	"epoch": 0.01883528733423025,
	"step": 21
	},
	{
	"loss": 414.1958,
	"grad_norm": 61.4863395690918,
	"learning_rate": 0.0004995189996135042,
	"epoch": 0.019732205778717406,
	"step": 22
	},
	{
	"loss": 419.7891,
	"grad_norm": 61.297481536865234,
	"learning_rate": 0.0004994742941829364,
	"epoch": 0.02062912422320456,
	"step": 23
	},
	{
	"loss": 414.3831,
	"grad_norm": 68.20845031738281,
	"learning_rate": 0.0004994276046920171,
	"epoch": 0.021526042667691717,
	"step": 24
	},
	{
	"loss": 415.8848,
	"grad_norm": 59.016239166259766,
	"learning_rate": 0.0004993789315120662,
	"epoch": 0.022422961112178872,
	"step": 25
	},
	{
	"loss": 417.4357,
	"grad_norm": 55.90328598022461,
	"learning_rate": 0.0004993282750301799,
	"epoch": 0.023319879556666027,
	"step": 26
	},
	{
	"loss": 411.6564,
	"grad_norm": 59.52859115600586,
	"learning_rate": 0.000499275635649227,
	"epoch": 0.02421679800115318,
	"step": 27
	},
	{
	"loss": 412.2451,
	"grad_norm": 59.61384963989258,
	"learning_rate": 0.0004992210137878472,
	"epoch": 0.025113716445640335,
	"step": 28
	},
	{
	"loss": 416.412,
	"grad_norm": 60.00177001953125,
	"learning_rate": 0.000499164409880446,
	"epoch": 0.02601063489012749,
	"step": 29
	},
	{
	"loss": 405.7923,
	"grad_norm": 59.08831024169922,
	"learning_rate": 0.0004991058243771922,
	"epoch": 0.026907553334614646,
	"step": 30
	},
	{
	"loss": 411.6278,
	"grad_norm": 58.00886154174805,
	"learning_rate": 0.0004990452577440143,
	"epoch": 0.0278044717791018,
	"step": 31
	},
	{
	"loss": 406.3222,
	"grad_norm": 57.3386116027832,
	"learning_rate": 0.0004989827104625969,
	"epoch": 0.028701390223588957,
	"step": 32
	},
	{
	"loss": 404.9872,
	"grad_norm": 56.013816833496094,
	"learning_rate": 0.000498918183030376,
	"epoch": 0.02959830866807611,
	"step": 33
	},
	{
	"loss": 406.4626,
	"grad_norm": 57.787132263183594,
	"learning_rate": 0.0004988516759605363,
	"epoch": 0.030495227112563264,
	"step": 34
	},
	{
	"loss": 405.2309,
	"grad_norm": 54.9903678894043,
	"learning_rate": 0.0004987831897820059,
	"epoch": 0.03139214555705042,
	"step": 35
	},
	{
	"loss": 415.0021,
	"grad_norm": 55.86436462402344,
	"learning_rate": 0.0004987127250394532,
	"epoch": 0.032289064001537575,
	"step": 36
	},
	{
	"loss": 402.1766,
	"grad_norm": 53.72284698486328,
	"learning_rate": 0.0004986402822932818,
	"epoch": 0.03318598244602473,
	"step": 37
	},
	{
	"loss": 409.7162,
	"grad_norm": 56.52421569824219,
	"learning_rate": 0.0004985658621196263,
	"epoch": 0.034082900890511886,
	"step": 38
	},
	{
	"loss": 406.8592,
	"grad_norm": 63.26171875,
	"learning_rate": 0.0004984894651103478,
	"epoch": 0.03497981933499904,
	"step": 39
	},
	{
	"loss": 401.9672,
	"grad_norm": 52.98197937011719,
	"learning_rate": 0.0004984110918730289,
	"epoch": 0.0358767377794862,
	"step": 40
	},
	{
	"loss": 402.0731,
	"grad_norm": 61.255733489990234,
	"learning_rate": 0.0004983307430309695,
	"epoch": 0.03677365622397335,
	"step": 41
	},
	{
	"loss": 405.9777,
	"grad_norm": 62.212188720703125,
	"learning_rate": 0.0004982484192231808,
	"epoch": 0.0376705746684605,
	"step": 42
	},
	{
	"loss": 409.4884,
	"grad_norm": 60.04124450683594,
	"learning_rate": 0.0004981641211043813,
	"epoch": 0.03856749311294766,
	"step": 43
	},
	{
	"loss": 402.7691,
	"grad_norm": 58.80691909790039,
	"learning_rate": 0.0004980778493449912,
	"epoch": 0.03946441155743481,
	"step": 44
	},
	{
	"loss": 406.07,
	"grad_norm": 58.074493408203125,
	"learning_rate": 0.0004979896046311265,
	"epoch": 0.04036133000192197,
	"step": 45
	},
	{
	"loss": 406.7423,
	"grad_norm": 62.749534606933594,
	"learning_rate": 0.0004978993876645944,
	"epoch": 0.04125824844640912,
	"step": 46
	},
	{
	"loss": 403.2931,
	"grad_norm": 58.47712707519531,
	"learning_rate": 0.0004978071991628874,
	"epoch": 0.04215516689089628,
	"step": 47
	},
	{
	"loss": 402.5574,
	"grad_norm": 64.82901000976562,
	"learning_rate": 0.0004977130398591775,
	"epoch": 0.04305208533538343,
	"step": 48
	},
	{
	"loss": 405.5097,
	"grad_norm": 56.95109939575195,
	"learning_rate": 0.00049761691050231,
	"epoch": 0.043949003779870585,
	"step": 49
	},
	{
	"loss": 408.4274,
	"grad_norm": 60.67522048950195,
	"learning_rate": 0.0004975188118567987,
	"epoch": 0.044845922224357744,
	"step": 50
	},
	{
	"eval_loss": 1.7932980060577393,
	"eval_runtime": 41.7475,
	"eval_samples_per_second": 49.057,
	"eval_steps_per_second": 3.066,
	"epoch": 0.044845922224357744,
	"step": 50
	},
	{
	"loss": 405.2191,
	"grad_norm": 61.441951751708984,
	"learning_rate": 0.0004974187447028184,
	"epoch": 0.045742840668844896,
	"step": 51
	},
	{
	"loss": 402.9874,
	"grad_norm": 56.64131546020508,
	"learning_rate": 0.0004973167098361999,
	"epoch": 0.046639759113332055,
	"step": 52
	},
	{
	"loss": 403.7462,
	"grad_norm": 58.905479431152344,
	"learning_rate": 0.0004972127080684228,
	"epoch": 0.04753667755781921,
	"step": 53
	},
	{
	"loss": 402.2606,
	"grad_norm": 60.9106559753418,
	"learning_rate": 0.0004971067402266096,
	"epoch": 0.04843359600230636,
	"step": 54
	},
	{
	"loss": 397.4493,
	"grad_norm": 55.347869873046875,
	"learning_rate": 0.0004969988071535188,
	"epoch": 0.04933051444679352,
	"step": 55
	},
	{
	"loss": 398.7716,
	"grad_norm": 56.816104888916016,
	"learning_rate": 0.0004968889097075385,
	"epoch": 0.05022743289128067,
	"step": 56
	},
	{
	"loss": 399.2036,
	"grad_norm": 63.388851165771484,
	"learning_rate": 0.0004967770487626791,
	"epoch": 0.05112435133576783,
	"step": 57
	},
	{
	"loss": 402.6399,
	"grad_norm": 58.803466796875,
	"learning_rate": 0.0004966632252085668,
	"epoch": 0.05202126978025498,
	"step": 58
	},
	{
	"loss": 401.2329,
	"grad_norm": 61.42218780517578,
	"learning_rate": 0.0004965474399504364,
	"epoch": 0.05291818822474213,
	"step": 59
	},
	{
	"loss": 394.491,
	"grad_norm": 54.581748962402344,
	"learning_rate": 0.000496429693909124,
	"epoch": 0.05381510666922929,
	"step": 60
	},
	{
	"loss": 402.2176,
	"grad_norm": 60.348812103271484,
	"learning_rate": 0.0004963099880210597,
	"epoch": 0.05471202511371644,
	"step": 61
	},
	{
	"loss": 401.5288,
	"grad_norm": 58.51568603515625,
	"learning_rate": 0.0004961883232382603,
	"epoch": 0.0556089435582036,
	"step": 62
	},
	{
	"loss": 402.1975,
	"grad_norm": 53.891822814941406,
	"learning_rate": 0.0004960647005283217,
	"epoch": 0.056505862002690754,
	"step": 63
	},
	{
	"loss": 402.8554,
	"grad_norm": 54.66781234741211,
	"learning_rate": 0.0004959391208744108,
	"epoch": 0.05740278044717791,
	"step": 64
	},
	{
	"loss": 397.2245,
	"grad_norm": 57.83986282348633,
	"learning_rate": 0.0004958115852752582,
	"epoch": 0.058299698891665065,
	"step": 65
	},
	{
	"loss": 398.295,
	"grad_norm": 56.6056022644043,
	"learning_rate": 0.0004956820947451502,
	"epoch": 0.05919661733615222,
	"step": 66
	},
	{
	"loss": 398.1401,
	"grad_norm": 58.830711364746094,
	"learning_rate": 0.0004955506503139204,
	"epoch": 0.060093535780639376,
	"step": 67
	},
	{
	"loss": 401.4149,
	"grad_norm": 54.770755767822266,
	"learning_rate": 0.0004954172530269418,
	"epoch": 0.06099045422512653,
	"step": 68
	},
	{
	"loss": 399.5218,
	"grad_norm": 59.45661926269531,
	"learning_rate": 0.0004952819039451183,
	"epoch": 0.06188737266961369,
	"step": 69
	},
	{
	"loss": 396.4537,
	"grad_norm": 53.4246826171875,
	"learning_rate": 0.0004951446041448765,
	"epoch": 0.06278429111410085,
	"step": 70
	},
	{
	"loss": 401.2764,
	"grad_norm": 55.125919342041016,
	"learning_rate": 0.0004950053547181568,
	"epoch": 0.063681209558588,
	"step": 71
	},
	{
	"loss": 400.9092,
	"grad_norm": 63.59549331665039,
	"learning_rate": 0.0004948641567724053,
	"epoch": 0.06457812800307515,
	"step": 72
	},
	{
	"loss": 397.1968,
	"grad_norm": 58.40228271484375,
	"learning_rate": 0.0004947210114305639,
	"epoch": 0.0654750464475623,
	"step": 73
	},
	{
	"loss": 398.0598,
	"grad_norm": 62.7151985168457,
	"learning_rate": 0.0004945759198310629,
	"epoch": 0.06637196489204945,
	"step": 74
	},
	{
	"loss": 398.7396,
	"grad_norm": 59.287742614746094,
	"learning_rate": 0.0004944288831278106,
	"epoch": 0.06726888333653662,
	"step": 75
	},
	{
	"loss": 391.3397,
	"grad_norm": 59.052059173583984,
	"learning_rate": 0.0004942799024901846,
	"epoch": 0.06816580178102377,
	"step": 76
	},
	{
	"loss": 394.1899,
	"grad_norm": 54.65058135986328,
	"learning_rate": 0.0004941289791030229,
	"epoch": 0.06906272022551092,
	"step": 77
	},
	{
	"loss": 393.8536,
	"grad_norm": 51.59941101074219,
	"learning_rate": 0.0004939761141666139,
	"epoch": 0.06995963866999808,
	"step": 78
	},
	{
	"loss": 396.7059,
	"grad_norm": 55.84555435180664,
	"learning_rate": 0.0004938213088966872,
	"epoch": 0.07085655711448523,
	"step": 79
	},
	{
	"loss": 392.0196,
	"grad_norm": 55.808250427246094,
	"learning_rate": 0.0004936645645244033,
	"epoch": 0.0717534755589724,
	"step": 80
	},
	{
	"loss": 395.5785,
	"grad_norm": 53.83452224731445,
	"learning_rate": 0.0004935058822963453,
	"epoch": 0.07265039400345955,
	"step": 81
	},
	{
	"loss": 398.3966,
	"grad_norm": 61.950626373291016,
	"learning_rate": 0.000493345263474507,
	"epoch": 0.0735473124479467,
	"step": 82
	},
	{
	"loss": 399.4866,
	"grad_norm": 65.6949462890625,
	"learning_rate": 0.0004931827093362844,
	"epoch": 0.07444423089243385,
	"step": 83
	},
	{
	"loss": 393.8017,
	"grad_norm": 54.928836822509766,
	"learning_rate": 0.0004930182211744649,
	"epoch": 0.075341149336921,
	"step": 84
	},
	{
	"loss": 398.1347,
	"grad_norm": 59.81849670410156,
	"learning_rate": 0.0004928518002972172,
	"epoch": 0.07623806778140817,
	"step": 85
	},
	{
	"loss": 392.8837,
	"grad_norm": 57.970462799072266,
	"learning_rate": 0.0004926834480280805,
	"epoch": 0.07713498622589532,
	"step": 86
	},
	{
	"loss": 394.3792,
	"grad_norm": 57.43026351928711,
	"learning_rate": 0.0004925131657059547,
	"epoch": 0.07803190467038247,
	"step": 87
	},
	{
	"loss": 395.7612,
	"grad_norm": 57.73651123046875,
	"learning_rate": 0.0004923409546850891,
	"epoch": 0.07892882311486962,
	"step": 88
	},
	{
	"loss": 396.5627,
	"grad_norm": 58.27775573730469,
	"learning_rate": 0.000492166816335072,
	"epoch": 0.07982574155935677,
	"step": 89
	},
	{
	"loss": 398.5615,
	"grad_norm": 53.49543762207031,
	"learning_rate": 0.0004919907520408196,
	"epoch": 0.08072266000384394,
	"step": 90
	},
	{
	"loss": 398.6497,
	"grad_norm": 57.175514221191406,
	"learning_rate": 0.000491812763202565,
	"epoch": 0.08161957844833109,
	"step": 91
	},
	{
	"loss": 392.5616,
	"grad_norm": 58.206119537353516,
	"learning_rate": 0.0004916328512358472,
	"epoch": 0.08251649689281824,
	"step": 92
	},
	{
	"loss": 390.17,
	"grad_norm": 56.978179931640625,
	"learning_rate": 0.0004914510175714999,
	"epoch": 0.0834134153373054,
	"step": 93
	},
	{
	"loss": 391.477,
	"grad_norm": 59.842369079589844,
	"learning_rate": 0.0004912672636556397,
	"epoch": 0.08431033378179256,
	"step": 94
	},
	{
	"loss": 394.4383,
	"grad_norm": 52.20112609863281,
	"learning_rate": 0.0004910815909496555,
	"epoch": 0.08520725222627971,
	"step": 95
	},
	{
	"loss": 390.8443,
	"grad_norm": 61.12334060668945,
	"learning_rate": 0.0004908940009301954,
	"epoch": 0.08610417067076687,
	"step": 96
	},
	{
	"loss": 395.9276,
	"grad_norm": 55.49872589111328,
	"learning_rate": 0.0004907044950891565,
	"epoch": 0.08700108911525402,
	"step": 97
	},
	{
	"loss": 394.7866,
	"grad_norm": 59.71890640258789,
	"learning_rate": 0.000490513074933672,
	"epoch": 0.08789800755974117,
	"step": 98
	},
	{
	"loss": 388.5464,
	"grad_norm": 55.72919845581055,
	"learning_rate": 0.0004903197419860999,
	"epoch": 0.08879492600422834,
	"step": 99
	},
	{
	"loss": 392.9969,
	"grad_norm": 61.6799430847168,
	"learning_rate": 0.0004901244977840103,
	"epoch": 0.08969184444871549,
	"step": 100
	},
	{
	"eval_loss": 1.7485355138778687,
	"eval_runtime": 49.5113,
	"eval_samples_per_second": 41.364,
	"eval_steps_per_second": 2.585,
	"epoch": 0.08969184444871549,
	"step": 100
	},
	{
	"loss": 393.0805,
	"grad_norm": 58.71113204956055,
	"learning_rate": 0.0004899273438801734,
	"epoch": 0.09058876289320264,
	"step": 101
	},
	{
	"loss": 391.5116,
	"grad_norm": 54.11758804321289,
	"learning_rate": 0.0004897282818425474,
	"epoch": 0.09148568133768979,
	"step": 102
	},
	{
	"loss": 394.4952,
	"grad_norm": 53.54176712036133,
	"learning_rate": 0.0004895273132542658,
	"epoch": 0.09238259978217694,
	"step": 103
	},
	{
	"loss": 392.5484,
	"grad_norm": 51.26163101196289,
	"learning_rate": 0.0004893244397136246,
	"epoch": 0.09327951822666411,
	"step": 104
	},
	{
	"loss": 392.7574,
	"grad_norm": 57.158973693847656,
	"learning_rate": 0.0004891196628340703,
	"epoch": 0.09417643667115126,
	"step": 105
	},
	{
	"loss": 392.1094,
	"grad_norm": 51.87057113647461,
	"learning_rate": 0.0004889129842441859,
	"epoch": 0.09507335511563841,
	"step": 106
	},
	{
	"loss": 391.9873,
	"grad_norm": 62.71110534667969,
	"learning_rate": 0.0004887044055876793,
	"epoch": 0.09597027356012557,
	"step": 107
	},
	{
	"loss": 393.0227,
	"grad_norm": 61.41956329345703,
	"learning_rate": 0.0004884939285233691,
	"epoch": 0.09686719200461272,
	"step": 108
	},
	{
	"loss": 389.2371,
	"grad_norm": 59.030765533447266,
	"learning_rate": 0.0004882815547251721,
	"epoch": 0.09776411044909988,
	"step": 109
	},
	{
	"loss": 394.932,
	"grad_norm": 60.926448822021484,
	"learning_rate": 0.00048806728588208966,
	"epoch": 0.09866102889358704,
	"step": 110
	},
	{
	"loss": 389.2965,
	"grad_norm": 59.546268463134766,
	"learning_rate": 0.0004878511236981945,
	"epoch": 0.09955794733807419,
	"step": 111
	},
	{
	"loss": 389.0897,
	"grad_norm": 56.25603103637695,
	"learning_rate": 0.0004876330698926169,
	"epoch": 0.10045486578256134,
	"step": 112
	},
	{
	"loss": 391.7546,
	"grad_norm": 63.1163444519043,
	"learning_rate": 0.00048741312619953104,
	"epoch": 0.10135178422704849,
	"step": 113
	},
	{
	"loss": 392.0137,
	"grad_norm": 70.23162078857422,
	"learning_rate": 0.00048719129436814156,
	"epoch": 0.10224870267153566,
	"step": 114
	},
	{
	"loss": 390.5738,
	"grad_norm": 60.9749755859375,
	"learning_rate": 0.00048696757616266927,
	"epoch": 0.10314562111602281,
	"step": 115
	},
	{
	"loss": 387.7592,
	"grad_norm": 60.2146110534668,
	"learning_rate": 0.0004867419733623372,
	"epoch": 0.10404253956050996,
	"step": 116
	},
	{
	"loss": 390.6403,
	"grad_norm": 59.26010513305664,
	"learning_rate": 0.00048651448776135654,
	"epoch": 0.10493945800499711,
	"step": 117
	},
	{
	"loss": 391.4545,
	"grad_norm": 55.02613067626953,
	"learning_rate": 0.00048628512116891234,
	"epoch": 0.10583637644948427,
	"step": 118
	},
	{
	"loss": 388.2937,
	"grad_norm": 56.28743362426758,
	"learning_rate": 0.00048605387540914916,
	"epoch": 0.10673329489397143,
	"step": 119
	},
	{
	"loss": 389.2755,
	"grad_norm": 55.22878646850586,
	"learning_rate": 0.0004858207523211563,
	"epoch": 0.10763021333845858,
	"step": 120
	},
	{
	"loss": 392.9062,
	"grad_norm": 55.45512771606445,
	"learning_rate": 0.00048558575375895377,
	"epoch": 0.10852713178294573,
	"step": 121
	},
	{
	"loss": 388.4548,
	"grad_norm": 58.8115119934082,
	"learning_rate": 0.0004853488815914767,
	"epoch": 0.10942405022743289,
	"step": 122
	},
	{
	"loss": 390.1011,
	"grad_norm": 55.49444580078125,
	"learning_rate": 0.00048511013770256134,
	"epoch": 0.11032096867192005,
	"step": 123
	},
	{
	"loss": 388.7439,
	"grad_norm": 54.36104202270508,
	"learning_rate": 0.00048486952399092945,
	"epoch": 0.1112178871164072,
	"step": 124
	},
	{
	"loss": 391.1307,
	"grad_norm": 52.75822067260742,
	"learning_rate": 0.0004846270423701734,
	"epoch": 0.11211480556089436,
	"step": 125
	},
	{
	"loss": 388.8095,
	"grad_norm": 55.67084884643555,
	"learning_rate": 0.0004843826947687411,
	"epoch": 0.11301172400538151,
	"step": 126
	},
	{
	"loss": 388.7104,
	"grad_norm": 58.483211517333984,
	"learning_rate": 0.0004841364831299206,
	"epoch": 0.11390864244986866,
	"step": 127
	},
	{
	"loss": 392.5351,
	"grad_norm": 54.69878387451172,
	"learning_rate": 0.00048388840941182435,
	"epoch": 0.11480556089435583,
	"step": 128
	},
	{
	"loss": 389.9329,
	"grad_norm": 56.85935974121094,
	"learning_rate": 0.00048363847558737395,
	"epoch": 0.11570247933884298,
	"step": 129
	},
	{
	"loss": 389.8976,
	"grad_norm": 55.818260192871094,
	"learning_rate": 0.0004833866836442844,
	"epoch": 0.11659939778333013,
	"step": 130
	},
	{
	"loss": 389.0714,
	"grad_norm": 69.33192443847656,
	"learning_rate": 0.0004831330355850483,
	"epoch": 0.11749631622781728,
	"step": 131
	},
	{
	"loss": 387.675,
	"grad_norm": 59.69966506958008,
	"learning_rate": 0.0004828775334269198,
	"epoch": 0.11839323467230443,
	"step": 132
	},
	{
	"loss": 389.1474,
	"grad_norm": 63.28241729736328,
	"learning_rate": 0.0004826201792018986,
	"epoch": 0.1192901531167916,
	"step": 133
	},
	{
	"loss": 386.0185,
	"grad_norm": 60.13338851928711,
	"learning_rate": 0.0004823609749567138,
	"epoch": 0.12018707156127875,
	"step": 134
	},
	{
	"loss": 393.0312,
	"grad_norm": 50.345890045166016,
	"learning_rate": 0.0004820999227528079,
	"epoch": 0.1210839900057659,
	"step": 135
	},
	{
	"loss": 388.9017,
	"grad_norm": 54.398582458496094,
	"learning_rate": 0.00048183702466631986,
	"epoch": 0.12198090845025306,
	"step": 136
	},
	{
	"loss": 390.3952,
	"grad_norm": 58.791343688964844,
	"learning_rate": 0.0004815722827880689,
	"epoch": 0.12287782689474021,
	"step": 137
	},
	{
	"loss": 391.5972,
	"grad_norm": 56.27891540527344,
	"learning_rate": 0.000481305699223538,
	"epoch": 0.12377474533922737,
	"step": 138
	},
	{
	"loss": 390.4619,
	"grad_norm": 57.29872512817383,
	"learning_rate": 0.000481037276092857,
	"epoch": 0.12467166378371453,
	"step": 139
	},
	{
	"loss": 386.5269,
	"grad_norm": 56.40953826904297,
	"learning_rate": 0.0004807670155307856,
	"epoch": 0.1255685822282017,
	"step": 140
	},
	{
	"loss": 386.9588,
	"grad_norm": 56.36626434326172,
	"learning_rate": 0.0004804949196866967,
	"epoch": 0.12646550067268883,
	"step": 141
	},
	{
	"loss": 390.6064,
	"grad_norm": 59.941890716552734,
	"learning_rate": 0.00048022099072455893,
	"epoch": 0.127362419117176,
	"step": 142
	},
	{
	"loss": 389.5639,
	"grad_norm": 55.42548370361328,
	"learning_rate": 0.0004799452308229199,
	"epoch": 0.12825933756166313,
	"step": 143
	},
	{
	"loss": 389.1144,
	"grad_norm": 59.46462631225586,
	"learning_rate": 0.0004796676421748883,
	"epoch": 0.1291562560061503,
	"step": 144
	},
	{
	"loss": 387.238,
	"grad_norm": 61.307960510253906,
	"learning_rate": 0.0004793882269881172,
	"epoch": 0.13005317445063747,
	"step": 145
	},
	{
	"loss": 385.9282,
	"grad_norm": 53.019859313964844,
	"learning_rate": 0.00047910698748478565,
	"epoch": 0.1309500928951246,
	"step": 146
	},
	{
	"loss": 388.6133,
	"grad_norm": 59.57033920288086,
	"learning_rate": 0.00047882392590158166,
	"epoch": 0.13184701133961177,
	"step": 147
	},
	{
	"loss": 385.2765,
	"grad_norm": 55.921993255615234,
	"learning_rate": 0.000478539044489684,
	"epoch": 0.1327439297840989,
	"step": 148
	},
	{
	"loss": 387.315,
	"grad_norm": 53.27146911621094,
	"learning_rate": 0.0004782523455147448,
	"epoch": 0.13364084822858607,
	"step": 149
	},
	{
	"loss": 384.9127,
	"grad_norm": 61.21531295776367,
	"learning_rate": 0.0004779638312568708,
	"epoch": 0.13453776667307324,
	"step": 150
	},
	{
	"eval_loss": 1.7258449792861938,
	"eval_runtime": 36.7008,
	"eval_samples_per_second": 55.803,
	"eval_steps_per_second": 3.488,
	"epoch": 0.13453776667307324,
	"step": 150
	},
	{
	"loss": 385.8539,
	"grad_norm": 60.04133605957031,
	"learning_rate": 0.00047767350401060606,
	"epoch": 0.13543468511756038,
	"step": 151
	},
	{
	"loss": 384.8003,
	"grad_norm": 59.11763000488281,
	"learning_rate": 0.0004773813660849128,
	"epoch": 0.13633160356204754,
	"step": 152
	},
	{
	"loss": 387.7485,
	"grad_norm": 56.51465606689453,
	"learning_rate": 0.0004770874198031538,
	"epoch": 0.13722852200653468,
	"step": 153
	},
	{
	"loss": 383.2278,
	"grad_norm": 56.18191146850586,
	"learning_rate": 0.0004767916675030736,
	"epoch": 0.13812544045102185,
	"step": 154
	},
	{
	"loss": 383.6736,
	"grad_norm": 57.308799743652344,
	"learning_rate": 0.00047649411153678,
	"epoch": 0.139022358895509,
	"step": 155
	},
	{
	"loss": 383.3135,
	"grad_norm": 56.1787109375,
	"learning_rate": 0.0004761947542707251,
	"epoch": 0.13991927733999615,
	"step": 156
	},
	{
	"loss": 380.7021,
	"grad_norm": 59.29663848876953,
	"learning_rate": 0.0004758935980856868,
	"epoch": 0.14081619578448332,
	"step": 157
	},
	{
	"loss": 388.3537,
	"grad_norm": 56.997901916503906,
	"learning_rate": 0.00047559064537674973,
	"epoch": 0.14171311422897045,
	"step": 158
	},
	{
	"loss": 382.6107,
	"grad_norm": 54.997398376464844,
	"learning_rate": 0.0004752858985532862,
	"epoch": 0.14261003267345762,
	"step": 159
	},
	{
	"loss": 390.4788,
	"grad_norm": 61.30497360229492,
	"learning_rate": 0.00047497936003893713,
	"epoch": 0.1435069511179448,
	"step": 160
	},
	{
	"loss": 383.9597,
	"grad_norm": 56.59492492675781,
	"learning_rate": 0.0004746710322715926,
	"epoch": 0.14440386956243192,
	"step": 161
	},
	{
	"loss": 392.4949,
	"grad_norm": 63.977073669433594,
	"learning_rate": 0.0004743609177033725,
	"epoch": 0.1453007880069191,
	"step": 162
	},
	{
	"loss": 385.7721,
	"grad_norm": 63.132537841796875,
	"learning_rate": 0.0004740490188006072,
	"epoch": 0.14619770645140623,
	"step": 163
	},
	{
	"loss": 385.057,
	"grad_norm": 61.54987716674805,
	"learning_rate": 0.0004737353380438178,
	"epoch": 0.1470946248958934,
	"step": 164
	},
	{
	"loss": 384.8288,
	"grad_norm": 64.65653228759766,
	"learning_rate": 0.00047341987792769635,
	"epoch": 0.14799154334038056,
	"step": 165
	},
	{
	"loss": 385.061,
	"grad_norm": 52.979087829589844,
	"learning_rate": 0.0004731026409610863,
	"epoch": 0.1488884617848677,
	"step": 166
	},
	{
	"loss": 385.9828,
	"grad_norm": 66.97553253173828,
	"learning_rate": 0.00047278362966696197,
	"epoch": 0.14978538022935486,
	"step": 167
	},
	{
	"loss": 381.6645,
	"grad_norm": 49.72977066040039,
	"learning_rate": 0.00047246284658240925,
	"epoch": 0.150682298673842,
	"step": 168
	},
	{
	"loss": 387.0713,
	"grad_norm": 59.0352668762207,
	"learning_rate": 0.0004721402942586046,
	"epoch": 0.15157921711832917,
	"step": 169
	},
	{
	"loss": 388.6861,
	"grad_norm": 56.49056625366211,
	"learning_rate": 0.0004718159752607955,
	"epoch": 0.15247613556281633,
	"step": 170
	},
	{
	"loss": 386.6622,
	"grad_norm": 61.9783935546875,
	"learning_rate": 0.00047148989216827964,
	"epoch": 0.15337305400730347,
	"step": 171
	},
	{
	"loss": 385.3264,
	"grad_norm": 60.84406280517578,
	"learning_rate": 0.0004711620475743844,
	"epoch": 0.15426997245179064,
	"step": 172
	},
	{
	"loss": 383.2025,
	"grad_norm": 55.59370803833008,
	"learning_rate": 0.00047083244408644646,
	"epoch": 0.15516689089627778,
	"step": 173
	},
	{
	"loss": 383.7802,
	"grad_norm": 59.102760314941406,
	"learning_rate": 0.0004705010843257908,
	"epoch": 0.15606380934076494,
	"step": 174
	},
	{
	"loss": 387.181,
	"grad_norm": 63.97918701171875,
	"learning_rate": 0.00047016797092771004,
	"epoch": 0.1569607277852521,
	"step": 175
	},
	{
	"loss": 382.4706,
	"grad_norm": 58.40498733520508,
	"learning_rate": 0.0004698331065414434,
	"epoch": 0.15785764622973925,
	"step": 176
	},
	{
	"loss": 374.7974,
	"grad_norm": 57.276405334472656,
	"learning_rate": 0.0004694964938301556,
	"epoch": 0.1587545646742264,
	"step": 177
	},
	{
	"loss": 383.6686,
	"grad_norm": 65.17239379882812,
	"learning_rate": 0.0004691581354709159,
	"epoch": 0.15965148311871355,
	"step": 178
	},
	{
	"loss": 382.2492,
	"grad_norm": 54.67914962768555,
	"learning_rate": 0.0004688180341546765,
	"epoch": 0.16054840156320072,
	"step": 179
	},
	{
	"loss": 379.0845,
	"grad_norm": 61.17100524902344,
	"learning_rate": 0.0004684761925862512,
	"epoch": 0.16144532000768788,
	"step": 180
	},
	{
	"loss": 380.5147,
	"grad_norm": 53.48952102661133,
	"learning_rate": 0.00046813261348429403,
	"epoch": 0.16234223845217502,
	"step": 181
	},
	{
	"loss": 388.3456,
	"grad_norm": 62.524898529052734,
	"learning_rate": 0.0004677872995812778,
	"epoch": 0.16323915689666219,
	"step": 182
	},
	{
	"loss": 384.9105,
	"grad_norm": 55.23896026611328,
	"learning_rate": 0.00046744025362347174,
	"epoch": 0.16413607534114932,
	"step": 183
	},
	{
	"loss": 388.0769,
	"grad_norm": 58.2794075012207,
	"learning_rate": 0.0004670914783709203,
	"epoch": 0.1650329937856365,
	"step": 184
	},
	{
	"loss": 375.4843,
	"grad_norm": 57.62440872192383,
	"learning_rate": 0.00046674097659742087,
	"epoch": 0.16592991223012366,
	"step": 185
	},
	{
	"loss": 388.4005,
	"grad_norm": 54.49860763549805,
	"learning_rate": 0.00046638875109050184,
	"epoch": 0.1668268306746108,
	"step": 186
	},
	{
	"loss": 379.2246,
	"grad_norm": 56.57727813720703,
	"learning_rate": 0.00046603480465140035,
	"epoch": 0.16772374911909796,
	"step": 187
	},
	{
	"loss": 390.5371,
	"grad_norm": 53.35488510131836,
	"learning_rate": 0.0004656791400950401,
	"epoch": 0.16862066756358512,
	"step": 188
	},
	{
	"loss": 376.5087,
	"grad_norm": 57.38853454589844,
	"learning_rate": 0.0004653217602500088,
	"epoch": 0.16951758600807226,
	"step": 189
	},
	{
	"loss": 383.3448,
	"grad_norm": 53.162269592285156,
	"learning_rate": 0.00046496266795853606,
	"epoch": 0.17041450445255943,
	"step": 190
	},
	{
	"loss": 385.954,
	"grad_norm": 56.76969528198242,
	"learning_rate": 0.0004646018660764701,
	"epoch": 0.17131142289704657,
	"step": 191
	},
	{
	"loss": 380.8749,
	"grad_norm": 55.99345016479492,
	"learning_rate": 0.0004642393574732559,
	"epoch": 0.17220834134153373,
	"step": 192
	},
	{
	"loss": 379.5312,
	"grad_norm": 49.73320770263672,
	"learning_rate": 0.0004638751450319116,
	"epoch": 0.1731052597860209,
	"step": 193
	},
	{
	"loss": 385.7988,
	"grad_norm": 56.80336380004883,
	"learning_rate": 0.00046350923164900604,
	"epoch": 0.17400217823050804,
	"step": 194
	},
	{
	"loss": 380.8796,
	"grad_norm": 57.32421875,
	"learning_rate": 0.0004631416202346357,
	"epoch": 0.1748990966749952,
	"step": 195
	},
	{
	"loss": 382.128,
	"grad_norm": 62.81551742553711,
	"learning_rate": 0.00046277231371240113,
	"epoch": 0.17579601511948234,
	"step": 196
	},
	{
	"loss": 383.9042,
	"grad_norm": 60.5498046875,
	"learning_rate": 0.00046240131501938436,
	"epoch": 0.1766929335639695,
	"step": 197
	},
	{
	"loss": 380.0457,
	"grad_norm": 54.78828811645508,
	"learning_rate": 0.000462028627106125,
	"epoch": 0.17758985200845667,
	"step": 198
	},
	{
	"loss": 383.6067,
	"grad_norm": 60.62177276611328,
	"learning_rate": 0.00046165425293659694,
	"epoch": 0.1784867704529438,
	"step": 199
	},
	{
	"loss": 385.004,
	"grad_norm": 53.65549850463867,
	"learning_rate": 0.00046127819548818507,
	"epoch": 0.17938368889743098,
	"step": 200
	},
	{
	"eval_loss": 1.6973483562469482,
	"eval_runtime": 57.4311,
	"eval_samples_per_second": 35.66,
	"eval_steps_per_second": 2.229,
	"epoch": 0.17938368889743098,
	"step": 200
	},
	{
	"loss": 381.3797,
	"grad_norm": 60.24985885620117,
	"learning_rate": 0.0004609004577516609,
	"epoch": 0.18028060734191811,
	"step": 201
	},
	{
	"loss": 384.8868,
	"grad_norm": 55.66313552856445,
	"learning_rate": 0.00046052104273115957,
	"epoch": 0.18117752578640528,
	"step": 202
	},
	{
	"loss": 381.8181,
	"grad_norm": 58.7210807800293,
	"learning_rate": 0.0004601399534441556,
	"epoch": 0.18207444423089245,
	"step": 203
	},
	{
	"loss": 381.6777,
	"grad_norm": 51.48910903930664,
	"learning_rate": 0.0004597571929214386,
	"epoch": 0.18297136267537958,
	"step": 204
	},
	{
	"loss": 389.5296,
	"grad_norm": 55.63520050048828,
	"learning_rate": 0.00045937276420708985,
	"epoch": 0.18386828111986675,
	"step": 205
	},
	{
	"loss": 379.7319,
	"grad_norm": 56.91200637817383,
	"learning_rate": 0.00045898667035845726,
	"epoch": 0.1847651995643539,
	"step": 206
	},
	{
	"loss": 383.4648,
	"grad_norm": 60.174800872802734,
	"learning_rate": 0.0004585989144461319,
	"epoch": 0.18566211800884105,
	"step": 207
	},
	{
	"loss": 381.6614,
	"grad_norm": 46.41486740112305,
	"learning_rate": 0.00045820949955392286,
	"epoch": 0.18655903645332822,
	"step": 208
	},
	{
	"loss": 388.843,
	"grad_norm": 66.20514678955078,
	"learning_rate": 0.0004578184287788333,
	"epoch": 0.18745595489781536,
	"step": 209
	},
	{
	"loss": 382.3195,
	"grad_norm": 52.08879470825195,
	"learning_rate": 0.0004574257052310355,
	"epoch": 0.18835287334230252,
	"step": 210
	},
	{
	"loss": 376.9011,
	"grad_norm": 59.04060363769531,
	"learning_rate": 0.00045703133203384594,
	"epoch": 0.18924979178678966,
	"step": 211
	},
	{
	"loss": 382.9858,
	"grad_norm": 57.139583587646484,
	"learning_rate": 0.000456635312323701,
	"epoch": 0.19014671023127683,
	"step": 212
	},
	{
	"loss": 386.4098,
	"grad_norm": 56.69694137573242,
	"learning_rate": 0.00045623764925013154,
	"epoch": 0.191043628675764,
	"step": 213
	},
	{
	"loss": 381.0145,
	"grad_norm": 54.969146728515625,
	"learning_rate": 0.00045583834597573826,
	"epoch": 0.19194054712025113,
	"step": 214
	},
	{
	"loss": 386.2006,
	"grad_norm": 55.187095642089844,
	"learning_rate": 0.000455437405676166,
	"epoch": 0.1928374655647383,
	"step": 215
	},
	{
	"loss": 385.4291,
	"grad_norm": 56.27381896972656,
	"learning_rate": 0.000455034831540079,
	"epoch": 0.19373438400922544,
	"step": 216
	},
	{
	"loss": 382.2878,
	"grad_norm": 55.81896209716797,
	"learning_rate": 0.00045463062676913527,
	"epoch": 0.1946313024537126,
	"step": 217
	},
	{
	"loss": 381.0126,
	"grad_norm": 60.54517364501953,
	"learning_rate": 0.0004542247945779613,
	"epoch": 0.19552822089819977,
	"step": 218
	},
	{
	"loss": 382.4228,
	"grad_norm": 51.44652557373047,
	"learning_rate": 0.0004538173381941264,
	"epoch": 0.1964251393426869,
	"step": 219
	},
	{
	"loss": 374.3478,
	"grad_norm": 57.77920150756836,
	"learning_rate": 0.0004534082608581168,
	"epoch": 0.19732205778717407,
	"step": 220
	},
	{
	"loss": 379.4279,
	"grad_norm": 52.3509635925293,
	"learning_rate": 0.0004529975658233104,
	"epoch": 0.1982189762316612,
	"step": 221
	},
	{
	"loss": 380.0542,
	"grad_norm": 53.75742721557617,
	"learning_rate": 0.0004525852563559505,
	"epoch": 0.19911589467614838,
	"step": 222
	},
	{
	"loss": 387.0319,
	"grad_norm": 59.18511199951172,
	"learning_rate": 0.0004521713357351198,
	"epoch": 0.20001281312063554,
	"step": 223
	},
	{
	"loss": 375.638,
	"grad_norm": 53.67622375488281,
	"learning_rate": 0.00045175580725271457,
	"epoch": 0.20090973156512268,
	"step": 224
	},
	{
	"loss": 383.951,
	"grad_norm": 67.28981018066406,
	"learning_rate": 0.00045133867421341835,
	"epoch": 0.20180665000960984,
	"step": 225
	},
	{
	"loss": 380.0722,
	"grad_norm": 62.926700592041016,
	"learning_rate": 0.00045091993993467554,
	"epoch": 0.20270356845409698,
	"step": 226
	},
	{
	"loss": 377.9981,
	"grad_norm": 53.50834274291992,
	"learning_rate": 0.0004504996077466654,
	"epoch": 0.20360048689858415,
	"step": 227
	},
	{
	"loss": 380.4308,
	"grad_norm": 61.55268096923828,
	"learning_rate": 0.0004500776809922751,
	"epoch": 0.20449740534307131,
	"step": 228
	},
	{
	"loss": 375.9146,
	"grad_norm": 55.11613845825195,
	"learning_rate": 0.0004496541630270733,
	"epoch": 0.20539432378755845,
	"step": 229
	},
	{
	"loss": 381.8729,
	"grad_norm": 61.67683410644531,
	"learning_rate": 0.00044922905721928366,
	"epoch": 0.20629124223204562,
	"step": 230
	},
	{
	"loss": 377.6188,
	"grad_norm": 55.07930374145508,
	"learning_rate": 0.00044880236694975773,
	"epoch": 0.20718816067653276,
	"step": 231
	},
	{
	"loss": 383.7285,
	"grad_norm": 56.17093276977539,
	"learning_rate": 0.0004483740956119485,
	"epoch": 0.20808507912101992,
	"step": 232
	},
	{
	"loss": 379.3219,
	"grad_norm": 57.20262908935547,
	"learning_rate": 0.0004479442466118828,
	"epoch": 0.2089819975655071,
	"step": 233
	},
	{
	"loss": 378.996,
	"grad_norm": 52.91606521606445,
	"learning_rate": 0.0004475128233681349,
	"epoch": 0.20987891600999423,
	"step": 234
	},
	{
	"loss": 376.5712,
	"grad_norm": 53.59124755859375,
	"learning_rate": 0.00044707982931179856,
	"epoch": 0.2107758344544814,
	"step": 235
	},
	{
	"loss": 385.7614,
	"grad_norm": 57.6840705871582,
	"learning_rate": 0.00044664526788646064,
	"epoch": 0.21167275289896853,
	"step": 236
	},
	{
	"loss": 381.0049,
	"grad_norm": 54.7835578918457,
	"learning_rate": 0.0004462091425481728,
	"epoch": 0.2125696713434557,
	"step": 237
	},
	{
	"loss": 380.4299,
	"grad_norm": 56.61455535888672,
	"learning_rate": 0.0004457714567654247,
	"epoch": 0.21346658978794286,
	"step": 238
	},
	{
	"loss": 377.3007,
	"grad_norm": 54.04520797729492,
	"learning_rate": 0.0004453322140191162,
	"epoch": 0.21436350823243,
	"step": 239
	},
	{
	"loss": 376.2494,
	"grad_norm": 61.18534469604492,
	"learning_rate": 0.0004448914178025293,
	"epoch": 0.21526042667691717,
	"step": 240
	},
	{
	"loss": 379.0678,
	"grad_norm": 58.791934967041016,
	"learning_rate": 0.000444449071621301,
	"epoch": 0.21615734512140433,
	"step": 241
	},
	{
	"loss": 383.8186,
	"grad_norm": 54.751407623291016,
	"learning_rate": 0.0004440051789933951,
	"epoch": 0.21705426356589147,
	"step": 242
	},
	{
	"loss": 374.9797,
	"grad_norm": 54.97734451293945,
	"learning_rate": 0.0004435597434490741,
	"epoch": 0.21795118201037864,
	"step": 243
	},
	{
	"loss": 381.2922,
	"grad_norm": 55.37065887451172,
	"learning_rate": 0.00044311276853087144,
	"epoch": 0.21884810045486577,
	"step": 244
	},
	{
	"loss": 378.8845,
	"grad_norm": 58.74147033691406,
	"learning_rate": 0.0004426642577935629,
	"epoch": 0.21974501889935294,
	"step": 245
	},
	{
	"loss": 386.1524,
	"grad_norm": 58.316097259521484,
	"learning_rate": 0.0004422142148041388,
	"epoch": 0.2206419373438401,
	"step": 246
	},
	{
	"loss": 378.2374,
	"grad_norm": 54.42732238769531,
	"learning_rate": 0.00044176264314177535,
	"epoch": 0.22153885578832724,
	"step": 247
	},
	{
	"loss": 378.246,
	"grad_norm": 56.714080810546875,
	"learning_rate": 0.00044130954639780615,
	"epoch": 0.2224357742328144,
	"step": 248
	},
	{
	"loss": 373.9691,
	"grad_norm": 51.52580642700195,
	"learning_rate": 0.0004408549281756937,
	"epoch": 0.22333269267730155,
	"step": 249
	},
	{
	"loss": 377.4944,
	"grad_norm": 61.44560241699219,
	"learning_rate": 0.0004403987920910011,
	"epoch": 0.2242296111217887,
	"step": 250
	},
	{
	"eval_loss": 1.6841200590133667,
	"eval_runtime": 35.8648,
	"eval_samples_per_second": 57.103,
	"eval_steps_per_second": 3.569,
	"epoch": 0.2242296111217887,
	"step": 250
	},
	{
	"loss": 372.7726,
	"grad_norm": 52.64440155029297,
	"learning_rate": 0.00043994114177136245,
	"epoch": 0.22512652956627588,
	"step": 251
	},
	{
	"loss": 374.3314,
	"grad_norm": 57.64458084106445,
	"learning_rate": 0.0004394819808564549,
	"epoch": 0.22602344801076302,
	"step": 252
	},
	{
	"loss": 380.1327,
	"grad_norm": 48.348487854003906,
	"learning_rate": 0.00043902131299796923,
	"epoch": 0.22692036645525018,
	"step": 253
	},
	{
	"loss": 376.8272,
	"grad_norm": 55.306766510009766,
	"learning_rate": 0.00043855914185958066,
	"epoch": 0.22781728489973732,
	"step": 254
	},
	{
	"loss": 373.5811,
	"grad_norm": 50.16413879394531,
	"learning_rate": 0.0004380954711169202,
	"epoch": 0.2287142033442245,
	"step": 255
	},
	{
	"loss": 380.8544,
	"grad_norm": 52.902305603027344,
	"learning_rate": 0.00043763030445754516,
	"epoch": 0.22961112178871165,
	"step": 256
	},
	{
	"loss": 380.7617,
	"grad_norm": 55.323490142822266,
	"learning_rate": 0.0004371636455809096,
	"epoch": 0.2305080402331988,
	"step": 257
	},
	{
	"loss": 378.9308,
	"grad_norm": 53.362361907958984,
	"learning_rate": 0.00043669549819833536,
	"epoch": 0.23140495867768596,
	"step": 258
	},
	{
	"loss": 378.0917,
	"grad_norm": 51.511932373046875,
	"learning_rate": 0.0004362258660329822,
	"epoch": 0.2323018771221731,
	"step": 259
	},
	{
	"loss": 374.3557,
	"grad_norm": 60.112728118896484,
	"learning_rate": 0.0004357547528198184,
	"epoch": 0.23319879556666026,
	"step": 260
	},
	{
	"loss": 382.0044,
	"grad_norm": 52.59751510620117,
	"learning_rate": 0.0004352821623055908,
	"epoch": 0.23409571401114743,
	"step": 261
	},
	{
	"loss": 379.4641,
	"grad_norm": 54.482444763183594,
	"learning_rate": 0.0004348080982487953,
	"epoch": 0.23499263245563456,
	"step": 262
	},
	{
	"loss": 376.0202,
	"grad_norm": 57.2796516418457,
	"learning_rate": 0.0004343325644196468,
	"epoch": 0.23588955090012173,
	"step": 263
	},
	{
	"loss": 380.4021,
	"grad_norm": 51.36527633666992,
	"learning_rate": 0.0004338555646000492,
	"epoch": 0.23678646934460887,
	"step": 264
	},
	{
	"loss": 382.1948,
	"grad_norm": 54.246639251708984,
	"learning_rate": 0.0004333771025835655,
	"epoch": 0.23768338778909603,
	"step": 265
	},
	{
	"loss": 376.0016,
	"grad_norm": 53.845367431640625,
	"learning_rate": 0.0004328971821753873,
	"epoch": 0.2385803062335832,
	"step": 266
	},
	{
	"loss": 378.0241,
	"grad_norm": 55.82734298706055,
	"learning_rate": 0.0004324158071923049,
	"epoch": 0.23947722467807034,
	"step": 267
	},
	{
	"loss": 376.6841,
	"grad_norm": 52.28315734863281,
	"learning_rate": 0.0004319329814626768,
	"epoch": 0.2403741431225575,
	"step": 268
	},
	{
	"loss": 376.4868,
	"grad_norm": 59.60106658935547,
	"learning_rate": 0.00043144870882639907,
	"epoch": 0.24127106156704464,
	"step": 269
	},
	{
	"loss": 376.3779,
	"grad_norm": 58.55453109741211,
	"learning_rate": 0.0004309629931348752,
	"epoch": 0.2421679800115318,
	"step": 270
	},
	{
	"loss": 379.1783,
	"grad_norm": 52.10798263549805,
	"learning_rate": 0.0004304758382509849,
	"epoch": 0.24306489845601897,
	"step": 271
	},
	{
	"loss": 379.3161,
	"grad_norm": 53.941673278808594,
	"learning_rate": 0.0004299872480490542,
	"epoch": 0.2439618169005061,
	"step": 272
	},
	{
	"loss": 379.5319,
	"grad_norm": 53.70753860473633,
	"learning_rate": 0.00042949722641482383,
	"epoch": 0.24485873534499328,
	"step": 273
	},
	{
	"loss": 379.6953,
	"grad_norm": 61.60326385498047,
	"learning_rate": 0.0004290057772454187,
	"epoch": 0.24575565378948042,
	"step": 274
	},
	{
	"loss": 379.7555,
	"grad_norm": 57.09893798828125,
	"learning_rate": 0.0004285129044493169,
	"epoch": 0.24665257223396758,
	"step": 275
	},
	{
	"loss": 381.1754,
	"grad_norm": 60.31880187988281,
	"learning_rate": 0.0004280186119463186,
	"epoch": 0.24754949067845475,
	"step": 276
	},
	{
	"loss": 379.8077,
	"grad_norm": 57.53593826293945,
	"learning_rate": 0.0004275229036675148,
	"epoch": 0.24844640912294189,
	"step": 277
	},
	{
	"loss": 381.0815,
	"grad_norm": 56.55409240722656,
	"learning_rate": 0.00042702578355525615,
	"epoch": 0.24934332756742905,
	"step": 278
	},
	{
	"loss": 378.2445,
	"grad_norm": 50.37730026245117,
	"learning_rate": 0.00042652725556312156,
	"epoch": 0.2502402460119162,
	"step": 279
	},
	{
	"loss": 376.4951,
	"grad_norm": 50.24005889892578,
	"learning_rate": 0.0004260273236558867,
	"epoch": 0.2511371644564034,
	"step": 280
	},
	{
	"loss": 379.3927,
	"grad_norm": 52.99737548828125,
	"learning_rate": 0.0004255259918094926,
	"epoch": 0.2520340829008905,
	"step": 281
	},
	{
	"loss": 379.7873,
	"grad_norm": 53.95462417602539,
	"learning_rate": 0.00042502326401101386,
	"epoch": 0.25293100134537766,
	"step": 282
	},
	{
	"loss": 370.9284,
	"grad_norm": 51.21118927001953,
	"learning_rate": 0.0004245191442586273,
	"epoch": 0.2538279197898648,
	"step": 283
	},
	{
	"loss": 374.7379,
	"grad_norm": 53.918975830078125,
	"learning_rate": 0.00042401363656157954,
	"epoch": 0.254724838234352,
	"step": 284
	},
	{
	"loss": 373.7905,
	"grad_norm": 51.7956428527832,
	"learning_rate": 0.00042350674494015566,
	"epoch": 0.25562175667883913,
	"step": 285
	},
	{
	"loss": 376.9342,
	"grad_norm": 51.80348205566406,
	"learning_rate": 0.0004229984734256471,
	"epoch": 0.25651867512332627,
	"step": 286
	},
	{
	"loss": 378.537,
	"grad_norm": 53.50684356689453,
	"learning_rate": 0.0004224888260603195,
	"epoch": 0.25741559356781346,
	"step": 287
	},
	{
	"loss": 374.9467,
	"grad_norm": 52.037200927734375,
	"learning_rate": 0.0004219778068973804,
	"epoch": 0.2583125120123006,
	"step": 288
	},
	{
	"loss": 382.1371,
	"grad_norm": 48.98027420043945,
	"learning_rate": 0.0004214654200009475,
	"epoch": 0.25920943045678774,
	"step": 289
	},
	{
	"loss": 378.7361,
	"grad_norm": 51.1038818359375,
	"learning_rate": 0.0004209516694460157,
	"epoch": 0.26010634890127493,
	"step": 290
	},
	{
	"loss": 379.9825,
	"grad_norm": 53.03129577636719,
	"learning_rate": 0.0004204365593184255,
	"epoch": 0.26100326734576207,
	"step": 291
	},
	{
	"loss": 376.35,
	"grad_norm": 54.52887725830078,
	"learning_rate": 0.0004199200937148297,
	"epoch": 0.2619001857902492,
	"step": 292
	},
	{
	"loss": 376.654,
	"grad_norm": 51.10536575317383,
	"learning_rate": 0.00041940227674266105,
	"epoch": 0.26279710423473635,
	"step": 293
	},
	{
	"loss": 372.8873,
	"grad_norm": 57.231117248535156,
	"learning_rate": 0.0004188831125201,
	"epoch": 0.26369402267922354,
	"step": 294
	},
	{
	"loss": 372.2591,
	"grad_norm": 54.170921325683594,
	"learning_rate": 0.0004183626051760415,
	"epoch": 0.2645909411237107,
	"step": 295
	},
	{
	"loss": 376.232,
	"grad_norm": 48.81595230102539,
	"learning_rate": 0.0004178407588500621,
	"epoch": 0.2654878595681978,
	"step": 296
	},
	{
	"loss": 377.493,
	"grad_norm": 51.22395324707031,
	"learning_rate": 0.00041731757769238764,
	"epoch": 0.266384778012685,
	"step": 297
	},
	{
	"loss": 373.4135,
	"grad_norm": 50.80076217651367,
	"learning_rate": 0.00041679306586385944,
	"epoch": 0.26728169645717215,
	"step": 298
	},
	{
	"loss": 373.3929,
	"grad_norm": 52.78483581542969,
	"learning_rate": 0.00041626722753590185,
	"epoch": 0.2681786149016593,
	"step": 299
	},
	{
	"loss": 374.4973,
	"grad_norm": 59.0179328918457,
	"learning_rate": 0.0004157400668904887,
	"epoch": 0.2690755333461465,
	"step": 300
	},
	{
	"eval_loss": 1.6736700534820557,
	"eval_runtime": 48.4303,
	"eval_samples_per_second": 42.288,
	"eval_steps_per_second": 2.643,
	"epoch": 0.2690755333461465,
	"step": 300
	},
	{
	"loss": 370.586,
	"grad_norm": 51.39365005493164,
	"learning_rate": 0.0004152115881201102,
	"epoch": 0.2699724517906336,
	"step": 301
	},
	{
	"loss": 371.1306,
	"grad_norm": 53.13943862915039,
	"learning_rate": 0.0004146817954277395,
	"epoch": 0.27086937023512075,
	"step": 302
	},
	{
	"loss": 375.8091,
	"grad_norm": 46.9393310546875,
	"learning_rate": 0.0004141506930267995,
	"epoch": 0.2717662886796079,
	"step": 303
	},
	{
	"loss": 378.5063,
	"grad_norm": 56.166954040527344,
	"learning_rate": 0.00041361828514112884,
	"epoch": 0.2726632071240951,
	"step": 304
	},
	{
	"loss": 372.5772,
	"grad_norm": 52.24879455566406,
	"learning_rate": 0.00041308457600494917,
	"epoch": 0.2735601255685822,
	"step": 305
	},
	{
	"loss": 371.29,
	"grad_norm": 53.966949462890625,
	"learning_rate": 0.00041254956986283044,
	"epoch": 0.27445704401306936,
	"step": 306
	},
	{
	"loss": 376.5358,
	"grad_norm": 51.999046325683594,
	"learning_rate": 0.0004120132709696578,
	"epoch": 0.27535396245755656,
	"step": 307
	},
	{
	"loss": 377.9629,
	"grad_norm": 53.83307647705078,
	"learning_rate": 0.0004114756835905976,
	"epoch": 0.2762508809020437,
	"step": 308
	},
	{
	"loss": 372.8809,
	"grad_norm": 55.104217529296875,
	"learning_rate": 0.0004109368120010636,
	"epoch": 0.27714779934653083,
	"step": 309
	},
	{
	"loss": 377.9377,
	"grad_norm": 51.1360969543457,
	"learning_rate": 0.00041039666048668265,
	"epoch": 0.278044717791018,
	"step": 310
	},
	{
	"loss": 377.1788,
	"grad_norm": 50.87997817993164,
	"learning_rate": 0.00040985523334326093,
	"epoch": 0.27894163623550516,
	"step": 311
	},
	{
	"loss": 375.3121,
	"grad_norm": 49.86625289916992,
	"learning_rate": 0.00040931253487674955,
	"epoch": 0.2798385546799923,
	"step": 312
	},
	{
	"loss": 373.2664,
	"grad_norm": 51.52640151977539,
	"learning_rate": 0.00040876856940321056,
	"epoch": 0.28073547312447944,
	"step": 313
	},
	{
	"loss": 373.2856,
	"grad_norm": 49.00104904174805,
	"learning_rate": 0.00040822334124878236,
	"epoch": 0.28163239156896663,
	"step": 314
	},
	{
	"loss": 377.6501,
	"grad_norm": 52.83418655395508,
	"learning_rate": 0.00040767685474964535,
	"epoch": 0.28252931001345377,
	"step": 315
	},
	{
	"loss": 370.6684,
	"grad_norm": 49.96600341796875,
	"learning_rate": 0.00040712911425198764,
	"epoch": 0.2834262284579409,
	"step": 316
	},
	{
	"loss": 376.3713,
	"grad_norm": 50.470123291015625,
	"learning_rate": 0.0004065801241119702,
	"epoch": 0.2843231469024281,
	"step": 317
	},
	{
	"loss": 374.6679,
	"grad_norm": 47.91783142089844,
	"learning_rate": 0.0004060298886956926,
	"epoch": 0.28522006534691524,
	"step": 318
	},
	{
	"loss": 376.8799,
	"grad_norm": 52.6668586730957,
	"learning_rate": 0.0004054784123791577,
	"epoch": 0.2861169837914024,
	"step": 319
	},
	{
	"loss": 371.9651,
	"grad_norm": 50.082279205322266,
	"learning_rate": 0.00040492569954823763,
	"epoch": 0.2870139022358896,
	"step": 320
	},
	{
	"loss": 373.8972,
	"grad_norm": 56.001190185546875,
	"learning_rate": 0.0004043717545986381,
	"epoch": 0.2879108206803767,
	"step": 321
	},
	{
	"loss": 370.1523,
	"grad_norm": 53.00112533569336,
	"learning_rate": 0.0004038165819358639,
	"epoch": 0.28880773912486385,
	"step": 322
	},
	{
	"loss": 377.1375,
	"grad_norm": 52.706729888916016,
	"learning_rate": 0.0004032601859751839,
	"epoch": 0.28970465756935104,
	"step": 323
	},
	{
	"loss": 375.1089,
	"grad_norm": 51.362571716308594,
	"learning_rate": 0.00040270257114159583,
	"epoch": 0.2906015760138382,
	"step": 324
	},
	{
	"loss": 370.7276,
	"grad_norm": 54.43815994262695,
	"learning_rate": 0.00040214374186979074,
	"epoch": 0.2914984944583253,
	"step": 325
	},
	{
	"loss": 375.119,
	"grad_norm": 51.00381851196289,
	"learning_rate": 0.0004015837026041186,
	"epoch": 0.29239541290281246,
	"step": 326
	},
	{
	"loss": 371.2367,
	"grad_norm": 57.776222229003906,
	"learning_rate": 0.000401022457798552,
	"epoch": 0.29329233134729965,
	"step": 327
	},
	{
	"loss": 380.1667,
	"grad_norm": 53.284149169921875,
	"learning_rate": 0.0004004600119166513,
	"epoch": 0.2941892497917868,
	"step": 328
	},
	{
	"loss": 369.6853,
	"grad_norm": 56.30731964111328,
	"learning_rate": 0.000399896369431529,
	"epoch": 0.2950861682362739,
	"step": 329
	},
	{
	"loss": 374.0436,
	"grad_norm": 54.28211975097656,
	"learning_rate": 0.00039933153482581406,
	"epoch": 0.2959830866807611,
	"step": 330
	},
	{
	"loss": 372.2117,
	"grad_norm": 50.88725280761719,
	"learning_rate": 0.00039876551259161643,
	"epoch": 0.29688000512524826,
	"step": 331
	},
	{
	"loss": 374.7655,
	"grad_norm": 54.17941665649414,
	"learning_rate": 0.00039819830723049105,
	"epoch": 0.2977769235697354,
	"step": 332
	},
	{
	"loss": 376.0198,
	"grad_norm": 52.40755081176758,
	"learning_rate": 0.0003976299232534024,
	"epoch": 0.2986738420142226,
	"step": 333
	},
	{
	"loss": 371.5096,
	"grad_norm": 50.74897384643555,
	"learning_rate": 0.0003970603651806886,
	"epoch": 0.29957076045870973,
	"step": 334
	},
	{
	"loss": 375.5447,
	"grad_norm": 47.52690124511719,
	"learning_rate": 0.00039648963754202496,
	"epoch": 0.30046767890319687,
	"step": 335
	},
	{
	"loss": 376.1951,
	"grad_norm": 52.93135070800781,
	"learning_rate": 0.0003959177448763883,
	"epoch": 0.301364597347684,
	"step": 336
	},
	{
	"loss": 371.1348,
	"grad_norm": 50.335418701171875,
	"learning_rate": 0.0003953446917320214,
	"epoch": 0.3022615157921712,
	"step": 337
	},
	{
	"loss": 375.4595,
	"grad_norm": 51.26169204711914,
	"learning_rate": 0.0003947704826663955,
	"epoch": 0.30315843423665834,
	"step": 338
	},
	{
	"loss": 372.898,
	"grad_norm": 54.89933776855469,
	"learning_rate": 0.0003941951222461756,
	"epoch": 0.3040553526811455,
	"step": 339
	},
	{
	"loss": 370.8462,
	"grad_norm": 54.09654235839844,
	"learning_rate": 0.00039361861504718276,
	"epoch": 0.30495227112563267,
	"step": 340
	},
	{
	"loss": 373.6092,
	"grad_norm": 52.41168975830078,
	"learning_rate": 0.0003930409656543588,
	"epoch": 0.3058491895701198,
	"step": 341
	},
	{
	"loss": 374.9025,
	"grad_norm": 45.53563690185547,
	"learning_rate": 0.00039246217866172907,
	"epoch": 0.30674610801460694,
	"step": 342
	},
	{
	"loss": 376.0628,
	"grad_norm": 51.11941146850586,
	"learning_rate": 0.00039188225867236643,
	"epoch": 0.30764302645909414,
	"step": 343
	},
	{
	"loss": 374.4197,
	"grad_norm": 50.10179901123047,
	"learning_rate": 0.0003913012102983542,
	"epoch": 0.3085399449035813,
	"step": 344
	},
	{
	"loss": 370.0171,
	"grad_norm": 50.524696350097656,
	"learning_rate": 0.00039071903816074977,
	"epoch": 0.3094368633480684,
	"step": 345
	},
	{
	"loss": 371.2375,
	"grad_norm": 51.18245315551758,
	"learning_rate": 0.00039013574688954793,
	"epoch": 0.31033378179255555,
	"step": 346
	},
	{
	"loss": 374.7748,
	"grad_norm": 64.64472198486328,
	"learning_rate": 0.0003895513411236438,
	"epoch": 0.31123070023704275,
	"step": 347
	},
	{
	"loss": 377.3275,
	"grad_norm": 56.01545715332031,
	"learning_rate": 0.0003889658255107959,
	"epoch": 0.3121276186815299,
	"step": 348
	},
	{
	"loss": 369.5843,
	"grad_norm": 56.439754486083984,
	"learning_rate": 0.0003883792047075896,
	"epoch": 0.313024537126017,
	"step": 349
	},
	{
	"loss": 368.456,
	"grad_norm": 58.23375701904297,
	"learning_rate": 0.0003877914833793996,
	"epoch": 0.3139214555705042,
	"step": 350
	},
	{
	"eval_loss": 1.661989450454712,
	"eval_runtime": 36.2255,
	"eval_samples_per_second": 56.535,
	"eval_steps_per_second": 3.533,
	"epoch": 0.3139214555705042,
	"step": 350
	},
	{
	"loss": 374.9042,
	"grad_norm": 52.63510513305664,
	"learning_rate": 0.00038720266620035314,
	"epoch": 0.31481837401499135,
	"step": 351
	},
	{
	"loss": 367.9091,
	"grad_norm": 55.49558639526367,
	"learning_rate": 0.0003866127578532927,
	"epoch": 0.3157152924594785,
	"step": 352
	},
	{
	"loss": 374.5601,
	"grad_norm": 52.941497802734375,
	"learning_rate": 0.0003860217630297387,
	"epoch": 0.3166122109039657,
	"step": 353
	},
	{
	"loss": 371.4058,
	"grad_norm": 44.237648010253906,
	"learning_rate": 0.0003854296864298523,
	"epoch": 0.3175091293484528,
	"step": 354
	},
	{
	"loss": 376.094,
	"grad_norm": 52.86402893066406,
	"learning_rate": 0.00038483653276239816,
	"epoch": 0.31840604779293996,
	"step": 355
	},
	{
	"loss": 374.3872,
	"grad_norm": 49.61796569824219,
	"learning_rate": 0.0003842423067447066,
	"epoch": 0.3193029662374271,
	"step": 356
	},
	{
	"loss": 371.5387,
	"grad_norm": 49.825504302978516,
	"learning_rate": 0.0003836470131026365,
	"epoch": 0.3201998846819143,
	"step": 357
	},
	{
	"loss": 371.4422,
	"grad_norm": 53.598228454589844,
	"learning_rate": 0.0003830506565705372,
	"epoch": 0.32109680312640143,
	"step": 358
	},
	{
	"loss": 371.03,
	"grad_norm": 48.73537063598633,
	"learning_rate": 0.00038245324189121153,
	"epoch": 0.32199372157088857,
	"step": 359
	},
	{
	"loss": 377.8967,
	"grad_norm": 48.377281188964844,
	"learning_rate": 0.00038185477381587763,
	"epoch": 0.32289064001537576,
	"step": 360
	},
	{
	"loss": 374.9411,
	"grad_norm": 53.932228088378906,
	"learning_rate": 0.0003812552571041311,
	"epoch": 0.3237875584598629,
	"step": 361
	},
	{
	"loss": 374.6432,
	"grad_norm": 52.54889678955078,
	"learning_rate": 0.00038065469652390736,
	"epoch": 0.32468447690435004,
	"step": 362
	},
	{
	"loss": 371.9634,
	"grad_norm": 53.84141159057617,
	"learning_rate": 0.000380053096851444,
	"epoch": 0.32558139534883723,
	"step": 363
	},
	{
	"loss": 371.487,
	"grad_norm": 49.041019439697266,
	"learning_rate": 0.00037945046287124197,
	"epoch": 0.32647831379332437,
	"step": 364
	},
	{
	"loss": 370.3628,
	"grad_norm": 51.356388092041016,
	"learning_rate": 0.00037884679937602827,
	"epoch": 0.3273752322378115,
	"step": 365
	},
	{
	"loss": 371.4878,
	"grad_norm": 49.55571746826172,
	"learning_rate": 0.0003782421111667178,
	"epoch": 0.32827215068229865,
	"step": 366
	},
	{
	"loss": 373.209,
	"grad_norm": 51.30101013183594,
	"learning_rate": 0.00037763640305237456,
	"epoch": 0.32916906912678584,
	"step": 367
	},
	{
	"loss": 369.0127,
	"grad_norm": 51.14597702026367,
	"learning_rate": 0.000377029679850174,
	"epoch": 0.330065987571273,
	"step": 368
	},
	{
	"loss": 374.4203,
	"grad_norm": 51.925132751464844,
	"learning_rate": 0.00037642194638536487,
	"epoch": 0.3309629060157601,
	"step": 369
	},
	{
	"loss": 370.4622,
	"grad_norm": 53.620052337646484,
	"learning_rate": 0.00037581320749123,
	"epoch": 0.3318598244602473,
	"step": 370
	},
	{
	"loss": 369.0265,
	"grad_norm": 47.18992233276367,
	"learning_rate": 0.0003752034680090485,
	"epoch": 0.33275674290473445,
	"step": 371
	},
	{
	"loss": 372.8077,
	"grad_norm": 56.7562141418457,
	"learning_rate": 0.0003745927327880574,
	"epoch": 0.3336536613492216,
	"step": 372
	},
	{
	"loss": 368.2184,
	"grad_norm": 56.05765914916992,
	"learning_rate": 0.00037398100668541227,
	"epoch": 0.3345505797937088,
	"step": 373
	},
	{
	"loss": 376.1522,
	"grad_norm": 50.888771057128906,
	"learning_rate": 0.00037336829456614975,
	"epoch": 0.3354474982381959,
	"step": 374
	},
	{
	"loss": 371.1161,
	"grad_norm": 49.758975982666016,
	"learning_rate": 0.0003727546013031478,
	"epoch": 0.33634441668268306,
	"step": 375
	},
	{
	"loss": 371.6988,
	"grad_norm": 53.891990661621094,
	"learning_rate": 0.00037213993177708746,
	"epoch": 0.33724133512717025,
	"step": 376
	},
	{
	"loss": 370.6019,
	"grad_norm": 50.557762145996094,
	"learning_rate": 0.000371524290876414,
	"epoch": 0.3381382535716574,
	"step": 377
	},
	{
	"loss": 373.2912,
	"grad_norm": 51.6466064453125,
	"learning_rate": 0.00037090768349729833,
	"epoch": 0.3390351720161445,
	"step": 378
	},
	{
	"loss": 372.9784,
	"grad_norm": 48.213077545166016,
	"learning_rate": 0.00037029011454359695,
	"epoch": 0.33993209046063166,
	"step": 379
	},
	{
	"loss": 368.0577,
	"grad_norm": 49.39459991455078,
	"learning_rate": 0.0003696715889268145,
	"epoch": 0.34082900890511886,
	"step": 380
	},
	{
	"loss": 371.9662,
	"grad_norm": 49.54859924316406,
	"learning_rate": 0.00036905211156606344,
	"epoch": 0.341725927349606,
	"step": 381
	},
	{
	"loss": 376.1466,
	"grad_norm": 54.29618835449219,
	"learning_rate": 0.00036843168738802574,
	"epoch": 0.34262284579409313,
	"step": 382
	},
	{
	"loss": 372.8206,
	"grad_norm": 47.55562210083008,
	"learning_rate": 0.00036781032132691304,
	"epoch": 0.3435197642385803,
	"step": 383
	},
	{
	"loss": 370.9735,
	"grad_norm": 49.289615631103516,
	"learning_rate": 0.00036718801832442814,
	"epoch": 0.34441668268306747,
	"step": 384
	},
	{
	"loss": 370.5686,
	"grad_norm": 50.339176177978516,
	"learning_rate": 0.000366564783329725,
	"epoch": 0.3453136011275546,
	"step": 385
	},
	{
	"loss": 371.3257,
	"grad_norm": 49.51339340209961,
	"learning_rate": 0.00036594062129936974,
	"epoch": 0.3462105195720418,
	"step": 386
	},
	{
	"loss": 366.3475,
	"grad_norm": 48.21767044067383,
	"learning_rate": 0.0003653155371973012,
	"epoch": 0.34710743801652894,
	"step": 387
	},
	{
	"loss": 369.8744,
	"grad_norm": 52.45291519165039,
	"learning_rate": 0.0003646895359947915,
	"epoch": 0.3480043564610161,
	"step": 388
	},
	{
	"loss": 372.5318,
	"grad_norm": 49.45993423461914,
	"learning_rate": 0.00036406262267040624,
	"epoch": 0.3489012749055032,
	"step": 389
	},
	{
	"loss": 369.184,
	"grad_norm": 48.8317756652832,
	"learning_rate": 0.0003634348022099652,
	"epoch": 0.3497981933499904,
	"step": 390
	},
	{
	"loss": 373.9739,
	"grad_norm": 50.6275634765625,
	"learning_rate": 0.0003628060796065027,
	"epoch": 0.35069511179447754,
	"step": 391
	},
	{
	"loss": 372.0473,
	"grad_norm": 48.547447204589844,
	"learning_rate": 0.00036217645986022756,
	"epoch": 0.3515920302389647,
	"step": 392
	},
	{
	"loss": 364.9705,
	"grad_norm": 48.18462371826172,
	"learning_rate": 0.0003615459479784837,
	"epoch": 0.3524889486834519,
	"step": 393
	},
	{
	"loss": 369.6471,
	"grad_norm": 46.10414123535156,
	"learning_rate": 0.0003609145489757101,
	"epoch": 0.353385867127939,
	"step": 394
	},
	{
	"loss": 371.7173,
	"grad_norm": 46.38992691040039,
	"learning_rate": 0.0003602822678734008,
	"epoch": 0.35428278557242615,
	"step": 395
	},
	{
	"loss": 367.3975,
	"grad_norm": 45.87107467651367,
	"learning_rate": 0.00035964910970006557,
	"epoch": 0.35517970401691334,
	"step": 396
	},
	{
	"loss": 371.2871,
	"grad_norm": 46.54446029663086,
	"learning_rate": 0.00035901507949118915,
	"epoch": 0.3560766224614005,
	"step": 397
	},
	{
	"loss": 368.7915,
	"grad_norm": 45.7996826171875,
	"learning_rate": 0.0003583801822891917,
	"epoch": 0.3569735409058876,
	"step": 398
	},
	{
	"loss": 371.0395,
	"grad_norm": 48.34632873535156,
	"learning_rate": 0.0003577444231433885,
	"epoch": 0.35787045935037476,
	"step": 399
	},
	{
	"loss": 374.4672,
	"grad_norm": 48.63014221191406,
	"learning_rate": 0.00035710780710994985,
	"epoch": 0.35876737779486195,
	"step": 400
	},
	{
	"eval_loss": 1.6527702808380127,
	"eval_runtime": 51.2432,
	"eval_samples_per_second": 39.966,
	"eval_steps_per_second": 2.498,
	"epoch": 0.35876737779486195,
	"step": 400
	},
	{
	"loss": 369.2286,
	"grad_norm": 50.575950622558594,
	"learning_rate": 0.00035647033925186066,
	"epoch": 0.3596642962393491,
	"step": 401
	},
	{
	"loss": 366.6179,
	"grad_norm": 50.074954986572266,
	"learning_rate": 0.0003558320246388808,
	"epoch": 0.36056121468383623,
	"step": 402
	},
	{
	"loss": 370.1017,
	"grad_norm": 51.92937088012695,
	"learning_rate": 0.00035519286834750403,
	"epoch": 0.3614581331283234,
	"step": 403
	},
	{
	"loss": 366.74,
	"grad_norm": 52.75185775756836,
	"learning_rate": 0.00035455287546091785,
	"epoch": 0.36235505157281056,
	"step": 404
	},
	{
	"loss": 369.307,
	"grad_norm": 50.451271057128906,
	"learning_rate": 0.0003539120510689636,
	"epoch": 0.3632519700172977,
	"step": 405
	},
	{
	"loss": 374.2456,
	"grad_norm": 56.06875228881836,
	"learning_rate": 0.0003532704002680951,
	"epoch": 0.3641488884617849,
	"step": 406
	},
	{
	"loss": 371.9364,
	"grad_norm": 49.18859100341797,
	"learning_rate": 0.0003526279281613388,
	"epoch": 0.36504580690627203,
	"step": 407
	},
	{
	"loss": 375.3452,
	"grad_norm": 60.49544143676758,
	"learning_rate": 0.00035198463985825303,
	"epoch": 0.36594272535075917,
	"step": 408
	},
	{
	"loss": 364.7332,
	"grad_norm": 55.390960693359375,
	"learning_rate": 0.0003513405404748872,
	"epoch": 0.3668396437952463,
	"step": 409
	},
	{
	"loss": 367.328,
	"grad_norm": 45.79146194458008,
	"learning_rate": 0.00035069563513374105,
	"epoch": 0.3677365622397335,
	"step": 410
	},
	{
	"loss": 372.7194,
	"grad_norm": 50.601531982421875,
	"learning_rate": 0.0003500499289637243,
	"epoch": 0.36863348068422064,
	"step": 411
	},
	{
	"loss": 373.3177,
	"grad_norm": 58.5416374206543,
	"learning_rate": 0.0003494034271001158,
	"epoch": 0.3695303991287078,
	"step": 412
	},
	{
	"loss": 367.5529,
	"grad_norm": 48.93236541748047,
	"learning_rate": 0.00034875613468452203,
	"epoch": 0.37042731757319497,
	"step": 413
	},
	{
	"loss": 368.6186,
	"grad_norm": 49.043251037597656,
	"learning_rate": 0.00034810805686483713,
	"epoch": 0.3713242360176821,
	"step": 414
	},
	{
	"loss": 363.3611,
	"grad_norm": 48.577144622802734,
	"learning_rate": 0.0003474591987952013,
	"epoch": 0.37222115446216925,
	"step": 415
	},
	{
	"loss": 368.0312,
	"grad_norm": 48.73127746582031,
	"learning_rate": 0.0003468095656359601,
	"epoch": 0.37311807290665644,
	"step": 416
	},
	{
	"loss": 367.3114,
	"grad_norm": 51.46812057495117,
	"learning_rate": 0.0003461591625536234,
	"epoch": 0.3740149913511436,
	"step": 417
	},
	{
	"loss": 375.6931,
	"grad_norm": 49.236141204833984,
	"learning_rate": 0.0003455079947208242,
	"epoch": 0.3749119097956307,
	"step": 418
	},
	{
	"loss": 365.6711,
	"grad_norm": 48.81379318237305,
	"learning_rate": 0.00034485606731627755,
	"epoch": 0.37580882824011785,
	"step": 419
	},
	{
	"loss": 364.9393,
	"grad_norm": 51.185340881347656,
	"learning_rate": 0.0003442033855247394,
	"epoch": 0.37670574668460505,
	"step": 420
	},
	{
	"loss": 369.8553,
	"grad_norm": 53.58812713623047,
	"learning_rate": 0.000343549954536965,
	"epoch": 0.3776026651290922,
	"step": 421
	},
	{
	"loss": 372.3922,
	"grad_norm": 51.472042083740234,
	"learning_rate": 0.0003428957795496685,
	"epoch": 0.3784995835735793,
	"step": 422
	},
	{
	"loss": 371.9807,
	"grad_norm": 54.97187805175781,
	"learning_rate": 0.0003422408657654805,
	"epoch": 0.3793965020180665,
	"step": 423
	},
	{
	"loss": 370.048,
	"grad_norm": 54.97746276855469,
	"learning_rate": 0.0003415852183929077,
	"epoch": 0.38029342046255366,
	"step": 424
	},
	{
	"loss": 370.0667,
	"grad_norm": 46.41242980957031,
	"learning_rate": 0.0003409288426462904,
	"epoch": 0.3811903389070408,
	"step": 425
	},
	{
	"loss": 366.4669,
	"grad_norm": 51.722904205322266,
	"learning_rate": 0.0003402717437457624,
	"epoch": 0.382087257351528,
	"step": 426
	},
	{
	"loss": 367.8651,
	"grad_norm": 51.60542678833008,
	"learning_rate": 0.00033961392691720803,
	"epoch": 0.3829841757960151,
	"step": 427
	},
	{
	"loss": 364.8575,
	"grad_norm": 46.896331787109375,
	"learning_rate": 0.0003389553973922217,
	"epoch": 0.38388109424050226,
	"step": 428
	},
	{
	"loss": 366.1106,
	"grad_norm": 47.48381042480469,
	"learning_rate": 0.00033829616040806566,
	"epoch": 0.38477801268498946,
	"step": 429
	},
	{
	"loss": 369.6983,
	"grad_norm": 47.15787124633789,
	"learning_rate": 0.0003376362212076287,
	"epoch": 0.3856749311294766,
	"step": 430
	},
	{
	"loss": 372.8012,
	"grad_norm": 49.67255401611328,
	"learning_rate": 0.0003369755850393841,
	"epoch": 0.38657184957396373,
	"step": 431
	},
	{
	"loss": 369.0824,
	"grad_norm": 50.87350082397461,
	"learning_rate": 0.0003363142571573484,
	"epoch": 0.38746876801845087,
	"step": 432
	},
	{
	"loss": 368.5385,
	"grad_norm": 52.32754135131836,
	"learning_rate": 0.0003356522428210391,
	"epoch": 0.38836568646293806,
	"step": 433
	},
	{
	"loss": 370.1974,
	"grad_norm": 46.638084411621094,
	"learning_rate": 0.0003349895472954331,
	"epoch": 0.3892626049074252,
	"step": 434
	},
	{
	"loss": 367.2549,
	"grad_norm": 51.39384460449219,
	"learning_rate": 0.00033432617585092467,
	"epoch": 0.39015952335191234,
	"step": 435
	},
	{
	"loss": 368.2899,
	"grad_norm": 49.1676139831543,
	"learning_rate": 0.00033366213376328396,
	"epoch": 0.39105644179639953,
	"step": 436
	},
	{
	"loss": 372.2977,
	"grad_norm": 51.6141242980957,
	"learning_rate": 0.0003329974263136144,
	"epoch": 0.3919533602408867,
	"step": 437
	},
	{
	"loss": 368.3735,
	"grad_norm": 49.94230270385742,
	"learning_rate": 0.0003323320587883111,
	"epoch": 0.3928502786853738,
	"step": 438
	},
	{
	"loss": 370.6481,
	"grad_norm": 49.947837829589844,
	"learning_rate": 0.0003316660364790188,
	"epoch": 0.393747197129861,
	"step": 439
	},
	{
	"loss": 369.6432,
	"grad_norm": 48.53517532348633,
	"learning_rate": 0.0003309993646825896,
	"epoch": 0.39464411557434814,
	"step": 440
	},
	{
	"loss": 366.7539,
	"grad_norm": 50.93443298339844,
	"learning_rate": 0.00033033204870104116,
	"epoch": 0.3955410340188353,
	"step": 441
	},
	{
	"loss": 367.3075,
	"grad_norm": 49.63651657104492,
	"learning_rate": 0.000329664093841514,
	"epoch": 0.3964379524633224,
	"step": 442
	},
	{
	"loss": 369.597,
	"grad_norm": 48.85470962524414,
	"learning_rate": 0.00032899550541623,
	"epoch": 0.3973348709078096,
	"step": 443
	},
	{
	"loss": 366.1455,
	"grad_norm": 49.675559997558594,
	"learning_rate": 0.0003283262887424494,
	"epoch": 0.39823178935229675,
	"step": 444
	},
	{
	"loss": 362.2254,
	"grad_norm": 48.583370208740234,
	"learning_rate": 0.0003276564491424292,
	"epoch": 0.3991287077967839,
	"step": 445
	},
	{
	"loss": 372.5689,
	"grad_norm": 50.507293701171875,
	"learning_rate": 0.0003269859919433802,
	"epoch": 0.4000256262412711,
	"step": 446
	},
	{
	"loss": 366.7801,
	"grad_norm": 50.75261688232422,
	"learning_rate": 0.0003263149224774251,
	"epoch": 0.4009225446857582,
	"step": 447
	},
	{
	"loss": 369.5224,
	"grad_norm": 49.42384719848633,
	"learning_rate": 0.00032564324608155604,
	"epoch": 0.40181946313024536,
	"step": 448
	},
	{
	"loss": 369.6519,
	"grad_norm": 49.12044143676758,
	"learning_rate": 0.00032497096809759184,
	"epoch": 0.40271638157473255,
	"step": 449
	},
	{
	"loss": 370.9763,
	"grad_norm": 53.04697036743164,
	"learning_rate": 0.0003242980938721359,
	"epoch": 0.4036133000192197,
	"step": 450
	},
	{
	"eval_loss": 1.6399173736572266,
	"eval_runtime": 36.1587,
	"eval_samples_per_second": 56.639,
	"eval_steps_per_second": 3.54,
	"epoch": 0.4036133000192197,
	"step": 450
	},
	{
	"loss": 367.9265,
	"grad_norm": 52.0450553894043,
	"learning_rate": 0.00032362462875653355,
	"epoch": 0.4045102184637068,
	"step": 451
	},
	{
	"loss": 372.4974,
	"grad_norm": 48.33359146118164,
	"learning_rate": 0.0003229505781068291,
	"epoch": 0.40540713690819397,
	"step": 452
	},
	{
	"loss": 366.6081,
	"grad_norm": 49.462974548339844,
	"learning_rate": 0.00032227594728372397,
	"epoch": 0.40630405535268116,
	"step": 453
	},
	{
	"loss": 366.3152,
	"grad_norm": 48.31398391723633,
	"learning_rate": 0.0003216007416525335,
	"epoch": 0.4072009737971683,
	"step": 454
	},
	{
	"loss": 369.983,
	"grad_norm": 47.523338317871094,
	"learning_rate": 0.0003209249665831445,
	"epoch": 0.40809789224165544,
	"step": 455
	},
	{
	"loss": 366.8036,
	"grad_norm": 45.295806884765625,
	"learning_rate": 0.00032024862744997265,
	"epoch": 0.40899481068614263,
	"step": 456
	},
	{
	"loss": 366.4848,
	"grad_norm": 49.89873504638672,
	"learning_rate": 0.0003195717296319193,
	"epoch": 0.40989172913062977,
	"step": 457
	},
	{
	"loss": 365.4414,
	"grad_norm": 46.948055267333984,
	"learning_rate": 0.00031889427851232915,
	"epoch": 0.4107886475751169,
	"step": 458
	},
	{
	"loss": 369.7285,
	"grad_norm": 48.40359115600586,
	"learning_rate": 0.0003182162794789474,
	"epoch": 0.4116855660196041,
	"step": 459
	},
	{
	"loss": 370.345,
	"grad_norm": 48.55045700073242,
	"learning_rate": 0.0003175377379238767,
	"epoch": 0.41258248446409124,
	"step": 460
	},
	{
	"loss": 366.95,
	"grad_norm": 47.37104415893555,
	"learning_rate": 0.0003168586592435341,
	"epoch": 0.4134794029085784,
	"step": 461
	},
	{
	"loss": 370.2368,
	"grad_norm": 51.285888671875,
	"learning_rate": 0.00031617904883860903,
	"epoch": 0.4143763213530655,
	"step": 462
	},
	{
	"loss": 365.4067,
	"grad_norm": 50.595340728759766,
	"learning_rate": 0.000315498912114019,
	"epoch": 0.4152732397975527,
	"step": 463
	},
	{
	"loss": 366.4186,
	"grad_norm": 45.943519592285156,
	"learning_rate": 0.0003148182544788678,
	"epoch": 0.41617015824203984,
	"step": 464
	},
	{
	"loss": 362.8856,
	"grad_norm": 52.45280075073242,
	"learning_rate": 0.0003141370813464018,
	"epoch": 0.417067076686527,
	"step": 465
	},
	{
	"loss": 366.827,
	"grad_norm": 47.95954132080078,
	"learning_rate": 0.0003134553981339672,
	"epoch": 0.4179639951310142,
	"step": 466
	},
	{
	"loss": 370.8824,
	"grad_norm": 51.57919692993164,
	"learning_rate": 0.00031277321026296657,
	"epoch": 0.4188609135755013,
	"step": 467
	},
	{
	"loss": 368.826,
	"grad_norm": 51.78611755371094,
	"learning_rate": 0.0003120905231588164,
	"epoch": 0.41975783201998845,
	"step": 468
	},
	{
	"loss": 369.1159,
	"grad_norm": 46.962074279785156,
	"learning_rate": 0.0003114073422509034,
	"epoch": 0.42065475046447565,
	"step": 469
	},
	{
	"loss": 361.8488,
	"grad_norm": 46.85802459716797,
	"learning_rate": 0.0003107236729725414,
	"epoch": 0.4215516689089628,
	"step": 470
	},
	{
	"loss": 367.4666,
	"grad_norm": 54.017906188964844,
	"learning_rate": 0.0003100395207609284,
	"epoch": 0.4224485873534499,
	"step": 471
	},
	{
	"loss": 366.9775,
	"grad_norm": 53.34091567993164,
	"learning_rate": 0.000309354891057103,
	"epoch": 0.42334550579793706,
	"step": 472
	},
	{
	"loss": 366.0834,
	"grad_norm": 47.76055908203125,
	"learning_rate": 0.00030866978930590126,
	"epoch": 0.42424242424242425,
	"step": 473
	},
	{
	"loss": 368.5773,
	"grad_norm": 49.945613861083984,
	"learning_rate": 0.00030798422095591364,
	"epoch": 0.4251393426869114,
	"step": 474
	},
	{
	"loss": 363.8445,
	"grad_norm": 48.995609283447266,
	"learning_rate": 0.00030729819145944114,
	"epoch": 0.42603626113139853,
	"step": 475
	},
	{
	"loss": 362.6448,
	"grad_norm": 45.06385040283203,
	"learning_rate": 0.00030661170627245256,
	"epoch": 0.4269331795758857,
	"step": 476
	},
	{
	"loss": 364.0858,
	"grad_norm": 49.73957061767578,
	"learning_rate": 0.00030592477085454047,
	"epoch": 0.42783009802037286,
	"step": 477
	},
	{
	"loss": 371.1085,
	"grad_norm": 49.45321273803711,
	"learning_rate": 0.00030523739066887836,
	"epoch": 0.42872701646486,
	"step": 478
	},
	{
	"loss": 363.6934,
	"grad_norm": 49.325355529785156,
	"learning_rate": 0.00030454957118217674,
	"epoch": 0.4296239349093472,
	"step": 479
	},
	{
	"loss": 368.4297,
	"grad_norm": 47.509742736816406,
	"learning_rate": 0.0003038613178646401,
	"epoch": 0.43052085335383433,
	"step": 480
	},
	{
	"loss": 366.2455,
	"grad_norm": 48.50214767456055,
	"learning_rate": 0.000303172636189923,
	"epoch": 0.43141777179832147,
	"step": 481
	},
	{
	"loss": 362.4247,
	"grad_norm": 46.59059143066406,
	"learning_rate": 0.00030248353163508674,
	"epoch": 0.43231469024280866,
	"step": 482
	},
	{
	"loss": 368.7481,
	"grad_norm": 47.74319839477539,
	"learning_rate": 0.0003017940096805557,
	"epoch": 0.4332116086872958,
	"step": 483
	},
	{
	"loss": 365.7433,
	"grad_norm": 53.59490203857422,
	"learning_rate": 0.0003011040758100741,
	"epoch": 0.43410852713178294,
	"step": 484
	},
	{
	"loss": 366.9239,
	"grad_norm": 49.87615966796875,
	"learning_rate": 0.00030041373551066173,
	"epoch": 0.4350054455762701,
	"step": 485
	},
	{
	"loss": 360.9555,
	"grad_norm": 44.795536041259766,
	"learning_rate": 0.0002997229942725711,
	"epoch": 0.43590236402075727,
	"step": 486
	},
	{
	"loss": 370.6934,
	"grad_norm": 56.454227447509766,
	"learning_rate": 0.000299031857589243,
	"epoch": 0.4367992824652444,
	"step": 487
	},
	{
	"loss": 369.9133,
	"grad_norm": 48.472312927246094,
	"learning_rate": 0.00029834033095726335,
	"epoch": 0.43769620090973155,
	"step": 488
	},
	{
	"loss": 361.5723,
	"grad_norm": 51.665260314941406,
	"learning_rate": 0.00029764841987631933,
	"epoch": 0.43859311935421874,
	"step": 489
	},
	{
	"loss": 366.223,
	"grad_norm": 51.25084686279297,
	"learning_rate": 0.0002969561298491557,
	"epoch": 0.4394900377987059,
	"step": 490
	},
	{
	"loss": 367.7071,
	"grad_norm": 50.52541732788086,
	"learning_rate": 0.00029626346638153073,
	"epoch": 0.440386956243193,
	"step": 491
	},
	{
	"loss": 367.0807,
	"grad_norm": 50.71653366088867,
	"learning_rate": 0.0002955704349821729,
	"epoch": 0.4412838746876802,
	"step": 492
	},
	{
	"loss": 366.5776,
	"grad_norm": 44.603485107421875,
	"learning_rate": 0.0002948770411627367,
	"epoch": 0.44218079313216735,
	"step": 493
	},
	{
	"loss": 367.2019,
	"grad_norm": 49.68048858642578,
	"learning_rate": 0.0002941832904377589,
	"epoch": 0.4430777115766545,
	"step": 494
	},
	{
	"loss": 367.4325,
	"grad_norm": 56.277896881103516,
	"learning_rate": 0.000293489188324615,
	"epoch": 0.4439746300211416,
	"step": 495
	},
	{
	"loss": 369.3215,
	"grad_norm": 46.4665412902832,
	"learning_rate": 0.00029279474034347465,
	"epoch": 0.4448715484656288,
	"step": 496
	},
	{
	"loss": 368.6407,
	"grad_norm": 51.84563446044922,
	"learning_rate": 0.00029209995201725836,
	"epoch": 0.44576846691011596,
	"step": 497
	},
	{
	"loss": 366.8856,
	"grad_norm": 55.93694305419922,
	"learning_rate": 0.0002914048288715937,
	"epoch": 0.4466653853546031,
	"step": 498
	},
	{
	"loss": 367.8516,
	"grad_norm": 50.97298812866211,
	"learning_rate": 0.00029070937643477056,
	"epoch": 0.4475623037990903,
	"step": 499
	},
	{
	"loss": 364.7996,
	"grad_norm": 53.179847717285156,
	"learning_rate": 0.000290013600237698,
	"epoch": 0.4484592222435774,
	"step": 500
	},
	{
	"eval_loss": 1.6293703317642212,
	"eval_runtime": 47.4683,
	"eval_samples_per_second": 43.145,
	"eval_steps_per_second": 2.697,
	"epoch": 0.4484592222435774,
	"step": 500
	},
	{
	"loss": 364.7999,
	"grad_norm": 53.32307434082031,
	"learning_rate": 0.00028931750581385975,
	"epoch": 0.44935614068806456,
	"step": 501
	},
	{
	"loss": 368.2321,
	"grad_norm": 48.1343994140625,
	"learning_rate": 0.00028862109869927057,
	"epoch": 0.45025305913255176,
	"step": 502
	},
	{
	"loss": 363.4522,
	"grad_norm": 48.97591781616211,
	"learning_rate": 0.00028792438443243175,
	"epoch": 0.4511499775770389,
	"step": 503
	},
	{
	"loss": 367.3519,
	"grad_norm": 48.5214729309082,
	"learning_rate": 0.00028722736855428755,
	"epoch": 0.45204689602152603,
	"step": 504
	},
	{
	"loss": 366.9135,
	"grad_norm": 48.30058288574219,
	"learning_rate": 0.00028653005660818115,
	"epoch": 0.4529438144660132,
	"step": 505
	},
	{
	"loss": 365.4208,
	"grad_norm": 48.56584548950195,
	"learning_rate": 0.00028583245413980993,
	"epoch": 0.45384073291050037,
	"step": 506
	},
	{
	"loss": 366.6342,
	"grad_norm": 44.84033203125,
	"learning_rate": 0.0002851345666971819,
	"epoch": 0.4547376513549875,
	"step": 507
	},
	{
	"loss": 366.2589,
	"grad_norm": 46.03631591796875,
	"learning_rate": 0.0002844363998305717,
	"epoch": 0.45563456979947464,
	"step": 508
	},
	{
	"loss": 368.2724,
	"grad_norm": 52.3626708984375,
	"learning_rate": 0.0002837379590924759,
	"epoch": 0.45653148824396184,
	"step": 509
	},
	{
	"loss": 366.9325,
	"grad_norm": 42.26225280761719,
	"learning_rate": 0.0002830392500375694,
	"epoch": 0.457428406688449,
	"step": 510
	},
	{
	"loss": 363.1102,
	"grad_norm": 47.719661712646484,
	"learning_rate": 0.0002823402782226608,
	"epoch": 0.4583253251329361,
	"step": 511
	},
	{
	"loss": 369.943,
	"grad_norm": 48.35748291015625,
	"learning_rate": 0.00028164104920664864,
	"epoch": 0.4592222435774233,
	"step": 512
	},
	{
	"loss": 366.7622,
	"grad_norm": 47.81887435913086,
	"learning_rate": 0.00028094156855047687,
	"epoch": 0.46011916202191044,
	"step": 513
	},
	{
	"loss": 369.4684,
	"grad_norm": 51.35517883300781,
	"learning_rate": 0.0002802418418170908,
	"epoch": 0.4610160804663976,
	"step": 514
	},
	{
	"loss": 367.9245,
	"grad_norm": 52.903011322021484,
	"learning_rate": 0.0002795418745713925,
	"epoch": 0.4619129989108847,
	"step": 515
	},
	{
	"loss": 363.503,
	"grad_norm": 50.455223083496094,
	"learning_rate": 0.00027884167238019714,
	"epoch": 0.4628099173553719,
	"step": 516
	},
	{
	"loss": 361.0208,
	"grad_norm": 48.27017593383789,
	"learning_rate": 0.0002781412408121884,
	"epoch": 0.46370683579985905,
	"step": 517
	},
	{
	"loss": 364.5886,
	"grad_norm": 49.851619720458984,
	"learning_rate": 0.0002774405854378739,
	"epoch": 0.4646037542443462,
	"step": 518
	},
	{
	"loss": 359.5211,
	"grad_norm": 49.12308120727539,
	"learning_rate": 0.00027673971182954157,
	"epoch": 0.4655006726888334,
	"step": 519
	},
	{
	"loss": 366.8299,
	"grad_norm": 47.60043716430664,
	"learning_rate": 0.00027603862556121463,
	"epoch": 0.4663975911333205,
	"step": 520
	},
	{
	"loss": 368.2267,
	"grad_norm": 41.944801330566406,
	"learning_rate": 0.0002753373322086077,
	"epoch": 0.46729450957780766,
	"step": 521
	},
	{
	"loss": 368.1608,
	"grad_norm": 45.84396743774414,
	"learning_rate": 0.00027463583734908234,
	"epoch": 0.46819142802229485,
	"step": 522
	},
	{
	"loss": 359.4468,
	"grad_norm": 44.122989654541016,
	"learning_rate": 0.0002739341465616026,
	"epoch": 0.469088346466782,
	"step": 523
	},
	{
	"loss": 367.6043,
	"grad_norm": 44.97038269042969,
	"learning_rate": 0.000273232265426691,
	"epoch": 0.46998526491126913,
	"step": 524
	},
	{
	"loss": 367.8859,
	"grad_norm": 49.4835319519043,
	"learning_rate": 0.0002725301995263835,
	"epoch": 0.47088218335575627,
	"step": 525
	},
	{
	"loss": 365.9901,
	"grad_norm": 46.08525466918945,
	"learning_rate": 0.00027182795444418583,
	"epoch": 0.47177910180024346,
	"step": 526
	},
	{
	"loss": 362.7762,
	"grad_norm": 45.26884841918945,
	"learning_rate": 0.0002711255357650286,
	"epoch": 0.4726760202447306,
	"step": 527
	},
	{
	"loss": 363.5254,
	"grad_norm": 52.6630973815918,
	"learning_rate": 0.0002704229490752229,
	"epoch": 0.47357293868921774,
	"step": 528
	},
	{
	"loss": 362.2083,
	"grad_norm": 49.639488220214844,
	"learning_rate": 0.00026972019996241635,
	"epoch": 0.47446985713370493,
	"step": 529
	},
	{
	"loss": 370.2541,
	"grad_norm": 51.361610412597656,
	"learning_rate": 0.00026901729401554805,
	"epoch": 0.47536677557819207,
	"step": 530
	},
	{
	"loss": 364.9506,
	"grad_norm": 45.84967803955078,
	"learning_rate": 0.00026831423682480425,
	"epoch": 0.4762636940226792,
	"step": 531
	},
	{
	"loss": 373.7259,
	"grad_norm": 48.99913024902344,
	"learning_rate": 0.00026761103398157456,
	"epoch": 0.4771606124671664,
	"step": 532
	},
	{
	"loss": 367.0407,
	"grad_norm": 53.0494270324707,
	"learning_rate": 0.00026690769107840634,
	"epoch": 0.47805753091165354,
	"step": 533
	},
	{
	"loss": 366.3498,
	"grad_norm": 46.16975784301758,
	"learning_rate": 0.00026620421370896136,
	"epoch": 0.4789544493561407,
	"step": 534
	},
	{
	"loss": 363.5735,
	"grad_norm": 45.147125244140625,
	"learning_rate": 0.00026550060746797057,
	"epoch": 0.47985136780062787,
	"step": 535
	},
	{
	"loss": 362.9278,
	"grad_norm": 47.262821197509766,
	"learning_rate": 0.0002647968779511897,
	"epoch": 0.480748286245115,
	"step": 536
	},
	{
	"loss": 366.6017,
	"grad_norm": 49.1768913269043,
	"learning_rate": 0.00026409303075535504,
	"epoch": 0.48164520468960215,
	"step": 537
	},
	{
	"loss": 363.7893,
	"grad_norm": 47.41939163208008,
	"learning_rate": 0.00026338907147813894,
	"epoch": 0.4825421231340893,
	"step": 538
	},
	{
	"loss": 362.325,
	"grad_norm": 45.2095947265625,
	"learning_rate": 0.0002626850057181048,
	"epoch": 0.4834390415785765,
	"step": 539
	},
	{
	"loss": 368.0108,
	"grad_norm": 44.87570571899414,
	"learning_rate": 0.000261980839074663,
	"epoch": 0.4843359600230636,
	"step": 540
	},
	{
	"loss": 363.8844,
	"grad_norm": 44.87836456298828,
	"learning_rate": 0.0002612765771480264,
	"epoch": 0.48523287846755075,
	"step": 541
	},
	{
	"loss": 366.2256,
	"grad_norm": 52.47968292236328,
	"learning_rate": 0.00026057222553916545,
	"epoch": 0.48612979691203795,
	"step": 542
	},
	{
	"loss": 364.6898,
	"grad_norm": 49.18819808959961,
	"learning_rate": 0.0002598677898497638,
	"epoch": 0.4870267153565251,
	"step": 543
	},
	{
	"loss": 364.0697,
	"grad_norm": 47.542850494384766,
	"learning_rate": 0.00025916327568217416,
	"epoch": 0.4879236338010122,
	"step": 544
	},
	{
	"loss": 362.7703,
	"grad_norm": 44.471256256103516,
	"learning_rate": 0.0002584586886393729,
	"epoch": 0.4888205522454994,
	"step": 545
	},
	{
	"loss": 370.4043,
	"grad_norm": 46.374263763427734,
	"learning_rate": 0.0002577540343249162,
	"epoch": 0.48971747068998656,
	"step": 546
	},
	{
	"loss": 362.8738,
	"grad_norm": 44.021278381347656,
	"learning_rate": 0.0002570493183428952,
	"epoch": 0.4906143891344737,
	"step": 547
	},
	{
	"loss": 365.418,
	"grad_norm": 47.044212341308594,
	"learning_rate": 0.00025634454629789156,
	"epoch": 0.49151130757896083,
	"step": 548
	},
	{
	"loss": 363.5009,
	"grad_norm": 48.60353469848633,
	"learning_rate": 0.00025563972379493273,
	"epoch": 0.492408226023448,
	"step": 549
	},
	{
	"loss": 365.955,
	"grad_norm": 47.8569221496582,
	"learning_rate": 0.00025493485643944753,
	"epoch": 0.49330514446793516,
	"step": 550
	},
	{
	"eval_loss": 1.6247297525405884,
	"eval_runtime": 36.2552,
	"eval_samples_per_second": 56.488,
	"eval_steps_per_second": 3.531,
	"epoch": 0.49330514446793516,
	"step": 550
	},
	{
	"loss": 361.769,
	"grad_norm": 52.47264099121094,
	"learning_rate": 0.00025422994983722127,
	"epoch": 0.4942020629124223,
	"step": 551
	},
	{
	"loss": 369.0356,
	"grad_norm": 51.903358459472656,
	"learning_rate": 0.0002535250095943517,
	"epoch": 0.4950989813569095,
	"step": 552
	},
	{
	"loss": 362.5946,
	"grad_norm": 55.91824722290039,
	"learning_rate": 0.0002528200413172039,
	"epoch": 0.49599589980139663,
	"step": 553
	},
	{
	"loss": 364.1907,
	"grad_norm": 49.117069244384766,
	"learning_rate": 0.00025211505061236583,
	"epoch": 0.49689281824588377,
	"step": 554
	},
	{
	"loss": 363.2774,
	"grad_norm": 44.69606018066406,
	"learning_rate": 0.00025141004308660414,
	"epoch": 0.49778973669037097,
	"step": 555
	},
	{
	"loss": 363.2139,
	"grad_norm": 52.18587112426758,
	"learning_rate": 0.00025070502434681915,
	"epoch": 0.4986866551348581,
	"step": 556
	},
	{
	"loss": 365.6665,
	"grad_norm": 57.393428802490234,
	"learning_rate": 0.00025,
	"epoch": 0.49958357357934524,
	"step": 557
	},
	{
	"loss": 363.4536,
	"grad_norm": 52.89313507080078,
	"learning_rate": 0.0002492949756531809,
	"epoch": 0.5004804920238324,
	"step": 558
	},
	{
	"loss": 363.2097,
	"grad_norm": 51.265533447265625,
	"learning_rate": 0.00024858995691339587,
	"epoch": 0.5013774104683195,
	"step": 559
	},
	{
	"loss": 366.4611,
	"grad_norm": 56.473567962646484,
	"learning_rate": 0.0002478849493876342,
	"epoch": 0.5022743289128068,
	"step": 560
	},
	{
	"loss": 361.8987,
	"grad_norm": 49.68058776855469,
	"learning_rate": 0.0002471799586827962,
	"epoch": 0.5031712473572939,
	"step": 561
	},
	{
	"loss": 360.8694,
	"grad_norm": 42.74179458618164,
	"learning_rate": 0.00024647499040564844,
	"epoch": 0.504068165801781,
	"step": 562
	},
	{
	"loss": 364.9089,
	"grad_norm": 45.61265563964844,
	"learning_rate": 0.00024577005016277885,
	"epoch": 0.5049650842462682,
	"step": 563
	},
	{
	"loss": 365.8124,
	"grad_norm": 46.97050857543945,
	"learning_rate": 0.0002450651435605526,
	"epoch": 0.5058620026907553,
	"step": 564
	},
	{
	"loss": 360.1623,
	"grad_norm": 46.26262664794922,
	"learning_rate": 0.0002443602762050673,
	"epoch": 0.5067589211352425,
	"step": 565
	},
	{
	"loss": 363.2248,
	"grad_norm": 44.43347930908203,
	"learning_rate": 0.00024365545370210842,
	"epoch": 0.5076558395797296,
	"step": 566
	},
	{
	"loss": 365.1527,
	"grad_norm": 46.19889831542969,
	"learning_rate": 0.00024295068165710478,
	"epoch": 0.5085527580242168,
	"step": 567
	},
	{
	"loss": 365.0658,
	"grad_norm": 49.645484924316406,
	"learning_rate": 0.00024224596567508385,
	"epoch": 0.509449676468704,
	"step": 568
	},
	{
	"loss": 362.5722,
	"grad_norm": 47.69388961791992,
	"learning_rate": 0.00024154131136062715,
	"epoch": 0.5103465949131911,
	"step": 569
	},
	{
	"loss": 361.0171,
	"grad_norm": 44.855857849121094,
	"learning_rate": 0.00024083672431782585,
	"epoch": 0.5112435133576783,
	"step": 570
	},
	{
	"loss": 361.5502,
	"grad_norm": 48.860435485839844,
	"learning_rate": 0.00024013221015023619,
	"epoch": 0.5121404318021654,
	"step": 571
	},
	{
	"loss": 360.8487,
	"grad_norm": 45.69166564941406,
	"learning_rate": 0.0002394277744608346,
	"epoch": 0.5130373502466525,
	"step": 572
	},
	{
	"loss": 361.6857,
	"grad_norm": 45.67158889770508,
	"learning_rate": 0.00023872342285197366,
	"epoch": 0.5139342686911397,
	"step": 573
	},
	{
	"loss": 364.0296,
	"grad_norm": 51.487369537353516,
	"learning_rate": 0.00023801916092533706,
	"epoch": 0.5148311871356269,
	"step": 574
	},
	{
	"loss": 366.4655,
	"grad_norm": 49.884727478027344,
	"learning_rate": 0.0002373149942818953,
	"epoch": 0.5157281055801141,
	"step": 575
	},
	{
	"loss": 360.9107,
	"grad_norm": 42.73551940917969,
	"learning_rate": 0.00023661092852186118,
	"epoch": 0.5166250240246012,
	"step": 576
	},
	{
	"loss": 364.7719,
	"grad_norm": 44.425777435302734,
	"learning_rate": 0.000235906969244645,
	"epoch": 0.5175219424690883,
	"step": 577
	},
	{
	"loss": 362.6983,
	"grad_norm": 52.82978057861328,
	"learning_rate": 0.00023520312204881045,
	"epoch": 0.5184188609135755,
	"step": 578
	},
	{
	"loss": 359.655,
	"grad_norm": 46.826904296875,
	"learning_rate": 0.0002344993925320295,
	"epoch": 0.5193157793580626,
	"step": 579
	},
	{
	"loss": 364.8085,
	"grad_norm": 42.24338150024414,
	"learning_rate": 0.00023379578629103865,
	"epoch": 0.5202126978025499,
	"step": 580
	},
	{
	"loss": 358.4188,
	"grad_norm": 49.714271545410156,
	"learning_rate": 0.00023309230892159364,
	"epoch": 0.521109616247037,
	"step": 581
	},
	{
	"loss": 364.1614,
	"grad_norm": 47.561073303222656,
	"learning_rate": 0.0002323889660184255,
	"epoch": 0.5220065346915241,
	"step": 582
	},
	{
	"loss": 361.0988,
	"grad_norm": 45.20221710205078,
	"learning_rate": 0.00023168576317519576,
	"epoch": 0.5229034531360113,
	"step": 583
	},
	{
	"loss": 367.0533,
	"grad_norm": 47.38787078857422,
	"learning_rate": 0.00023098270598445204,
	"epoch": 0.5238003715804984,
	"step": 584
	},
	{
	"loss": 366.2763,
	"grad_norm": 47.23054122924805,
	"learning_rate": 0.00023027980003758363,
	"epoch": 0.5246972900249856,
	"step": 585
	},
	{
	"loss": 365.6816,
	"grad_norm": 43.855403900146484,
	"learning_rate": 0.0002295770509247771,
	"epoch": 0.5255942084694727,
	"step": 586
	},
	{
	"loss": 365.6198,
	"grad_norm": 51.30084228515625,
	"learning_rate": 0.00022887446423497146,
	"epoch": 0.5264911269139599,
	"step": 587
	},
	{
	"loss": 362.4194,
	"grad_norm": 50.142330169677734,
	"learning_rate": 0.00022817204555581418,
	"epoch": 0.5273880453584471,
	"step": 588
	},
	{
	"loss": 364.2704,
	"grad_norm": 46.52515411376953,
	"learning_rate": 0.00022746980047361654,
	"epoch": 0.5282849638029342,
	"step": 589
	},
	{
	"loss": 362.0045,
	"grad_norm": 48.26958465576172,
	"learning_rate": 0.00022676773457330906,
	"epoch": 0.5291818822474214,
	"step": 590
	},
	{
	"loss": 364.3056,
	"grad_norm": 45.78593063354492,
	"learning_rate": 0.0002260658534383974,
	"epoch": 0.5300788006919085,
	"step": 591
	},
	{
	"loss": 364.2805,
	"grad_norm": 47.130184173583984,
	"learning_rate": 0.00022536416265091775,
	"epoch": 0.5309757191363956,
	"step": 592
	},
	{
	"loss": 362.9882,
	"grad_norm": 43.309181213378906,
	"learning_rate": 0.0002246626677913923,
	"epoch": 0.5318726375808829,
	"step": 593
	},
	{
	"loss": 362.9743,
	"grad_norm": 40.39152145385742,
	"learning_rate": 0.00022396137443878535,
	"epoch": 0.53276955602537,
	"step": 594
	},
	{
	"loss": 359.4163,
	"grad_norm": 47.722068786621094,
	"learning_rate": 0.00022326028817045844,
	"epoch": 0.5336664744698572,
	"step": 595
	},
	{
	"loss": 364.6919,
	"grad_norm": 42.61846160888672,
	"learning_rate": 0.00022255941456212605,
	"epoch": 0.5345633929143443,
	"step": 596
	},
	{
	"loss": 368.3342,
	"grad_norm": 44.96833038330078,
	"learning_rate": 0.00022185875918781162,
	"epoch": 0.5354603113588314,
	"step": 597
	},
	{
	"loss": 363.2259,
	"grad_norm": 43.944881439208984,
	"learning_rate": 0.00022115832761980287,
	"epoch": 0.5363572298033186,
	"step": 598
	},
	{
	"loss": 362.7245,
	"grad_norm": 47.073341369628906,
	"learning_rate": 0.00022045812542860756,
	"epoch": 0.5372541482478057,
	"step": 599
	},
	{
	"loss": 363.0497,
	"grad_norm": 44.11311721801758,
	"learning_rate": 0.00021975815818290928,
	"epoch": 0.538151066692293,
	"step": 600
	},
	{
	"eval_loss": 1.61993408203125,
	"eval_runtime": 65.3564,
	"eval_samples_per_second": 31.336,
	"eval_steps_per_second": 1.958,
	"epoch": 0.538151066692293,
	"step": 600
	},
	{
	"loss": 360.9368,
	"grad_norm": 45.97838592529297,
	"learning_rate": 0.00021905843144952316,
	"epoch": 0.5390479851367801,
	"step": 601
	},
	{
	"loss": 363.959,
	"grad_norm": 45.36203384399414,
	"learning_rate": 0.0002183589507933514,
	"epoch": 0.5399449035812672,
	"step": 602
	},
	{
	"loss": 363.9291,
	"grad_norm": 43.02581024169922,
	"learning_rate": 0.00021765972177733924,
	"epoch": 0.5408418220257544,
	"step": 603
	},
	{
	"loss": 363.5491,
	"grad_norm": 47.46310806274414,
	"learning_rate": 0.0002169607499624307,
	"epoch": 0.5417387404702415,
	"step": 604
	},
	{
	"loss": 367.6017,
	"grad_norm": 47.89605712890625,
	"learning_rate": 0.00021626204090752422,
	"epoch": 0.5426356589147286,
	"step": 605
	},
	{
	"loss": 364.9732,
	"grad_norm": 45.463443756103516,
	"learning_rate": 0.00021556360016942842,
	"epoch": 0.5435325773592158,
	"step": 606
	},
	{
	"loss": 364.4341,
	"grad_norm": 43.64617919921875,
	"learning_rate": 0.00021486543330281812,
	"epoch": 0.544429495803703,
	"step": 607
	},
	{
	"loss": 366.3894,
	"grad_norm": 41.575531005859375,
	"learning_rate": 0.0002141675458601901,
	"epoch": 0.5453264142481902,
	"step": 608
	},
	{
	"loss": 363.112,
	"grad_norm": 46.79388427734375,
	"learning_rate": 0.00021346994339181883,
	"epoch": 0.5462233326926773,
	"step": 609
	},
	{
	"loss": 361.5751,
	"grad_norm": 48.13455581665039,
	"learning_rate": 0.0002127726314457124,
	"epoch": 0.5471202511371644,
	"step": 610
	},
	{
	"loss": 361.1321,
	"grad_norm": 45.220550537109375,
	"learning_rate": 0.0002120756155675683,
	"epoch": 0.5480171695816516,
	"step": 611
	},
	{
	"loss": 365.0866,
	"grad_norm": 46.22264099121094,
	"learning_rate": 0.0002113789013007295,
	"epoch": 0.5489140880261387,
	"step": 612
	},
	{
	"loss": 360.2099,
	"grad_norm": 47.99028015136719,
	"learning_rate": 0.00021068249418614027,
	"epoch": 0.549811006470626,
	"step": 613
	},
	{
	"loss": 362.4004,
	"grad_norm": 45.35298538208008,
	"learning_rate": 0.00020998639976230202,
	"epoch": 0.5507079249151131,
	"step": 614
	},
	{
	"loss": 362.9482,
	"grad_norm": 45.84006118774414,
	"learning_rate": 0.00020929062356522942,
	"epoch": 0.5516048433596002,
	"step": 615
	},
	{
	"loss": 361.6893,
	"grad_norm": 46.06373977661133,
	"learning_rate": 0.00020859517112840637,
	"epoch": 0.5525017618040874,
	"step": 616
	},
	{
	"loss": 368.1667,
	"grad_norm": 43.56032180786133,
	"learning_rate": 0.00020790004798274165,
	"epoch": 0.5533986802485745,
	"step": 617
	},
	{
	"loss": 363.2073,
	"grad_norm": 43.215370178222656,
	"learning_rate": 0.00020720525965652544,
	"epoch": 0.5542955986930617,
	"step": 618
	},
	{
	"loss": 358.3785,
	"grad_norm": 47.84462356567383,
	"learning_rate": 0.00020651081167538508,
	"epoch": 0.5551925171375488,
	"step": 619
	},
	{
	"loss": 365.6581,
	"grad_norm": 49.96092987060547,
	"learning_rate": 0.00020581670956224113,
	"epoch": 0.556089435582036,
	"step": 620
	},
	{
	"loss": 363.1918,
	"grad_norm": 44.61714172363281,
	"learning_rate": 0.00020512295883726338,
	"epoch": 0.5569863540265232,
	"step": 621
	},
	{
	"loss": 363.2948,
	"grad_norm": 44.841495513916016,
	"learning_rate": 0.00020442956501782713,
	"epoch": 0.5578832724710103,
	"step": 622
	},
	{
	"loss": 358.7636,
	"grad_norm": 46.29624938964844,
	"learning_rate": 0.00020373653361846925,
	"epoch": 0.5587801909154975,
	"step": 623
	},
	{
	"loss": 362.0233,
	"grad_norm": 43.61477279663086,
	"learning_rate": 0.0002030438701508443,
	"epoch": 0.5596771093599846,
	"step": 624
	},
	{
	"loss": 366.3086,
	"grad_norm": 44.28224182128906,
	"learning_rate": 0.00020235158012368065,
	"epoch": 0.5605740278044717,
	"step": 625
	},
	{
	"loss": 357.9655,
	"grad_norm": 43.08799362182617,
	"learning_rate": 0.00020165966904273666,
	"epoch": 0.5614709462489589,
	"step": 626
	},
	{
	"loss": 364.1879,
	"grad_norm": 45.73900604248047,
	"learning_rate": 0.00020096814241075703,
	"epoch": 0.5623678646934461,
	"step": 627
	},
	{
	"loss": 359.9633,
	"grad_norm": 48.213985443115234,
	"learning_rate": 0.00020027700572742895,
	"epoch": 0.5632647831379333,
	"step": 628
	},
	{
	"loss": 365.9498,
	"grad_norm": 43.3817253112793,
	"learning_rate": 0.00019958626448933825,
	"epoch": 0.5641617015824204,
	"step": 629
	},
	{
	"loss": 362.1366,
	"grad_norm": 42.70503234863281,
	"learning_rate": 0.00019889592418992594,
	"epoch": 0.5650586200269075,
	"step": 630
	},
	{
	"loss": 361.433,
	"grad_norm": 46.60575485229492,
	"learning_rate": 0.00019820599031944436,
	"epoch": 0.5659555384713947,
	"step": 631
	},
	{
	"loss": 364.1061,
	"grad_norm": 42.36573791503906,
	"learning_rate": 0.00019751646836491338,
	"epoch": 0.5668524569158818,
	"step": 632
	},
	{
	"loss": 360.4161,
	"grad_norm": 43.14451599121094,
	"learning_rate": 0.00019682736381007707,
	"epoch": 0.5677493753603691,
	"step": 633
	},
	{
	"loss": 357.0567,
	"grad_norm": 44.19496154785156,
	"learning_rate": 0.00019613868213535997,
	"epoch": 0.5686462938048562,
	"step": 634
	},
	{
	"loss": 361.1339,
	"grad_norm": 42.32905960083008,
	"learning_rate": 0.00019545042881782333,
	"epoch": 0.5695432122493433,
	"step": 635
	},
	{
	"loss": 361.2873,
	"grad_norm": 47.53689956665039,
	"learning_rate": 0.00019476260933112163,
	"epoch": 0.5704401306938305,
	"step": 636
	},
	{
	"loss": 362.2348,
	"grad_norm": 47.5960578918457,
	"learning_rate": 0.00019407522914545957,
	"epoch": 0.5713370491383176,
	"step": 637
	},
	{
	"loss": 366.9183,
	"grad_norm": 43.92160415649414,
	"learning_rate": 0.00019338829372754745,
	"epoch": 0.5722339675828048,
	"step": 638
	},
	{
	"loss": 361.6643,
	"grad_norm": 46.373863220214844,
	"learning_rate": 0.0001927018085405588,
	"epoch": 0.5731308860272919,
	"step": 639
	},
	{
	"loss": 362.9005,
	"grad_norm": 45.955814361572266,
	"learning_rate": 0.0001920157790440864,
	"epoch": 0.5740278044717791,
	"step": 640
	},
	{
	"loss": 360.8845,
	"grad_norm": 46.01215362548828,
	"learning_rate": 0.00019133021069409872,
	"epoch": 0.5749247229162663,
	"step": 641
	},
	{
	"loss": 361.9622,
	"grad_norm": 46.09065628051758,
	"learning_rate": 0.00019064510894289705,
	"epoch": 0.5758216413607534,
	"step": 642
	},
	{
	"loss": 363.2684,
	"grad_norm": 45.370140075683594,
	"learning_rate": 0.00018996047923907166,
	"epoch": 0.5767185598052406,
	"step": 643
	},
	{
	"loss": 362.285,
	"grad_norm": 43.416664123535156,
	"learning_rate": 0.00018927632702745866,
	"epoch": 0.5776154782497277,
	"step": 644
	},
	{
	"loss": 360.188,
	"grad_norm": 44.63084030151367,
	"learning_rate": 0.00018859265774909668,
	"epoch": 0.5785123966942148,
	"step": 645
	},
	{
	"loss": 362.1082,
	"grad_norm": 43.95875930786133,
	"learning_rate": 0.00018790947684118364,
	"epoch": 0.5794093151387021,
	"step": 646
	},
	{
	"loss": 364.6595,
	"grad_norm": 46.196041107177734,
	"learning_rate": 0.00018722678973703355,
	"epoch": 0.5803062335831892,
	"step": 647
	},
	{
	"loss": 367.5318,
	"grad_norm": 52.50529479980469,
	"learning_rate": 0.00018654460186603295,
	"epoch": 0.5812031520276764,
	"step": 648
	},
	{
	"loss": 364.7477,
	"grad_norm": 44.10645294189453,
	"learning_rate": 0.00018586291865359822,
	"epoch": 0.5821000704721635,
	"step": 649
	},
	{
	"loss": 362.5089,
	"grad_norm": 42.808326721191406,
	"learning_rate": 0.00018518174552113216,
	"epoch": 0.5829969889166506,
	"step": 650
	},
	{
	"eval_loss": 1.6019372940063477,
	"eval_runtime": 17.6903,
	"eval_samples_per_second": 115.769,
	"eval_steps_per_second": 14.471,
	"epoch": 0.5829969889166506,
	"step": 650
	},
	{
	"loss": 361.447,
	"grad_norm": 45.0283088684082,
	"learning_rate": 0.0001845010878859809,
	"epoch": 0.5838939073611378,
	"step": 651
	},
	{
	"loss": 363.9907,
	"grad_norm": 45.77663040161133,
	"learning_rate": 0.00018382095116139098,
	"epoch": 0.5847908258056249,
	"step": 652
	},
	{
	"loss": 358.2193,
	"grad_norm": 47.19649124145508,
	"learning_rate": 0.00018314134075646582,
	"epoch": 0.5856877442501122,
	"step": 653
	},
	{
	"loss": 362.618,
	"grad_norm": 45.46641540527344,
	"learning_rate": 0.00018246226207612338,
	"epoch": 0.5865846626945993,
	"step": 654
	},
	{
	"loss": 364.6533,
	"grad_norm": 45.993873596191406,
	"learning_rate": 0.00018178372052105263,
	"epoch": 0.5874815811390864,
	"step": 655
	},
	{
	"loss": 359.9103,
	"grad_norm": 49.62721252441406,
	"learning_rate": 0.00018110572148767089,
	"epoch": 0.5883784995835736,
	"step": 656
	},
	{
	"loss": 362.929,
	"grad_norm": 47.14739227294922,
	"learning_rate": 0.00018042827036808074,
	"epoch": 0.5892754180280607,
	"step": 657
	},
	{
	"loss": 364.1747,
	"grad_norm": 46.9727897644043,
	"learning_rate": 0.00017975137255002744,
	"epoch": 0.5901723364725479,
	"step": 658
	},
	{
	"loss": 362.2029,
	"grad_norm": 45.876277923583984,
	"learning_rate": 0.0001790750334168555,
	"epoch": 0.591069254917035,
	"step": 659
	},
	{
	"loss": 359.2526,
	"grad_norm": 42.93642807006836,
	"learning_rate": 0.00017839925834746653,
	"epoch": 0.5919661733615222,
	"step": 660
	},
	{
	"loss": 363.6162,
	"grad_norm": 41.57487487792969,
	"learning_rate": 0.0001777240527162761,
	"epoch": 0.5928630918060094,
	"step": 661
	},
	{
	"loss": 361.9038,
	"grad_norm": 46.25205993652344,
	"learning_rate": 0.00017704942189317104,
	"epoch": 0.5937600102504965,
	"step": 662
	},
	{
	"loss": 358.8016,
	"grad_norm": 45.354007720947266,
	"learning_rate": 0.0001763753712434666,
	"epoch": 0.5946569286949837,
	"step": 663
	},
	{
	"loss": 361.5577,
	"grad_norm": 42.980037689208984,
	"learning_rate": 0.00017570190612786413,
	"epoch": 0.5955538471394708,
	"step": 664
	},
	{
	"loss": 361.3445,
	"grad_norm": 44.7468147277832,
	"learning_rate": 0.00017502903190240815,
	"epoch": 0.5964507655839579,
	"step": 665
	},
	{
	"loss": 360.489,
	"grad_norm": 43.96569061279297,
	"learning_rate": 0.00017435675391844397,
	"epoch": 0.5973476840284452,
	"step": 666
	},
	{
	"loss": 365.539,
	"grad_norm": 45.040103912353516,
	"learning_rate": 0.00017368507752257495,
	"epoch": 0.5982446024729323,
	"step": 667
	},
	{
	"loss": 363.3497,
	"grad_norm": 45.93570327758789,
	"learning_rate": 0.00017301400805661989,
	"epoch": 0.5991415209174195,
	"step": 668
	},
	{
	"loss": 356.2852,
	"grad_norm": 41.94508743286133,
	"learning_rate": 0.00017234355085757086,
	"epoch": 0.6000384393619066,
	"step": 669
	},
	{
	"loss": 364.3321,
	"grad_norm": 40.20936584472656,
	"learning_rate": 0.00017167371125755064,
	"epoch": 0.6009353578063937,
	"step": 670
	},
	{
	"loss": 365.0333,
	"grad_norm": 42.29598617553711,
	"learning_rate": 0.00017100449458377003,
	"epoch": 0.6018322762508809,
	"step": 671
	},
	{
	"loss": 356.7194,
	"grad_norm": 41.43622589111328,
	"learning_rate": 0.00017033590615848598,
	"epoch": 0.602729194695368,
	"step": 672
	},
	{
	"loss": 362.7276,
	"grad_norm": 44.03760528564453,
	"learning_rate": 0.0001696679512989589,
	"epoch": 0.6036261131398553,
	"step": 673
	},
	{
	"loss": 359.1711,
	"grad_norm": 39.68849182128906,
	"learning_rate": 0.00016900063531741048,
	"epoch": 0.6045230315843424,
	"step": 674
	},
	{
	"loss": 357.2,
	"grad_norm": 40.92485809326172,
	"learning_rate": 0.0001683339635209813,
	"epoch": 0.6054199500288295,
	"step": 675
	},
	{
	"loss": 362.3214,
	"grad_norm": 41.29072189331055,
	"learning_rate": 0.000167667941211689,
	"epoch": 0.6063168684733167,
	"step": 676
	},
	{
	"loss": 361.0124,
	"grad_norm": 41.026676177978516,
	"learning_rate": 0.00016700257368638572,
	"epoch": 0.6072137869178038,
	"step": 677
	},
	{
	"loss": 360.2582,
	"grad_norm": 43.93520736694336,
	"learning_rate": 0.0001663378662367161,
	"epoch": 0.608110705362291,
	"step": 678
	},
	{
	"loss": 358.0945,
	"grad_norm": 43.4892578125,
	"learning_rate": 0.00016567382414907532,
	"epoch": 0.6090076238067781,
	"step": 679
	},
	{
	"loss": 360.7998,
	"grad_norm": 43.67966842651367,
	"learning_rate": 0.00016501045270456694,
	"epoch": 0.6099045422512653,
	"step": 680
	},
	{
	"loss": 359.6815,
	"grad_norm": 42.92584991455078,
	"learning_rate": 0.0001643477571789609,
	"epoch": 0.6108014606957525,
	"step": 681
	},
	{
	"loss": 361.6625,
	"grad_norm": 42.53407287597656,
	"learning_rate": 0.00016368574284265165,
	"epoch": 0.6116983791402396,
	"step": 682
	},
	{
	"loss": 363.5579,
	"grad_norm": 41.2686767578125,
	"learning_rate": 0.00016302441496061592,
	"epoch": 0.6125952975847268,
	"step": 683
	},
	{
	"loss": 360.9108,
	"grad_norm": 42.09267044067383,
	"learning_rate": 0.00016236377879237136,
	"epoch": 0.6134922160292139,
	"step": 684
	},
	{
	"loss": 360.2266,
	"grad_norm": 42.135650634765625,
	"learning_rate": 0.0001617038395919344,
	"epoch": 0.614389134473701,
	"step": 685
	},
	{
	"loss": 355.2124,
	"grad_norm": 41.78007888793945,
	"learning_rate": 0.00016104460260777837,
	"epoch": 0.6152860529181883,
	"step": 686
	},
	{
	"loss": 357.8339,
	"grad_norm": 41.49577713012695,
	"learning_rate": 0.00016038607308279198,
	"epoch": 0.6161829713626754,
	"step": 687
	},
	{
	"loss": 361.7785,
	"grad_norm": 47.102848052978516,
	"learning_rate": 0.00015972825625423765,
	"epoch": 0.6170798898071626,
	"step": 688
	},
	{
	"loss": 357.3535,
	"grad_norm": 41.43706512451172,
	"learning_rate": 0.0001590711573537096,
	"epoch": 0.6179768082516497,
	"step": 689
	},
	{
	"loss": 359.8207,
	"grad_norm": 40.92182540893555,
	"learning_rate": 0.00015841478160709242,
	"epoch": 0.6188737266961368,
	"step": 690
	},
	{
	"loss": 358.1373,
	"grad_norm": 49.461273193359375,
	"learning_rate": 0.0001577591342345195,
	"epoch": 0.619770645140624,
	"step": 691
	},
	{
	"loss": 361.2856,
	"grad_norm": 50.03120040893555,
	"learning_rate": 0.00015710422045033158,
	"epoch": 0.6206675635851111,
	"step": 692
	},
	{
	"loss": 359.0531,
	"grad_norm": 43.81147003173828,
	"learning_rate": 0.00015645004546303493,
	"epoch": 0.6215644820295984,
	"step": 693
	},
	{
	"loss": 357.6739,
	"grad_norm": 44.85881042480469,
	"learning_rate": 0.00015579661447526067,
	"epoch": 0.6224614004740855,
	"step": 694
	},
	{
	"loss": 358.5413,
	"grad_norm": 45.34134292602539,
	"learning_rate": 0.00015514393268372247,
	"epoch": 0.6233583189185726,
	"step": 695
	},
	{
	"loss": 362.4291,
	"grad_norm": 44.94168472290039,
	"learning_rate": 0.00015449200527917578,
	"epoch": 0.6242552373630598,
	"step": 696
	},
	{
	"loss": 353.4212,
	"grad_norm": 43.28814697265625,
	"learning_rate": 0.00015384083744637663,
	"epoch": 0.6251521558075469,
	"step": 697
	},
	{
	"loss": 361.8906,
	"grad_norm": 42.88665008544922,
	"learning_rate": 0.00015319043436403992,
	"epoch": 0.626049074252034,
	"step": 698
	},
	{
	"loss": 357.3509,
	"grad_norm": 46.005001068115234,
	"learning_rate": 0.00015254080120479874,
	"epoch": 0.6269459926965213,
	"step": 699
	},
	{
	"loss": 356.4296,
	"grad_norm": 44.4104118347168,
	"learning_rate": 0.00015189194313516288,
	"epoch": 0.6278429111410084,
	"step": 700
	},
	{
	"eval_loss": 1.597915768623352,
	"eval_runtime": 17.571,
	"eval_samples_per_second": 116.555,
	"eval_steps_per_second": 14.569,
	"epoch": 0.6278429111410084,
	"step": 700
	},
	{
	"loss": 358.631,
	"grad_norm": 43.341407775878906,
	"learning_rate": 0.000151243865315478,
	"epoch": 0.6287398295854956,
	"step": 701
	},
	{
	"loss": 361.772,
	"grad_norm": 43.18885803222656,
	"learning_rate": 0.00015059657289988426,
	"epoch": 0.6296367480299827,
	"step": 702
	},
	{
	"loss": 359.0464,
	"grad_norm": 41.106483459472656,
	"learning_rate": 0.00014995007103627567,
	"epoch": 0.6305336664744698,
	"step": 703
	},
	{
	"loss": 358.0773,
	"grad_norm": 42.815834045410156,
	"learning_rate": 0.00014930436486625907,
	"epoch": 0.631430584918957,
	"step": 704
	},
	{
	"loss": 358.7279,
	"grad_norm": 39.7459602355957,
	"learning_rate": 0.00014865945952511296,
	"epoch": 0.6323275033634441,
	"step": 705
	},
	{
	"loss": 358.3263,
	"grad_norm": 42.54743576049805,
	"learning_rate": 0.00014801536014174706,
	"epoch": 0.6332244218079314,
	"step": 706
	},
	{
	"loss": 365.4639,
	"grad_norm": 45.69781494140625,
	"learning_rate": 0.00014737207183866118,
	"epoch": 0.6341213402524185,
	"step": 707
	},
	{
	"loss": 357.4766,
	"grad_norm": 44.834136962890625,
	"learning_rate": 0.0001467295997319049,
	"epoch": 0.6350182586969056,
	"step": 708
	},
	{
	"loss": 361.5132,
	"grad_norm": 40.79405975341797,
	"learning_rate": 0.00014608794893103646,
	"epoch": 0.6359151771413928,
	"step": 709
	},
	{
	"loss": 361.108,
	"grad_norm": 40.1624870300293,
	"learning_rate": 0.00014544712453908216,
	"epoch": 0.6368120955858799,
	"step": 710
	},
	{
	"loss": 357.4099,
	"grad_norm": 42.602073669433594,
	"learning_rate": 0.00014480713165249609,
	"epoch": 0.6377090140303671,
	"step": 711
	},
	{
	"loss": 360.979,
	"grad_norm": 43.97264099121094,
	"learning_rate": 0.00014416797536111919,
	"epoch": 0.6386059324748542,
	"step": 712
	},
	{
	"loss": 361.3081,
	"grad_norm": 40.94137191772461,
	"learning_rate": 0.00014352966074813932,
	"epoch": 0.6395028509193414,
	"step": 713
	},
	{
	"loss": 359.9567,
	"grad_norm": 40.18381881713867,
	"learning_rate": 0.00014289219289005027,
	"epoch": 0.6403997693638286,
	"step": 714
	},
	{
	"loss": 353.732,
	"grad_norm": 45.907203674316406,
	"learning_rate": 0.0001422555768566115,
	"epoch": 0.6412966878083157,
	"step": 715
	},
	{
	"loss": 358.1761,
	"grad_norm": 46.9672737121582,
	"learning_rate": 0.0001416198177108083,
	"epoch": 0.6421936062528029,
	"step": 716
	},
	{
	"loss": 358.2166,
	"grad_norm": 40.92546081542969,
	"learning_rate": 0.0001409849205088109,
	"epoch": 0.64309052469729,
	"step": 717
	},
	{
	"loss": 358.0281,
	"grad_norm": 39.04634475708008,
	"learning_rate": 0.00014035089029993444,
	"epoch": 0.6439874431417771,
	"step": 718
	},
	{
	"loss": 358.9151,
	"grad_norm": 41.55719757080078,
	"learning_rate": 0.00013971773212659929,
	"epoch": 0.6448843615862644,
	"step": 719
	},
	{
	"loss": 356.5345,
	"grad_norm": 41.81498336791992,
	"learning_rate": 0.00013908545102429,
	"epoch": 0.6457812800307515,
	"step": 720
	},
	{
	"loss": 358.3629,
	"grad_norm": 40.042484283447266,
	"learning_rate": 0.00013845405202151637,
	"epoch": 0.6466781984752387,
	"step": 721
	},
	{
	"loss": 360.9086,
	"grad_norm": 44.207122802734375,
	"learning_rate": 0.00013782354013977245,
	"epoch": 0.6475751169197258,
	"step": 722
	},
	{
	"loss": 357.7452,
	"grad_norm": 45.20026779174805,
	"learning_rate": 0.00013719392039349734,
	"epoch": 0.6484720353642129,
	"step": 723
	},
	{
	"loss": 358.4982,
	"grad_norm": 41.07488250732422,
	"learning_rate": 0.00013656519779003476,
	"epoch": 0.6493689538087001,
	"step": 724
	},
	{
	"loss": 361.3215,
	"grad_norm": 43.69713592529297,
	"learning_rate": 0.00013593737732959382,
	"epoch": 0.6502658722531872,
	"step": 725
	},
	{
	"loss": 356.6879,
	"grad_norm": 45.356109619140625,
	"learning_rate": 0.00013531046400520858,
	"epoch": 0.6511627906976745,
	"step": 726
	},
	{
	"loss": 363.6577,
	"grad_norm": 44.325103759765625,
	"learning_rate": 0.0001346844628026988,
	"epoch": 0.6520597091421616,
	"step": 727
	},
	{
	"loss": 358.3399,
	"grad_norm": 40.79582595825195,
	"learning_rate": 0.0001340593787006303,
	"epoch": 0.6529566275866487,
	"step": 728
	},
	{
	"loss": 360.8162,
	"grad_norm": 40.47697448730469,
	"learning_rate": 0.0001334352166702751,
	"epoch": 0.6538535460311359,
	"step": 729
	},
	{
	"loss": 356.254,
	"grad_norm": 43.549407958984375,
	"learning_rate": 0.00013281198167557185,
	"epoch": 0.654750464475623,
	"step": 730
	},
	{
	"loss": 356.3695,
	"grad_norm": 41.08717727661133,
	"learning_rate": 0.00013218967867308694,
	"epoch": 0.6556473829201102,
	"step": 731
	},
	{
	"loss": 359.2961,
	"grad_norm": 44.06740951538086,
	"learning_rate": 0.00013156831261197438,
	"epoch": 0.6565443013645973,
	"step": 732
	},
	{
	"loss": 354.8276,
	"grad_norm": 44.14928436279297,
	"learning_rate": 0.00013094788843393657,
	"epoch": 0.6574412198090845,
	"step": 733
	},
	{
	"loss": 356.655,
	"grad_norm": 41.25139236450195,
	"learning_rate": 0.0001303284110731856,
	"epoch": 0.6583381382535717,
	"step": 734
	},
	{
	"loss": 359.9945,
	"grad_norm": 43.141475677490234,
	"learning_rate": 0.00012970988545640307,
	"epoch": 0.6592350566980588,
	"step": 735
	},
	{
	"loss": 354.7369,
	"grad_norm": 45.27100372314453,
	"learning_rate": 0.0001290923165027017,
	"epoch": 0.660131975142546,
	"step": 736
	},
	{
	"loss": 357.4191,
	"grad_norm": 41.795658111572266,
	"learning_rate": 0.0001284757091235859,
	"epoch": 0.6610288935870331,
	"step": 737
	},
	{
	"loss": 353.508,
	"grad_norm": 43.1330680847168,
	"learning_rate": 0.0001278600682229126,
	"epoch": 0.6619258120315202,
	"step": 738
	},
	{
	"loss": 356.3365,
	"grad_norm": 43.488121032714844,
	"learning_rate": 0.00012724539869685226,
	"epoch": 0.6628227304760075,
	"step": 739
	},
	{
	"loss": 357.6046,
	"grad_norm": 42.182777404785156,
	"learning_rate": 0.0001266317054338503,
	"epoch": 0.6637196489204946,
	"step": 740
	},
	{
	"loss": 358.7371,
	"grad_norm": 43.06134796142578,
	"learning_rate": 0.00012601899331458777,
	"epoch": 0.6646165673649818,
	"step": 741
	},
	{
	"loss": 358.2452,
	"grad_norm": 40.01738357543945,
	"learning_rate": 0.00012540726721194266,
	"epoch": 0.6655134858094689,
	"step": 742
	},
	{
	"loss": 361.5233,
	"grad_norm": 40.66733169555664,
	"learning_rate": 0.0001247965319909515,
	"epoch": 0.666410404253956,
	"step": 743
	},
	{
	"loss": 354.1553,
	"grad_norm": 39.47666931152344,
	"learning_rate": 0.0001241867925087701,
	"epoch": 0.6673073226984432,
	"step": 744
	},
	{
	"loss": 358.3203,
	"grad_norm": 39.22403335571289,
	"learning_rate": 0.00012357805361463514,
	"epoch": 0.6682042411429303,
	"step": 745
	},
	{
	"loss": 357.0617,
	"grad_norm": 39.071529388427734,
	"learning_rate": 0.00012297032014982597,
	"epoch": 0.6691011595874176,
	"step": 746
	},
	{
	"loss": 362.905,
	"grad_norm": 40.75625228881836,
	"learning_rate": 0.0001223635969476255,
	"epoch": 0.6699980780319047,
	"step": 747
	},
	{
	"loss": 354.9351,
	"grad_norm": 42.89009094238281,
	"learning_rate": 0.00012175788883328232,
	"epoch": 0.6708949964763918,
	"step": 748
	},
	{
	"loss": 359.415,
	"grad_norm": 43.072513580322266,
	"learning_rate": 0.0001211532006239718,
	"epoch": 0.671791914920879,
	"step": 749
	},
	{
	"loss": 357.7546,
	"grad_norm": 40.25785446166992,
	"learning_rate": 0.00012054953712875807,
	"epoch": 0.6726888333653661,
	"step": 750
	},
	{
	"eval_loss": 1.609327793121338,
	"eval_runtime": 17.5285,
	"eval_samples_per_second": 116.839,
	"eval_steps_per_second": 14.605,
	"epoch": 0.6726888333653661,
	"step": 750
	},
	{
	"loss": 357.2794,
	"grad_norm": 41.602596282958984,
	"learning_rate": 0.00011994690314855598,
	"epoch": 0.6735857518098533,
	"step": 751
	},
	{
	"loss": 361.091,
	"grad_norm": 41.749717712402344,
	"learning_rate": 0.00011934530347609257,
	"epoch": 0.6744826702543405,
	"step": 752
	},
	{
	"loss": 362.0817,
	"grad_norm": 39.51606369018555,
	"learning_rate": 0.00011874474289586895,
	"epoch": 0.6753795886988276,
	"step": 753
	},
	{
	"loss": 356.8317,
	"grad_norm": 40.00758743286133,
	"learning_rate": 0.00011814522618412235,
	"epoch": 0.6762765071433148,
	"step": 754
	},
	{
	"loss": 359.7722,
	"grad_norm": 41.676292419433594,
	"learning_rate": 0.00011754675810878845,
	"epoch": 0.6771734255878019,
	"step": 755
	},
	{
	"loss": 359.641,
	"grad_norm": 41.25587463378906,
	"learning_rate": 0.00011694934342946287,
	"epoch": 0.678070344032289,
	"step": 756
	},
	{
	"loss": 352.955,
	"grad_norm": 40.348514556884766,
	"learning_rate": 0.00011635298689736357,
	"epoch": 0.6789672624767762,
	"step": 757
	},
	{
	"loss": 362.8987,
	"grad_norm": 43.387184143066406,
	"learning_rate": 0.00011575769325529342,
	"epoch": 0.6798641809212633,
	"step": 758
	},
	{
	"loss": 357.0482,
	"grad_norm": 40.06668472290039,
	"learning_rate": 0.00011516346723760193,
	"epoch": 0.6807610993657506,
	"step": 759
	},
	{
	"loss": 359.7377,
	"grad_norm": 39.39516830444336,
	"learning_rate": 0.00011457031357014772,
	"epoch": 0.6816580178102377,
	"step": 760
	},
	{
	"loss": 362.0869,
	"grad_norm": 39.07398223876953,
	"learning_rate": 0.0001139782369702614,
	"epoch": 0.6825549362547249,
	"step": 761
	},
	{
	"loss": 357.4482,
	"grad_norm": 42.54057312011719,
	"learning_rate": 0.00011338724214670734,
	"epoch": 0.683451854699212,
	"step": 762
	},
	{
	"loss": 360.6057,
	"grad_norm": 40.7839241027832,
	"learning_rate": 0.00011279733379964691,
	"epoch": 0.6843487731436991,
	"step": 763
	},
	{
	"loss": 362.9106,
	"grad_norm": 41.402889251708984,
	"learning_rate": 0.00011220851662060047,
	"epoch": 0.6852456915881863,
	"step": 764
	},
	{
	"loss": 357.1811,
	"grad_norm": 41.3732795715332,
	"learning_rate": 0.00011162079529241042,
	"epoch": 0.6861426100326734,
	"step": 765
	},
	{
	"loss": 358.0857,
	"grad_norm": 42.31522750854492,
	"learning_rate": 0.00011103417448920406,
	"epoch": 0.6870395284771607,
	"step": 766
	},
	{
	"loss": 357.946,
	"grad_norm": 38.36897277832031,
	"learning_rate": 0.00011044865887635625,
	"epoch": 0.6879364469216478,
	"step": 767
	},
	{
	"loss": 360.9647,
	"grad_norm": 43.01420974731445,
	"learning_rate": 0.00010986425311045212,
	"epoch": 0.6888333653661349,
	"step": 768
	},
	{
	"loss": 362.1032,
	"grad_norm": 40.731163024902344,
	"learning_rate": 0.00010928096183925024,
	"epoch": 0.6897302838106221,
	"step": 769
	},
	{
	"loss": 363.3222,
	"grad_norm": 41.69025421142578,
	"learning_rate": 0.00010869878970164587,
	"epoch": 0.6906272022551092,
	"step": 770
	},
	{
	"loss": 358.3542,
	"grad_norm": 37.463043212890625,
	"learning_rate": 0.00010811774132763366,
	"epoch": 0.6915241206995963,
	"step": 771
	},
	{
	"loss": 364.5648,
	"grad_norm": 38.481815338134766,
	"learning_rate": 0.00010753782133827093,
	"epoch": 0.6924210391440836,
	"step": 772
	},
	{
	"loss": 361.0055,
	"grad_norm": 39.70282745361328,
	"learning_rate": 0.00010695903434564124,
	"epoch": 0.6933179575885707,
	"step": 773
	},
	{
	"loss": 359.3154,
	"grad_norm": 38.182132720947266,
	"learning_rate": 0.00010638138495281725,
	"epoch": 0.6942148760330579,
	"step": 774
	},
	{
	"loss": 356.322,
	"grad_norm": 37.12331008911133,
	"learning_rate": 0.00010580487775382449,
	"epoch": 0.695111794477545,
	"step": 775
	},
	{
	"loss": 356.3972,
	"grad_norm": 40.065006256103516,
	"learning_rate": 0.00010522951733360456,
	"epoch": 0.6960087129220321,
	"step": 776
	},
	{
	"loss": 351.4366,
	"grad_norm": 40.21229553222656,
	"learning_rate": 0.0001046553082679787,
	"epoch": 0.6969056313665193,
	"step": 777
	},
	{
	"loss": 356.3872,
	"grad_norm": 39.17121124267578,
	"learning_rate": 0.00010408225512361171,
	"epoch": 0.6978025498110064,
	"step": 778
	},
	{
	"loss": 358.5863,
	"grad_norm": 38.62257766723633,
	"learning_rate": 0.0001035103624579751,
	"epoch": 0.6986994682554937,
	"step": 779
	},
	{
	"loss": 359.1902,
	"grad_norm": 39.73896408081055,
	"learning_rate": 0.00010293963481931143,
	"epoch": 0.6995963866999808,
	"step": 780
	},
	{
	"loss": 357.0757,
	"grad_norm": 38.72207260131836,
	"learning_rate": 0.00010237007674659752,
	"epoch": 0.700493305144468,
	"step": 781
	},
	{
	"loss": 359.07,
	"grad_norm": 39.15367126464844,
	"learning_rate": 0.00010180169276950899,
	"epoch": 0.7013902235889551,
	"step": 782
	},
	{
	"loss": 357.7226,
	"grad_norm": 39.2513542175293,
	"learning_rate": 0.00010123448740838367,
	"epoch": 0.7022871420334422,
	"step": 783
	},
	{
	"loss": 359.4571,
	"grad_norm": 41.660953521728516,
	"learning_rate": 0.00010066846517418596,
	"epoch": 0.7031840604779294,
	"step": 784
	},
	{
	"loss": 358.3033,
	"grad_norm": 40.074806213378906,
	"learning_rate": 0.00010010363056847103,
	"epoch": 0.7040809789224165,
	"step": 785
	},
	{
	"loss": 358.5859,
	"grad_norm": 40.53306198120117,
	"learning_rate": 9.953998808334874e-05,
	"epoch": 0.7049778973669037,
	"step": 786
	},
	{
	"loss": 353.3639,
	"grad_norm": 43.58430099487305,
	"learning_rate": 9.8977542201448e-05,
	"epoch": 0.7058748158113909,
	"step": 787
	},
	{
	"loss": 359.5676,
	"grad_norm": 39.986785888671875,
	"learning_rate": 9.841629739588145e-05,
	"epoch": 0.706771734255878,
	"step": 788
	},
	{
	"loss": 361.0522,
	"grad_norm": 41.356590270996094,
	"learning_rate": 9.785625813020923e-05,
	"epoch": 0.7076686527003652,
	"step": 789
	},
	{
	"loss": 355.244,
	"grad_norm": 40.596397399902344,
	"learning_rate": 9.729742885840429e-05,
	"epoch": 0.7085655711448523,
	"step": 790
	},
	{
	"loss": 358.6471,
	"grad_norm": 39.8510627746582,
	"learning_rate": 9.673981402481619e-05,
	"epoch": 0.7094624895893394,
	"step": 791
	},
	{
	"loss": 355.7997,
	"grad_norm": 37.443397521972656,
	"learning_rate": 9.618341806413614e-05,
	"epoch": 0.7103594080338267,
	"step": 792
	},
	{
	"loss": 358.5055,
	"grad_norm": 38.937034606933594,
	"learning_rate": 9.562824540136192e-05,
	"epoch": 0.7112563264783138,
	"step": 793
	},
	{
	"loss": 357.9367,
	"grad_norm": 39.378326416015625,
	"learning_rate": 9.507430045176238e-05,
	"epoch": 0.712153244922801,
	"step": 794
	},
	{
	"loss": 356.7012,
	"grad_norm": 40.44821548461914,
	"learning_rate": 9.452158762084228e-05,
	"epoch": 0.7130501633672881,
	"step": 795
	},
	{
	"loss": 361.7253,
	"grad_norm": 39.721378326416016,
	"learning_rate": 9.397011130430741e-05,
	"epoch": 0.7139470818117752,
	"step": 796
	},
	{
	"loss": 359.5762,
	"grad_norm": 40.48420333862305,
	"learning_rate": 9.341987588802984e-05,
	"epoch": 0.7148440002562624,
	"step": 797
	},
	{
	"loss": 355.1304,
	"grad_norm": 38.8956413269043,
	"learning_rate": 9.287088574801248e-05,
	"epoch": 0.7157409187007495,
	"step": 798
	},
	{
	"loss": 360.5678,
	"grad_norm": 41.26605987548828,
	"learning_rate": 9.23231452503547e-05,
	"epoch": 0.7166378371452368,
	"step": 799
	},
	{
	"loss": 359.8319,
	"grad_norm": 36.14881134033203,
	"learning_rate": 9.177665875121774e-05,
	"epoch": 0.7175347555897239,
	"step": 800
	},
	{
	"eval_loss": 1.5968618392944336,
	"eval_runtime": 17.8479,
	"eval_samples_per_second": 114.747,
	"eval_steps_per_second": 14.343,
	"epoch": 0.7175347555897239,
	"step": 800
	},
	{
	"loss": 361.1777,
	"grad_norm": 40.25320053100586,
	"learning_rate": 9.123143059678952e-05,
	"epoch": 0.718431674034211,
	"step": 801
	},
	{
	"loss": 355.5561,
	"grad_norm": 39.248783111572266,
	"learning_rate": 9.068746512325046e-05,
	"epoch": 0.7193285924786982,
	"step": 802
	},
	{
	"loss": 353.493,
	"grad_norm": 41.21136474609375,
	"learning_rate": 9.014476665673915e-05,
	"epoch": 0.7202255109231853,
	"step": 803
	},
	{
	"loss": 355.8681,
	"grad_norm": 38.923973083496094,
	"learning_rate": 8.960333951331739e-05,
	"epoch": 0.7211224293676725,
	"step": 804
	},
	{
	"loss": 355.0969,
	"grad_norm": 43.01164627075195,
	"learning_rate": 8.906318799893648e-05,
	"epoch": 0.7220193478121597,
	"step": 805
	},
	{
	"loss": 354.1833,
	"grad_norm": 39.02459716796875,
	"learning_rate": 8.852431640940247e-05,
	"epoch": 0.7229162662566468,
	"step": 806
	},
	{
	"loss": 359.125,
	"grad_norm": 37.63704299926758,
	"learning_rate": 8.798672903034225e-05,
	"epoch": 0.723813184701134,
	"step": 807
	},
	{
	"loss": 355.6418,
	"grad_norm": 38.401512145996094,
	"learning_rate": 8.745043013716955e-05,
	"epoch": 0.7247101031456211,
	"step": 808
	},
	{
	"loss": 358.6194,
	"grad_norm": 37.391685485839844,
	"learning_rate": 8.691542399505081e-05,
	"epoch": 0.7256070215901083,
	"step": 809
	},
	{
	"loss": 359.1611,
	"grad_norm": 40.48008728027344,
	"learning_rate": 8.638171485887111e-05,
	"epoch": 0.7265039400345954,
	"step": 810
	},
	{
	"loss": 359.4613,
	"grad_norm": 40.47174835205078,
	"learning_rate": 8.584930697320053e-05,
	"epoch": 0.7274008584790825,
	"step": 811
	},
	{
	"loss": 351.1801,
	"grad_norm": 39.59210968017578,
	"learning_rate": 8.531820457226055e-05,
	"epoch": 0.7282977769235698,
	"step": 812
	},
	{
	"loss": 355.662,
	"grad_norm": 36.89620590209961,
	"learning_rate": 8.478841187988992e-05,
	"epoch": 0.7291946953680569,
	"step": 813
	},
	{
	"loss": 361.7194,
	"grad_norm": 38.956214904785156,
	"learning_rate": 8.425993310951132e-05,
	"epoch": 0.7300916138125441,
	"step": 814
	},
	{
	"loss": 359.9547,
	"grad_norm": 36.15619659423828,
	"learning_rate": 8.373277246409818e-05,
	"epoch": 0.7309885322570312,
	"step": 815
	},
	{
	"loss": 353.2803,
	"grad_norm": 41.085899353027344,
	"learning_rate": 8.320693413614053e-05,
	"epoch": 0.7318854507015183,
	"step": 816
	},
	{
	"loss": 356.6743,
	"grad_norm": 40.31721878051758,
	"learning_rate": 8.268242230761239e-05,
	"epoch": 0.7327823691460055,
	"step": 817
	},
	{
	"loss": 356.205,
	"grad_norm": 41.351558685302734,
	"learning_rate": 8.215924114993792e-05,
	"epoch": 0.7336792875904926,
	"step": 818
	},
	{
	"loss": 360.4526,
	"grad_norm": 39.119476318359375,
	"learning_rate": 8.163739482395851e-05,
	"epoch": 0.7345762060349799,
	"step": 819
	},
	{
	"loss": 361.5057,
	"grad_norm": 38.80229949951172,
	"learning_rate": 8.111688747990001e-05,
	"epoch": 0.735473124479467,
	"step": 820
	},
	{
	"loss": 352.7518,
	"grad_norm": 40.22185134887695,
	"learning_rate": 8.059772325733899e-05,
	"epoch": 0.7363700429239541,
	"step": 821
	},
	{
	"loss": 356.2066,
	"grad_norm": 40.426979064941406,
	"learning_rate": 8.007990628517034e-05,
	"epoch": 0.7372669613684413,
	"step": 822
	},
	{
	"loss": 358.5974,
	"grad_norm": 39.50589370727539,
	"learning_rate": 7.956344068157443e-05,
	"epoch": 0.7381638798129284,
	"step": 823
	},
	{
	"loss": 360.1032,
	"grad_norm": 38.537113189697266,
	"learning_rate": 7.904833055398428e-05,
	"epoch": 0.7390607982574156,
	"step": 824
	},
	{
	"loss": 358.6521,
	"grad_norm": 38.09297180175781,
	"learning_rate": 7.853457999905264e-05,
	"epoch": 0.7399577167019028,
	"step": 825
	},
	{
	"loss": 358.724,
	"grad_norm": 38.27792739868164,
	"learning_rate": 7.802219310261965e-05,
	"epoch": 0.7408546351463899,
	"step": 826
	},
	{
	"loss": 361.0538,
	"grad_norm": 40.946353912353516,
	"learning_rate": 7.75111739396806e-05,
	"epoch": 0.7417515535908771,
	"step": 827
	},
	{
	"loss": 354.2574,
	"grad_norm": 37.80830764770508,
	"learning_rate": 7.700152657435297e-05,
	"epoch": 0.7426484720353642,
	"step": 828
	},
	{
	"loss": 356.4567,
	"grad_norm": 39.698429107666016,
	"learning_rate": 7.649325505984434e-05,
	"epoch": 0.7435453904798514,
	"step": 829
	},
	{
	"loss": 355.0162,
	"grad_norm": 38.21966552734375,
	"learning_rate": 7.598636343842053e-05,
	"epoch": 0.7444423089243385,
	"step": 830
	},
	{
	"loss": 356.4822,
	"grad_norm": 39.37642288208008,
	"learning_rate": 7.548085574137273e-05,
	"epoch": 0.7453392273688256,
	"step": 831
	},
	{
	"loss": 357.8192,
	"grad_norm": 37.3087158203125,
	"learning_rate": 7.497673598898613e-05,
	"epoch": 0.7462361458133129,
	"step": 832
	},
	{
	"loss": 363.7517,
	"grad_norm": 35.9515266418457,
	"learning_rate": 7.447400819050751e-05,
	"epoch": 0.7471330642578,
	"step": 833
	},
	{
	"loss": 355.3728,
	"grad_norm": 36.964534759521484,
	"learning_rate": 7.397267634411337e-05,
	"epoch": 0.7480299827022872,
	"step": 834
	},
	{
	"loss": 354.5074,
	"grad_norm": 39.167415618896484,
	"learning_rate": 7.347274443687855e-05,
	"epoch": 0.7489269011467743,
	"step": 835
	},
	{
	"loss": 361.1248,
	"grad_norm": 40.1679801940918,
	"learning_rate": 7.297421644474387e-05,
	"epoch": 0.7498238195912614,
	"step": 836
	},
	{
	"loss": 357.9431,
	"grad_norm": 38.67217254638672,
	"learning_rate": 7.247709633248526e-05,
	"epoch": 0.7507207380357486,
	"step": 837
	},
	{
	"loss": 360.9297,
	"grad_norm": 37.734153747558594,
	"learning_rate": 7.198138805368143e-05,
	"epoch": 0.7516176564802357,
	"step": 838
	},
	{
	"loss": 350.7899,
	"grad_norm": 36.58796691894531,
	"learning_rate": 7.148709555068314e-05,
	"epoch": 0.752514574924723,
	"step": 839
	},
	{
	"loss": 358.5099,
	"grad_norm": 37.6004753112793,
	"learning_rate": 7.09942227545814e-05,
	"epoch": 0.7534114933692101,
	"step": 840
	},
	{
	"loss": 350.2813,
	"grad_norm": 39.31602096557617,
	"learning_rate": 7.05027735851762e-05,
	"epoch": 0.7543084118136972,
	"step": 841
	},
	{
	"loss": 361.4473,
	"grad_norm": 37.72463607788086,
	"learning_rate": 7.001275195094581e-05,
	"epoch": 0.7552053302581844,
	"step": 842
	},
	{
	"loss": 356.7912,
	"grad_norm": 36.68344497680664,
	"learning_rate": 6.952416174901504e-05,
	"epoch": 0.7561022487026715,
	"step": 843
	},
	{
	"loss": 360.7002,
	"grad_norm": 39.82998275756836,
	"learning_rate": 6.903700686512485e-05,
	"epoch": 0.7569991671471586,
	"step": 844
	},
	{
	"loss": 357.1058,
	"grad_norm": 39.26710510253906,
	"learning_rate": 6.855129117360095e-05,
	"epoch": 0.7578960855916459,
	"step": 845
	},
	{
	"loss": 356.4349,
	"grad_norm": 37.95897674560547,
	"learning_rate": 6.806701853732319e-05,
	"epoch": 0.758793004036133,
	"step": 846
	},
	{
	"loss": 353.9336,
	"grad_norm": 36.72467041015625,
	"learning_rate": 6.75841928076951e-05,
	"epoch": 0.7596899224806202,
	"step": 847
	},
	{
	"loss": 355.9283,
	"grad_norm": 38.29819869995117,
	"learning_rate": 6.710281782461275e-05,
	"epoch": 0.7605868409251073,
	"step": 848
	},
	{
	"loss": 357.5876,
	"grad_norm": 39.196720123291016,
	"learning_rate": 6.662289741643454e-05,
	"epoch": 0.7614837593695944,
	"step": 849
	},
	{
	"loss": 359.8077,
	"grad_norm": 40.00128936767578,
	"learning_rate": 6.614443539995078e-05,
	"epoch": 0.7623806778140816,
	"step": 850
	},
	{
	"eval_loss": 1.582360863685608,
	"eval_runtime": 18.4592,
	"eval_samples_per_second": 110.947,
	"eval_steps_per_second": 13.868,
	"epoch": 0.7623806778140816,
	"step": 850
	},
	{
	"loss": 355.6048,
	"grad_norm": 38.59453582763672,
	"learning_rate": 6.56674355803532e-05,
	"epoch": 0.7632775962585687,
	"step": 851
	},
	{
	"loss": 360.1093,
	"grad_norm": 39.37229537963867,
	"learning_rate": 6.519190175120473e-05,
	"epoch": 0.764174514703056,
	"step": 852
	},
	{
	"loss": 357.6195,
	"grad_norm": 36.07246017456055,
	"learning_rate": 6.47178376944092e-05,
	"epoch": 0.7650714331475431,
	"step": 853
	},
	{
	"loss": 357.4596,
	"grad_norm": 36.77618408203125,
	"learning_rate": 6.424524718018163e-05,
	"epoch": 0.7659683515920302,
	"step": 854
	},
	{
	"loss": 359.593,
	"grad_norm": 36.766483306884766,
	"learning_rate": 6.377413396701781e-05,
	"epoch": 0.7668652700365174,
	"step": 855
	},
	{
	"loss": 356.4777,
	"grad_norm": 43.47877502441406,
	"learning_rate": 6.330450180166464e-05,
	"epoch": 0.7677621884810045,
	"step": 856
	},
	{
	"loss": 353.8591,
	"grad_norm": 39.65815353393555,
	"learning_rate": 6.283635441909044e-05,
	"epoch": 0.7686591069254917,
	"step": 857
	},
	{
	"loss": 358.9107,
	"grad_norm": 42.22090148925781,
	"learning_rate": 6.236969554245486e-05,
	"epoch": 0.7695560253699789,
	"step": 858
	},
	{
	"loss": 361.3808,
	"grad_norm": 37.009342193603516,
	"learning_rate": 6.19045288830798e-05,
	"epoch": 0.770452943814466,
	"step": 859
	},
	{
	"loss": 359.7101,
	"grad_norm": 36.62922668457031,
	"learning_rate": 6.144085814041941e-05,
	"epoch": 0.7713498622589532,
	"step": 860
	},
	{
	"loss": 360.3506,
	"grad_norm": 35.92998123168945,
	"learning_rate": 6.097868700203082e-05,
	"epoch": 0.7722467807034403,
	"step": 861
	},
	{
	"loss": 352.6364,
	"grad_norm": 40.08286666870117,
	"learning_rate": 6.05180191435451e-05,
	"epoch": 0.7731436991479275,
	"step": 862
	},
	{
	"loss": 356.8879,
	"grad_norm": 38.76757049560547,
	"learning_rate": 6.0058858228637605e-05,
	"epoch": 0.7740406175924146,
	"step": 863
	},
	{
	"loss": 355.7852,
	"grad_norm": 37.80318069458008,
	"learning_rate": 5.960120790899895e-05,
	"epoch": 0.7749375360369017,
	"step": 864
	},
	{
	"loss": 357.245,
	"grad_norm": 36.61247253417969,
	"learning_rate": 5.914507182430626e-05,
	"epoch": 0.775834454481389,
	"step": 865
	},
	{
	"loss": 355.3506,
	"grad_norm": 37.76987838745117,
	"learning_rate": 5.869045360219391e-05,
	"epoch": 0.7767313729258761,
	"step": 866
	},
	{
	"loss": 351.2185,
	"grad_norm": 37.881492614746094,
	"learning_rate": 5.8237356858224704e-05,
	"epoch": 0.7776282913703633,
	"step": 867
	},
	{
	"loss": 360.2768,
	"grad_norm": 39.45249557495117,
	"learning_rate": 5.7785785195861194e-05,
	"epoch": 0.7785252098148504,
	"step": 868
	},
	{
	"loss": 353.9251,
	"grad_norm": 39.94224548339844,
	"learning_rate": 5.733574220643712e-05,
	"epoch": 0.7794221282593375,
	"step": 869
	},
	{
	"loss": 355.1441,
	"grad_norm": 37.91038513183594,
	"learning_rate": 5.688723146912858e-05,
	"epoch": 0.7803190467038247,
	"step": 870
	},
	{
	"loss": 359.303,
	"grad_norm": 36.14017105102539,
	"learning_rate": 5.644025655092591e-05,
	"epoch": 0.7812159651483118,
	"step": 871
	},
	{
	"loss": 359.8912,
	"grad_norm": 37.15394592285156,
	"learning_rate": 5.5994821006604965e-05,
	"epoch": 0.7821128835927991,
	"step": 872
	},
	{
	"loss": 360.2237,
	"grad_norm": 35.74496078491211,
	"learning_rate": 5.555092837869902e-05,
	"epoch": 0.7830098020372862,
	"step": 873
	},
	{
	"loss": 352.0333,
	"grad_norm": 37.32427215576172,
	"learning_rate": 5.5108582197470784e-05,
	"epoch": 0.7839067204817733,
	"step": 874
	},
	{
	"loss": 359.9949,
	"grad_norm": 40.355411529541016,
	"learning_rate": 5.4667785980883897e-05,
	"epoch": 0.7848036389262605,
	"step": 875
	},
	{
	"loss": 351.2752,
	"grad_norm": 36.727745056152344,
	"learning_rate": 5.422854323457527e-05,
	"epoch": 0.7857005573707476,
	"step": 876
	},
	{
	"loss": 352.9948,
	"grad_norm": 37.40601348876953,
	"learning_rate": 5.379085745182721e-05,
	"epoch": 0.7865974758152348,
	"step": 877
	},
	{
	"loss": 357.7682,
	"grad_norm": 36.147159576416016,
	"learning_rate": 5.335473211353942e-05,
	"epoch": 0.787494394259722,
	"step": 878
	},
	{
	"loss": 360.3233,
	"grad_norm": 36.26030349731445,
	"learning_rate": 5.29201706882014e-05,
	"epoch": 0.7883913127042091,
	"step": 879
	},
	{
	"loss": 354.8234,
	"grad_norm": 34.958744049072266,
	"learning_rate": 5.2487176631865114e-05,
	"epoch": 0.7892882311486963,
	"step": 880
	},
	{
	"loss": 358.086,
	"grad_norm": 36.89348602294922,
	"learning_rate": 5.205575338811719e-05,
	"epoch": 0.7901851495931834,
	"step": 881
	},
	{
	"loss": 357.6668,
	"grad_norm": 39.996177673339844,
	"learning_rate": 5.1625904388051564e-05,
	"epoch": 0.7910820680376706,
	"step": 882
	},
	{
	"loss": 353.7882,
	"grad_norm": 36.440711975097656,
	"learning_rate": 5.119763305024225e-05,
	"epoch": 0.7919789864821577,
	"step": 883
	},
	{
	"loss": 356.1277,
	"grad_norm": 36.0537223815918,
	"learning_rate": 5.077094278071642e-05,
	"epoch": 0.7928759049266448,
	"step": 884
	},
	{
	"loss": 359.5157,
	"grad_norm": 35.76783752441406,
	"learning_rate": 5.034583697292674e-05,
	"epoch": 0.7937728233711321,
	"step": 885
	},
	{
	"loss": 353.6391,
	"grad_norm": 34.94169998168945,
	"learning_rate": 4.9922319007724954e-05,
	"epoch": 0.7946697418156192,
	"step": 886
	},
	{
	"loss": 361.0958,
	"grad_norm": 38.87442398071289,
	"learning_rate": 4.9500392253334635e-05,
	"epoch": 0.7955666602601064,
	"step": 887
	},
	{
	"loss": 357.8425,
	"grad_norm": 36.01359558105469,
	"learning_rate": 4.908006006532445e-05,
	"epoch": 0.7964635787045935,
	"step": 888
	},
	{
	"loss": 358.4057,
	"grad_norm": 39.11752700805664,
	"learning_rate": 4.866132578658172e-05,
	"epoch": 0.7973604971490806,
	"step": 889
	},
	{
	"loss": 355.1286,
	"grad_norm": 37.169158935546875,
	"learning_rate": 4.8244192747285507e-05,
	"epoch": 0.7982574155935678,
	"step": 890
	},
	{
	"loss": 356.0285,
	"grad_norm": 35.89703369140625,
	"learning_rate": 4.7828664264880254e-05,
	"epoch": 0.7991543340380549,
	"step": 891
	},
	{
	"loss": 353.9138,
	"grad_norm": 35.52785873413086,
	"learning_rate": 4.741474364404955e-05,
	"epoch": 0.8000512524825422,
	"step": 892
	},
	{
	"loss": 359.8646,
	"grad_norm": 35.992713928222656,
	"learning_rate": 4.7002434176689564e-05,
	"epoch": 0.8009481709270293,
	"step": 893
	},
	{
	"loss": 360.1763,
	"grad_norm": 36.50730514526367,
	"learning_rate": 4.659173914188319e-05,
	"epoch": 0.8018450893715164,
	"step": 894
	},
	{
	"loss": 356.7962,
	"grad_norm": 36.77907180786133,
	"learning_rate": 4.618266180587363e-05,
	"epoch": 0.8027420078160036,
	"step": 895
	},
	{
	"loss": 354.5534,
	"grad_norm": 36.69013214111328,
	"learning_rate": 4.5775205422038695e-05,
	"epoch": 0.8036389262604907,
	"step": 896
	},
	{
	"loss": 355.8555,
	"grad_norm": 36.079769134521484,
	"learning_rate": 4.536937323086479e-05,
	"epoch": 0.8045358447049779,
	"step": 897
	},
	{
	"loss": 352.4216,
	"grad_norm": 36.98958969116211,
	"learning_rate": 4.4965168459921076e-05,
	"epoch": 0.8054327631494651,
	"step": 898
	},
	{
	"loss": 354.3763,
	"grad_norm": 36.339656829833984,
	"learning_rate": 4.456259432383408e-05,
	"epoch": 0.8063296815939522,
	"step": 899
	},
	{
	"loss": 353.9048,
	"grad_norm": 35.602909088134766,
	"learning_rate": 4.4161654024261756e-05,
	"epoch": 0.8072266000384394,
	"step": 900
	},
	{
	"eval_loss": 1.581258773803711,
	"eval_runtime": 19.1453,
	"eval_samples_per_second": 106.971,
	"eval_steps_per_second": 13.371,
	"epoch": 0.8072266000384394,
	"step": 900
	},
	{
	"loss": 353.9864,
	"grad_norm": 37.425819396972656,
	"learning_rate": 4.3762350749868425e-05,
	"epoch": 0.8081235184829265,
	"step": 901
	},
	{
	"loss": 352.1746,
	"grad_norm": 36.96770095825195,
	"learning_rate": 4.336468767629906e-05,
	"epoch": 0.8090204369274137,
	"step": 902
	},
	{
	"loss": 362.0162,
	"grad_norm": 36.64163589477539,
	"learning_rate": 4.296866796615406e-05,
	"epoch": 0.8099173553719008,
	"step": 903
	},
	{
	"loss": 356.8323,
	"grad_norm": 37.755550384521484,
	"learning_rate": 4.257429476896454e-05,
	"epoch": 0.8108142738163879,
	"step": 904
	},
	{
	"loss": 355.0851,
	"grad_norm": 35.74870300292969,
	"learning_rate": 4.2181571221166696e-05,
	"epoch": 0.8117111922608752,
	"step": 905
	},
	{
	"loss": 354.1617,
	"grad_norm": 35.670047760009766,
	"learning_rate": 4.179050044607713e-05,
	"epoch": 0.8126081107053623,
	"step": 906
	},
	{
	"loss": 354.9214,
	"grad_norm": 36.92220687866211,
	"learning_rate": 4.140108555386812e-05,
	"epoch": 0.8135050291498495,
	"step": 907
	},
	{
	"loss": 351.6111,
	"grad_norm": 38.204166412353516,
	"learning_rate": 4.101332964154275e-05,
	"epoch": 0.8144019475943366,
	"step": 908
	},
	{
	"loss": 355.9622,
	"grad_norm": 35.54768753051758,
	"learning_rate": 4.0627235792910224e-05,
	"epoch": 0.8152988660388237,
	"step": 909
	},
	{
	"loss": 359.8922,
	"grad_norm": 37.4915771484375,
	"learning_rate": 4.024280707856134e-05,
	"epoch": 0.8161957844833109,
	"step": 910
	},
	{
	"loss": 356.2166,
	"grad_norm": 36.84100341796875,
	"learning_rate": 3.9860046555844406e-05,
	"epoch": 0.8170927029277981,
	"step": 911
	},
	{
	"loss": 355.0562,
	"grad_norm": 35.636878967285156,
	"learning_rate": 3.947895726884038e-05,
	"epoch": 0.8179896213722853,
	"step": 912
	},
	{
	"loss": 360.0903,
	"grad_norm": 36.50727081298828,
	"learning_rate": 3.909954224833911e-05,
	"epoch": 0.8188865398167724,
	"step": 913
	},
	{
	"loss": 359.0554,
	"grad_norm": 37.51554489135742,
	"learning_rate": 3.8721804511815007e-05,
	"epoch": 0.8197834582612595,
	"step": 914
	},
	{
	"loss": 356.6491,
	"grad_norm": 36.2037239074707,
	"learning_rate": 3.834574706340302e-05,
	"epoch": 0.8206803767057467,
	"step": 915
	},
	{
	"loss": 357.358,
	"grad_norm": 39.62883758544922,
	"learning_rate": 3.797137289387503e-05,
	"epoch": 0.8215772951502338,
	"step": 916
	},
	{
	"loss": 356.6225,
	"grad_norm": 35.792728424072266,
	"learning_rate": 3.7598684980615694e-05,
	"epoch": 0.822474213594721,
	"step": 917
	},
	{
	"loss": 351.0151,
	"grad_norm": 35.77069854736328,
	"learning_rate": 3.7227686287598874e-05,
	"epoch": 0.8233711320392082,
	"step": 918
	},
	{
	"loss": 356.1569,
	"grad_norm": 36.655330657958984,
	"learning_rate": 3.685837976536435e-05,
	"epoch": 0.8242680504836953,
	"step": 919
	},
	{
	"loss": 356.6186,
	"grad_norm": 35.82206726074219,
	"learning_rate": 3.649076835099399e-05,
	"epoch": 0.8251649689281825,
	"step": 920
	},
	{
	"loss": 352.9849,
	"grad_norm": 36.314361572265625,
	"learning_rate": 3.612485496808843e-05,
	"epoch": 0.8260618873726696,
	"step": 921
	},
	{
	"loss": 355.4819,
	"grad_norm": 37.96638870239258,
	"learning_rate": 3.57606425267441e-05,
	"epoch": 0.8269588058171568,
	"step": 922
	},
	{
	"loss": 358.6233,
	"grad_norm": 36.10899353027344,
	"learning_rate": 3.539813392352989e-05,
	"epoch": 0.8278557242616439,
	"step": 923
	},
	{
	"loss": 353.3172,
	"grad_norm": 34.54022216796875,
	"learning_rate": 3.5037332041464e-05,
	"epoch": 0.828752642706131,
	"step": 924
	},
	{
	"loss": 357.7184,
	"grad_norm": 36.95024108886719,
	"learning_rate": 3.467823974999115e-05,
	"epoch": 0.8296495611506183,
	"step": 925
	},
	{
	"loss": 352.9876,
	"grad_norm": 37.89804458618164,
	"learning_rate": 3.4320859904959924e-05,
	"epoch": 0.8305464795951054,
	"step": 926
	},
	{
	"loss": 354.4651,
	"grad_norm": 36.63965606689453,
	"learning_rate": 3.3965195348599626e-05,
	"epoch": 0.8314433980395926,
	"step": 927
	},
	{
	"loss": 356.9139,
	"grad_norm": 35.67973709106445,
	"learning_rate": 3.361124890949816e-05,
	"epoch": 0.8323403164840797,
	"step": 928
	},
	{
	"loss": 358.1943,
	"grad_norm": 35.843719482421875,
	"learning_rate": 3.325902340257914e-05,
	"epoch": 0.8332372349285668,
	"step": 929
	},
	{
	"loss": 352.4489,
	"grad_norm": 36.6231803894043,
	"learning_rate": 3.2908521629079704e-05,
	"epoch": 0.834134153373054,
	"step": 930
	},
	{
	"loss": 350.1209,
	"grad_norm": 34.934112548828125,
	"learning_rate": 3.255974637652828e-05,
	"epoch": 0.8350310718175412,
	"step": 931
	},
	{
	"loss": 356.8803,
	"grad_norm": 34.707252502441406,
	"learning_rate": 3.2212700418722265e-05,
	"epoch": 0.8359279902620284,
	"step": 932
	},
	{
	"loss": 356.7214,
	"grad_norm": 35.543949127197266,
	"learning_rate": 3.186738651570595e-05,
	"epoch": 0.8368249087065155,
	"step": 933
	},
	{
	"loss": 354.0534,
	"grad_norm": 35.74333572387695,
	"learning_rate": 3.1523807413748887e-05,
	"epoch": 0.8377218271510026,
	"step": 934
	},
	{
	"loss": 350.9949,
	"grad_norm": 36.81149673461914,
	"learning_rate": 3.118196584532359e-05,
	"epoch": 0.8386187455954898,
	"step": 935
	},
	{
	"loss": 355.0341,
	"grad_norm": 36.43380355834961,
	"learning_rate": 3.084186452908411e-05,
	"epoch": 0.8395156640399769,
	"step": 936
	},
	{
	"loss": 357.6827,
	"grad_norm": 35.787872314453125,
	"learning_rate": 3.0503506169844373e-05,
	"epoch": 0.840412582484464,
	"step": 937
	},
	{
	"loss": 353.5415,
	"grad_norm": 35.96485137939453,
	"learning_rate": 3.0166893458556666e-05,
	"epoch": 0.8413095009289513,
	"step": 938
	},
	{
	"loss": 357.3773,
	"grad_norm": 33.9022216796875,
	"learning_rate": 2.983202907228999e-05,
	"epoch": 0.8422064193734384,
	"step": 939
	},
	{
	"loss": 355.6847,
	"grad_norm": 36.94380187988281,
	"learning_rate": 2.949891567420923e-05,
	"epoch": 0.8431033378179256,
	"step": 940
	},
	{
	"loss": 352.4488,
	"grad_norm": 36.33073043823242,
	"learning_rate": 2.9167555913553577e-05,
	"epoch": 0.8440002562624127,
	"step": 941
	},
	{
	"loss": 355.2479,
	"grad_norm": 34.81533432006836,
	"learning_rate": 2.88379524256156e-05,
	"epoch": 0.8448971747068998,
	"step": 942
	},
	{
	"loss": 359.0098,
	"grad_norm": 34.85913848876953,
	"learning_rate": 2.8510107831720393e-05,
	"epoch": 0.845794093151387,
	"step": 943
	},
	{
	"loss": 355.3041,
	"grad_norm": 35.2500114440918,
	"learning_rate": 2.8184024739204534e-05,
	"epoch": 0.8466910115958741,
	"step": 944
	},
	{
	"loss": 357.6105,
	"grad_norm": 36.625144958496094,
	"learning_rate": 2.7859705741395403e-05,
	"epoch": 0.8475879300403614,
	"step": 945
	},
	{
	"loss": 355.7482,
	"grad_norm": 34.630428314208984,
	"learning_rate": 2.7537153417590803e-05,
	"epoch": 0.8484848484848485,
	"step": 946
	},
	{
	"loss": 358.0374,
	"grad_norm": 35.17256164550781,
	"learning_rate": 2.721637033303803e-05,
	"epoch": 0.8493817669293356,
	"step": 947
	},
	{
	"loss": 352.4902,
	"grad_norm": 36.90748596191406,
	"learning_rate": 2.6897359038913716e-05,
	"epoch": 0.8502786853738228,
	"step": 948
	},
	{
	"loss": 356.3272,
	"grad_norm": 35.69559097290039,
	"learning_rate": 2.6580122072303647e-05,
	"epoch": 0.8511756038183099,
	"step": 949
	},
	{
	"loss": 351.9118,
	"grad_norm": 34.44248580932617,
	"learning_rate": 2.6264661956182212e-05,
	"epoch": 0.8520725222627971,
	"step": 950
	},
	{
	"eval_loss": 1.5959553718566895,
	"eval_runtime": 18.4817,
	"eval_samples_per_second": 110.812,
	"eval_steps_per_second": 13.852,
	"epoch": 0.8520725222627971,
	"step": 950
	},
	{
	"loss": 356.2447,
	"grad_norm": 34.08928680419922,
	"learning_rate": 2.5950981199392847e-05,
	"epoch": 0.8529694407072843,
	"step": 951
	},
	{
	"loss": 357.2951,
	"grad_norm": 35.93143844604492,
	"learning_rate": 2.5639082296627537e-05,
	"epoch": 0.8538663591517714,
	"step": 952
	},
	{
	"loss": 357.1935,
	"grad_norm": 34.351898193359375,
	"learning_rate": 2.5328967728407454e-05,
	"epoch": 0.8547632775962586,
	"step": 953
	},
	{
	"loss": 352.3139,
	"grad_norm": 36.010223388671875,
	"learning_rate": 2.5020639961062853e-05,
	"epoch": 0.8556601960407457,
	"step": 954
	},
	{
	"loss": 356.4665,
	"grad_norm": 34.825042724609375,
	"learning_rate": 2.4714101446713793e-05,
	"epoch": 0.8565571144852329,
	"step": 955
	},
	{
	"loss": 354.6561,
	"grad_norm": 35.965755462646484,
	"learning_rate": 2.4409354623250307e-05,
	"epoch": 0.85745403292972,
	"step": 956
	},
	{
	"loss": 350.8446,
	"grad_norm": 34.73567199707031,
	"learning_rate": 2.4106401914313238e-05,
	"epoch": 0.8583509513742071,
	"step": 957
	},
	{
	"loss": 357.6875,
	"grad_norm": 34.63365936279297,
	"learning_rate": 2.3805245729274947e-05,
	"epoch": 0.8592478698186944,
	"step": 958
	},
	{
	"loss": 352.3867,
	"grad_norm": 37.33460235595703,
	"learning_rate": 2.3505888463220047e-05,
	"epoch": 0.8601447882631815,
	"step": 959
	},
	{
	"loss": 357.7318,
	"grad_norm": 35.54653549194336,
	"learning_rate": 2.3208332496926387e-05,
	"epoch": 0.8610417067076687,
	"step": 960
	},
	{
	"loss": 356.5225,
	"grad_norm": 34.780433654785156,
	"learning_rate": 2.2912580196846222e-05,
	"epoch": 0.8619386251521558,
	"step": 961
	},
	{
	"loss": 358.1692,
	"grad_norm": 37.751983642578125,
	"learning_rate": 2.2618633915087282e-05,
	"epoch": 0.8628355435966429,
	"step": 962
	},
	{
	"loss": 359.3351,
	"grad_norm": 35.848167419433594,
	"learning_rate": 2.2326495989393985e-05,
	"epoch": 0.8637324620411301,
	"step": 963
	},
	{
	"loss": 354.9636,
	"grad_norm": 34.292728424072266,
	"learning_rate": 2.203616874312919e-05,
	"epoch": 0.8646293804856173,
	"step": 964
	},
	{
	"loss": 350.5273,
	"grad_norm": 35.46641540527344,
	"learning_rate": 2.174765448525523e-05,
	"epoch": 0.8655262989301045,
	"step": 965
	},
	{
	"loss": 355.4344,
	"grad_norm": 34.72315979003906,
	"learning_rate": 2.1460955510315962e-05,
	"epoch": 0.8664232173745916,
	"step": 966
	},
	{
	"loss": 353.3275,
	"grad_norm": 36.16691589355469,
	"learning_rate": 2.1176074098418402e-05,
	"epoch": 0.8673201358190787,
	"step": 967
	},
	{
	"loss": 355.2486,
	"grad_norm": 36.415794372558594,
	"learning_rate": 2.0893012515214388e-05,
	"epoch": 0.8682170542635659,
	"step": 968
	},
	{
	"loss": 355.4182,
	"grad_norm": 35.465538024902344,
	"learning_rate": 2.06117730118828e-05,
	"epoch": 0.869113972708053,
	"step": 969
	},
	{
	"loss": 354.304,
	"grad_norm": 35.425926208496094,
	"learning_rate": 2.0332357825111668e-05,
	"epoch": 0.8700108911525402,
	"step": 970
	},
	{
	"loss": 351.7629,
	"grad_norm": 34.78888702392578,
	"learning_rate": 2.0054769177080185e-05,
	"epoch": 0.8709078095970274,
	"step": 971
	},
	{
	"loss": 358.8823,
	"grad_norm": 35.0769157409668,
	"learning_rate": 1.97790092754411e-05,
	"epoch": 0.8718047280415145,
	"step": 972
	},
	{
	"loss": 353.2525,
	"grad_norm": 35.73164749145508,
	"learning_rate": 1.9505080313303365e-05,
	"epoch": 0.8727016464860017,
	"step": 973
	},
	{
	"loss": 355.5436,
	"grad_norm": 35.51607894897461,
	"learning_rate": 1.9232984469214453e-05,
	"epoch": 0.8735985649304888,
	"step": 974
	},
	{
	"loss": 353.8528,
	"grad_norm": 35.09918975830078,
	"learning_rate": 1.8962723907143044e-05,
	"epoch": 0.874495483374976,
	"step": 975
	},
	{
	"loss": 358.7514,
	"grad_norm": 36.12480926513672,
	"learning_rate": 1.869430077646203e-05,
	"epoch": 0.8753924018194631,
	"step": 976
	},
	{
	"loss": 354.3459,
	"grad_norm": 34.32866287231445,
	"learning_rate": 1.8427717211931177e-05,
	"epoch": 0.8762893202639502,
	"step": 977
	},
	{
	"loss": 350.5236,
	"grad_norm": 35.1101188659668,
	"learning_rate": 1.816297533368022e-05,
	"epoch": 0.8771862387084375,
	"step": 978
	},
	{
	"loss": 353.4749,
	"grad_norm": 36.59587478637695,
	"learning_rate": 1.7900077247192087e-05,
	"epoch": 0.8780831571529246,
	"step": 979
	},
	{
	"loss": 353.3892,
	"grad_norm": 34.86069869995117,
	"learning_rate": 1.7639025043286155e-05,
	"epoch": 0.8789800755974118,
	"step": 980
	},
	{
	"loss": 354.1761,
	"grad_norm": 35.580291748046875,
	"learning_rate": 1.7379820798101383e-05,
	"epoch": 0.8798769940418989,
	"step": 981
	},
	{
	"loss": 355.6291,
	"grad_norm": 34.58673095703125,
	"learning_rate": 1.7122466573080196e-05,
	"epoch": 0.880773912486386,
	"step": 982
	},
	{
	"loss": 357.7327,
	"grad_norm": 33.76737976074219,
	"learning_rate": 1.6866964414951698e-05,
	"epoch": 0.8816708309308732,
	"step": 983
	},
	{
	"loss": 355.4995,
	"grad_norm": 34.57607650756836,
	"learning_rate": 1.6613316355715558e-05,
	"epoch": 0.8825677493753604,
	"step": 984
	},
	{
	"loss": 357.9588,
	"grad_norm": 34.49372100830078,
	"learning_rate": 1.6361524412626088e-05,
	"epoch": 0.8834646678198476,
	"step": 985
	},
	{
	"loss": 357.0802,
	"grad_norm": 34.17061996459961,
	"learning_rate": 1.611159058817571e-05,
	"epoch": 0.8843615862643347,
	"step": 986
	},
	{
	"loss": 354.1526,
	"grad_norm": 36.93791198730469,
	"learning_rate": 1.5863516870079418e-05,
	"epoch": 0.8852585047088218,
	"step": 987
	},
	{
	"loss": 358.1216,
	"grad_norm": 35.566646575927734,
	"learning_rate": 1.5617305231258898e-05,
	"epoch": 0.886155423153309,
	"step": 988
	},
	{
	"loss": 351.2595,
	"grad_norm": 35.77732467651367,
	"learning_rate": 1.5372957629826655e-05,
	"epoch": 0.8870523415977961,
	"step": 989
	},
	{
	"loss": 353.016,
	"grad_norm": 37.376441955566406,
	"learning_rate": 1.513047600907061e-05,
	"epoch": 0.8879492600422833,
	"step": 990
	},
	{
	"loss": 352.4042,
	"grad_norm": 34.55933380126953,
	"learning_rate": 1.4889862297438688e-05,
	"epoch": 0.8888461784867705,
	"step": 991
	},
	{
	"loss": 352.0331,
	"grad_norm": 34.30587387084961,
	"learning_rate": 1.4651118408523317e-05,
	"epoch": 0.8897430969312576,
	"step": 992
	},
	{
	"loss": 356.2885,
	"grad_norm": 34.28126525878906,
	"learning_rate": 1.4414246241046286e-05,
	"epoch": 0.8906400153757448,
	"step": 993
	},
	{
	"loss": 356.9485,
	"grad_norm": 35.106529235839844,
	"learning_rate": 1.4179247678843681e-05,
	"epoch": 0.8915369338202319,
	"step": 994
	},
	{
	"loss": 357.6618,
	"grad_norm": 33.811737060546875,
	"learning_rate": 1.3946124590850901e-05,
	"epoch": 0.892433852264719,
	"step": 995
	},
	{
	"loss": 361.4888,
	"grad_norm": 33.41731643676758,
	"learning_rate": 1.3714878831087657e-05,
	"epoch": 0.8933307707092062,
	"step": 996
	},
	{
	"loss": 358.7178,
	"grad_norm": 34.46256637573242,
	"learning_rate": 1.3485512238643499e-05,
	"epoch": 0.8942276891536933,
	"step": 997
	},
	{
	"loss": 357.5736,
	"grad_norm": 35.067893981933594,
	"learning_rate": 1.3258026637662846e-05,
	"epoch": 0.8951246075981806,
	"step": 998
	},
	{
	"loss": 353.149,
	"grad_norm": 34.04292678833008,
	"learning_rate": 1.3032423837330748e-05,
	"epoch": 0.8960215260426677,
	"step": 999
	},
	{
	"loss": 356.1142,
	"grad_norm": 34.39286422729492,
	"learning_rate": 1.2808705631858459e-05,
	"epoch": 0.8969184444871549,
	"step": 1000
	},
	{
	"eval_loss": 1.586561918258667,
	"eval_runtime": 20.2668,
	"eval_samples_per_second": 101.052,
	"eval_steps_per_second": 12.631,
	"epoch": 0.8969184444871549,
	"step": 1000
	},
	{
	"loss": 354.0248,
	"grad_norm": 36.2171516418457,
	"learning_rate": 1.2586873800468996e-05,
	"epoch": 0.897815362931642,
	"step": 1001
	},
	{
	"loss": 362.0434,
	"grad_norm": 34.42704391479492,
	"learning_rate": 1.2366930107383156e-05,
	"epoch": 0.8987122813761291,
	"step": 1002
	},
	{
	"loss": 354.9637,
	"grad_norm": 34.4918212890625,
	"learning_rate": 1.2148876301805528e-05,
	"epoch": 0.8996091998206163,
	"step": 1003
	},
	{
	"loss": 348.8729,
	"grad_norm": 34.57630157470703,
	"learning_rate": 1.1932714117910386e-05,
	"epoch": 0.9005061182651035,
	"step": 1004
	},
	{
	"loss": 352.9299,
	"grad_norm": 35.46476745605469,
	"learning_rate": 1.171844527482796e-05,
	"epoch": 0.9014030367095907,
	"step": 1005
	},
	{
	"loss": 355.247,
	"grad_norm": 34.4285888671875,
	"learning_rate": 1.1506071476630964e-05,
	"epoch": 0.9022999551540778,
	"step": 1006
	},
	{
	"loss": 352.168,
	"grad_norm": 34.935569763183594,
	"learning_rate": 1.1295594412320754e-05,
	"epoch": 0.9031968735985649,
	"step": 1007
	},
	{
	"loss": 357.9673,
	"grad_norm": 33.162166595458984,
	"learning_rate": 1.1087015755814084e-05,
	"epoch": 0.9040937920430521,
	"step": 1008
	},
	{
	"loss": 350.8712,
	"grad_norm": 34.0540657043457,
	"learning_rate": 1.088033716592976e-05,
	"epoch": 0.9049907104875392,
	"step": 1009
	},
	{
	"loss": 356.8466,
	"grad_norm": 33.83312225341797,
	"learning_rate": 1.0675560286375369e-05,
	"epoch": 0.9058876289320263,
	"step": 1010
	},
	{
	"loss": 353.7512,
	"grad_norm": 34.7866096496582,
	"learning_rate": 1.0472686745734233e-05,
	"epoch": 0.9067845473765136,
	"step": 1011
	},
	{
	"loss": 354.8209,
	"grad_norm": 34.10197067260742,
	"learning_rate": 1.027171815745262e-05,
	"epoch": 0.9076814658210007,
	"step": 1012
	},
	{
	"loss": 354.7816,
	"grad_norm": 34.292598724365234,
	"learning_rate": 1.0072656119826662e-05,
	"epoch": 0.9085783842654879,
	"step": 1013
	},
	{
	"loss": 356.8245,
	"grad_norm": 34.5960693359375,
	"learning_rate": 9.875502215989791e-06,
	"epoch": 0.909475302709975,
	"step": 1014
	},
	{
	"loss": 353.8681,
	"grad_norm": 33.786537170410156,
	"learning_rate": 9.680258013900129e-06,
	"epoch": 0.9103722211544621,
	"step": 1015
	},
	{
	"loss": 355.527,
	"grad_norm": 35.2137565612793,
	"learning_rate": 9.486925066327978e-06,
	"epoch": 0.9112691395989493,
	"step": 1016
	},
	{
	"loss": 352.3827,
	"grad_norm": 34.659767150878906,
	"learning_rate": 9.295504910843522e-06,
	"epoch": 0.9121660580434365,
	"step": 1017
	},
	{
	"loss": 355.3458,
	"grad_norm": 33.41202926635742,
	"learning_rate": 9.10599906980461e-06,
	"epoch": 0.9130629764879237,
	"step": 1018
	},
	{
	"loss": 357.3716,
	"grad_norm": 32.52941131591797,
	"learning_rate": 8.91840905034455e-06,
	"epoch": 0.9139598949324108,
	"step": 1019
	},
	{
	"loss": 354.1408,
	"grad_norm": 33.926963806152344,
	"learning_rate": 8.732736344360198e-06,
	"epoch": 0.914856813376898,
	"step": 1020
	},
	{
	"loss": 357.4122,
	"grad_norm": 33.29584503173828,
	"learning_rate": 8.548982428500163e-06,
	"epoch": 0.9157537318213851,
	"step": 1021
	},
	{
	"loss": 356.5175,
	"grad_norm": 35.51197814941406,
	"learning_rate": 8.367148764152843e-06,
	"epoch": 0.9166506502658722,
	"step": 1022
	},
	{
	"loss": 361.666,
	"grad_norm": 35.082054138183594,
	"learning_rate": 8.187236797435077e-06,
	"epoch": 0.9175475687103594,
	"step": 1023
	},
	{
	"loss": 350.1344,
	"grad_norm": 34.95941925048828,
	"learning_rate": 8.009247959180482e-06,
	"epoch": 0.9184444871548466,
	"step": 1024
	},
	{
	"loss": 359.1797,
	"grad_norm": 34.81248474121094,
	"learning_rate": 7.833183664928023e-06,
	"epoch": 0.9193414055993337,
	"step": 1025
	},
	{
	"loss": 352.5403,
	"grad_norm": 34.408485412597656,
	"learning_rate": 7.659045314910879e-06,
	"epoch": 0.9202383240438209,
	"step": 1026
	},
	{
	"loss": 353.7971,
	"grad_norm": 34.32902526855469,
	"learning_rate": 7.486834294045286e-06,
	"epoch": 0.921135242488308,
	"step": 1027
	},
	{
	"loss": 352.8156,
	"grad_norm": 33.39252471923828,
	"learning_rate": 7.316551971919522e-06,
	"epoch": 0.9220321609327952,
	"step": 1028
	},
	{
	"loss": 355.1404,
	"grad_norm": 35.65606689453125,
	"learning_rate": 7.148199702782854e-06,
	"epoch": 0.9229290793772823,
	"step": 1029
	},
	{
	"loss": 358.3244,
	"grad_norm": 35.14055252075195,
	"learning_rate": 6.981778825535079e-06,
	"epoch": 0.9238259978217694,
	"step": 1030
	},
	{
	"loss": 356.6115,
	"grad_norm": 32.90983581542969,
	"learning_rate": 6.817290663715614e-06,
	"epoch": 0.9247229162662567,
	"step": 1031
	},
	{
	"loss": 354.6003,
	"grad_norm": 33.653778076171875,
	"learning_rate": 6.654736525493033e-06,
	"epoch": 0.9256198347107438,
	"step": 1032
	},
	{
	"loss": 356.817,
	"grad_norm": 35.58637619018555,
	"learning_rate": 6.494117703654739e-06,
	"epoch": 0.926516753155231,
	"step": 1033
	},
	{
	"loss": 355.3286,
	"grad_norm": 33.73952102661133,
	"learning_rate": 6.335435475596646e-06,
	"epoch": 0.9274136715997181,
	"step": 1034
	},
	{
	"loss": 355.2651,
	"grad_norm": 33.62116241455078,
	"learning_rate": 6.1786911033129e-06,
	"epoch": 0.9283105900442052,
	"step": 1035
	},
	{
	"loss": 357.9323,
	"grad_norm": 33.39925003051758,
	"learning_rate": 6.023885833386061e-06,
	"epoch": 0.9292075084886924,
	"step": 1036
	},
	{
	"loss": 351.2944,
	"grad_norm": 34.47417068481445,
	"learning_rate": 5.87102089697708e-06,
	"epoch": 0.9301044269331796,
	"step": 1037
	},
	{
	"loss": 355.5925,
	"grad_norm": 33.980857849121094,
	"learning_rate": 5.720097509815392e-06,
	"epoch": 0.9310013453776668,
	"step": 1038
	},
	{
	"loss": 355.6397,
	"grad_norm": 32.85739517211914,
	"learning_rate": 5.571116872189475e-06,
	"epoch": 0.9318982638221539,
	"step": 1039
	},
	{
	"loss": 355.7616,
	"grad_norm": 33.64262390136719,
	"learning_rate": 5.424080168937112e-06,
	"epoch": 0.932795182266641,
	"step": 1040
	},
	{
	"loss": 357.7719,
	"grad_norm": 34.275169372558594,
	"learning_rate": 5.278988569436066e-06,
	"epoch": 0.9336921007111282,
	"step": 1041
	},
	{
	"loss": 357.6499,
	"grad_norm": 34.75218963623047,
	"learning_rate": 5.1358432275947775e-06,
	"epoch": 0.9345890191556153,
	"step": 1042
	},
	{
	"loss": 353.3368,
	"grad_norm": 34.046241760253906,
	"learning_rate": 4.994645281843152e-06,
	"epoch": 0.9354859376001025,
	"step": 1043
	},
	{
	"loss": 354.6295,
	"grad_norm": 34.62663269042969,
	"learning_rate": 4.855395855123512e-06,
	"epoch": 0.9363828560445897,
	"step": 1044
	},
	{
	"loss": 352.3897,
	"grad_norm": 35.12565231323242,
	"learning_rate": 4.718096054881688e-06,
	"epoch": 0.9372797744890768,
	"step": 1045
	},
	{
	"loss": 352.5993,
	"grad_norm": 33.51365661621094,
	"learning_rate": 4.582746973058216e-06,
	"epoch": 0.938176692933564,
	"step": 1046
	},
	{
	"loss": 354.0611,
	"grad_norm": 33.32587814331055,
	"learning_rate": 4.449349686079574e-06,
	"epoch": 0.9390736113780511,
	"step": 1047
	},
	{
	"loss": 361.4709,
	"grad_norm": 35.336490631103516,
	"learning_rate": 4.317905254849791e-06,
	"epoch": 0.9399705298225383,
	"step": 1048
	},
	{
	"loss": 360.2202,
	"grad_norm": 34.51678466796875,
	"learning_rate": 4.188414724741768e-06,
	"epoch": 0.9408674482670254,
	"step": 1049
	},
	{
	"loss": 354.1904,
	"grad_norm": 34.459373474121094,
	"learning_rate": 4.060879125589195e-06,
	"epoch": 0.9417643667115125,
	"step": 1050
	},
	{
	"eval_loss": 1.5787107944488525,
	"eval_runtime": 18.3575,
	"eval_samples_per_second": 111.562,
	"eval_steps_per_second": 13.945,
	"epoch": 0.9417643667115125,
	"step": 1050
	},
	{
	"loss": 353.3853,
	"grad_norm": 33.25263214111328,
	"learning_rate": 3.9352994716783105e-06,
	"epoch": 0.9426612851559998,
	"step": 1051
	},
	{
	"loss": 350.3391,
	"grad_norm": 35.57413101196289,
	"learning_rate": 3.8116767617396298e-06,
	"epoch": 0.9435582036004869,
	"step": 1052
	},
	{
	"loss": 356.2869,
	"grad_norm": 33.38325881958008,
	"learning_rate": 3.690011978940255e-06,
	"epoch": 0.9444551220449741,
	"step": 1053
	},
	{
	"loss": 356.4574,
	"grad_norm": 34.5271110534668,
	"learning_rate": 3.570306090876024e-06,
	"epoch": 0.9453520404894612,
	"step": 1054
	},
	{
	"loss": 359.7423,
	"grad_norm": 35.02552795410156,
	"learning_rate": 3.4525600495636246e-06,
	"epoch": 0.9462489589339483,
	"step": 1055
	},
	{
	"loss": 353.1874,
	"grad_norm": 35.6952018737793,
	"learning_rate": 3.3367747914331838e-06,
	"epoch": 0.9471458773784355,
	"step": 1056
	},
	{
	"loss": 355.9973,
	"grad_norm": 35.45086669921875,
	"learning_rate": 3.222951237320915e-06,
	"epoch": 0.9480427958229227,
	"step": 1057
	},
	{
	"loss": 355.2783,
	"grad_norm": 32.976966857910156,
	"learning_rate": 3.1110902924615102e-06,
	"epoch": 0.9489397142674099,
	"step": 1058
	},
	{
	"loss": 358.506,
	"grad_norm": 34.06571960449219,
	"learning_rate": 3.0011928464811213e-06,
	"epoch": 0.949836632711897,
	"step": 1059
	},
	{
	"loss": 358.1763,
	"grad_norm": 33.59235382080078,
	"learning_rate": 2.8932597733903886e-06,
	"epoch": 0.9507335511563841,
	"step": 1060
	},
	{
	"loss": 357.5705,
	"grad_norm": 32.182106018066406,
	"learning_rate": 2.7872919315772017e-06,
	"epoch": 0.9516304696008713,
	"step": 1061
	},
	{
	"loss": 354.619,
	"grad_norm": 35.46062469482422,
	"learning_rate": 2.683290163800145e-06,
	"epoch": 0.9525273880453584,
	"step": 1062
	},
	{
	"loss": 350.0426,
	"grad_norm": 32.130767822265625,
	"learning_rate": 2.581255297181617e-06,
	"epoch": 0.9534243064898456,
	"step": 1063
	},
	{
	"loss": 351.98,
	"grad_norm": 32.878875732421875,
	"learning_rate": 2.4811881432013905e-06,
	"epoch": 0.9543212249343328,
	"step": 1064
	},
	{
	"loss": 353.1487,
	"grad_norm": 33.90510559082031,
	"learning_rate": 2.3830894976899774e-06,
	"epoch": 0.9552181433788199,
	"step": 1065
	},
	{
	"loss": 357.164,
	"grad_norm": 34.16891860961914,
	"learning_rate": 2.2869601408225805e-06,
	"epoch": 0.9561150618233071,
	"step": 1066
	},
	{
	"loss": 351.2288,
	"grad_norm": 33.57730484008789,
	"learning_rate": 2.1928008371125406e-06,
	"epoch": 0.9570119802677942,
	"step": 1067
	},
	{
	"loss": 356.0024,
	"grad_norm": 33.691978454589844,
	"learning_rate": 2.1006123354055384e-06,
	"epoch": 0.9579088987122814,
	"step": 1068
	},
	{
	"loss": 361.7596,
	"grad_norm": 33.60329055786133,
	"learning_rate": 2.0103953688734853e-06,
	"epoch": 0.9588058171567685,
	"step": 1069
	},
	{
	"loss": 354.5997,
	"grad_norm": 35.25307083129883,
	"learning_rate": 1.9221506550088365e-06,
	"epoch": 0.9597027356012557,
	"step": 1070
	},
	{
	"loss": 355.2119,
	"grad_norm": 34.94419860839844,
	"learning_rate": 1.83587889561862e-06,
	"epoch": 0.9605996540457429,
	"step": 1071
	},
	{
	"loss": 355.9485,
	"grad_norm": 34.35773468017578,
	"learning_rate": 1.7515807768192228e-06,
	"epoch": 0.96149657249023,
	"step": 1072
	},
	{
	"loss": 353.5008,
	"grad_norm": 33.7717170715332,
	"learning_rate": 1.6692569690305859e-06,
	"epoch": 0.9623934909347172,
	"step": 1073
	},
	{
	"loss": 357.9717,
	"grad_norm": 35.07488250732422,
	"learning_rate": 1.5889081269710726e-06,
	"epoch": 0.9632904093792043,
	"step": 1074
	},
	{
	"loss": 361.8947,
	"grad_norm": 34.685150146484375,
	"learning_rate": 1.5105348896522486e-06,
	"epoch": 0.9641873278236914,
	"step": 1075
	},
	{
	"loss": 357.5904,
	"grad_norm": 34.1632080078125,
	"learning_rate": 1.4341378803737204e-06,
	"epoch": 0.9650842462681786,
	"step": 1076
	},
	{
	"loss": 357.5146,
	"grad_norm": 34.23555374145508,
	"learning_rate": 1.3597177067181943e-06,
	"epoch": 0.9659811647126658,
	"step": 1077
	},
	{
	"loss": 356.91,
	"grad_norm": 32.962257385253906,
	"learning_rate": 1.2872749605468137e-06,
	"epoch": 0.966878083157153,
	"step": 1078
	},
	{
	"loss": 351.4866,
	"grad_norm": 34.07936096191406,
	"learning_rate": 1.2168102179941076e-06,
	"epoch": 0.9677750016016401,
	"step": 1079
	},
	{
	"loss": 355.5893,
	"grad_norm": 33.35137939453125,
	"learning_rate": 1.1483240394637717e-06,
	"epoch": 0.9686719200461272,
	"step": 1080
	},
	{
	"loss": 355.4586,
	"grad_norm": 34.09134292602539,
	"learning_rate": 1.0818169696239776e-06,
	"epoch": 0.9695688384906144,
	"step": 1081
	},
	{
	"loss": 354.5378,
	"grad_norm": 32.67642593383789,
	"learning_rate": 1.0172895374031265e-06,
	"epoch": 0.9704657569351015,
	"step": 1082
	},
	{
	"loss": 354.3784,
	"grad_norm": 32.6947021484375,
	"learning_rate": 9.5474225598563e-07,
	"epoch": 0.9713626753795886,
	"step": 1083
	},
	{
	"loss": 355.8788,
	"grad_norm": 33.51148986816406,
	"learning_rate": 8.941756228078579e-07,
	"epoch": 0.9722595938240759,
	"step": 1084
	},
	{
	"loss": 353.8372,
	"grad_norm": 33.57039260864258,
	"learning_rate": 8.35590119554086e-07,
	"epoch": 0.973156512268563,
	"step": 1085
	},
	{
	"loss": 353.2452,
	"grad_norm": 33.60462188720703,
	"learning_rate": 7.789862121528324e-07,
	"epoch": 0.9740534307130502,
	"step": 1086
	},
	{
	"loss": 357.0675,
	"grad_norm": 33.704349517822266,
	"learning_rate": 7.243643507729436e-07,
	"epoch": 0.9749503491575373,
	"step": 1087
	},
	{
	"loss": 354.5553,
	"grad_norm": 34.90256881713867,
	"learning_rate": 6.717249698202088e-07,
	"epoch": 0.9758472676020244,
	"step": 1088
	},
	{
	"loss": 349.4813,
	"grad_norm": 34.148128509521484,
	"learning_rate": 6.210684879337513e-07,
	"epoch": 0.9767441860465116,
	"step": 1089
	},
	{
	"loss": 357.7331,
	"grad_norm": 34.612762451171875,
	"learning_rate": 5.72395307982837e-07,
	"epoch": 0.9776411044909988,
	"step": 1090
	},
	{
	"loss": 358.809,
	"grad_norm": 32.881195068359375,
	"learning_rate": 5.257058170635709e-07,
	"epoch": 0.978538022935486,
	"step": 1091
	},
	{
	"loss": 356.2231,
	"grad_norm": 32.4294319152832,
	"learning_rate": 4.810003864958168e-07,
	"epoch": 0.9794349413799731,
	"step": 1092
	},
	{
	"loss": 354.6883,
	"grad_norm": 35.39781951904297,
	"learning_rate": 4.3827937182033815e-07,
	"epoch": 0.9803318598244602,
	"step": 1093
	},
	{
	"loss": 352.7607,
	"grad_norm": 34.17608642578125,
	"learning_rate": 3.9754311279582844e-07,
	"epoch": 0.9812287782689474,
	"step": 1094
	},
	{
	"loss": 353.8497,
	"grad_norm": 31.340768814086914,
	"learning_rate": 3.587919333963574e-07,
	"epoch": 0.9821256967134345,
	"step": 1095
	},
	{
	"loss": 357.9939,
	"grad_norm": 33.75115966796875,
	"learning_rate": 3.2202614180870673e-07,
	"epoch": 0.9830226151579217,
	"step": 1096
	},
	{
	"loss": 356.0656,
	"grad_norm": 32.56006622314453,
	"learning_rate": 2.872460304299274e-07,
	"epoch": 0.9839195336024089,
	"step": 1097
	},
	{
	"loss": 353.62,
	"grad_norm": 34.134193420410156,
	"learning_rate": 2.5445187586503603e-07,
	"epoch": 0.984816452046896,
	"step": 1098
	},
	{
	"loss": 355.838,
	"grad_norm": 34.15678024291992,
	"learning_rate": 2.2364393892479462e-07,
	"epoch": 0.9857133704913832,
	"step": 1099
	},
	{
	"loss": 358.3669,
	"grad_norm": 32.837039947509766,
	"learning_rate": 1.9482246462365626e-07,
	"epoch": 0.9866102889358703,
	"step": 1100
	},
	{
	"eval_loss": 1.5716547966003418,
	"eval_runtime": 18.217,
	"eval_samples_per_second": 112.422,
	"eval_steps_per_second": 14.053,
	"epoch": 0.9866102889358703,
	"step": 1100
	},
	{
	"loss": 356.8408,
	"grad_norm": 33.33000183105469,
	"learning_rate": 1.6798768217776706e-07,
	"epoch": 0.9875072073803575,
	"step": 1101
	},
	{
	"loss": 356.4636,
	"grad_norm": 34.879573822021484,
	"learning_rate": 1.4313980500327283e-07,
	"epoch": 0.9884041258248446,
	"step": 1102
	},
	{
	"loss": 356.378,
	"grad_norm": 33.825469970703125,
	"learning_rate": 1.2027903071440415e-07,
	"epoch": 0.9893010442693317,
	"step": 1103
	},
	{
	"loss": 359.4078,
	"grad_norm": 34.18437957763672,
	"learning_rate": 9.94055411221717e-08,
	"epoch": 0.990197962713819,
	"step": 1104
	},
	{
	"loss": 356.8303,
	"grad_norm": 35.02104187011719,
	"learning_rate": 8.051950223267323e-08,
	"epoch": 0.9910948811583061,
	"step": 1105
	},
	{
	"loss": 351.9132,
	"grad_norm": 33.7501220703125,
	"learning_rate": 6.362106424590009e-08,
	"epoch": 0.9919917996027933,
	"step": 1106
	},
	{
	"loss": 356.2349,
	"grad_norm": 34.74052810668945,
	"learning_rate": 4.871036155454367e-08,
	"epoch": 0.9928887180472804,
	"step": 1107
	},
	{
	"loss": 357.3864,
	"grad_norm": 33.26545715332031,
	"learning_rate": 3.578751274294079e-08,
	"epoch": 0.9937856364917675,
	"step": 1108
	},
	{
	"loss": 358.4432,
	"grad_norm": 33.61418914794922,
	"learning_rate": 2.4852620586046647e-08,
	"epoch": 0.9946825549362547,
	"step": 1109
	},
	{
	"loss": 356.3781,
	"grad_norm": 33.90690612792969,
	"learning_rate": 1.5905772048629975e-08,
	"epoch": 0.9955794733807419,
	"step": 1110
	},
	{
	"loss": 355.2562,
	"grad_norm": 36.185489654541016,
	"learning_rate": 8.947038284717879e-09,
	"epoch": 0.9964763918252291,
	"step": 1111
	},
	{
	"loss": 353.4495,
	"grad_norm": 35.645416259765625,
	"learning_rate": 3.976474636874228e-09,
	"epoch": 0.9973733102697162,
	"step": 1112
	},
	{
	"loss": 358.9317,
	"grad_norm": 34.38767623901367,
	"learning_rate": 9.941206357555465e-10,
	"epoch": 0.9982702287142033,
	"step": 1113
	},
	{
	"loss": 355.1901,
	"grad_norm": 33.96023941040039,
	"learning_rate": 0.0,
	"epoch": 0.9991671471586905,
	"step": 1114
	},
	{
	"train_runtime": 10703.3349,
	"train_samples_per_second": 186.666,
	"train_steps_per_second": 0.104,
	"total_flos": 6.811715592467251e+17,
	"train_loss": 100.33408414611269,
	"epoch": 0.9991671471586905,
	"step": 1114
	},
	{
	"eval_loss": 1.585738182067871,
	"eval_runtime": 19.5932,
	"eval_samples_per_second": 104.526,
	"eval_steps_per_second": 13.066,
	"epoch": 0.9991671471586905,
	"step": 1114
	}
	],
	"best_metric": null,
	"best_model_checkpoint": null,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"is_hyper_param_search": false,
	"trial_name": null,
	"trial_params": null,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_training_stop": true,
	"should_epoch_stop": false,
	"should_save": true,
	"should_evaluate": false,
	"should_log": false
	},
	"attributes": {}
	}
	}
	}