bad-apple-8b-v1 / trainer_state.json

Upload folder using huggingface_hub

070073a verified about 1 month ago

56.3 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 5.925925925925926,
	"eval_steps": 500,
	"global_step": 324,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.018518518518518517,
	"grad_norm": 11.543508930958351,
	"learning_rate": 1.3333333333333334e-07,
	"loss": 2.5502,
	"step": 1
	},
	{
	"epoch": 0.037037037037037035,
	"grad_norm": 11.036573442393484,
	"learning_rate": 2.6666666666666667e-07,
	"loss": 2.524,
	"step": 2
	},
	{
	"epoch": 0.05555555555555555,
	"grad_norm": 10.633243381981275,
	"learning_rate": 4e-07,
	"loss": 2.204,
	"step": 3
	},
	{
	"epoch": 0.07407407407407407,
	"grad_norm": 10.844156107788931,
	"learning_rate": 5.333333333333333e-07,
	"loss": 2.6556,
	"step": 4
	},
	{
	"epoch": 0.09259259259259259,
	"grad_norm": 10.31689604512179,
	"learning_rate": 6.666666666666666e-07,
	"loss": 2.3083,
	"step": 5
	},
	{
	"epoch": 0.1111111111111111,
	"grad_norm": 9.817262372273788,
	"learning_rate": 8e-07,
	"loss": 2.4079,
	"step": 6
	},
	{
	"epoch": 0.12962962962962962,
	"grad_norm": 9.116167654173315,
	"learning_rate": 9.333333333333333e-07,
	"loss": 2.3343,
	"step": 7
	},
	{
	"epoch": 0.14814814814814814,
	"grad_norm": 7.891190287353295,
	"learning_rate": 1.0666666666666667e-06,
	"loss": 2.3883,
	"step": 8
	},
	{
	"epoch": 0.16666666666666666,
	"grad_norm": 8.42233222280676,
	"learning_rate": 1.2e-06,
	"loss": 2.4733,
	"step": 9
	},
	{
	"epoch": 0.18518518518518517,
	"grad_norm": 6.5902867588718825,
	"learning_rate": 1.3333333333333332e-06,
	"loss": 2.2598,
	"step": 10
	},
	{
	"epoch": 0.2037037037037037,
	"grad_norm": 7.468618276890062,
	"learning_rate": 1.4666666666666665e-06,
	"loss": 2.6818,
	"step": 11
	},
	{
	"epoch": 0.2222222222222222,
	"grad_norm": 6.524430399848726,
	"learning_rate": 1.6e-06,
	"loss": 2.0609,
	"step": 12
	},
	{
	"epoch": 0.24074074074074073,
	"grad_norm": 15.819198637332978,
	"learning_rate": 1.7333333333333334e-06,
	"loss": 1.8734,
	"step": 13
	},
	{
	"epoch": 0.25925925925925924,
	"grad_norm": 12.251404296601525,
	"learning_rate": 1.8666666666666667e-06,
	"loss": 2.3952,
	"step": 14
	},
	{
	"epoch": 0.2777777777777778,
	"grad_norm": 12.014341658055084,
	"learning_rate": 2e-06,
	"loss": 2.0763,
	"step": 15
	},
	{
	"epoch": 0.2962962962962963,
	"grad_norm": 9.119171460936416,
	"learning_rate": 1.999948316841124e-06,
	"loss": 2.2581,
	"step": 16
	},
	{
	"epoch": 0.3148148148148148,
	"grad_norm": 7.0075699362300785,
	"learning_rate": 1.999793272706794e-06,
	"loss": 2.3189,
	"step": 17
	},
	{
	"epoch": 0.3333333333333333,
	"grad_norm": 8.434551205593468,
	"learning_rate": 1.9995348836233515e-06,
	"loss": 2.2956,
	"step": 18
	},
	{
	"epoch": 0.35185185185185186,
	"grad_norm": 9.802253199544783,
	"learning_rate": 1.999173176299524e-06,
	"loss": 2.1106,
	"step": 19
	},
	{
	"epoch": 0.37037037037037035,
	"grad_norm": 7.364889431202562,
	"learning_rate": 1.9987081881236665e-06,
	"loss": 2.4001,
	"step": 20
	},
	{
	"epoch": 0.3888888888888889,
	"grad_norm": 5.5030313904087995,
	"learning_rate": 1.9981399671598938e-06,
	"loss": 2.0534,
	"step": 21
	},
	{
	"epoch": 0.4074074074074074,
	"grad_norm": 4.022498450217217,
	"learning_rate": 1.997468572143115e-06,
	"loss": 1.9262,
	"step": 22
	},
	{
	"epoch": 0.42592592592592593,
	"grad_norm": 4.237115597250525,
	"learning_rate": 1.9966940724729603e-06,
	"loss": 2.2743,
	"step": 23
	},
	{
	"epoch": 0.4444444444444444,
	"grad_norm": 4.300566273621826,
	"learning_rate": 1.995816548206609e-06,
	"loss": 2.028,
	"step": 24
	},
	{
	"epoch": 0.46296296296296297,
	"grad_norm": 4.157703163471443,
	"learning_rate": 1.994836090050514e-06,
	"loss": 2.2021,
	"step": 25
	},
	{
	"epoch": 0.48148148148148145,
	"grad_norm": 4.59475590188255,
	"learning_rate": 1.993752799351023e-06,
	"loss": 2.1409,
	"step": 26
	},
	{
	"epoch": 0.5,
	"grad_norm": 3.553829762084,
	"learning_rate": 1.992566788083908e-06,
	"loss": 2.1277,
	"step": 27
	},
	{
	"epoch": 0.5185185185185185,
	"grad_norm": 2.808767466788676,
	"learning_rate": 1.9912781788427856e-06,
	"loss": 2.074,
	"step": 28
	},
	{
	"epoch": 0.5370370370370371,
	"grad_norm": 2.945994143903197,
	"learning_rate": 1.989887104826449e-06,
	"loss": 1.9894,
	"step": 29
	},
	{
	"epoch": 0.5555555555555556,
	"grad_norm": 2.9859402190241,
	"learning_rate": 1.988393709825096e-06,
	"loss": 2.1096,
	"step": 30
	},
	{
	"epoch": 0.5740740740740741,
	"grad_norm": 2.788646179800959,
	"learning_rate": 1.9867981482054697e-06,
	"loss": 2.315,
	"step": 31
	},
	{
	"epoch": 0.5925925925925926,
	"grad_norm": 2.428878990731119,
	"learning_rate": 1.9851005848948986e-06,
	"loss": 2.1129,
	"step": 32
	},
	{
	"epoch": 0.6111111111111112,
	"grad_norm": 2.326070514005508,
	"learning_rate": 1.983301195364252e-06,
	"loss": 2.3507,
	"step": 33
	},
	{
	"epoch": 0.6296296296296297,
	"grad_norm": 2.2448623338584524,
	"learning_rate": 1.9814001656098e-06,
	"loss": 2.2176,
	"step": 34
	},
	{
	"epoch": 0.6481481481481481,
	"grad_norm": 3.345489216172997,
	"learning_rate": 1.9793976921339876e-06,
	"loss": 2.0352,
	"step": 35
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 2.454245882780074,
	"learning_rate": 1.9772939819251245e-06,
	"loss": 1.7644,
	"step": 36
	},
	{
	"epoch": 0.6851851851851852,
	"grad_norm": 2.2823601110851115,
	"learning_rate": 1.9750892524359894e-06,
	"loss": 2.0044,
	"step": 37
	},
	{
	"epoch": 0.7037037037037037,
	"grad_norm": 2.378703420397497,
	"learning_rate": 1.9727837315613503e-06,
	"loss": 1.9992,
	"step": 38
	},
	{
	"epoch": 0.7222222222222222,
	"grad_norm": 2.2038000284491392,
	"learning_rate": 1.9703776576144106e-06,
	"loss": 2.1248,
	"step": 39
	},
	{
	"epoch": 0.7407407407407407,
	"grad_norm": 1.6625652175528476,
	"learning_rate": 1.9678712793021747e-06,
	"loss": 1.7908,
	"step": 40
	},
	{
	"epoch": 0.7592592592592593,
	"grad_norm": 1.649500064167637,
	"learning_rate": 1.9652648556997396e-06,
	"loss": 2.0346,
	"step": 41
	},
	{
	"epoch": 0.7777777777777778,
	"grad_norm": 2.127402784391995,
	"learning_rate": 1.962558656223516e-06,
	"loss": 2.1544,
	"step": 42
	},
	{
	"epoch": 0.7962962962962963,
	"grad_norm": 2.4572023559040668,
	"learning_rate": 1.959752960603378e-06,
	"loss": 1.9295,
	"step": 43
	},
	{
	"epoch": 0.8148148148148148,
	"grad_norm": 1.511188510592738,
	"learning_rate": 1.956848058853751e-06,
	"loss": 2.1473,
	"step": 44
	},
	{
	"epoch": 0.8333333333333334,
	"grad_norm": 2.6425186462750276,
	"learning_rate": 1.9538442512436325e-06,
	"loss": 1.7632,
	"step": 45
	},
	{
	"epoch": 0.8518518518518519,
	"grad_norm": 2.528104013708182,
	"learning_rate": 1.9507418482655546e-06,
	"loss": 1.9125,
	"step": 46
	},
	{
	"epoch": 0.8703703703703703,
	"grad_norm": 2.660072260955662,
	"learning_rate": 1.947541170603488e-06,
	"loss": 1.9839,
	"step": 47
	},
	{
	"epoch": 0.8888888888888888,
	"grad_norm": 2.303424321729968,
	"learning_rate": 1.9442425490996984e-06,
	"loss": 1.8381,
	"step": 48
	},
	{
	"epoch": 0.9074074074074074,
	"grad_norm": 1.7413263437826438,
	"learning_rate": 1.940846324720544e-06,
	"loss": 2.2322,
	"step": 49
	},
	{
	"epoch": 0.9259259259259259,
	"grad_norm": 3.681741007928878,
	"learning_rate": 1.9373528485212327e-06,
	"loss": 2.1221,
	"step": 50
	},
	{
	"epoch": 0.9444444444444444,
	"grad_norm": 2.729258330107977,
	"learning_rate": 1.9337624816095357e-06,
	"loss": 1.8567,
	"step": 51
	},
	{
	"epoch": 0.9629629629629629,
	"grad_norm": 1.9607649593150183,
	"learning_rate": 1.9300755951084592e-06,
	"loss": 2.0553,
	"step": 52
	},
	{
	"epoch": 0.9814814814814815,
	"grad_norm": 2.119362131138027,
	"learning_rate": 1.9262925701178863e-06,
	"loss": 1.936,
	"step": 53
	},
	{
	"epoch": 1.0,
	"grad_norm": 2.057082578120893,
	"learning_rate": 1.9224137976751793e-06,
	"loss": 1.9584,
	"step": 54
	},
	{
	"epoch": 1.0185185185185186,
	"grad_norm": 2.0207421134902708,
	"learning_rate": 1.918439678714763e-06,
	"loss": 1.9837,
	"step": 55
	},
	{
	"epoch": 1.0185185185185186,
	"grad_norm": 1.938684997881939,
	"learning_rate": 1.9143706240266807e-06,
	"loss": 1.9354,
	"step": 56
	},
	{
	"epoch": 1.037037037037037,
	"grad_norm": 2.0601195298871398,
	"learning_rate": 1.910207054214133e-06,
	"loss": 2.0174,
	"step": 57
	},
	{
	"epoch": 1.0555555555555556,
	"grad_norm": 2.041620934780644,
	"learning_rate": 1.9059493996499985e-06,
	"loss": 1.7447,
	"step": 58
	},
	{
	"epoch": 1.074074074074074,
	"grad_norm": 1.5682604954979573,
	"learning_rate": 1.9015981004323534e-06,
	"loss": 2.0106,
	"step": 59
	},
	{
	"epoch": 1.0925925925925926,
	"grad_norm": 2.865965004078874,
	"learning_rate": 1.8971536063389742e-06,
	"loss": 2.2393,
	"step": 60
	},
	{
	"epoch": 1.1111111111111112,
	"grad_norm": 2.7462581398678787,
	"learning_rate": 1.89261637678085e-06,
	"loss": 1.7421,
	"step": 61
	},
	{
	"epoch": 1.1296296296296295,
	"grad_norm": 3.120548437283878,
	"learning_rate": 1.8879868807546932e-06,
	"loss": 1.9877,
	"step": 62
	},
	{
	"epoch": 1.1481481481481481,
	"grad_norm": 3.242255359642735,
	"learning_rate": 1.8832655967944605e-06,
	"loss": 1.9799,
	"step": 63
	},
	{
	"epoch": 1.1666666666666667,
	"grad_norm": 2.2159733738020275,
	"learning_rate": 1.8784530129218907e-06,
	"loss": 2.0581,
	"step": 64
	},
	{
	"epoch": 1.1851851851851851,
	"grad_norm": 2.08989006018966,
	"learning_rate": 1.873549626596057e-06,
	"loss": 1.8653,
	"step": 65
	},
	{
	"epoch": 1.2037037037037037,
	"grad_norm": 1.4837874153680628,
	"learning_rate": 1.8685559446619487e-06,
	"loss": 1.9734,
	"step": 66
	},
	{
	"epoch": 1.2222222222222223,
	"grad_norm": 2.1071721482630403,
	"learning_rate": 1.863472483298079e-06,
	"loss": 1.7762,
	"step": 67
	},
	{
	"epoch": 1.2407407407407407,
	"grad_norm": 2.6554851825477646,
	"learning_rate": 1.858299767963131e-06,
	"loss": 2.2267,
	"step": 68
	},
	{
	"epoch": 1.2592592592592593,
	"grad_norm": 2.135758261049139,
	"learning_rate": 1.8530383333416415e-06,
	"loss": 2.0624,
	"step": 69
	},
	{
	"epoch": 1.2777777777777777,
	"grad_norm": 2.256153463268274,
	"learning_rate": 1.847688723288733e-06,
	"loss": 2.0254,
	"step": 70
	},
	{
	"epoch": 1.2962962962962963,
	"grad_norm": 1.9270711341308566,
	"learning_rate": 1.8422514907738986e-06,
	"loss": 2.0873,
	"step": 71
	},
	{
	"epoch": 1.3148148148148149,
	"grad_norm": 1.3698407936967985,
	"learning_rate": 1.8367271978238418e-06,
	"loss": 1.5655,
	"step": 72
	},
	{
	"epoch": 1.3333333333333333,
	"grad_norm": 1.7934950271719698,
	"learning_rate": 1.8311164154643833e-06,
	"loss": 2.1081,
	"step": 73
	},
	{
	"epoch": 1.3518518518518519,
	"grad_norm": 1.7554770045810462,
	"learning_rate": 1.8254197236614353e-06,
	"loss": 1.6326,
	"step": 74
	},
	{
	"epoch": 1.3703703703703702,
	"grad_norm": 1.7910726004582642,
	"learning_rate": 1.8196377112610524e-06,
	"loss": 1.9896,
	"step": 75
	},
	{
	"epoch": 1.3888888888888888,
	"grad_norm": 1.43155366985165,
	"learning_rate": 1.8137709759285662e-06,
	"loss": 1.8557,
	"step": 76
	},
	{
	"epoch": 1.4074074074074074,
	"grad_norm": 1.816009532890727,
	"learning_rate": 1.8078201240868048e-06,
	"loss": 1.7878,
	"step": 77
	},
	{
	"epoch": 1.425925925925926,
	"grad_norm": 1.612331881267257,
	"learning_rate": 1.8017857708534106e-06,
	"loss": 1.982,
	"step": 78
	},
	{
	"epoch": 1.4444444444444444,
	"grad_norm": 1.8628647966869196,
	"learning_rate": 1.7956685399772576e-06,
	"loss": 1.9704,
	"step": 79
	},
	{
	"epoch": 1.462962962962963,
	"grad_norm": 1.9936817464029801,
	"learning_rate": 1.7894690637739762e-06,
	"loss": 1.8299,
	"step": 80
	},
	{
	"epoch": 1.4814814814814814,
	"grad_norm": 2.463393533692339,
	"learning_rate": 1.7831879830605936e-06,
	"loss": 2.0444,
	"step": 81
	},
	{
	"epoch": 1.5,
	"grad_norm": 2.4979859149192305,
	"learning_rate": 1.776825947089294e-06,
	"loss": 2.0278,
	"step": 82
	},
	{
	"epoch": 1.5185185185185186,
	"grad_norm": 2.7584711281071606,
	"learning_rate": 1.7703836134803102e-06,
	"loss": 1.8715,
	"step": 83
	},
	{
	"epoch": 1.5370370370370372,
	"grad_norm": 1.9266117476771798,
	"learning_rate": 1.7638616481539448e-06,
	"loss": 2.3658,
	"step": 84
	},
	{
	"epoch": 1.5555555555555556,
	"grad_norm": 2.7609401761288908,
	"learning_rate": 1.7572607252617377e-06,
	"loss": 1.9736,
	"step": 85
	},
	{
	"epoch": 1.574074074074074,
	"grad_norm": 2.114937054090088,
	"learning_rate": 1.7505815271167822e-06,
	"loss": 2.0398,
	"step": 86
	},
	{
	"epoch": 1.5925925925925926,
	"grad_norm": 2.0664911123203513,
	"learning_rate": 1.743824744123196e-06,
	"loss": 2.1056,
	"step": 87
	},
	{
	"epoch": 1.6111111111111112,
	"grad_norm": 2.5153483082090213,
	"learning_rate": 1.7369910747047571e-06,
	"loss": 1.8765,
	"step": 88
	},
	{
	"epoch": 1.6296296296296298,
	"grad_norm": 1.8949983903048848,
	"learning_rate": 1.7300812252327102e-06,
	"loss": 2.1245,
	"step": 89
	},
	{
	"epoch": 1.6481481481481481,
	"grad_norm": 2.7037983362018565,
	"learning_rate": 1.723095909952751e-06,
	"loss": 1.5174,
	"step": 90
	},
	{
	"epoch": 1.6666666666666665,
	"grad_norm": 2.3396050215927673,
	"learning_rate": 1.7160358509111989e-06,
	"loss": 2.0559,
	"step": 91
	},
	{
	"epoch": 1.6851851851851851,
	"grad_norm": 2.1357187531056976,
	"learning_rate": 1.7089017778803595e-06,
	"loss": 1.8264,
	"step": 92
	},
	{
	"epoch": 1.7037037037037037,
	"grad_norm": 2.5298502653457358,
	"learning_rate": 1.701694428283093e-06,
	"loss": 2.1282,
	"step": 93
	},
	{
	"epoch": 1.7222222222222223,
	"grad_norm": 2.0789215851330343,
	"learning_rate": 1.6944145471165881e-06,
	"loss": 2.1829,
	"step": 94
	},
	{
	"epoch": 1.7407407407407407,
	"grad_norm": 1.8110067836025452,
	"learning_rate": 1.6870628868753545e-06,
	"loss": 1.7584,
	"step": 95
	},
	{
	"epoch": 1.7592592592592593,
	"grad_norm": 2.7069181555694666,
	"learning_rate": 1.6796402074734402e-06,
	"loss": 1.897,
	"step": 96
	},
	{
	"epoch": 1.7777777777777777,
	"grad_norm": 2.3956521553142176,
	"learning_rate": 1.6721472761658836e-06,
	"loss": 1.9119,
	"step": 97
	},
	{
	"epoch": 1.7962962962962963,
	"grad_norm": 1.3732811625669847,
	"learning_rate": 1.664584867469403e-06,
	"loss": 1.6848,
	"step": 98
	},
	{
	"epoch": 1.8148148148148149,
	"grad_norm": 1.9512817035138257,
	"learning_rate": 1.6569537630823382e-06,
	"loss": 2.0185,
	"step": 99
	},
	{
	"epoch": 1.8333333333333335,
	"grad_norm": 1.864374052494234,
	"learning_rate": 1.6492547518038503e-06,
	"loss": 1.925,
	"step": 100
	},
	{
	"epoch": 1.8518518518518519,
	"grad_norm": 1.7728078338576356,
	"learning_rate": 1.6414886294523857e-06,
	"loss": 1.8965,
	"step": 101
	},
	{
	"epoch": 1.8703703703703702,
	"grad_norm": 1.8362690886038369,
	"learning_rate": 1.6336561987834151e-06,
	"loss": 1.8881,
	"step": 102
	},
	{
	"epoch": 1.8888888888888888,
	"grad_norm": 3.120191999390615,
	"learning_rate": 1.6257582694064556e-06,
	"loss": 1.7192,
	"step": 103
	},
	{
	"epoch": 1.9074074074074074,
	"grad_norm": 2.3586839267066044,
	"learning_rate": 1.6177956577013846e-06,
	"loss": 1.9387,
	"step": 104
	},
	{
	"epoch": 1.925925925925926,
	"grad_norm": 2.779686602481001,
	"learning_rate": 1.6097691867340543e-06,
	"loss": 1.9497,
	"step": 105
	},
	{
	"epoch": 1.9444444444444444,
	"grad_norm": 2.321935224272705,
	"learning_rate": 1.6016796861712125e-06,
	"loss": 1.9367,
	"step": 106
	},
	{
	"epoch": 1.9629629629629628,
	"grad_norm": 2.3211469537338276,
	"learning_rate": 1.5935279921947451e-06,
	"loss": 1.9765,
	"step": 107
	},
	{
	"epoch": 1.9814814814814814,
	"grad_norm": 1.8048838385036454,
	"learning_rate": 1.585314947415242e-06,
	"loss": 2.1524,
	"step": 108
	},
	{
	"epoch": 2.0,
	"grad_norm": 2.2432536623121866,
	"learning_rate": 1.5770414007848994e-06,
	"loss": 1.7596,
	"step": 109
	},
	{
	"epoch": 2.0185185185185186,
	"grad_norm": 2.1527401042322984,
	"learning_rate": 1.5687082075097674e-06,
	"loss": 2.1903,
	"step": 110
	},
	{
	"epoch": 2.0185185185185186,
	"grad_norm": 2.822074512897879,
	"learning_rate": 1.5603162289613501e-06,
	"loss": 2.0324,
	"step": 111
	},
	{
	"epoch": 2.037037037037037,
	"grad_norm": 1.9685786022400997,
	"learning_rate": 1.551866332587568e-06,
	"loss": 1.8009,
	"step": 112
	},
	{
	"epoch": 2.0555555555555554,
	"grad_norm": 2.515751939304619,
	"learning_rate": 1.5433593918230955e-06,
	"loss": 1.9487,
	"step": 113
	},
	{
	"epoch": 2.074074074074074,
	"grad_norm": 2.349862710312166,
	"learning_rate": 1.5347962859990742e-06,
	"loss": 1.9967,
	"step": 114
	},
	{
	"epoch": 2.0925925925925926,
	"grad_norm": 3.1803776539735233,
	"learning_rate": 1.5261779002522216e-06,
	"loss": 2.0633,
	"step": 115
	},
	{
	"epoch": 2.111111111111111,
	"grad_norm": 2.6762686321709372,
	"learning_rate": 1.517505125433338e-06,
	"loss": 2.1631,
	"step": 116
	},
	{
	"epoch": 2.1296296296296298,
	"grad_norm": 3.17350275984332,
	"learning_rate": 1.5087788580152206e-06,
	"loss": 1.7666,
	"step": 117
	},
	{
	"epoch": 2.148148148148148,
	"grad_norm": 2.7374508335058128,
	"learning_rate": 1.5e-06,
	"loss": 1.6363,
	"step": 118
	},
	{
	"epoch": 2.1666666666666665,
	"grad_norm": 2.518836889589819,
	"learning_rate": 1.4911694588259037e-06,
	"loss": 2.0306,
	"step": 119
	},
	{
	"epoch": 2.185185185185185,
	"grad_norm": 2.0516490709057438,
	"learning_rate": 1.482288147273456e-06,
	"loss": 1.7322,
	"step": 120
	},
	{
	"epoch": 2.2037037037037037,
	"grad_norm": 2.143653181079979,
	"learning_rate": 1.4733569833711299e-06,
	"loss": 1.9715,
	"step": 121
	},
	{
	"epoch": 2.2222222222222223,
	"grad_norm": 1.5702663497071736,
	"learning_rate": 1.4643768903004504e-06,
	"loss": 1.6725,
	"step": 122
	},
	{
	"epoch": 2.240740740740741,
	"grad_norm": 2.1780515590527045,
	"learning_rate": 1.455348796300571e-06,
	"loss": 1.8871,
	"step": 123
	},
	{
	"epoch": 2.259259259259259,
	"grad_norm": 1.7384200856334007,
	"learning_rate": 1.4462736345723259e-06,
	"loss": 1.8607,
	"step": 124
	},
	{
	"epoch": 2.2777777777777777,
	"grad_norm": 2.602970978377197,
	"learning_rate": 1.437152343181765e-06,
	"loss": 2.0933,
	"step": 125
	},
	{
	"epoch": 2.2962962962962963,
	"grad_norm": 2.2409639030493516,
	"learning_rate": 1.4279858649631928e-06,
	"loss": 2.1028,
	"step": 126
	},
	{
	"epoch": 2.314814814814815,
	"grad_norm": 2.083427934167806,
	"learning_rate": 1.4187751474217096e-06,
	"loss": 1.7588,
	"step": 127
	},
	{
	"epoch": 2.3333333333333335,
	"grad_norm": 1.710343556502238,
	"learning_rate": 1.4095211426352718e-06,
	"loss": 1.8985,
	"step": 128
	},
	{
	"epoch": 2.351851851851852,
	"grad_norm": 2.4282958584597645,
	"learning_rate": 1.4002248071562778e-06,
	"loss": 1.8267,
	"step": 129
	},
	{
	"epoch": 2.3703703703703702,
	"grad_norm": 2.2052175185263936,
	"learning_rate": 1.3908871019126954e-06,
	"loss": 2.254,
	"step": 130
	},
	{
	"epoch": 2.388888888888889,
	"grad_norm": 2.4962771616425745,
	"learning_rate": 1.3815089921087315e-06,
	"loss": 1.8375,
	"step": 131
	},
	{
	"epoch": 2.4074074074074074,
	"grad_norm": 2.420921240604477,
	"learning_rate": 1.3720914471250642e-06,
	"loss": 1.9705,
	"step": 132
	},
	{
	"epoch": 2.425925925925926,
	"grad_norm": 1.6871014164962779,
	"learning_rate": 1.3626354404186404e-06,
	"loss": 1.866,
	"step": 133
	},
	{
	"epoch": 2.4444444444444446,
	"grad_norm": 1.5220778910671986,
	"learning_rate": 1.3531419494220545e-06,
	"loss": 2.0116,
	"step": 134
	},
	{
	"epoch": 2.462962962962963,
	"grad_norm": 1.9736590287767704,
	"learning_rate": 1.343611955442513e-06,
	"loss": 1.7881,
	"step": 135
	},
	{
	"epoch": 2.4814814814814814,
	"grad_norm": 1.357453526449638,
	"learning_rate": 1.334046443560402e-06,
	"loss": 1.7624,
	"step": 136
	},
	{
	"epoch": 2.5,
	"grad_norm": 1.7906511346102865,
	"learning_rate": 1.324446402527462e-06,
	"loss": 1.7147,
	"step": 137
	},
	{
	"epoch": 2.5185185185185186,
	"grad_norm": 2.0256913340352,
	"learning_rate": 1.3148128246645848e-06,
	"loss": 1.657,
	"step": 138
	},
	{
	"epoch": 2.537037037037037,
	"grad_norm": 2.4368648915605786,
	"learning_rate": 1.3051467057592413e-06,
	"loss": 1.848,
	"step": 139
	},
	{
	"epoch": 2.5555555555555554,
	"grad_norm": 1.7920760208344662,
	"learning_rate": 1.2954490449625491e-06,
	"loss": 2.2794,
	"step": 140
	},
	{
	"epoch": 2.574074074074074,
	"grad_norm": 2.5934703428783115,
	"learning_rate": 1.2857208446859957e-06,
	"loss": 2.1465,
	"step": 141
	},
	{
	"epoch": 2.5925925925925926,
	"grad_norm": 1.788260906958661,
	"learning_rate": 1.2759631104978224e-06,
	"loss": 2.067,
	"step": 142
	},
	{
	"epoch": 2.611111111111111,
	"grad_norm": 2.7522723362234474,
	"learning_rate": 1.2661768510190816e-06,
	"loss": 1.8176,
	"step": 143
	},
	{
	"epoch": 2.6296296296296298,
	"grad_norm": 2.43143502900473,
	"learning_rate": 1.2563630778193802e-06,
	"loss": 2.3366,
	"step": 144
	},
	{
	"epoch": 2.648148148148148,
	"grad_norm": 1.7241238478367036,
	"learning_rate": 1.2465228053123172e-06,
	"loss": 1.9895,
	"step": 145
	},
	{
	"epoch": 2.6666666666666665,
	"grad_norm": 2.0266143160589802,
	"learning_rate": 1.2366570506506268e-06,
	"loss": 1.7781,
	"step": 146
	},
	{
	"epoch": 2.685185185185185,
	"grad_norm": 1.9459670874156856,
	"learning_rate": 1.226766833621041e-06,
	"loss": 2.3116,
	"step": 147
	},
	{
	"epoch": 2.7037037037037037,
	"grad_norm": 2.248556130449579,
	"learning_rate": 1.2168531765388755e-06,
	"loss": 1.8032,
	"step": 148
	},
	{
	"epoch": 2.7222222222222223,
	"grad_norm": 1.711136470727862,
	"learning_rate": 1.2069171041423583e-06,
	"loss": 1.6228,
	"step": 149
	},
	{
	"epoch": 2.7407407407407405,
	"grad_norm": 2.4614425382704352,
	"learning_rate": 1.1969596434867062e-06,
	"loss": 1.9709,
	"step": 150
	},
	{
	"epoch": 2.7592592592592595,
	"grad_norm": 2.3445742482429788,
	"learning_rate": 1.186981823837961e-06,
	"loss": 2.0597,
	"step": 151
	},
	{
	"epoch": 2.7777777777777777,
	"grad_norm": 1.6706837512637804,
	"learning_rate": 1.1769846765665992e-06,
	"loss": 1.6263,
	"step": 152
	},
	{
	"epoch": 2.7962962962962963,
	"grad_norm": 1.6603060271536991,
	"learning_rate": 1.1669692350409222e-06,
	"loss": 1.8723,
	"step": 153
	},
	{
	"epoch": 2.814814814814815,
	"grad_norm": 1.7552257393882156,
	"learning_rate": 1.1569365345202413e-06,
	"loss": 2.224,
	"step": 154
	},
	{
	"epoch": 2.8333333333333335,
	"grad_norm": 1.3677514217091091,
	"learning_rate": 1.1468876120478662e-06,
	"loss": 1.897,
	"step": 155
	},
	{
	"epoch": 2.851851851851852,
	"grad_norm": 1.4681588115995392,
	"learning_rate": 1.1368235063439102e-06,
	"loss": 1.7654,
	"step": 156
	},
	{
	"epoch": 2.8703703703703702,
	"grad_norm": 1.4166676047405766,
	"learning_rate": 1.1267452576979218e-06,
	"loss": 1.7817,
	"step": 157
	},
	{
	"epoch": 2.888888888888889,
	"grad_norm": 1.5999665116208726,
	"learning_rate": 1.1166539078613525e-06,
	"loss": 1.814,
	"step": 158
	},
	{
	"epoch": 2.9074074074074074,
	"grad_norm": 1.8734358713251535,
	"learning_rate": 1.106550499939876e-06,
	"loss": 2.0783,
	"step": 159
	},
	{
	"epoch": 2.925925925925926,
	"grad_norm": 1.7212322982329384,
	"learning_rate": 1.0964360782855666e-06,
	"loss": 2.0753,
	"step": 160
	},
	{
	"epoch": 2.9444444444444446,
	"grad_norm": 2.144799198000555,
	"learning_rate": 1.086311688388946e-06,
	"loss": 1.8936,
	"step": 161
	},
	{
	"epoch": 2.962962962962963,
	"grad_norm": 1.578076988317517,
	"learning_rate": 1.076178376770918e-06,
	"loss": 1.8926,
	"step": 162
	},
	{
	"epoch": 2.9814814814814814,
	"grad_norm": 2.092387225323448,
	"learning_rate": 1.0660371908745908e-06,
	"loss": 1.8244,
	"step": 163
	},
	{
	"epoch": 3.0,
	"grad_norm": 1.91051937209127,
	"learning_rate": 1.0558891789570082e-06,
	"loss": 1.8447,
	"step": 164
	},
	{
	"epoch": 3.0185185185185186,
	"grad_norm": 2.011878655711519,
	"learning_rate": 1.0457353899807946e-06,
	"loss": 1.6429,
	"step": 165
	},
	{
	"epoch": 3.0185185185185186,
	"grad_norm": 1.501437779159261,
	"learning_rate": 1.0355768735057273e-06,
	"loss": 1.8726,
	"step": 166
	},
	{
	"epoch": 3.037037037037037,
	"grad_norm": 2.2762397392089597,
	"learning_rate": 1.0254146795802495e-06,
	"loss": 1.8501,
	"step": 167
	},
	{
	"epoch": 3.0555555555555554,
	"grad_norm": 1.711019377794848,
	"learning_rate": 1.015249858632926e-06,
	"loss": 1.9443,
	"step": 168
	},
	{
	"epoch": 3.074074074074074,
	"grad_norm": 2.1218173803583733,
	"learning_rate": 1.0050834613638694e-06,
	"loss": 1.5682,
	"step": 169
	},
	{
	"epoch": 3.0925925925925926,
	"grad_norm": 2.2421674612074383,
	"learning_rate": 9.949165386361303e-07,
	"loss": 1.8014,
	"step": 170
	},
	{
	"epoch": 3.111111111111111,
	"grad_norm": 2.0898372243057706,
	"learning_rate": 9.847501413670742e-07,
	"loss": 1.8711,
	"step": 171
	},
	{
	"epoch": 3.1296296296296298,
	"grad_norm": 2.367436693252952,
	"learning_rate": 9.745853204197508e-07,
	"loss": 1.9004,
	"step": 172
	},
	{
	"epoch": 3.148148148148148,
	"grad_norm": 1.756679866289546,
	"learning_rate": 9.644231264942724e-07,
	"loss": 1.8121,
	"step": 173
	},
	{
	"epoch": 3.1666666666666665,
	"grad_norm": 1.8172318892802939,
	"learning_rate": 9.542646100192055e-07,
	"loss": 1.9013,
	"step": 174
	},
	{
	"epoch": 3.185185185185185,
	"grad_norm": 1.7124997061951257,
	"learning_rate": 9.441108210429921e-07,
	"loss": 1.7851,
	"step": 175
	},
	{
	"epoch": 3.2037037037037037,
	"grad_norm": 1.4438554381375786,
	"learning_rate": 9.339628091254091e-07,
	"loss": 1.5955,
	"step": 176
	},
	{
	"epoch": 3.2222222222222223,
	"grad_norm": 1.4447841103018684,
	"learning_rate": 9.238216232290821e-07,
	"loss": 2.0907,
	"step": 177
	},
	{
	"epoch": 3.240740740740741,
	"grad_norm": 1.6937928047736799,
	"learning_rate": 9.136883116110541e-07,
	"loss": 1.915,
	"step": 178
	},
	{
	"epoch": 3.259259259259259,
	"grad_norm": 1.306322824987709,
	"learning_rate": 9.035639217144334e-07,
	"loss": 2.0679,
	"step": 179
	},
	{
	"epoch": 3.2777777777777777,
	"grad_norm": 1.850877358174252,
	"learning_rate": 8.93449500060124e-07,
	"loss": 2.024,
	"step": 180
	},
	{
	"epoch": 3.2962962962962963,
	"grad_norm": 1.5601775038920753,
	"learning_rate": 8.833460921386477e-07,
	"loss": 1.9335,
	"step": 181
	},
	{
	"epoch": 3.314814814814815,
	"grad_norm": 2.270038996895677,
	"learning_rate": 8.732547423020784e-07,
	"loss": 2.3019,
	"step": 182
	},
	{
	"epoch": 3.3333333333333335,
	"grad_norm": 1.3421300711986788,
	"learning_rate": 8.631764936560899e-07,
	"loss": 1.8503,
	"step": 183
	},
	{
	"epoch": 3.351851851851852,
	"grad_norm": 2.071755001265988,
	"learning_rate": 8.53112387952134e-07,
	"loss": 1.838,
	"step": 184
	},
	{
	"epoch": 3.3703703703703702,
	"grad_norm": 1.6174575169544287,
	"learning_rate": 8.430634654797588e-07,
	"loss": 2.2364,
	"step": 185
	},
	{
	"epoch": 3.388888888888889,
	"grad_norm": 1.801580774474325,
	"learning_rate": 8.330307649590779e-07,
	"loss": 1.7633,
	"step": 186
	},
	{
	"epoch": 3.4074074074074074,
	"grad_norm": 2.058657705709402,
	"learning_rate": 8.230153234334007e-07,
	"loss": 2.2177,
	"step": 187
	},
	{
	"epoch": 3.425925925925926,
	"grad_norm": 1.5267427939756337,
	"learning_rate": 8.130181761620392e-07,
	"loss": 1.8588,
	"step": 188
	},
	{
	"epoch": 3.4444444444444446,
	"grad_norm": 1.8491296560891988,
	"learning_rate": 8.030403565132942e-07,
	"loss": 2.0561,
	"step": 189
	},
	{
	"epoch": 3.462962962962963,
	"grad_norm": 1.1987453530026493,
	"learning_rate": 7.930828958576417e-07,
	"loss": 2.0565,
	"step": 190
	},
	{
	"epoch": 3.4814814814814814,
	"grad_norm": 1.7195298906541316,
	"learning_rate": 7.831468234611247e-07,
	"loss": 2.0798,
	"step": 191
	},
	{
	"epoch": 3.5,
	"grad_norm": 1.20797833272688,
	"learning_rate": 7.73233166378959e-07,
	"loss": 1.8627,
	"step": 192
	},
	{
	"epoch": 3.5185185185185186,
	"grad_norm": 1.5640684128902402,
	"learning_rate": 7.633429493493729e-07,
	"loss": 2.0137,
	"step": 193
	},
	{
	"epoch": 3.537037037037037,
	"grad_norm": 1.6824510280578688,
	"learning_rate": 7.53477194687683e-07,
	"loss": 2.1517,
	"step": 194
	},
	{
	"epoch": 3.5555555555555554,
	"grad_norm": 1.4155640553151332,
	"learning_rate": 7.4363692218062e-07,
	"loss": 1.9426,
	"step": 195
	},
	{
	"epoch": 3.574074074074074,
	"grad_norm": 1.3939742232946681,
	"learning_rate": 7.338231489809182e-07,
	"loss": 1.7207,
	"step": 196
	},
	{
	"epoch": 3.5925925925925926,
	"grad_norm": 1.4589160544776356,
	"learning_rate": 7.240368895021775e-07,
	"loss": 1.8217,
	"step": 197
	},
	{
	"epoch": 3.611111111111111,
	"grad_norm": 1.3991775241667967,
	"learning_rate": 7.142791553140044e-07,
	"loss": 1.9021,
	"step": 198
	},
	{
	"epoch": 3.6296296296296298,
	"grad_norm": 1.5300112446112555,
	"learning_rate": 7.045509550374509e-07,
	"loss": 1.9647,
	"step": 199
	},
	{
	"epoch": 3.648148148148148,
	"grad_norm": 1.449273309005635,
	"learning_rate": 6.948532942407587e-07,
	"loss": 1.9613,
	"step": 200
	},
	{
	"epoch": 3.6666666666666665,
	"grad_norm": 1.069899380500529,
	"learning_rate": 6.851871753354153e-07,
	"loss": 1.7452,
	"step": 201
	},
	{
	"epoch": 3.685185185185185,
	"grad_norm": 1.5579308530316032,
	"learning_rate": 6.755535974725379e-07,
	"loss": 1.9134,
	"step": 202
	},
	{
	"epoch": 3.7037037037037037,
	"grad_norm": 1.0814459794670248,
	"learning_rate": 6.659535564395982e-07,
	"loss": 1.6609,
	"step": 203
	},
	{
	"epoch": 3.7222222222222223,
	"grad_norm": 1.8876967693657951,
	"learning_rate": 6.563880445574872e-07,
	"loss": 2.0948,
	"step": 204
	},
	{
	"epoch": 3.7407407407407405,
	"grad_norm": 1.6093595543167938,
	"learning_rate": 6.468580505779455e-07,
	"loss": 1.6327,
	"step": 205
	},
	{
	"epoch": 3.7592592592592595,
	"grad_norm": 1.9559640817344714,
	"learning_rate": 6.373645595813596e-07,
	"loss": 1.6376,
	"step": 206
	},
	{
	"epoch": 3.7777777777777777,
	"grad_norm": 2.0405778845643288,
	"learning_rate": 6.27908552874936e-07,
	"loss": 2.1409,
	"step": 207
	},
	{
	"epoch": 3.7962962962962963,
	"grad_norm": 1.230340254163767,
	"learning_rate": 6.184910078912686e-07,
	"loss": 1.686,
	"step": 208
	},
	{
	"epoch": 3.814814814814815,
	"grad_norm": 2.171420345125834,
	"learning_rate": 6.091128980873045e-07,
	"loss": 1.9347,
	"step": 209
	},
	{
	"epoch": 3.8333333333333335,
	"grad_norm": 1.8008532771859842,
	"learning_rate": 5.997751928437219e-07,
	"loss": 2.1292,
	"step": 210
	},
	{
	"epoch": 3.851851851851852,
	"grad_norm": 1.502892647903443,
	"learning_rate": 5.904788573647282e-07,
	"loss": 1.7302,
	"step": 211
	},
	{
	"epoch": 3.8703703703703702,
	"grad_norm": 1.4720170454603325,
	"learning_rate": 5.812248525782901e-07,
	"loss": 1.6652,
	"step": 212
	},
	{
	"epoch": 3.888888888888889,
	"grad_norm": 1.4078435809618528,
	"learning_rate": 5.720141350368072e-07,
	"loss": 1.7847,
	"step": 213
	},
	{
	"epoch": 3.9074074074074074,
	"grad_norm": 1.2860107867972834,
	"learning_rate": 5.628476568182349e-07,
	"loss": 1.818,
	"step": 214
	},
	{
	"epoch": 3.925925925925926,
	"grad_norm": 1.5761560916907795,
	"learning_rate": 5.537263654276743e-07,
	"loss": 1.787,
	"step": 215
	},
	{
	"epoch": 3.9444444444444446,
	"grad_norm": 1.463921943518727,
	"learning_rate": 5.446512036994286e-07,
	"loss": 1.9223,
	"step": 216
	},
	{
	"epoch": 3.962962962962963,
	"grad_norm": 1.2770391505323755,
	"learning_rate": 5.356231096995499e-07,
	"loss": 1.5593,
	"step": 217
	},
	{
	"epoch": 3.9814814814814814,
	"grad_norm": 1.4711865688844035,
	"learning_rate": 5.266430166288704e-07,
	"loss": 2.0863,
	"step": 218
	},
	{
	"epoch": 4.0,
	"grad_norm": 1.1447313661292717,
	"learning_rate": 5.177118527265437e-07,
	"loss": 1.9428,
	"step": 219
	},
	{
	"epoch": 4.018518518518519,
	"grad_norm": 1.6196943319397998,
	"learning_rate": 5.088305411740965e-07,
	"loss": 2.2068,
	"step": 220
	},
	{
	"epoch": 4.018518518518518,
	"grad_norm": 1.2766493962889875,
	"learning_rate": 5.000000000000002e-07,
	"loss": 1.7437,
	"step": 221
	},
	{
	"epoch": 4.037037037037037,
	"grad_norm": 1.594306405599087,
	"learning_rate": 4.912211419847793e-07,
	"loss": 2.0219,
	"step": 222
	},
	{
	"epoch": 4.055555555555555,
	"grad_norm": 1.227716475966799,
	"learning_rate": 4.82494874566662e-07,
	"loss": 2.187,
	"step": 223
	},
	{
	"epoch": 4.074074074074074,
	"grad_norm": 1.2852396998354376,
	"learning_rate": 4.738220997477784e-07,
	"loss": 1.8363,
	"step": 224
	},
	{
	"epoch": 4.092592592592593,
	"grad_norm": 1.0923893050000644,
	"learning_rate": 4.6520371400092584e-07,
	"loss": 1.7177,
	"step": 225
	},
	{
	"epoch": 4.111111111111111,
	"grad_norm": 1.1495819987216884,
	"learning_rate": 4.5664060817690476e-07,
	"loss": 2.0734,
	"step": 226
	},
	{
	"epoch": 4.12962962962963,
	"grad_norm": 1.1120083230916684,
	"learning_rate": 4.481336674124323e-07,
	"loss": 1.7847,
	"step": 227
	},
	{
	"epoch": 4.148148148148148,
	"grad_norm": 0.9789098979808262,
	"learning_rate": 4.3968377103865016e-07,
	"loss": 1.7989,
	"step": 228
	},
	{
	"epoch": 4.166666666666667,
	"grad_norm": 0.9342477457439083,
	"learning_rate": 4.3129179249023274e-07,
	"loss": 1.6785,
	"step": 229
	},
	{
	"epoch": 4.185185185185185,
	"grad_norm": 1.0718449337061247,
	"learning_rate": 4.229585992151006e-07,
	"loss": 1.7953,
	"step": 230
	},
	{
	"epoch": 4.203703703703703,
	"grad_norm": 1.1500516991492213,
	"learning_rate": 4.1468505258475784e-07,
	"loss": 1.3975,
	"step": 231
	},
	{
	"epoch": 4.222222222222222,
	"grad_norm": 0.9650831232767911,
	"learning_rate": 4.0647200780525483e-07,
	"loss": 1.8603,
	"step": 232
	},
	{
	"epoch": 4.2407407407407405,
	"grad_norm": 1.0207088687244406,
	"learning_rate": 3.983203138287876e-07,
	"loss": 1.9807,
	"step": 233
	},
	{
	"epoch": 4.2592592592592595,
	"grad_norm": 1.1991752171611891,
	"learning_rate": 3.9023081326594564e-07,
	"loss": 2.2322,
	"step": 234
	},
	{
	"epoch": 4.277777777777778,
	"grad_norm": 1.0807801212200088,
	"learning_rate": 3.822043422986153e-07,
	"loss": 1.6295,
	"step": 235
	},
	{
	"epoch": 4.296296296296296,
	"grad_norm": 1.0103392155699495,
	"learning_rate": 3.742417305935442e-07,
	"loss": 1.7882,
	"step": 236
	},
	{
	"epoch": 4.314814814814815,
	"grad_norm": 1.0657639750720669,
	"learning_rate": 3.663438012165848e-07,
	"loss": 1.6027,
	"step": 237
	},
	{
	"epoch": 4.333333333333333,
	"grad_norm": 0.9495451533397854,
	"learning_rate": 3.5851137054761426e-07,
	"loss": 1.8212,
	"step": 238
	},
	{
	"epoch": 4.351851851851852,
	"grad_norm": 1.0780389016215326,
	"learning_rate": 3.507452481961495e-07,
	"loss": 1.6304,
	"step": 239
	},
	{
	"epoch": 4.37037037037037,
	"grad_norm": 1.0244203325558825,
	"learning_rate": 3.430462369176619e-07,
	"loss": 1.9347,
	"step": 240
	},
	{
	"epoch": 4.388888888888889,
	"grad_norm": 0.9762810523750869,
	"learning_rate": 3.3541513253059726e-07,
	"loss": 2.0351,
	"step": 241
	},
	{
	"epoch": 4.407407407407407,
	"grad_norm": 0.8894982063199672,
	"learning_rate": 3.278527238341163e-07,
	"loss": 1.7788,
	"step": 242
	},
	{
	"epoch": 4.425925925925926,
	"grad_norm": 0.9573443483478868,
	"learning_rate": 3.2035979252655976e-07,
	"loss": 1.6824,
	"step": 243
	},
	{
	"epoch": 4.444444444444445,
	"grad_norm": 0.878347387417952,
	"learning_rate": 3.129371131246459e-07,
	"loss": 1.7893,
	"step": 244
	},
	{
	"epoch": 4.462962962962963,
	"grad_norm": 1.2131347174643223,
	"learning_rate": 3.05585452883412e-07,
	"loss": 2.4755,
	"step": 245
	},
	{
	"epoch": 4.481481481481482,
	"grad_norm": 0.9278993006726863,
	"learning_rate": 2.9830557171690693e-07,
	"loss": 2.051,
	"step": 246
	},
	{
	"epoch": 4.5,
	"grad_norm": 0.9769923688632531,
	"learning_rate": 2.910982221196404e-07,
	"loss": 1.8307,
	"step": 247
	},
	{
	"epoch": 4.518518518518518,
	"grad_norm": 1.0084007217465136,
	"learning_rate": 2.8396414908880095e-07,
	"loss": 2.0386,
	"step": 248
	},
	{
	"epoch": 4.537037037037037,
	"grad_norm": 1.0273787706173494,
	"learning_rate": 2.769040900472488e-07,
	"loss": 1.9072,
	"step": 249
	},
	{
	"epoch": 4.555555555555555,
	"grad_norm": 0.8621559648712259,
	"learning_rate": 2.6991877476728985e-07,
	"loss": 1.706,
	"step": 250
	},
	{
	"epoch": 4.574074074074074,
	"grad_norm": 0.8247377172080764,
	"learning_rate": 2.6300892529524264e-07,
	"loss": 1.8414,
	"step": 251
	},
	{
	"epoch": 4.592592592592593,
	"grad_norm": 0.8925073470001154,
	"learning_rate": 2.56175255876804e-07,
	"loss": 1.9007,
	"step": 252
	},
	{
	"epoch": 4.611111111111111,
	"grad_norm": 0.7860274094152706,
	"learning_rate": 2.494184728832179e-07,
	"loss": 1.8654,
	"step": 253
	},
	{
	"epoch": 4.62962962962963,
	"grad_norm": 0.8936613069940655,
	"learning_rate": 2.427392747382623e-07,
	"loss": 1.6996,
	"step": 254
	},
	{
	"epoch": 4.648148148148148,
	"grad_norm": 1.0827181264619206,
	"learning_rate": 2.3613835184605523e-07,
	"loss": 1.9413,
	"step": 255
	},
	{
	"epoch": 4.666666666666667,
	"grad_norm": 0.8918696543620299,
	"learning_rate": 2.2961638651968974e-07,
	"loss": 1.856,
	"step": 256
	},
	{
	"epoch": 4.685185185185185,
	"grad_norm": 0.9976782397503938,
	"learning_rate": 2.2317405291070567e-07,
	"loss": 1.8228,
	"step": 257
	},
	{
	"epoch": 4.703703703703704,
	"grad_norm": 1.021922767232776,
	"learning_rate": 2.1681201693940666e-07,
	"loss": 2.0057,
	"step": 258
	},
	{
	"epoch": 4.722222222222222,
	"grad_norm": 1.1673943142630625,
	"learning_rate": 2.1053093622602402e-07,
	"loss": 1.9204,
	"step": 259
	},
	{
	"epoch": 4.7407407407407405,
	"grad_norm": 1.0912049168909328,
	"learning_rate": 2.043314600227425e-07,
	"loss": 1.8173,
	"step": 260
	},
	{
	"epoch": 4.7592592592592595,
	"grad_norm": 0.9358084522077252,
	"learning_rate": 1.9821422914658957e-07,
	"loss": 2.0846,
	"step": 261
	},
	{
	"epoch": 4.777777777777778,
	"grad_norm": 1.0481784665647413,
	"learning_rate": 1.921798759131953e-07,
	"loss": 1.9789,
	"step": 262
	},
	{
	"epoch": 4.796296296296296,
	"grad_norm": 0.983048254792995,
	"learning_rate": 1.8622902407143392e-07,
	"loss": 1.9294,
	"step": 263
	},
	{
	"epoch": 4.814814814814815,
	"grad_norm": 0.8359638487960833,
	"learning_rate": 1.8036228873894744e-07,
	"loss": 1.7806,
	"step": 264
	},
	{
	"epoch": 4.833333333333333,
	"grad_norm": 1.1295927764034195,
	"learning_rate": 1.7458027633856475e-07,
	"loss": 1.9495,
	"step": 265
	},
	{
	"epoch": 4.851851851851852,
	"grad_norm": 1.1032897990848558,
	"learning_rate": 1.6888358453561646e-07,
	"loss": 2.0724,
	"step": 266
	},
	{
	"epoch": 4.87037037037037,
	"grad_norm": 0.855002738874884,
	"learning_rate": 1.632728021761579e-07,
	"loss": 2.102,
	"step": 267
	},
	{
	"epoch": 4.888888888888889,
	"grad_norm": 1.0646161730662291,
	"learning_rate": 1.5774850922610116e-07,
	"loss": 1.9046,
	"step": 268
	},
	{
	"epoch": 4.907407407407407,
	"grad_norm": 1.0109654313968932,
	"learning_rate": 1.5231127671126676e-07,
	"loss": 2.0854,
	"step": 269
	},
	{
	"epoch": 4.925925925925926,
	"grad_norm": 0.9390534047671891,
	"learning_rate": 1.4696166665835852e-07,
	"loss": 2.1436,
	"step": 270
	},
	{
	"epoch": 4.944444444444445,
	"grad_norm": 0.9838446669064714,
	"learning_rate": 1.4170023203686875e-07,
	"loss": 1.9317,
	"step": 271
	},
	{
	"epoch": 4.962962962962963,
	"grad_norm": 1.0678273880700424,
	"learning_rate": 1.3652751670192075e-07,
	"loss": 1.8309,
	"step": 272
	},
	{
	"epoch": 4.981481481481482,
	"grad_norm": 1.1853311551704062,
	"learning_rate": 1.3144405533805136e-07,
	"loss": 1.948,
	"step": 273
	},
	{
	"epoch": 5.0,
	"grad_norm": 1.0844767215232378,
	"learning_rate": 1.2645037340394281e-07,
	"loss": 2.1066,
	"step": 274
	},
	{
	"epoch": 5.018518518518518,
	"grad_norm": 0.8509695959322425,
	"learning_rate": 1.2154698707810928e-07,
	"loss": 1.9217,
	"step": 275
	},
	{
	"epoch": 5.037037037037037,
	"grad_norm": 0.9599815386335595,
	"learning_rate": 1.167344032055394e-07,
	"loss": 1.9898,
	"step": 276
	},
	{
	"epoch": 5.055555555555555,
	"grad_norm": 0.9561022219351966,
	"learning_rate": 1.1201311924530688e-07,
	"loss": 1.6967,
	"step": 277
	},
	{
	"epoch": 5.074074074074074,
	"grad_norm": 0.8614534074294055,
	"learning_rate": 1.0738362321914995e-07,
	"loss": 1.7586,
	"step": 278
	},
	{
	"epoch": 5.092592592592593,
	"grad_norm": 0.884706815883145,
	"learning_rate": 1.0284639366102598e-07,
	"loss": 1.8692,
	"step": 279
	},
	{
	"epoch": 5.111111111111111,
	"grad_norm": 0.8641496604329509,
	"learning_rate": 9.840189956764677e-08,
	"loss": 2.1101,
	"step": 280
	},
	{
	"epoch": 5.12962962962963,
	"grad_norm": 0.8465414034017087,
	"learning_rate": 9.405060035000134e-08,
	"loss": 1.7827,
	"step": 281
	},
	{
	"epoch": 5.148148148148148,
	"grad_norm": 0.6966794157650356,
	"learning_rate": 8.979294578586738e-08,
	"loss": 1.6446,
	"step": 282
	},
	{
	"epoch": 5.166666666666667,
	"grad_norm": 0.8581271311276034,
	"learning_rate": 8.562937597331898e-08,
	"loss": 1.7243,
	"step": 283
	},
	{
	"epoch": 5.185185185185185,
	"grad_norm": 0.9976947326325505,
	"learning_rate": 8.156032128523694e-08,
	"loss": 1.8994,
	"step": 284
	},
	{
	"epoch": 5.203703703703703,
	"grad_norm": 0.9786757162446749,
	"learning_rate": 7.758620232482083e-08,
	"loss": 1.8625,
	"step": 285
	},
	{
	"epoch": 5.222222222222222,
	"grad_norm": 0.7563393752170862,
	"learning_rate": 7.370742988211364e-08,
	"loss": 1.7512,
	"step": 286
	},
	{
	"epoch": 5.2407407407407405,
	"grad_norm": 0.7955178168012043,
	"learning_rate": 6.99244048915405e-08,
	"loss": 2.2105,
	"step": 287
	},
	{
	"epoch": 5.2592592592592595,
	"grad_norm": 0.8951178929520269,
	"learning_rate": 6.623751839046455e-08,
	"loss": 1.8276,
	"step": 288
	},
	{
	"epoch": 5.277777777777778,
	"grad_norm": 0.9912120605663316,
	"learning_rate": 6.264715147876742e-08,
	"loss": 2.2784,
	"step": 289
	},
	{
	"epoch": 5.296296296296296,
	"grad_norm": 0.759976000502015,
	"learning_rate": 5.915367527945614e-08,
	"loss": 1.9346,
	"step": 290
	},
	{
	"epoch": 5.314814814814815,
	"grad_norm": 0.7423091105639062,
	"learning_rate": 5.575745090030137e-08,
	"loss": 1.8795,
	"step": 291
	},
	{
	"epoch": 5.333333333333333,
	"grad_norm": 0.7811530255930925,
	"learning_rate": 5.245882939651181e-08,
	"loss": 2.0584,
	"step": 292
	},
	{
	"epoch": 5.351851851851852,
	"grad_norm": 0.9202352755672565,
	"learning_rate": 4.9258151734445694e-08,
	"loss": 2.0563,
	"step": 293
	},
	{
	"epoch": 5.37037037037037,
	"grad_norm": 0.7972657702760176,
	"learning_rate": 4.6155748756367294e-08,
	"loss": 1.8333,
	"step": 294
	},
	{
	"epoch": 5.388888888888889,
	"grad_norm": 0.6829451582697305,
	"learning_rate": 4.3151941146248873e-08,
	"loss": 1.9896,
	"step": 295
	},
	{
	"epoch": 5.407407407407407,
	"grad_norm": 0.7886670762082094,
	"learning_rate": 4.0247039396622e-08,
	"loss": 1.8183,
	"step": 296
	},
	{
	"epoch": 5.425925925925926,
	"grad_norm": 0.8840244220041553,
	"learning_rate": 3.7441343776484113e-08,
	"loss": 1.9354,
	"step": 297
	},
	{
	"epoch": 5.444444444444445,
	"grad_norm": 0.71587738270711,
	"learning_rate": 3.4735144300260255e-08,
	"loss": 2.0167,
	"step": 298
	},
	{
	"epoch": 5.462962962962963,
	"grad_norm": 0.7108094024246895,
	"learning_rate": 3.212872069782513e-08,
	"loss": 1.7169,
	"step": 299
	},
	{
	"epoch": 5.481481481481482,
	"grad_norm": 0.6662930242485889,
	"learning_rate": 2.962234238558925e-08,
	"loss": 2.2062,
	"step": 300
	},
	{
	"epoch": 5.5,
	"grad_norm": 0.7122621954506775,
	"learning_rate": 2.721626843864977e-08,
	"loss": 2.0591,
	"step": 301
	},
	{
	"epoch": 5.518518518518518,
	"grad_norm": 0.626318180659774,
	"learning_rate": 2.491074756401068e-08,
	"loss": 1.5866,
	"step": 302
	},
	{
	"epoch": 5.537037037037037,
	"grad_norm": 0.6909592708288532,
	"learning_rate": 2.2706018074875043e-08,
	"loss": 1.9005,
	"step": 303
	},
	{
	"epoch": 5.555555555555555,
	"grad_norm": 0.7144569439769612,
	"learning_rate": 2.0602307866012246e-08,
	"loss": 2.0294,
	"step": 304
	},
	{
	"epoch": 5.574074074074074,
	"grad_norm": 0.684647174393133,
	"learning_rate": 1.8599834390199853e-08,
	"loss": 1.6046,
	"step": 305
	},
	{
	"epoch": 5.592592592592593,
	"grad_norm": 0.7752801436279185,
	"learning_rate": 1.6698804635747576e-08,
	"loss": 1.7937,
	"step": 306
	},
	{
	"epoch": 5.611111111111111,
	"grad_norm": 0.6862611972609113,
	"learning_rate": 1.4899415105101066e-08,
	"loss": 1.7256,
	"step": 307
	},
	{
	"epoch": 5.62962962962963,
	"grad_norm": 0.6608135193001434,
	"learning_rate": 1.3201851794530371e-08,
	"loss": 1.7763,
	"step": 308
	},
	{
	"epoch": 5.648148148148148,
	"grad_norm": 0.7625095579861546,
	"learning_rate": 1.1606290174903888e-08,
	"loss": 2.0082,
	"step": 309
	},
	{
	"epoch": 5.666666666666667,
	"grad_norm": 0.6914220267730987,
	"learning_rate": 1.0112895173551183e-08,
	"loss": 1.9359,
	"step": 310
	},
	{
	"epoch": 5.685185185185185,
	"grad_norm": 0.6505975431309626,
	"learning_rate": 8.721821157214316e-09,
	"loss": 1.9317,
	"step": 311
	},
	{
	"epoch": 5.703703703703704,
	"grad_norm": 0.6947915176450158,
	"learning_rate": 7.433211916092141e-09,
	"loss": 1.6243,
	"step": 312
	},
	{
	"epoch": 5.722222222222222,
	"grad_norm": 0.6360099423433963,
	"learning_rate": 6.247200648976991e-09,
	"loss": 1.9931,
	"step": 313
	},
	{
	"epoch": 5.7407407407407405,
	"grad_norm": 0.6796797146249973,
	"learning_rate": 5.163909949486233e-09,
	"loss": 1.9858,
	"step": 314
	},
	{
	"epoch": 5.7592592592592595,
	"grad_norm": 0.7636965994787633,
	"learning_rate": 4.183451793390747e-09,
	"loss": 1.8201,
	"step": 315
	},
	{
	"epoch": 5.777777777777778,
	"grad_norm": 0.6434704456483539,
	"learning_rate": 3.30592752703962e-09,
	"loss": 1.5983,
	"step": 316
	},
	{
	"epoch": 5.796296296296296,
	"grad_norm": 0.6697682736960676,
	"learning_rate": 2.531427856885093e-09,
	"loss": 1.985,
	"step": 317
	},
	{
	"epoch": 5.814814814814815,
	"grad_norm": 0.657234650874368,
	"learning_rate": 1.8600328401061627e-09,
	"loss": 2.0918,
	"step": 318
	},
	{
	"epoch": 5.833333333333333,
	"grad_norm": 0.6249721935624161,
	"learning_rate": 1.2918118763335372e-09,
	"loss": 2.1123,
	"step": 319
	},
	{
	"epoch": 5.851851851851852,
	"grad_norm": 0.7274585554347512,
	"learning_rate": 8.268237004757095e-10,
	"loss": 2.2962,
	"step": 320
	},
	{
	"epoch": 5.87037037037037,
	"grad_norm": 0.6060864357328691,
	"learning_rate": 4.651163766484778e-10,
	"loss": 1.6461,
	"step": 321
	},
	{
	"epoch": 5.888888888888889,
	"grad_norm": 0.6626618247650778,
	"learning_rate": 2.0672729320581063e-10,
	"loss": 2.0178,
	"step": 322
	},
	{
	"epoch": 5.907407407407407,
	"grad_norm": 0.5905608542721459,
	"learning_rate": 5.1683158875936994e-11,
	"loss": 1.7269,
	"step": 323
	},
	{
	"epoch": 5.925925925925926,
	"grad_norm": 0.7138681736753105,
	"learning_rate": 0.0,
	"loss": 2.11,
	"step": 324
	}
	],
	"logging_steps": 1,
	"max_steps": 324,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 6,
	"save_steps": 54,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 128024720179200.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}