Training in progress, step 200, checkpoint

9593afd verified 15 days ago

36.8 kB

	{
	"best_metric": 0.7234218120574951,
	"best_model_checkpoint": "miner_id_24/checkpoint-200",
	"epoch": 0.009289363678588018,
	"eval_steps": 50,
	"global_step": 200,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 4.644681839294008e-05,
	"grad_norm": 3.092576503753662,
	"learning_rate": 1.018e-05,
	"loss": 0.997,
	"step": 1
	},
	{
	"epoch": 4.644681839294008e-05,
	"eval_loss": 1.5409296751022339,
	"eval_runtime": 162.8209,
	"eval_samples_per_second": 55.681,
	"eval_steps_per_second": 13.923,
	"step": 1
	},
	{
	"epoch": 9.289363678588016e-05,
	"grad_norm": 21.47955322265625,
	"learning_rate": 2.036e-05,
	"loss": 1.9273,
	"step": 2
	},
	{
	"epoch": 0.00013934045517882026,
	"grad_norm": 9.852048873901367,
	"learning_rate": 3.0539999999999996e-05,
	"loss": 1.6379,
	"step": 3
	},
	{
	"epoch": 0.00018578727357176033,
	"grad_norm": 17.509506225585938,
	"learning_rate": 4.072e-05,
	"loss": 1.4906,
	"step": 4
	},
	{
	"epoch": 0.00023223409196470042,
	"grad_norm": 14.546015739440918,
	"learning_rate": 5.09e-05,
	"loss": 1.4437,
	"step": 5
	},
	{
	"epoch": 0.0002786809103576405,
	"grad_norm": 5.5904154777526855,
	"learning_rate": 6.107999999999999e-05,
	"loss": 1.6272,
	"step": 6
	},
	{
	"epoch": 0.0003251277287505806,
	"grad_norm": 4.112157821655273,
	"learning_rate": 7.125999999999999e-05,
	"loss": 1.4437,
	"step": 7
	},
	{
	"epoch": 0.00037157454714352065,
	"grad_norm": 4.384551048278809,
	"learning_rate": 8.144e-05,
	"loss": 1.3646,
	"step": 8
	},
	{
	"epoch": 0.0004180213655364608,
	"grad_norm": 8.227641105651855,
	"learning_rate": 9.162e-05,
	"loss": 1.1622,
	"step": 9
	},
	{
	"epoch": 0.00046446818392940084,
	"grad_norm": 5.1519856452941895,
	"learning_rate": 0.0001018,
	"loss": 1.4487,
	"step": 10
	},
	{
	"epoch": 0.0005109150023223409,
	"grad_norm": 9.391843795776367,
	"learning_rate": 0.00010126421052631578,
	"loss": 1.2691,
	"step": 11
	},
	{
	"epoch": 0.000557361820715281,
	"grad_norm": 5.215498924255371,
	"learning_rate": 0.00010072842105263156,
	"loss": 0.9428,
	"step": 12
	},
	{
	"epoch": 0.000603808639108221,
	"grad_norm": 2.952871084213257,
	"learning_rate": 0.00010019263157894736,
	"loss": 1.0689,
	"step": 13
	},
	{
	"epoch": 0.0006502554575011612,
	"grad_norm": 2.8391802310943604,
	"learning_rate": 9.965684210526316e-05,
	"loss": 0.9291,
	"step": 14
	},
	{
	"epoch": 0.0006967022758941013,
	"grad_norm": 2.461745023727417,
	"learning_rate": 9.912105263157895e-05,
	"loss": 0.8318,
	"step": 15
	},
	{
	"epoch": 0.0007431490942870413,
	"grad_norm": 2.3736178874969482,
	"learning_rate": 9.858526315789473e-05,
	"loss": 0.5747,
	"step": 16
	},
	{
	"epoch": 0.0007895959126799814,
	"grad_norm": 3.788600444793701,
	"learning_rate": 9.804947368421052e-05,
	"loss": 0.9676,
	"step": 17
	},
	{
	"epoch": 0.0008360427310729215,
	"grad_norm": 3.9328246116638184,
	"learning_rate": 9.75136842105263e-05,
	"loss": 1.0193,
	"step": 18
	},
	{
	"epoch": 0.0008824895494658616,
	"grad_norm": 2.693528652191162,
	"learning_rate": 9.69778947368421e-05,
	"loss": 0.7466,
	"step": 19
	},
	{
	"epoch": 0.0009289363678588017,
	"grad_norm": 3.4937636852264404,
	"learning_rate": 9.644210526315789e-05,
	"loss": 0.8632,
	"step": 20
	},
	{
	"epoch": 0.0009753831862517418,
	"grad_norm": 2.1122593879699707,
	"learning_rate": 9.590631578947369e-05,
	"loss": 0.7247,
	"step": 21
	},
	{
	"epoch": 0.0010218300046446818,
	"grad_norm": 3.186523675918579,
	"learning_rate": 9.537052631578947e-05,
	"loss": 0.6886,
	"step": 22
	},
	{
	"epoch": 0.001068276823037622,
	"grad_norm": 2.758934497833252,
	"learning_rate": 9.483473684210526e-05,
	"loss": 0.6994,
	"step": 23
	},
	{
	"epoch": 0.001114723641430562,
	"grad_norm": 2.430767774581909,
	"learning_rate": 9.429894736842104e-05,
	"loss": 0.6421,
	"step": 24
	},
	{
	"epoch": 0.0011611704598235022,
	"grad_norm": 3.4728782176971436,
	"learning_rate": 9.376315789473684e-05,
	"loss": 0.8879,
	"step": 25
	},
	{
	"epoch": 0.001207617278216442,
	"grad_norm": 3.511162519454956,
	"learning_rate": 9.322736842105262e-05,
	"loss": 0.9696,
	"step": 26
	},
	{
	"epoch": 0.0012540640966093822,
	"grad_norm": 3.0230774879455566,
	"learning_rate": 9.269157894736842e-05,
	"loss": 0.9589,
	"step": 27
	},
	{
	"epoch": 0.0013005109150023223,
	"grad_norm": 2.1474082469940186,
	"learning_rate": 9.215578947368421e-05,
	"loss": 0.7707,
	"step": 28
	},
	{
	"epoch": 0.0013469577333952625,
	"grad_norm": 2.3117761611938477,
	"learning_rate": 9.162e-05,
	"loss": 0.7724,
	"step": 29
	},
	{
	"epoch": 0.0013934045517882026,
	"grad_norm": 1.9512385129928589,
	"learning_rate": 9.108421052631578e-05,
	"loss": 0.603,
	"step": 30
	},
	{
	"epoch": 0.0014398513701811425,
	"grad_norm": 6.22908878326416,
	"learning_rate": 9.054842105263158e-05,
	"loss": 1.0569,
	"step": 31
	},
	{
	"epoch": 0.0014862981885740826,
	"grad_norm": 2.2944276332855225,
	"learning_rate": 9.001263157894736e-05,
	"loss": 0.6613,
	"step": 32
	},
	{
	"epoch": 0.0015327450069670227,
	"grad_norm": 2.312437057495117,
	"learning_rate": 8.947684210526315e-05,
	"loss": 0.8758,
	"step": 33
	},
	{
	"epoch": 0.0015791918253599629,
	"grad_norm": 2.5488150119781494,
	"learning_rate": 8.894105263157895e-05,
	"loss": 0.635,
	"step": 34
	},
	{
	"epoch": 0.001625638643752903,
	"grad_norm": 3.658079147338867,
	"learning_rate": 8.840526315789473e-05,
	"loss": 1.0831,
	"step": 35
	},
	{
	"epoch": 0.001672085462145843,
	"grad_norm": 2.474161386489868,
	"learning_rate": 8.786947368421052e-05,
	"loss": 0.7918,
	"step": 36
	},
	{
	"epoch": 0.001718532280538783,
	"grad_norm": 2.5074217319488525,
	"learning_rate": 8.733368421052632e-05,
	"loss": 0.8514,
	"step": 37
	},
	{
	"epoch": 0.0017649790989317231,
	"grad_norm": 2.0377755165100098,
	"learning_rate": 8.67978947368421e-05,
	"loss": 0.6768,
	"step": 38
	},
	{
	"epoch": 0.0018114259173246632,
	"grad_norm": 2.2819857597351074,
	"learning_rate": 8.626210526315789e-05,
	"loss": 0.6528,
	"step": 39
	},
	{
	"epoch": 0.0018578727357176034,
	"grad_norm": 2.3973352909088135,
	"learning_rate": 8.572631578947367e-05,
	"loss": 0.8542,
	"step": 40
	},
	{
	"epoch": 0.0019043195541105435,
	"grad_norm": 2.628427267074585,
	"learning_rate": 8.519052631578947e-05,
	"loss": 0.8507,
	"step": 41
	},
	{
	"epoch": 0.0019507663725034836,
	"grad_norm": 3.116105556488037,
	"learning_rate": 8.465473684210527e-05,
	"loss": 0.9283,
	"step": 42
	},
	{
	"epoch": 0.0019972131908964235,
	"grad_norm": 3.5683062076568604,
	"learning_rate": 8.411894736842105e-05,
	"loss": 1.1937,
	"step": 43
	},
	{
	"epoch": 0.0020436600092893636,
	"grad_norm": 2.569610118865967,
	"learning_rate": 8.358315789473684e-05,
	"loss": 0.9237,
	"step": 44
	},
	{
	"epoch": 0.0020901068276823038,
	"grad_norm": 3.7425827980041504,
	"learning_rate": 8.304736842105262e-05,
	"loss": 1.3234,
	"step": 45
	},
	{
	"epoch": 0.002136553646075244,
	"grad_norm": 3.7030258178710938,
	"learning_rate": 8.251157894736841e-05,
	"loss": 0.7639,
	"step": 46
	},
	{
	"epoch": 0.002183000464468184,
	"grad_norm": 3.188816785812378,
	"learning_rate": 8.197578947368421e-05,
	"loss": 1.1931,
	"step": 47
	},
	{
	"epoch": 0.002229447282861124,
	"grad_norm": 5.445688724517822,
	"learning_rate": 8.144e-05,
	"loss": 0.8938,
	"step": 48
	},
	{
	"epoch": 0.0022758941012540643,
	"grad_norm": 2.3576200008392334,
	"learning_rate": 8.090421052631579e-05,
	"loss": 0.836,
	"step": 49
	},
	{
	"epoch": 0.0023223409196470044,
	"grad_norm": 22.260164260864258,
	"learning_rate": 8.036842105263158e-05,
	"loss": 1.0266,
	"step": 50
	},
	{
	"epoch": 0.0023223409196470044,
	"eval_loss": 0.8269708752632141,
	"eval_runtime": 162.7994,
	"eval_samples_per_second": 55.688,
	"eval_steps_per_second": 13.925,
	"step": 50
	},
	{
	"epoch": 0.002368787738039944,
	"grad_norm": 2.7304725646972656,
	"learning_rate": 7.983263157894736e-05,
	"loss": 0.7953,
	"step": 51
	},
	{
	"epoch": 0.002415234556432884,
	"grad_norm": 2.282052516937256,
	"learning_rate": 7.929684210526315e-05,
	"loss": 0.8493,
	"step": 52
	},
	{
	"epoch": 0.0024616813748258243,
	"grad_norm": 2.524898052215576,
	"learning_rate": 7.876105263157895e-05,
	"loss": 1.0108,
	"step": 53
	},
	{
	"epoch": 0.0025081281932187644,
	"grad_norm": 2.6745500564575195,
	"learning_rate": 7.822526315789473e-05,
	"loss": 1.0531,
	"step": 54
	},
	{
	"epoch": 0.0025545750116117046,
	"grad_norm": 3.1213998794555664,
	"learning_rate": 7.768947368421053e-05,
	"loss": 1.1068,
	"step": 55
	},
	{
	"epoch": 0.0026010218300046447,
	"grad_norm": 3.499636173248291,
	"learning_rate": 7.715368421052631e-05,
	"loss": 1.0808,
	"step": 56
	},
	{
	"epoch": 0.002647468648397585,
	"grad_norm": 3.125180721282959,
	"learning_rate": 7.66178947368421e-05,
	"loss": 0.8485,
	"step": 57
	},
	{
	"epoch": 0.002693915466790525,
	"grad_norm": 2.547490119934082,
	"learning_rate": 7.608210526315788e-05,
	"loss": 0.7604,
	"step": 58
	},
	{
	"epoch": 0.002740362285183465,
	"grad_norm": 2.058576822280884,
	"learning_rate": 7.554631578947368e-05,
	"loss": 0.665,
	"step": 59
	},
	{
	"epoch": 0.002786809103576405,
	"grad_norm": 2.624077320098877,
	"learning_rate": 7.501052631578947e-05,
	"loss": 0.6822,
	"step": 60
	},
	{
	"epoch": 0.0028332559219693453,
	"grad_norm": 1.4456878900527954,
	"learning_rate": 7.447473684210527e-05,
	"loss": 0.554,
	"step": 61
	},
	{
	"epoch": 0.002879702740362285,
	"grad_norm": 1.9477028846740723,
	"learning_rate": 7.393894736842105e-05,
	"loss": 0.712,
	"step": 62
	},
	{
	"epoch": 0.002926149558755225,
	"grad_norm": 2.0057406425476074,
	"learning_rate": 7.340315789473684e-05,
	"loss": 0.7368,
	"step": 63
	},
	{
	"epoch": 0.0029725963771481652,
	"grad_norm": 2.041309356689453,
	"learning_rate": 7.286736842105262e-05,
	"loss": 0.9478,
	"step": 64
	},
	{
	"epoch": 0.0030190431955411053,
	"grad_norm": 1.8585742712020874,
	"learning_rate": 7.233157894736842e-05,
	"loss": 0.5883,
	"step": 65
	},
	{
	"epoch": 0.0030654900139340455,
	"grad_norm": 2.3726940155029297,
	"learning_rate": 7.179578947368421e-05,
	"loss": 0.8448,
	"step": 66
	},
	{
	"epoch": 0.0031119368323269856,
	"grad_norm": 4.274697303771973,
	"learning_rate": 7.125999999999999e-05,
	"loss": 0.693,
	"step": 67
	},
	{
	"epoch": 0.0031583836507199257,
	"grad_norm": 1.7456036806106567,
	"learning_rate": 7.072421052631579e-05,
	"loss": 0.6139,
	"step": 68
	},
	{
	"epoch": 0.003204830469112866,
	"grad_norm": 2.077462673187256,
	"learning_rate": 7.018842105263158e-05,
	"loss": 0.6687,
	"step": 69
	},
	{
	"epoch": 0.003251277287505806,
	"grad_norm": 1.6591328382492065,
	"learning_rate": 6.965263157894736e-05,
	"loss": 0.6602,
	"step": 70
	},
	{
	"epoch": 0.003297724105898746,
	"grad_norm": 2.040104866027832,
	"learning_rate": 6.911684210526316e-05,
	"loss": 0.6718,
	"step": 71
	},
	{
	"epoch": 0.003344170924291686,
	"grad_norm": 2.031517505645752,
	"learning_rate": 6.858105263157894e-05,
	"loss": 0.6965,
	"step": 72
	},
	{
	"epoch": 0.003390617742684626,
	"grad_norm": 1.677396297454834,
	"learning_rate": 6.804526315789473e-05,
	"loss": 0.6022,
	"step": 73
	},
	{
	"epoch": 0.003437064561077566,
	"grad_norm": 2.6971142292022705,
	"learning_rate": 6.750947368421052e-05,
	"loss": 0.7803,
	"step": 74
	},
	{
	"epoch": 0.003483511379470506,
	"grad_norm": 1.2442923784255981,
	"learning_rate": 6.697368421052631e-05,
	"loss": 0.4904,
	"step": 75
	},
	{
	"epoch": 0.0035299581978634463,
	"grad_norm": 1.520882487297058,
	"learning_rate": 6.64378947368421e-05,
	"loss": 0.5449,
	"step": 76
	},
	{
	"epoch": 0.0035764050162563864,
	"grad_norm": 2.945136070251465,
	"learning_rate": 6.59021052631579e-05,
	"loss": 0.5945,
	"step": 77
	},
	{
	"epoch": 0.0036228518346493265,
	"grad_norm": 2.225796937942505,
	"learning_rate": 6.536631578947368e-05,
	"loss": 0.8414,
	"step": 78
	},
	{
	"epoch": 0.0036692986530422666,
	"grad_norm": 3.5419042110443115,
	"learning_rate": 6.483052631578947e-05,
	"loss": 0.951,
	"step": 79
	},
	{
	"epoch": 0.0037157454714352067,
	"grad_norm": 2.4470789432525635,
	"learning_rate": 6.429473684210525e-05,
	"loss": 0.6766,
	"step": 80
	},
	{
	"epoch": 0.003762192289828147,
	"grad_norm": 1.8150739669799805,
	"learning_rate": 6.375894736842104e-05,
	"loss": 0.6212,
	"step": 81
	},
	{
	"epoch": 0.003808639108221087,
	"grad_norm": 2.2378828525543213,
	"learning_rate": 6.322315789473684e-05,
	"loss": 0.912,
	"step": 82
	},
	{
	"epoch": 0.003855085926614027,
	"grad_norm": 2.66448974609375,
	"learning_rate": 6.268736842105264e-05,
	"loss": 0.7284,
	"step": 83
	},
	{
	"epoch": 0.0039015327450069672,
	"grad_norm": 2.0171289443969727,
	"learning_rate": 6.215157894736842e-05,
	"loss": 0.5339,
	"step": 84
	},
	{
	"epoch": 0.003947979563399907,
	"grad_norm": 1.829827070236206,
	"learning_rate": 6.16157894736842e-05,
	"loss": 0.6982,
	"step": 85
	},
	{
	"epoch": 0.003994426381792847,
	"grad_norm": 1.3786966800689697,
	"learning_rate": 6.107999999999999e-05,
	"loss": 0.4433,
	"step": 86
	},
	{
	"epoch": 0.004040873200185788,
	"grad_norm": 2.0562403202056885,
	"learning_rate": 6.054421052631578e-05,
	"loss": 0.791,
	"step": 87
	},
	{
	"epoch": 0.004087320018578727,
	"grad_norm": 1.8710417747497559,
	"learning_rate": 6.000842105263157e-05,
	"loss": 0.5487,
	"step": 88
	},
	{
	"epoch": 0.004133766836971668,
	"grad_norm": 2.46244215965271,
	"learning_rate": 5.947263157894737e-05,
	"loss": 0.9045,
	"step": 89
	},
	{
	"epoch": 0.0041802136553646075,
	"grad_norm": 1.9283982515335083,
	"learning_rate": 5.893684210526316e-05,
	"loss": 0.6472,
	"step": 90
	},
	{
	"epoch": 0.004226660473757547,
	"grad_norm": 1.794073462486267,
	"learning_rate": 5.8401052631578944e-05,
	"loss": 0.7332,
	"step": 91
	},
	{
	"epoch": 0.004273107292150488,
	"grad_norm": 2.4211764335632324,
	"learning_rate": 5.7865263157894736e-05,
	"loss": 0.9175,
	"step": 92
	},
	{
	"epoch": 0.0043195541105434275,
	"grad_norm": 2.131087064743042,
	"learning_rate": 5.732947368421052e-05,
	"loss": 0.846,
	"step": 93
	},
	{
	"epoch": 0.004366000928936368,
	"grad_norm": 3.606595993041992,
	"learning_rate": 5.6793684210526306e-05,
	"loss": 1.023,
	"step": 94
	},
	{
	"epoch": 0.004412447747329308,
	"grad_norm": 2.0817458629608154,
	"learning_rate": 5.6257894736842105e-05,
	"loss": 0.7585,
	"step": 95
	},
	{
	"epoch": 0.004458894565722248,
	"grad_norm": 2.736661672592163,
	"learning_rate": 5.57221052631579e-05,
	"loss": 0.9443,
	"step": 96
	},
	{
	"epoch": 0.004505341384115188,
	"grad_norm": 1.7814656496047974,
	"learning_rate": 5.518631578947368e-05,
	"loss": 0.9056,
	"step": 97
	},
	{
	"epoch": 0.0045517882025081285,
	"grad_norm": 2.098845958709717,
	"learning_rate": 5.4650526315789474e-05,
	"loss": 0.7014,
	"step": 98
	},
	{
	"epoch": 0.004598235020901068,
	"grad_norm": 2.316159963607788,
	"learning_rate": 5.411473684210526e-05,
	"loss": 0.7147,
	"step": 99
	},
	{
	"epoch": 0.004644681839294009,
	"grad_norm": 2.182925224304199,
	"learning_rate": 5.3578947368421044e-05,
	"loss": 0.7637,
	"step": 100
	},
	{
	"epoch": 0.004644681839294009,
	"eval_loss": 0.7575440406799316,
	"eval_runtime": 162.5731,
	"eval_samples_per_second": 55.766,
	"eval_steps_per_second": 13.944,
	"step": 100
	},
	{
	"epoch": 0.0046911286576869484,
	"grad_norm": 1.547819972038269,
	"learning_rate": 5.3043157894736836e-05,
	"loss": 0.7768,
	"step": 101
	},
	{
	"epoch": 0.004737575476079888,
	"grad_norm": 2.0550365447998047,
	"learning_rate": 5.2507368421052635e-05,
	"loss": 0.8542,
	"step": 102
	},
	{
	"epoch": 0.004784022294472829,
	"grad_norm": 1.7644928693771362,
	"learning_rate": 5.197157894736842e-05,
	"loss": 0.8406,
	"step": 103
	},
	{
	"epoch": 0.004830469112865768,
	"grad_norm": 2.784821033477783,
	"learning_rate": 5.143578947368421e-05,
	"loss": 1.0809,
	"step": 104
	},
	{
	"epoch": 0.004876915931258709,
	"grad_norm": 2.643968105316162,
	"learning_rate": 5.09e-05,
	"loss": 1.1358,
	"step": 105
	},
	{
	"epoch": 0.004923362749651649,
	"grad_norm": 2.6479332447052,
	"learning_rate": 5.036421052631578e-05,
	"loss": 0.9534,
	"step": 106
	},
	{
	"epoch": 0.004969809568044589,
	"grad_norm": 1.5139284133911133,
	"learning_rate": 4.982842105263158e-05,
	"loss": 0.6037,
	"step": 107
	},
	{
	"epoch": 0.005016256386437529,
	"grad_norm": 2.2001686096191406,
	"learning_rate": 4.9292631578947366e-05,
	"loss": 1.0875,
	"step": 108
	},
	{
	"epoch": 0.005062703204830469,
	"grad_norm": 1.906663417816162,
	"learning_rate": 4.875684210526315e-05,
	"loss": 0.8251,
	"step": 109
	},
	{
	"epoch": 0.005109150023223409,
	"grad_norm": 1.6133707761764526,
	"learning_rate": 4.822105263157894e-05,
	"loss": 0.7804,
	"step": 110
	},
	{
	"epoch": 0.00515559684161635,
	"grad_norm": 1.6872289180755615,
	"learning_rate": 4.7685263157894735e-05,
	"loss": 0.5731,
	"step": 111
	},
	{
	"epoch": 0.005202043660009289,
	"grad_norm": 1.2829549312591553,
	"learning_rate": 4.714947368421052e-05,
	"loss": 0.4865,
	"step": 112
	},
	{
	"epoch": 0.005248490478402229,
	"grad_norm": 1.8299009799957275,
	"learning_rate": 4.661368421052631e-05,
	"loss": 0.7806,
	"step": 113
	},
	{
	"epoch": 0.00529493729679517,
	"grad_norm": 1.3792545795440674,
	"learning_rate": 4.6077894736842104e-05,
	"loss": 0.5824,
	"step": 114
	},
	{
	"epoch": 0.005341384115188109,
	"grad_norm": 1.554002046585083,
	"learning_rate": 4.554210526315789e-05,
	"loss": 0.7399,
	"step": 115
	},
	{
	"epoch": 0.00538783093358105,
	"grad_norm": 1.8911974430084229,
	"learning_rate": 4.500631578947368e-05,
	"loss": 0.8756,
	"step": 116
	},
	{
	"epoch": 0.0054342777519739895,
	"grad_norm": 2.071706771850586,
	"learning_rate": 4.447052631578947e-05,
	"loss": 0.8007,
	"step": 117
	},
	{
	"epoch": 0.00548072457036693,
	"grad_norm": 2.202437162399292,
	"learning_rate": 4.393473684210526e-05,
	"loss": 0.8207,
	"step": 118
	},
	{
	"epoch": 0.00552717138875987,
	"grad_norm": 1.33773672580719,
	"learning_rate": 4.339894736842105e-05,
	"loss": 0.5947,
	"step": 119
	},
	{
	"epoch": 0.00557361820715281,
	"grad_norm": 1.8306225538253784,
	"learning_rate": 4.2863157894736835e-05,
	"loss": 0.7513,
	"step": 120
	},
	{
	"epoch": 0.00562006502554575,
	"grad_norm": 1.6813061237335205,
	"learning_rate": 4.2327368421052634e-05,
	"loss": 0.6929,
	"step": 121
	},
	{
	"epoch": 0.005666511843938691,
	"grad_norm": 1.5658451318740845,
	"learning_rate": 4.179157894736842e-05,
	"loss": 0.5594,
	"step": 122
	},
	{
	"epoch": 0.00571295866233163,
	"grad_norm": 1.4536268711090088,
	"learning_rate": 4.1255789473684204e-05,
	"loss": 0.6208,
	"step": 123
	},
	{
	"epoch": 0.00575940548072457,
	"grad_norm": 1.9043149948120117,
	"learning_rate": 4.072e-05,
	"loss": 0.6332,
	"step": 124
	},
	{
	"epoch": 0.0058058522991175105,
	"grad_norm": 2.0733814239501953,
	"learning_rate": 4.018421052631579e-05,
	"loss": 0.6764,
	"step": 125
	},
	{
	"epoch": 0.00585229911751045,
	"grad_norm": 1.7627897262573242,
	"learning_rate": 3.9648421052631573e-05,
	"loss": 0.7384,
	"step": 126
	},
	{
	"epoch": 0.005898745935903391,
	"grad_norm": 1.6006054878234863,
	"learning_rate": 3.9112631578947365e-05,
	"loss": 0.6752,
	"step": 127
	},
	{
	"epoch": 0.0059451927542963304,
	"grad_norm": 1.4541168212890625,
	"learning_rate": 3.857684210526316e-05,
	"loss": 0.6692,
	"step": 128
	},
	{
	"epoch": 0.005991639572689271,
	"grad_norm": 1.3292078971862793,
	"learning_rate": 3.804105263157894e-05,
	"loss": 0.5353,
	"step": 129
	},
	{
	"epoch": 0.006038086391082211,
	"grad_norm": 1.6884562969207764,
	"learning_rate": 3.7505263157894734e-05,
	"loss": 0.7562,
	"step": 130
	},
	{
	"epoch": 0.006084533209475151,
	"grad_norm": 1.0477324724197388,
	"learning_rate": 3.6969473684210526e-05,
	"loss": 0.3243,
	"step": 131
	},
	{
	"epoch": 0.006130980027868091,
	"grad_norm": 1.4753937721252441,
	"learning_rate": 3.643368421052631e-05,
	"loss": 0.5291,
	"step": 132
	},
	{
	"epoch": 0.0061774268462610315,
	"grad_norm": 1.7509891986846924,
	"learning_rate": 3.5897894736842103e-05,
	"loss": 0.6364,
	"step": 133
	},
	{
	"epoch": 0.006223873664653971,
	"grad_norm": 2.055713653564453,
	"learning_rate": 3.5362105263157895e-05,
	"loss": 0.782,
	"step": 134
	},
	{
	"epoch": 0.006270320483046911,
	"grad_norm": 2.0711967945098877,
	"learning_rate": 3.482631578947368e-05,
	"loss": 0.7677,
	"step": 135
	},
	{
	"epoch": 0.006316767301439851,
	"grad_norm": 1.3271763324737549,
	"learning_rate": 3.429052631578947e-05,
	"loss": 0.5314,
	"step": 136
	},
	{
	"epoch": 0.006363214119832791,
	"grad_norm": 1.7668476104736328,
	"learning_rate": 3.375473684210526e-05,
	"loss": 0.8441,
	"step": 137
	},
	{
	"epoch": 0.006409660938225732,
	"grad_norm": 1.773807168006897,
	"learning_rate": 3.321894736842105e-05,
	"loss": 0.7551,
	"step": 138
	},
	{
	"epoch": 0.006456107756618671,
	"grad_norm": 1.6312812566757202,
	"learning_rate": 3.268315789473684e-05,
	"loss": 0.8111,
	"step": 139
	},
	{
	"epoch": 0.006502554575011612,
	"grad_norm": 1.6187984943389893,
	"learning_rate": 3.2147368421052627e-05,
	"loss": 0.6781,
	"step": 140
	},
	{
	"epoch": 0.006549001393404552,
	"grad_norm": 1.6448986530303955,
	"learning_rate": 3.161157894736842e-05,
	"loss": 0.5815,
	"step": 141
	},
	{
	"epoch": 0.006595448211797492,
	"grad_norm": 1.9651342630386353,
	"learning_rate": 3.107578947368421e-05,
	"loss": 0.7199,
	"step": 142
	},
	{
	"epoch": 0.006641895030190432,
	"grad_norm": 2.4397366046905518,
	"learning_rate": 3.0539999999999996e-05,
	"loss": 0.7959,
	"step": 143
	},
	{
	"epoch": 0.006688341848583372,
	"grad_norm": 1.7463246583938599,
	"learning_rate": 3.0004210526315784e-05,
	"loss": 0.7066,
	"step": 144
	},
	{
	"epoch": 0.006734788666976312,
	"grad_norm": 1.6383179426193237,
	"learning_rate": 2.946842105263158e-05,
	"loss": 0.5844,
	"step": 145
	},
	{
	"epoch": 0.006781235485369252,
	"grad_norm": 2.03802752494812,
	"learning_rate": 2.8932631578947368e-05,
	"loss": 0.7851,
	"step": 146
	},
	{
	"epoch": 0.006827682303762192,
	"grad_norm": 1.5965886116027832,
	"learning_rate": 2.8396842105263153e-05,
	"loss": 0.7421,
	"step": 147
	},
	{
	"epoch": 0.006874129122155132,
	"grad_norm": 1.6589584350585938,
	"learning_rate": 2.786105263157895e-05,
	"loss": 0.7362,
	"step": 148
	},
	{
	"epoch": 0.006920575940548073,
	"grad_norm": 1.904215693473816,
	"learning_rate": 2.7325263157894737e-05,
	"loss": 0.842,
	"step": 149
	},
	{
	"epoch": 0.006967022758941012,
	"grad_norm": 1.954518437385559,
	"learning_rate": 2.6789473684210522e-05,
	"loss": 0.8687,
	"step": 150
	},
	{
	"epoch": 0.006967022758941012,
	"eval_loss": 0.7381066679954529,
	"eval_runtime": 163.587,
	"eval_samples_per_second": 55.42,
	"eval_steps_per_second": 13.858,
	"step": 150
	},
	{
	"epoch": 0.007013469577333953,
	"grad_norm": 1.321113109588623,
	"learning_rate": 2.6253684210526317e-05,
	"loss": 0.6275,
	"step": 151
	},
	{
	"epoch": 0.0070599163957268925,
	"grad_norm": 1.9313557147979736,
	"learning_rate": 2.5717894736842106e-05,
	"loss": 0.8083,
	"step": 152
	},
	{
	"epoch": 0.007106363214119833,
	"grad_norm": 2.39707350730896,
	"learning_rate": 2.518210526315789e-05,
	"loss": 1.1125,
	"step": 153
	},
	{
	"epoch": 0.007152810032512773,
	"grad_norm": 2.2258388996124268,
	"learning_rate": 2.4646315789473683e-05,
	"loss": 0.9885,
	"step": 154
	},
	{
	"epoch": 0.007199256850905713,
	"grad_norm": 2.207796096801758,
	"learning_rate": 2.411052631578947e-05,
	"loss": 0.8165,
	"step": 155
	},
	{
	"epoch": 0.007245703669298653,
	"grad_norm": 2.068021774291992,
	"learning_rate": 2.357473684210526e-05,
	"loss": 0.9621,
	"step": 156
	},
	{
	"epoch": 0.0072921504876915936,
	"grad_norm": 3.123298168182373,
	"learning_rate": 2.3038947368421052e-05,
	"loss": 0.9623,
	"step": 157
	},
	{
	"epoch": 0.007338597306084533,
	"grad_norm": 1.7516857385635376,
	"learning_rate": 2.250315789473684e-05,
	"loss": 0.7126,
	"step": 158
	},
	{
	"epoch": 0.007385044124477473,
	"grad_norm": 1.756352424621582,
	"learning_rate": 2.196736842105263e-05,
	"loss": 0.6112,
	"step": 159
	},
	{
	"epoch": 0.0074314909428704135,
	"grad_norm": 1.324313998222351,
	"learning_rate": 2.1431578947368418e-05,
	"loss": 0.4837,
	"step": 160
	},
	{
	"epoch": 0.007477937761263353,
	"grad_norm": 1.6090558767318726,
	"learning_rate": 2.089578947368421e-05,
	"loss": 0.5255,
	"step": 161
	},
	{
	"epoch": 0.007524384579656294,
	"grad_norm": 1.3804148435592651,
	"learning_rate": 2.036e-05,
	"loss": 0.4674,
	"step": 162
	},
	{
	"epoch": 0.007570831398049233,
	"grad_norm": 1.3651041984558105,
	"learning_rate": 1.9824210526315787e-05,
	"loss": 0.7306,
	"step": 163
	},
	{
	"epoch": 0.007617278216442174,
	"grad_norm": 1.8530007600784302,
	"learning_rate": 1.928842105263158e-05,
	"loss": 0.7491,
	"step": 164
	},
	{
	"epoch": 0.007663725034835114,
	"grad_norm": 1.493820309638977,
	"learning_rate": 1.8752631578947367e-05,
	"loss": 0.6576,
	"step": 165
	},
	{
	"epoch": 0.007710171853228054,
	"grad_norm": 1.199458360671997,
	"learning_rate": 1.8216842105263156e-05,
	"loss": 0.3963,
	"step": 166
	},
	{
	"epoch": 0.007756618671620994,
	"grad_norm": 1.6788829565048218,
	"learning_rate": 1.7681052631578948e-05,
	"loss": 0.7574,
	"step": 167
	},
	{
	"epoch": 0.0078030654900139345,
	"grad_norm": 1.2864102125167847,
	"learning_rate": 1.7145263157894736e-05,
	"loss": 0.5522,
	"step": 168
	},
	{
	"epoch": 0.007849512308406874,
	"grad_norm": 1.8316515684127808,
	"learning_rate": 1.6609473684210525e-05,
	"loss": 0.5285,
	"step": 169
	},
	{
	"epoch": 0.007895959126799815,
	"grad_norm": 1.116195559501648,
	"learning_rate": 1.6073684210526313e-05,
	"loss": 0.5598,
	"step": 170
	},
	{
	"epoch": 0.007942405945192754,
	"grad_norm": 1.7328448295593262,
	"learning_rate": 1.5537894736842105e-05,
	"loss": 0.5905,
	"step": 171
	},
	{
	"epoch": 0.007988852763585694,
	"grad_norm": 1.5131913423538208,
	"learning_rate": 1.5002105263157892e-05,
	"loss": 0.5292,
	"step": 172
	},
	{
	"epoch": 0.008035299581978635,
	"grad_norm": 1.8316717147827148,
	"learning_rate": 1.4466315789473684e-05,
	"loss": 0.547,
	"step": 173
	},
	{
	"epoch": 0.008081746400371575,
	"grad_norm": 1.4963319301605225,
	"learning_rate": 1.3930526315789474e-05,
	"loss": 0.6936,
	"step": 174
	},
	{
	"epoch": 0.008128193218764514,
	"grad_norm": 1.6800758838653564,
	"learning_rate": 1.3394736842105261e-05,
	"loss": 0.6586,
	"step": 175
	},
	{
	"epoch": 0.008174640037157455,
	"grad_norm": 1.0843589305877686,
	"learning_rate": 1.2858947368421053e-05,
	"loss": 0.4544,
	"step": 176
	},
	{
	"epoch": 0.008221086855550395,
	"grad_norm": 1.6353403329849243,
	"learning_rate": 1.2323157894736842e-05,
	"loss": 0.6454,
	"step": 177
	},
	{
	"epoch": 0.008267533673943336,
	"grad_norm": 1.6226987838745117,
	"learning_rate": 1.178736842105263e-05,
	"loss": 0.7083,
	"step": 178
	},
	{
	"epoch": 0.008313980492336275,
	"grad_norm": 1.2014755010604858,
	"learning_rate": 1.125157894736842e-05,
	"loss": 0.518,
	"step": 179
	},
	{
	"epoch": 0.008360427310729215,
	"grad_norm": 0.9961537718772888,
	"learning_rate": 1.0715789473684209e-05,
	"loss": 0.5034,
	"step": 180
	},
	{
	"epoch": 0.008406874129122156,
	"grad_norm": 1.2505362033843994,
	"learning_rate": 1.018e-05,
	"loss": 0.3744,
	"step": 181
	},
	{
	"epoch": 0.008453320947515094,
	"grad_norm": 1.209218144416809,
	"learning_rate": 9.64421052631579e-06,
	"loss": 0.5659,
	"step": 182
	},
	{
	"epoch": 0.008499767765908035,
	"grad_norm": 1.5287011861801147,
	"learning_rate": 9.108421052631578e-06,
	"loss": 0.6864,
	"step": 183
	},
	{
	"epoch": 0.008546214584300976,
	"grad_norm": 1.5412635803222656,
	"learning_rate": 8.572631578947368e-06,
	"loss": 0.784,
	"step": 184
	},
	{
	"epoch": 0.008592661402693916,
	"grad_norm": 1.2702871561050415,
	"learning_rate": 8.036842105263157e-06,
	"loss": 0.6373,
	"step": 185
	},
	{
	"epoch": 0.008639108221086855,
	"grad_norm": 1.2671583890914917,
	"learning_rate": 7.501052631578946e-06,
	"loss": 0.4503,
	"step": 186
	},
	{
	"epoch": 0.008685555039479795,
	"grad_norm": 1.6440976858139038,
	"learning_rate": 6.965263157894737e-06,
	"loss": 0.6182,
	"step": 187
	},
	{
	"epoch": 0.008732001857872736,
	"grad_norm": 1.6860370635986328,
	"learning_rate": 6.4294736842105265e-06,
	"loss": 0.6629,
	"step": 188
	},
	{
	"epoch": 0.008778448676265677,
	"grad_norm": 1.778744101524353,
	"learning_rate": 5.893684210526315e-06,
	"loss": 0.707,
	"step": 189
	},
	{
	"epoch": 0.008824895494658615,
	"grad_norm": 2.259239673614502,
	"learning_rate": 5.3578947368421044e-06,
	"loss": 0.8088,
	"step": 190
	},
	{
	"epoch": 0.008871342313051556,
	"grad_norm": 1.5541491508483887,
	"learning_rate": 4.822105263157895e-06,
	"loss": 0.6756,
	"step": 191
	},
	{
	"epoch": 0.008917789131444497,
	"grad_norm": 1.634876012802124,
	"learning_rate": 4.286315789473684e-06,
	"loss": 0.8733,
	"step": 192
	},
	{
	"epoch": 0.008964235949837435,
	"grad_norm": 1.7315068244934082,
	"learning_rate": 3.750526315789473e-06,
	"loss": 0.6555,
	"step": 193
	},
	{
	"epoch": 0.009010682768230376,
	"grad_norm": 1.7454522848129272,
	"learning_rate": 3.2147368421052633e-06,
	"loss": 0.754,
	"step": 194
	},
	{
	"epoch": 0.009057129586623316,
	"grad_norm": 1.7474086284637451,
	"learning_rate": 2.6789473684210522e-06,
	"loss": 0.8278,
	"step": 195
	},
	{
	"epoch": 0.009103576405016257,
	"grad_norm": 1.9185843467712402,
	"learning_rate": 2.143157894736842e-06,
	"loss": 0.7852,
	"step": 196
	},
	{
	"epoch": 0.009150023223409196,
	"grad_norm": 1.923701286315918,
	"learning_rate": 1.6073684210526316e-06,
	"loss": 0.6713,
	"step": 197
	},
	{
	"epoch": 0.009196470041802136,
	"grad_norm": 1.524601697921753,
	"learning_rate": 1.071578947368421e-06,
	"loss": 0.7535,
	"step": 198
	},
	{
	"epoch": 0.009242916860195077,
	"grad_norm": 2.139697313308716,
	"learning_rate": 5.357894736842105e-07,
	"loss": 0.9147,
	"step": 199
	},
	{
	"epoch": 0.009289363678588018,
	"grad_norm": 1.9575085639953613,
	"learning_rate": 0.0,
	"loss": 0.8268,
	"step": 200
	},
	{
	"epoch": 0.009289363678588018,
	"eval_loss": 0.7234218120574951,
	"eval_runtime": 163.2305,
	"eval_samples_per_second": 55.541,
	"eval_steps_per_second": 13.888,
	"step": 200
	}
	],
	"logging_steps": 1,
	"max_steps": 200,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 50,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 5,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.2158942759092224e+16,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}