Training in progress, epoch 0, checkpoint

e53459c verified about 1 month ago

15.8 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.009493858660179197,
	"eval_steps": 100,
	"global_step": 400,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 2.373464665044799e-05,
	"eval_loss": 1.1060571670532227,
	"eval_runtime": 512.4208,
	"eval_samples_per_second": 34.62,
	"eval_steps_per_second": 17.31,
	"step": 1
	},
	{
	"epoch": 0.00011867323325223996,
	"grad_norm": 0.06994107365608215,
	"learning_rate": 1.6666666666666667e-05,
	"loss": 0.7434,
	"step": 5
	},
	{
	"epoch": 0.00023734646650447992,
	"grad_norm": 0.08292974531650543,
	"learning_rate": 3.3333333333333335e-05,
	"loss": 0.86,
	"step": 10
	},
	{
	"epoch": 0.00035601969975671986,
	"grad_norm": 0.11479827016592026,
	"learning_rate": 5e-05,
	"loss": 0.9153,
	"step": 15
	},
	{
	"epoch": 0.00047469293300895983,
	"grad_norm": 0.13735784590244293,
	"learning_rate": 6.666666666666667e-05,
	"loss": 0.945,
	"step": 20
	},
	{
	"epoch": 0.0005933661662611998,
	"grad_norm": 0.15192271769046783,
	"learning_rate": 8.333333333333334e-05,
	"loss": 1.0809,
	"step": 25
	},
	{
	"epoch": 0.0007120393995134397,
	"grad_norm": 0.148358553647995,
	"learning_rate": 0.0001,
	"loss": 1.0627,
	"step": 30
	},
	{
	"epoch": 0.0008307126327656797,
	"grad_norm": 0.230050191283226,
	"learning_rate": 9.995494831023409e-05,
	"loss": 1.1128,
	"step": 35
	},
	{
	"epoch": 0.0009493858660179197,
	"grad_norm": 0.2764645218849182,
	"learning_rate": 9.981987442712633e-05,
	"loss": 1.0843,
	"step": 40
	},
	{
	"epoch": 0.0010680590992701597,
	"grad_norm": 0.2294786274433136,
	"learning_rate": 9.959502176294383e-05,
	"loss": 1.0233,
	"step": 45
	},
	{
	"epoch": 0.0011867323325223996,
	"grad_norm": 0.3697080612182617,
	"learning_rate": 9.928079551738543e-05,
	"loss": 0.9998,
	"step": 50
	},
	{
	"epoch": 0.0013054055657746395,
	"grad_norm": 0.12134025990962982,
	"learning_rate": 9.887776194738432e-05,
	"loss": 0.813,
	"step": 55
	},
	{
	"epoch": 0.0014240787990268794,
	"grad_norm": 0.1504671722650528,
	"learning_rate": 9.838664734667495e-05,
	"loss": 0.8707,
	"step": 60
	},
	{
	"epoch": 0.0015427520322791194,
	"grad_norm": 0.12335077673196793,
	"learning_rate": 9.780833673696254e-05,
	"loss": 0.8697,
	"step": 65
	},
	{
	"epoch": 0.0016614252655313595,
	"grad_norm": 0.1612686961889267,
	"learning_rate": 9.714387227305422e-05,
	"loss": 0.8871,
	"step": 70
	},
	{
	"epoch": 0.0017800984987835994,
	"grad_norm": 0.15226492285728455,
	"learning_rate": 9.639445136482548e-05,
	"loss": 1.024,
	"step": 75
	},
	{
	"epoch": 0.0018987717320358393,
	"grad_norm": 0.1592480093240738,
	"learning_rate": 9.55614245194068e-05,
	"loss": 1.006,
	"step": 80
	},
	{
	"epoch": 0.0020174449652880793,
	"grad_norm": 0.16184721887111664,
	"learning_rate": 9.464629290747842e-05,
	"loss": 0.9669,
	"step": 85
	},
	{
	"epoch": 0.0021361181985403194,
	"grad_norm": 0.20670561492443085,
	"learning_rate": 9.365070565805941e-05,
	"loss": 0.941,
	"step": 90
	},
	{
	"epoch": 0.002254791431792559,
	"grad_norm": 0.2282506376504898,
	"learning_rate": 9.257645688666556e-05,
	"loss": 0.9345,
	"step": 95
	},
	{
	"epoch": 0.0023734646650447992,
	"grad_norm": 0.40875211358070374,
	"learning_rate": 9.142548246219212e-05,
	"loss": 0.9923,
	"step": 100
	},
	{
	"epoch": 0.0023734646650447992,
	"eval_loss": 0.9161506295204163,
	"eval_runtime": 511.6193,
	"eval_samples_per_second": 34.674,
	"eval_steps_per_second": 17.337,
	"step": 100
	},
	{
	"epoch": 0.002492137898297039,
	"grad_norm": 0.09706299751996994,
	"learning_rate": 9.019985651834703e-05,
	"loss": 0.7927,
	"step": 105
	},
	{
	"epoch": 0.002610811131549279,
	"grad_norm": 0.12703746557235718,
	"learning_rate": 8.890178771592199e-05,
	"loss": 0.9126,
	"step": 110
	},
	{
	"epoch": 0.002729484364801519,
	"grad_norm": 0.152408629655838,
	"learning_rate": 8.753361526263621e-05,
	"loss": 0.8603,
	"step": 115
	},
	{
	"epoch": 0.002848157598053759,
	"grad_norm": 0.15565912425518036,
	"learning_rate": 8.609780469772623e-05,
	"loss": 0.863,
	"step": 120
	},
	{
	"epoch": 0.002966830831305999,
	"grad_norm": 0.1481216698884964,
	"learning_rate": 8.459694344887732e-05,
	"loss": 0.8306,
	"step": 125
	},
	{
	"epoch": 0.0030855040645582387,
	"grad_norm": 0.16268706321716309,
	"learning_rate": 8.303373616950408e-05,
	"loss": 0.9171,
	"step": 130
	},
	{
	"epoch": 0.003204177297810479,
	"grad_norm": 0.19657278060913086,
	"learning_rate": 8.141099986478212e-05,
	"loss": 1.0378,
	"step": 135
	},
	{
	"epoch": 0.003322850531062719,
	"grad_norm": 0.21237877011299133,
	"learning_rate": 7.973165881521434e-05,
	"loss": 0.9739,
	"step": 140
	},
	{
	"epoch": 0.0034415237643149587,
	"grad_norm": 0.22750777006149292,
	"learning_rate": 7.799873930687978e-05,
	"loss": 0.89,
	"step": 145
	},
	{
	"epoch": 0.003560196997567199,
	"grad_norm": 0.4223545789718628,
	"learning_rate": 7.621536417786159e-05,
	"loss": 0.8019,
	"step": 150
	},
	{
	"epoch": 0.0036788702308194385,
	"grad_norm": 0.10099593549966812,
	"learning_rate": 7.438474719068173e-05,
	"loss": 0.7283,
	"step": 155
	},
	{
	"epoch": 0.0037975434640716787,
	"grad_norm": 0.15844862163066864,
	"learning_rate": 7.251018724088367e-05,
	"loss": 0.8589,
	"step": 160
	},
	{
	"epoch": 0.003916216697323918,
	"grad_norm": 0.13598279654979706,
	"learning_rate": 7.059506241219965e-05,
	"loss": 0.8389,
	"step": 165
	},
	{
	"epoch": 0.0040348899305761585,
	"grad_norm": 0.1379881352186203,
	"learning_rate": 6.864282388901544e-05,
	"loss": 0.8838,
	"step": 170
	},
	{
	"epoch": 0.004153563163828399,
	"grad_norm": 0.1695917397737503,
	"learning_rate": 6.665698973710288e-05,
	"loss": 0.8816,
	"step": 175
	},
	{
	"epoch": 0.004272236397080639,
	"grad_norm": 0.1812783181667328,
	"learning_rate": 6.464113856382752e-05,
	"loss": 0.941,
	"step": 180
	},
	{
	"epoch": 0.004390909630332878,
	"grad_norm": 0.19394883513450623,
	"learning_rate": 6.259890306925627e-05,
	"loss": 0.9778,
	"step": 185
	},
	{
	"epoch": 0.004509582863585118,
	"grad_norm": 0.23465299606323242,
	"learning_rate": 6.0533963499786314e-05,
	"loss": 0.9645,
	"step": 190
	},
	{
	"epoch": 0.004628256096837358,
	"grad_norm": 0.25456446409225464,
	"learning_rate": 5.8450041016092464e-05,
	"loss": 0.9213,
	"step": 195
	},
	{
	"epoch": 0.0047469293300895984,
	"grad_norm": 0.4076145887374878,
	"learning_rate": 5.6350890987343944e-05,
	"loss": 0.884,
	"step": 200
	},
	{
	"epoch": 0.0047469293300895984,
	"eval_loss": 0.897860586643219,
	"eval_runtime": 510.3146,
	"eval_samples_per_second": 34.763,
	"eval_steps_per_second": 17.381,
	"step": 200
	},
	{
	"epoch": 0.004865602563341839,
	"grad_norm": 0.1094803586602211,
	"learning_rate": 5.4240296223775465e-05,
	"loss": 0.7631,
	"step": 205
	},
	{
	"epoch": 0.004984275796594078,
	"grad_norm": 0.14633063971996307,
	"learning_rate": 5.212206015980742e-05,
	"loss": 0.8653,
	"step": 210
	},
	{
	"epoch": 0.005102949029846318,
	"grad_norm": 0.12594805657863617,
	"learning_rate": 5e-05,
	"loss": 0.8278,
	"step": 215
	},
	{
	"epoch": 0.005221622263098558,
	"grad_norm": 0.1753065288066864,
	"learning_rate": 4.78779398401926e-05,
	"loss": 0.8959,
	"step": 220
	},
	{
	"epoch": 0.005340295496350798,
	"grad_norm": 0.1741386353969574,
	"learning_rate": 4.575970377622456e-05,
	"loss": 0.9233,
	"step": 225
	},
	{
	"epoch": 0.005458968729603038,
	"grad_norm": 0.19290021061897278,
	"learning_rate": 4.364910901265606e-05,
	"loss": 0.9547,
	"step": 230
	},
	{
	"epoch": 0.005577641962855278,
	"grad_norm": 0.22662971913814545,
	"learning_rate": 4.1549958983907555e-05,
	"loss": 0.9353,
	"step": 235
	},
	{
	"epoch": 0.005696315196107518,
	"grad_norm": 0.2653945982456207,
	"learning_rate": 3.94660365002137e-05,
	"loss": 0.9487,
	"step": 240
	},
	{
	"epoch": 0.005814988429359758,
	"grad_norm": 0.2608093321323395,
	"learning_rate": 3.740109693074375e-05,
	"loss": 0.9119,
	"step": 245
	},
	{
	"epoch": 0.005933661662611998,
	"grad_norm": 0.4665874242782593,
	"learning_rate": 3.5358861436172485e-05,
	"loss": 0.904,
	"step": 250
	},
	{
	"epoch": 0.006052334895864238,
	"grad_norm": 0.10215272009372711,
	"learning_rate": 3.334301026289712e-05,
	"loss": 0.7477,
	"step": 255
	},
	{
	"epoch": 0.0061710081291164775,
	"grad_norm": 0.1244097575545311,
	"learning_rate": 3.135717611098458e-05,
	"loss": 0.7905,
	"step": 260
	},
	{
	"epoch": 0.006289681362368718,
	"grad_norm": 0.16128472983837128,
	"learning_rate": 2.9404937587800375e-05,
	"loss": 0.8343,
	"step": 265
	},
	{
	"epoch": 0.006408354595620958,
	"grad_norm": 0.15076673030853271,
	"learning_rate": 2.748981275911633e-05,
	"loss": 0.7976,
	"step": 270
	},
	{
	"epoch": 0.006527027828873198,
	"grad_norm": 0.17758683860301971,
	"learning_rate": 2.5615252809318284e-05,
	"loss": 0.9116,
	"step": 275
	},
	{
	"epoch": 0.006645701062125438,
	"grad_norm": 0.22221983969211578,
	"learning_rate": 2.3784635822138424e-05,
	"loss": 0.9473,
	"step": 280
	},
	{
	"epoch": 0.006764374295377677,
	"grad_norm": 0.2009792923927307,
	"learning_rate": 2.2001260693120233e-05,
	"loss": 0.9147,
	"step": 285
	},
	{
	"epoch": 0.006883047528629917,
	"grad_norm": 0.24482344090938568,
	"learning_rate": 2.026834118478567e-05,
	"loss": 1.0044,
	"step": 290
	},
	{
	"epoch": 0.0070017207618821575,
	"grad_norm": 0.28756579756736755,
	"learning_rate": 1.858900013521788e-05,
	"loss": 1.0234,
	"step": 295
	},
	{
	"epoch": 0.007120393995134398,
	"grad_norm": 0.4237484931945801,
	"learning_rate": 1.6966263830495936e-05,
	"loss": 0.8254,
	"step": 300
	},
	{
	"epoch": 0.007120393995134398,
	"eval_loss": 0.890705406665802,
	"eval_runtime": 510.6082,
	"eval_samples_per_second": 34.743,
	"eval_steps_per_second": 17.371,
	"step": 300
	},
	{
	"epoch": 0.007239067228386638,
	"grad_norm": 0.09181042015552521,
	"learning_rate": 1.5403056551122697e-05,
	"loss": 0.7054,
	"step": 305
	},
	{
	"epoch": 0.007357740461638877,
	"grad_norm": 0.1410045176744461,
	"learning_rate": 1.3902195302273779e-05,
	"loss": 0.8037,
	"step": 310
	},
	{
	"epoch": 0.007476413694891117,
	"grad_norm": 0.1454688459634781,
	"learning_rate": 1.246638473736378e-05,
	"loss": 0.8922,
	"step": 315
	},
	{
	"epoch": 0.007595086928143357,
	"grad_norm": 0.17593573033809662,
	"learning_rate": 1.1098212284078036e-05,
	"loss": 0.9334,
	"step": 320
	},
	{
	"epoch": 0.0077137601613955975,
	"grad_norm": 0.18990731239318848,
	"learning_rate": 9.800143481652979e-06,
	"loss": 0.9446,
	"step": 325
	},
	{
	"epoch": 0.007832433394647837,
	"grad_norm": 0.1836443394422531,
	"learning_rate": 8.574517537807897e-06,
	"loss": 0.9762,
	"step": 330
	},
	{
	"epoch": 0.007951106627900077,
	"grad_norm": 0.23809511959552765,
	"learning_rate": 7.423543113334436e-06,
	"loss": 0.9713,
	"step": 335
	},
	{
	"epoch": 0.008069779861152317,
	"grad_norm": 0.23665811121463776,
	"learning_rate": 6.349294341940593e-06,
	"loss": 0.9209,
	"step": 340
	},
	{
	"epoch": 0.008188453094404557,
	"grad_norm": 0.2725285291671753,
	"learning_rate": 5.353707092521582e-06,
	"loss": 0.9288,
	"step": 345
	},
	{
	"epoch": 0.008307126327656797,
	"grad_norm": 0.4677680432796478,
	"learning_rate": 4.43857548059321e-06,
	"loss": 0.8756,
	"step": 350
	},
	{
	"epoch": 0.008425799560909037,
	"grad_norm": 0.10243045538663864,
	"learning_rate": 3.605548635174533e-06,
	"loss": 0.7671,
	"step": 355
	},
	{
	"epoch": 0.008544472794161278,
	"grad_norm": 0.1385096162557602,
	"learning_rate": 2.85612772694579e-06,
	"loss": 0.7777,
	"step": 360
	},
	{
	"epoch": 0.008663146027413518,
	"grad_norm": 0.13208024203777313,
	"learning_rate": 2.191663263037458e-06,
	"loss": 0.7676,
	"step": 365
	},
	{
	"epoch": 0.008781819260665756,
	"grad_norm": 0.16409678757190704,
	"learning_rate": 1.6133526533250565e-06,
	"loss": 0.8646,
	"step": 370
	},
	{
	"epoch": 0.008900492493917996,
	"grad_norm": 0.1728227734565735,
	"learning_rate": 1.1222380526156928e-06,
	"loss": 0.911,
	"step": 375
	},
	{
	"epoch": 0.009019165727170236,
	"grad_norm": 0.19500896334648132,
	"learning_rate": 7.192044826145771e-07,
	"loss": 0.9795,
	"step": 380
	},
	{
	"epoch": 0.009137838960422476,
	"grad_norm": 0.21884216368198395,
	"learning_rate": 4.049782370561583e-07,
	"loss": 0.8884,
	"step": 385
	},
	{
	"epoch": 0.009256512193674717,
	"grad_norm": 0.2533111572265625,
	"learning_rate": 1.8012557287367392e-07,
	"loss": 0.979,
	"step": 390
	},
	{
	"epoch": 0.009375185426926957,
	"grad_norm": 0.27901849150657654,
	"learning_rate": 4.5051689765929214e-08,
	"loss": 0.9472,
	"step": 395
	},
	{
	"epoch": 0.009493858660179197,
	"grad_norm": 0.41356849670410156,
	"learning_rate": 0.0,
	"loss": 0.7907,
	"step": 400
	},
	{
	"epoch": 0.009493858660179197,
	"eval_loss": 0.8899700045585632,
	"eval_runtime": 511.1186,
	"eval_samples_per_second": 34.708,
	"eval_steps_per_second": 17.354,
	"step": 400
	}
	],
	"logging_steps": 5,
	"max_steps": 400,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 6483000014929920.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}