test1 / outputs /checkpoint-2000 /trainer_state.json

Upload folder using huggingface_hub

f5e29c7 verified 10 months ago

17.7 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.7196904557179709,
	"eval_steps": 500,
	"global_step": 2000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.017196904557179708,
	"grad_norm": 1.7918040752410889,
	"learning_rate": 9.933333333333334e-05,
	"loss": 4.1644,
	"step": 20
	},
	{
	"epoch": 0.034393809114359415,
	"grad_norm": 1.8427823781967163,
	"learning_rate": 9.866666666666668e-05,
	"loss": 2.7767,
	"step": 40
	},
	{
	"epoch": 0.051590713671539126,
	"grad_norm": 1.2594960927963257,
	"learning_rate": 9.8e-05,
	"loss": 2.3015,
	"step": 60
	},
	{
	"epoch": 0.06878761822871883,
	"grad_norm": 1.5001391172409058,
	"learning_rate": 9.733333333333335e-05,
	"loss": 1.9096,
	"step": 80
	},
	{
	"epoch": 0.08598452278589853,
	"grad_norm": 1.4705618619918823,
	"learning_rate": 9.666666666666667e-05,
	"loss": 1.8592,
	"step": 100
	},
	{
	"epoch": 0.10318142734307825,
	"grad_norm": 1.678035020828247,
	"learning_rate": 9.6e-05,
	"loss": 1.7618,
	"step": 120
	},
	{
	"epoch": 0.12037833190025796,
	"grad_norm": 1.9186018705368042,
	"learning_rate": 9.533333333333334e-05,
	"loss": 1.612,
	"step": 140
	},
	{
	"epoch": 0.13757523645743766,
	"grad_norm": 2.0859336853027344,
	"learning_rate": 9.466666666666667e-05,
	"loss": 1.5829,
	"step": 160
	},
	{
	"epoch": 0.15477214101461736,
	"grad_norm": 2.2418243885040283,
	"learning_rate": 9.4e-05,
	"loss": 1.6236,
	"step": 180
	},
	{
	"epoch": 0.17196904557179707,
	"grad_norm": 2.3599705696105957,
	"learning_rate": 9.333333333333334e-05,
	"loss": 1.5204,
	"step": 200
	},
	{
	"epoch": 0.18916595012897677,
	"grad_norm": 2.346595525741577,
	"learning_rate": 9.266666666666666e-05,
	"loss": 1.4757,
	"step": 220
	},
	{
	"epoch": 0.2063628546861565,
	"grad_norm": 2.483389139175415,
	"learning_rate": 9.200000000000001e-05,
	"loss": 1.4369,
	"step": 240
	},
	{
	"epoch": 0.2235597592433362,
	"grad_norm": 2.320002555847168,
	"learning_rate": 9.133333333333334e-05,
	"loss": 1.391,
	"step": 260
	},
	{
	"epoch": 0.2407566638005159,
	"grad_norm": 3.222677230834961,
	"learning_rate": 9.066666666666667e-05,
	"loss": 1.5182,
	"step": 280
	},
	{
	"epoch": 0.2579535683576956,
	"grad_norm": 2.7384626865386963,
	"learning_rate": 9e-05,
	"loss": 1.1515,
	"step": 300
	},
	{
	"epoch": 0.2751504729148753,
	"grad_norm": 3.28292179107666,
	"learning_rate": 8.933333333333334e-05,
	"loss": 1.3981,
	"step": 320
	},
	{
	"epoch": 0.292347377472055,
	"grad_norm": 2.6418075561523438,
	"learning_rate": 8.866666666666668e-05,
	"loss": 1.448,
	"step": 340
	},
	{
	"epoch": 0.30954428202923473,
	"grad_norm": 2.810594081878662,
	"learning_rate": 8.800000000000001e-05,
	"loss": 1.1637,
	"step": 360
	},
	{
	"epoch": 0.32674118658641443,
	"grad_norm": 2.897336006164551,
	"learning_rate": 8.733333333333333e-05,
	"loss": 1.3715,
	"step": 380
	},
	{
	"epoch": 0.34393809114359414,
	"grad_norm": 3.5841643810272217,
	"learning_rate": 8.666666666666667e-05,
	"loss": 1.3044,
	"step": 400
	},
	{
	"epoch": 0.36113499570077384,
	"grad_norm": 3.0653135776519775,
	"learning_rate": 8.6e-05,
	"loss": 1.1584,
	"step": 420
	},
	{
	"epoch": 0.37833190025795355,
	"grad_norm": 3.761073112487793,
	"learning_rate": 8.533333333333334e-05,
	"loss": 1.2224,
	"step": 440
	},
	{
	"epoch": 0.39552880481513325,
	"grad_norm": 3.481926441192627,
	"learning_rate": 8.466666666666667e-05,
	"loss": 1.1676,
	"step": 460
	},
	{
	"epoch": 0.412725709372313,
	"grad_norm": 4.327862739562988,
	"learning_rate": 8.4e-05,
	"loss": 1.0294,
	"step": 480
	},
	{
	"epoch": 0.4299226139294927,
	"grad_norm": 4.155755996704102,
	"learning_rate": 8.333333333333334e-05,
	"loss": 1.2208,
	"step": 500
	},
	{
	"epoch": 0.4471195184866724,
	"grad_norm": 3.50590443611145,
	"learning_rate": 8.266666666666667e-05,
	"loss": 1.0706,
	"step": 520
	},
	{
	"epoch": 0.4643164230438521,
	"grad_norm": 4.00937557220459,
	"learning_rate": 8.2e-05,
	"loss": 1.0627,
	"step": 540
	},
	{
	"epoch": 0.4815133276010318,
	"grad_norm": 4.476954460144043,
	"learning_rate": 8.133333333333334e-05,
	"loss": 1.0246,
	"step": 560
	},
	{
	"epoch": 0.49871023215821153,
	"grad_norm": 4.1531476974487305,
	"learning_rate": 8.066666666666667e-05,
	"loss": 1.2647,
	"step": 580
	},
	{
	"epoch": 0.5159071367153912,
	"grad_norm": 3.9548251628875732,
	"learning_rate": 8e-05,
	"loss": 0.9846,
	"step": 600
	},
	{
	"epoch": 0.5331040412725709,
	"grad_norm": 4.803060531616211,
	"learning_rate": 7.933333333333334e-05,
	"loss": 0.9058,
	"step": 620
	},
	{
	"epoch": 0.5503009458297506,
	"grad_norm": 4.116948127746582,
	"learning_rate": 7.866666666666666e-05,
	"loss": 1.0455,
	"step": 640
	},
	{
	"epoch": 0.5674978503869303,
	"grad_norm": 3.5376293659210205,
	"learning_rate": 7.800000000000001e-05,
	"loss": 1.0034,
	"step": 660
	},
	{
	"epoch": 0.58469475494411,
	"grad_norm": 5.122928619384766,
	"learning_rate": 7.733333333333333e-05,
	"loss": 0.9539,
	"step": 680
	},
	{
	"epoch": 0.6018916595012898,
	"grad_norm": 4.396443843841553,
	"learning_rate": 7.666666666666667e-05,
	"loss": 1.0106,
	"step": 700
	},
	{
	"epoch": 0.6190885640584695,
	"grad_norm": 5.2031989097595215,
	"learning_rate": 7.6e-05,
	"loss": 1.1025,
	"step": 720
	},
	{
	"epoch": 0.6362854686156492,
	"grad_norm": 4.93772554397583,
	"learning_rate": 7.533333333333334e-05,
	"loss": 1.0214,
	"step": 740
	},
	{
	"epoch": 0.6534823731728289,
	"grad_norm": 3.970015048980713,
	"learning_rate": 7.466666666666667e-05,
	"loss": 0.8724,
	"step": 760
	},
	{
	"epoch": 0.6706792777300086,
	"grad_norm": 4.316510200500488,
	"learning_rate": 7.4e-05,
	"loss": 0.9296,
	"step": 780
	},
	{
	"epoch": 0.6878761822871883,
	"grad_norm": 5.551044464111328,
	"learning_rate": 7.333333333333333e-05,
	"loss": 0.9748,
	"step": 800
	},
	{
	"epoch": 0.705073086844368,
	"grad_norm": 5.091616630554199,
	"learning_rate": 7.266666666666667e-05,
	"loss": 0.9048,
	"step": 820
	},
	{
	"epoch": 0.7222699914015477,
	"grad_norm": 5.082363128662109,
	"learning_rate": 7.2e-05,
	"loss": 0.9605,
	"step": 840
	},
	{
	"epoch": 0.7394668959587274,
	"grad_norm": 4.591577053070068,
	"learning_rate": 7.133333333333334e-05,
	"loss": 0.803,
	"step": 860
	},
	{
	"epoch": 0.7566638005159071,
	"grad_norm": 3.200929880142212,
	"learning_rate": 7.066666666666667e-05,
	"loss": 0.8525,
	"step": 880
	},
	{
	"epoch": 0.7738607050730868,
	"grad_norm": 5.56381368637085,
	"learning_rate": 7e-05,
	"loss": 0.8088,
	"step": 900
	},
	{
	"epoch": 0.7910576096302665,
	"grad_norm": 4.371031761169434,
	"learning_rate": 6.933333333333334e-05,
	"loss": 0.811,
	"step": 920
	},
	{
	"epoch": 0.8082545141874462,
	"grad_norm": 5.641899585723877,
	"learning_rate": 6.866666666666666e-05,
	"loss": 0.8693,
	"step": 940
	},
	{
	"epoch": 0.825451418744626,
	"grad_norm": 5.0090436935424805,
	"learning_rate": 6.800000000000001e-05,
	"loss": 0.7813,
	"step": 960
	},
	{
	"epoch": 0.8426483233018057,
	"grad_norm": 7.000046730041504,
	"learning_rate": 6.733333333333333e-05,
	"loss": 0.8189,
	"step": 980
	},
	{
	"epoch": 0.8598452278589854,
	"grad_norm": 5.533496856689453,
	"learning_rate": 6.666666666666667e-05,
	"loss": 0.8019,
	"step": 1000
	},
	{
	"epoch": 0.8770421324161651,
	"grad_norm": 5.878244400024414,
	"learning_rate": 6.6e-05,
	"loss": 0.7308,
	"step": 1020
	},
	{
	"epoch": 0.8942390369733448,
	"grad_norm": 6.347448825836182,
	"learning_rate": 6.533333333333334e-05,
	"loss": 0.7523,
	"step": 1040
	},
	{
	"epoch": 0.9114359415305245,
	"grad_norm": 5.9593634605407715,
	"learning_rate": 6.466666666666666e-05,
	"loss": 0.7736,
	"step": 1060
	},
	{
	"epoch": 0.9286328460877042,
	"grad_norm": 5.173058986663818,
	"learning_rate": 6.400000000000001e-05,
	"loss": 0.803,
	"step": 1080
	},
	{
	"epoch": 0.945829750644884,
	"grad_norm": 6.1787109375,
	"learning_rate": 6.333333333333333e-05,
	"loss": 0.7256,
	"step": 1100
	},
	{
	"epoch": 0.9630266552020637,
	"grad_norm": 5.627285957336426,
	"learning_rate": 6.266666666666667e-05,
	"loss": 0.7492,
	"step": 1120
	},
	{
	"epoch": 0.9802235597592434,
	"grad_norm": 5.914905071258545,
	"learning_rate": 6.2e-05,
	"loss": 0.6695,
	"step": 1140
	},
	{
	"epoch": 0.9974204643164231,
	"grad_norm": 4.068761825561523,
	"learning_rate": 6.133333333333334e-05,
	"loss": 0.6607,
	"step": 1160
	},
	{
	"epoch": 1.0146173688736027,
	"grad_norm": 5.116635322570801,
	"learning_rate": 6.066666666666667e-05,
	"loss": 0.5824,
	"step": 1180
	},
	{
	"epoch": 1.0318142734307825,
	"grad_norm": 6.764676570892334,
	"learning_rate": 6e-05,
	"loss": 0.6238,
	"step": 1200
	},
	{
	"epoch": 1.049011177987962,
	"grad_norm": 3.931511640548706,
	"learning_rate": 5.9333333333333343e-05,
	"loss": 0.5651,
	"step": 1220
	},
	{
	"epoch": 1.0662080825451419,
	"grad_norm": 9.559135437011719,
	"learning_rate": 5.866666666666667e-05,
	"loss": 0.5615,
	"step": 1240
	},
	{
	"epoch": 1.0834049871023215,
	"grad_norm": 8.055045127868652,
	"learning_rate": 5.8e-05,
	"loss": 0.5606,
	"step": 1260
	},
	{
	"epoch": 1.1006018916595013,
	"grad_norm": 6.782190322875977,
	"learning_rate": 5.7333333333333336e-05,
	"loss": 0.5776,
	"step": 1280
	},
	{
	"epoch": 1.117798796216681,
	"grad_norm": 5.142735004425049,
	"learning_rate": 5.666666666666667e-05,
	"loss": 0.5509,
	"step": 1300
	},
	{
	"epoch": 1.1349957007738607,
	"grad_norm": 6.010578155517578,
	"learning_rate": 5.6000000000000006e-05,
	"loss": 0.5701,
	"step": 1320
	},
	{
	"epoch": 1.1521926053310405,
	"grad_norm": 5.171779155731201,
	"learning_rate": 5.5333333333333334e-05,
	"loss": 0.5485,
	"step": 1340
	},
	{
	"epoch": 1.16938950988822,
	"grad_norm": 5.51332426071167,
	"learning_rate": 5.466666666666666e-05,
	"loss": 0.5515,
	"step": 1360
	},
	{
	"epoch": 1.1865864144454,
	"grad_norm": 6.2720947265625,
	"learning_rate": 5.4000000000000005e-05,
	"loss": 0.5503,
	"step": 1380
	},
	{
	"epoch": 1.2037833190025795,
	"grad_norm": 6.498877048492432,
	"learning_rate": 5.333333333333333e-05,
	"loss": 0.525,
	"step": 1400
	},
	{
	"epoch": 1.2209802235597593,
	"grad_norm": 5.129275321960449,
	"learning_rate": 5.266666666666666e-05,
	"loss": 0.4942,
	"step": 1420
	},
	{
	"epoch": 1.238177128116939,
	"grad_norm": 4.145976543426514,
	"learning_rate": 5.2000000000000004e-05,
	"loss": 0.4961,
	"step": 1440
	},
	{
	"epoch": 1.2553740326741187,
	"grad_norm": 6.678504467010498,
	"learning_rate": 5.133333333333333e-05,
	"loss": 0.5032,
	"step": 1460
	},
	{
	"epoch": 1.2725709372312983,
	"grad_norm": 6.846457481384277,
	"learning_rate": 5.0666666666666674e-05,
	"loss": 0.5322,
	"step": 1480
	},
	{
	"epoch": 1.2897678417884781,
	"grad_norm": 7.58906888961792,
	"learning_rate": 5e-05,
	"loss": 0.477,
	"step": 1500
	},
	{
	"epoch": 1.3069647463456577,
	"grad_norm": 5.045712947845459,
	"learning_rate": 4.933333333333334e-05,
	"loss": 0.5139,
	"step": 1520
	},
	{
	"epoch": 1.3241616509028376,
	"grad_norm": 4.599825859069824,
	"learning_rate": 4.866666666666667e-05,
	"loss": 0.4997,
	"step": 1540
	},
	{
	"epoch": 1.3413585554600171,
	"grad_norm": 5.756386756896973,
	"learning_rate": 4.8e-05,
	"loss": 0.4841,
	"step": 1560
	},
	{
	"epoch": 1.358555460017197,
	"grad_norm": 4.89516544342041,
	"learning_rate": 4.7333333333333336e-05,
	"loss": 0.4183,
	"step": 1580
	},
	{
	"epoch": 1.3757523645743766,
	"grad_norm": 4.484691143035889,
	"learning_rate": 4.666666666666667e-05,
	"loss": 0.4185,
	"step": 1600
	},
	{
	"epoch": 1.3929492691315564,
	"grad_norm": 5.203677654266357,
	"learning_rate": 4.600000000000001e-05,
	"loss": 0.4097,
	"step": 1620
	},
	{
	"epoch": 1.410146173688736,
	"grad_norm": 6.922574996948242,
	"learning_rate": 4.5333333333333335e-05,
	"loss": 0.4367,
	"step": 1640
	},
	{
	"epoch": 1.4273430782459158,
	"grad_norm": 5.618770122528076,
	"learning_rate": 4.466666666666667e-05,
	"loss": 0.4453,
	"step": 1660
	},
	{
	"epoch": 1.4445399828030954,
	"grad_norm": 4.377410888671875,
	"learning_rate": 4.4000000000000006e-05,
	"loss": 0.4416,
	"step": 1680
	},
	{
	"epoch": 1.4617368873602752,
	"grad_norm": 7.413736343383789,
	"learning_rate": 4.3333333333333334e-05,
	"loss": 0.4488,
	"step": 1700
	},
	{
	"epoch": 1.4789337919174548,
	"grad_norm": 4.4008049964904785,
	"learning_rate": 4.266666666666667e-05,
	"loss": 0.4167,
	"step": 1720
	},
	{
	"epoch": 1.4961306964746346,
	"grad_norm": 5.33242130279541,
	"learning_rate": 4.2e-05,
	"loss": 0.486,
	"step": 1740
	},
	{
	"epoch": 1.5133276010318144,
	"grad_norm": 7.043882369995117,
	"learning_rate": 4.133333333333333e-05,
	"loss": 0.407,
	"step": 1760
	},
	{
	"epoch": 1.530524505588994,
	"grad_norm": 6.068751335144043,
	"learning_rate": 4.066666666666667e-05,
	"loss": 0.3846,
	"step": 1780
	},
	{
	"epoch": 1.5477214101461736,
	"grad_norm": 5.452756404876709,
	"learning_rate": 4e-05,
	"loss": 0.4327,
	"step": 1800
	},
	{
	"epoch": 1.5649183147033534,
	"grad_norm": 3.541025161743164,
	"learning_rate": 3.933333333333333e-05,
	"loss": 0.3734,
	"step": 1820
	},
	{
	"epoch": 1.5821152192605332,
	"grad_norm": 6.634982585906982,
	"learning_rate": 3.866666666666667e-05,
	"loss": 0.3679,
	"step": 1840
	},
	{
	"epoch": 1.5993121238177128,
	"grad_norm": 3.89568829536438,
	"learning_rate": 3.8e-05,
	"loss": 0.372,
	"step": 1860
	},
	{
	"epoch": 1.6165090283748924,
	"grad_norm": 6.27597188949585,
	"learning_rate": 3.733333333333334e-05,
	"loss": 0.3971,
	"step": 1880
	},
	{
	"epoch": 1.6337059329320722,
	"grad_norm": 3.7944319248199463,
	"learning_rate": 3.6666666666666666e-05,
	"loss": 0.3854,
	"step": 1900
	},
	{
	"epoch": 1.650902837489252,
	"grad_norm": 4.370260238647461,
	"learning_rate": 3.6e-05,
	"loss": 0.3609,
	"step": 1920
	},
	{
	"epoch": 1.6680997420464316,
	"grad_norm": 5.236139297485352,
	"learning_rate": 3.5333333333333336e-05,
	"loss": 0.3932,
	"step": 1940
	},
	{
	"epoch": 1.6852966466036112,
	"grad_norm": 4.053391456604004,
	"learning_rate": 3.466666666666667e-05,
	"loss": 0.4073,
	"step": 1960
	},
	{
	"epoch": 1.702493551160791,
	"grad_norm": 4.105246543884277,
	"learning_rate": 3.4000000000000007e-05,
	"loss": 0.3533,
	"step": 1980
	},
	{
	"epoch": 1.7196904557179709,
	"grad_norm": 4.842738151550293,
	"learning_rate": 3.3333333333333335e-05,
	"loss": 0.3529,
	"step": 2000
	}
	],
	"logging_steps": 20,
	"max_steps": 3000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.0128778067440435e+17,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}