test1 / outputs /checkpoint-2000 /trainer_state.json
suyeon0809's picture
Upload folder using huggingface_hub
f5e29c7 verified
{
"best_metric": null,
"best_model_checkpoint": null,
"epoch": 1.7196904557179709,
"eval_steps": 500,
"global_step": 2000,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.017196904557179708,
"grad_norm": 1.7918040752410889,
"learning_rate": 9.933333333333334e-05,
"loss": 4.1644,
"step": 20
},
{
"epoch": 0.034393809114359415,
"grad_norm": 1.8427823781967163,
"learning_rate": 9.866666666666668e-05,
"loss": 2.7767,
"step": 40
},
{
"epoch": 0.051590713671539126,
"grad_norm": 1.2594960927963257,
"learning_rate": 9.8e-05,
"loss": 2.3015,
"step": 60
},
{
"epoch": 0.06878761822871883,
"grad_norm": 1.5001391172409058,
"learning_rate": 9.733333333333335e-05,
"loss": 1.9096,
"step": 80
},
{
"epoch": 0.08598452278589853,
"grad_norm": 1.4705618619918823,
"learning_rate": 9.666666666666667e-05,
"loss": 1.8592,
"step": 100
},
{
"epoch": 0.10318142734307825,
"grad_norm": 1.678035020828247,
"learning_rate": 9.6e-05,
"loss": 1.7618,
"step": 120
},
{
"epoch": 0.12037833190025796,
"grad_norm": 1.9186018705368042,
"learning_rate": 9.533333333333334e-05,
"loss": 1.612,
"step": 140
},
{
"epoch": 0.13757523645743766,
"grad_norm": 2.0859336853027344,
"learning_rate": 9.466666666666667e-05,
"loss": 1.5829,
"step": 160
},
{
"epoch": 0.15477214101461736,
"grad_norm": 2.2418243885040283,
"learning_rate": 9.4e-05,
"loss": 1.6236,
"step": 180
},
{
"epoch": 0.17196904557179707,
"grad_norm": 2.3599705696105957,
"learning_rate": 9.333333333333334e-05,
"loss": 1.5204,
"step": 200
},
{
"epoch": 0.18916595012897677,
"grad_norm": 2.346595525741577,
"learning_rate": 9.266666666666666e-05,
"loss": 1.4757,
"step": 220
},
{
"epoch": 0.2063628546861565,
"grad_norm": 2.483389139175415,
"learning_rate": 9.200000000000001e-05,
"loss": 1.4369,
"step": 240
},
{
"epoch": 0.2235597592433362,
"grad_norm": 2.320002555847168,
"learning_rate": 9.133333333333334e-05,
"loss": 1.391,
"step": 260
},
{
"epoch": 0.2407566638005159,
"grad_norm": 3.222677230834961,
"learning_rate": 9.066666666666667e-05,
"loss": 1.5182,
"step": 280
},
{
"epoch": 0.2579535683576956,
"grad_norm": 2.7384626865386963,
"learning_rate": 9e-05,
"loss": 1.1515,
"step": 300
},
{
"epoch": 0.2751504729148753,
"grad_norm": 3.28292179107666,
"learning_rate": 8.933333333333334e-05,
"loss": 1.3981,
"step": 320
},
{
"epoch": 0.292347377472055,
"grad_norm": 2.6418075561523438,
"learning_rate": 8.866666666666668e-05,
"loss": 1.448,
"step": 340
},
{
"epoch": 0.30954428202923473,
"grad_norm": 2.810594081878662,
"learning_rate": 8.800000000000001e-05,
"loss": 1.1637,
"step": 360
},
{
"epoch": 0.32674118658641443,
"grad_norm": 2.897336006164551,
"learning_rate": 8.733333333333333e-05,
"loss": 1.3715,
"step": 380
},
{
"epoch": 0.34393809114359414,
"grad_norm": 3.5841643810272217,
"learning_rate": 8.666666666666667e-05,
"loss": 1.3044,
"step": 400
},
{
"epoch": 0.36113499570077384,
"grad_norm": 3.0653135776519775,
"learning_rate": 8.6e-05,
"loss": 1.1584,
"step": 420
},
{
"epoch": 0.37833190025795355,
"grad_norm": 3.761073112487793,
"learning_rate": 8.533333333333334e-05,
"loss": 1.2224,
"step": 440
},
{
"epoch": 0.39552880481513325,
"grad_norm": 3.481926441192627,
"learning_rate": 8.466666666666667e-05,
"loss": 1.1676,
"step": 460
},
{
"epoch": 0.412725709372313,
"grad_norm": 4.327862739562988,
"learning_rate": 8.4e-05,
"loss": 1.0294,
"step": 480
},
{
"epoch": 0.4299226139294927,
"grad_norm": 4.155755996704102,
"learning_rate": 8.333333333333334e-05,
"loss": 1.2208,
"step": 500
},
{
"epoch": 0.4471195184866724,
"grad_norm": 3.50590443611145,
"learning_rate": 8.266666666666667e-05,
"loss": 1.0706,
"step": 520
},
{
"epoch": 0.4643164230438521,
"grad_norm": 4.00937557220459,
"learning_rate": 8.2e-05,
"loss": 1.0627,
"step": 540
},
{
"epoch": 0.4815133276010318,
"grad_norm": 4.476954460144043,
"learning_rate": 8.133333333333334e-05,
"loss": 1.0246,
"step": 560
},
{
"epoch": 0.49871023215821153,
"grad_norm": 4.1531476974487305,
"learning_rate": 8.066666666666667e-05,
"loss": 1.2647,
"step": 580
},
{
"epoch": 0.5159071367153912,
"grad_norm": 3.9548251628875732,
"learning_rate": 8e-05,
"loss": 0.9846,
"step": 600
},
{
"epoch": 0.5331040412725709,
"grad_norm": 4.803060531616211,
"learning_rate": 7.933333333333334e-05,
"loss": 0.9058,
"step": 620
},
{
"epoch": 0.5503009458297506,
"grad_norm": 4.116948127746582,
"learning_rate": 7.866666666666666e-05,
"loss": 1.0455,
"step": 640
},
{
"epoch": 0.5674978503869303,
"grad_norm": 3.5376293659210205,
"learning_rate": 7.800000000000001e-05,
"loss": 1.0034,
"step": 660
},
{
"epoch": 0.58469475494411,
"grad_norm": 5.122928619384766,
"learning_rate": 7.733333333333333e-05,
"loss": 0.9539,
"step": 680
},
{
"epoch": 0.6018916595012898,
"grad_norm": 4.396443843841553,
"learning_rate": 7.666666666666667e-05,
"loss": 1.0106,
"step": 700
},
{
"epoch": 0.6190885640584695,
"grad_norm": 5.2031989097595215,
"learning_rate": 7.6e-05,
"loss": 1.1025,
"step": 720
},
{
"epoch": 0.6362854686156492,
"grad_norm": 4.93772554397583,
"learning_rate": 7.533333333333334e-05,
"loss": 1.0214,
"step": 740
},
{
"epoch": 0.6534823731728289,
"grad_norm": 3.970015048980713,
"learning_rate": 7.466666666666667e-05,
"loss": 0.8724,
"step": 760
},
{
"epoch": 0.6706792777300086,
"grad_norm": 4.316510200500488,
"learning_rate": 7.4e-05,
"loss": 0.9296,
"step": 780
},
{
"epoch": 0.6878761822871883,
"grad_norm": 5.551044464111328,
"learning_rate": 7.333333333333333e-05,
"loss": 0.9748,
"step": 800
},
{
"epoch": 0.705073086844368,
"grad_norm": 5.091616630554199,
"learning_rate": 7.266666666666667e-05,
"loss": 0.9048,
"step": 820
},
{
"epoch": 0.7222699914015477,
"grad_norm": 5.082363128662109,
"learning_rate": 7.2e-05,
"loss": 0.9605,
"step": 840
},
{
"epoch": 0.7394668959587274,
"grad_norm": 4.591577053070068,
"learning_rate": 7.133333333333334e-05,
"loss": 0.803,
"step": 860
},
{
"epoch": 0.7566638005159071,
"grad_norm": 3.200929880142212,
"learning_rate": 7.066666666666667e-05,
"loss": 0.8525,
"step": 880
},
{
"epoch": 0.7738607050730868,
"grad_norm": 5.56381368637085,
"learning_rate": 7e-05,
"loss": 0.8088,
"step": 900
},
{
"epoch": 0.7910576096302665,
"grad_norm": 4.371031761169434,
"learning_rate": 6.933333333333334e-05,
"loss": 0.811,
"step": 920
},
{
"epoch": 0.8082545141874462,
"grad_norm": 5.641899585723877,
"learning_rate": 6.866666666666666e-05,
"loss": 0.8693,
"step": 940
},
{
"epoch": 0.825451418744626,
"grad_norm": 5.0090436935424805,
"learning_rate": 6.800000000000001e-05,
"loss": 0.7813,
"step": 960
},
{
"epoch": 0.8426483233018057,
"grad_norm": 7.000046730041504,
"learning_rate": 6.733333333333333e-05,
"loss": 0.8189,
"step": 980
},
{
"epoch": 0.8598452278589854,
"grad_norm": 5.533496856689453,
"learning_rate": 6.666666666666667e-05,
"loss": 0.8019,
"step": 1000
},
{
"epoch": 0.8770421324161651,
"grad_norm": 5.878244400024414,
"learning_rate": 6.6e-05,
"loss": 0.7308,
"step": 1020
},
{
"epoch": 0.8942390369733448,
"grad_norm": 6.347448825836182,
"learning_rate": 6.533333333333334e-05,
"loss": 0.7523,
"step": 1040
},
{
"epoch": 0.9114359415305245,
"grad_norm": 5.9593634605407715,
"learning_rate": 6.466666666666666e-05,
"loss": 0.7736,
"step": 1060
},
{
"epoch": 0.9286328460877042,
"grad_norm": 5.173058986663818,
"learning_rate": 6.400000000000001e-05,
"loss": 0.803,
"step": 1080
},
{
"epoch": 0.945829750644884,
"grad_norm": 6.1787109375,
"learning_rate": 6.333333333333333e-05,
"loss": 0.7256,
"step": 1100
},
{
"epoch": 0.9630266552020637,
"grad_norm": 5.627285957336426,
"learning_rate": 6.266666666666667e-05,
"loss": 0.7492,
"step": 1120
},
{
"epoch": 0.9802235597592434,
"grad_norm": 5.914905071258545,
"learning_rate": 6.2e-05,
"loss": 0.6695,
"step": 1140
},
{
"epoch": 0.9974204643164231,
"grad_norm": 4.068761825561523,
"learning_rate": 6.133333333333334e-05,
"loss": 0.6607,
"step": 1160
},
{
"epoch": 1.0146173688736027,
"grad_norm": 5.116635322570801,
"learning_rate": 6.066666666666667e-05,
"loss": 0.5824,
"step": 1180
},
{
"epoch": 1.0318142734307825,
"grad_norm": 6.764676570892334,
"learning_rate": 6e-05,
"loss": 0.6238,
"step": 1200
},
{
"epoch": 1.049011177987962,
"grad_norm": 3.931511640548706,
"learning_rate": 5.9333333333333343e-05,
"loss": 0.5651,
"step": 1220
},
{
"epoch": 1.0662080825451419,
"grad_norm": 9.559135437011719,
"learning_rate": 5.866666666666667e-05,
"loss": 0.5615,
"step": 1240
},
{
"epoch": 1.0834049871023215,
"grad_norm": 8.055045127868652,
"learning_rate": 5.8e-05,
"loss": 0.5606,
"step": 1260
},
{
"epoch": 1.1006018916595013,
"grad_norm": 6.782190322875977,
"learning_rate": 5.7333333333333336e-05,
"loss": 0.5776,
"step": 1280
},
{
"epoch": 1.117798796216681,
"grad_norm": 5.142735004425049,
"learning_rate": 5.666666666666667e-05,
"loss": 0.5509,
"step": 1300
},
{
"epoch": 1.1349957007738607,
"grad_norm": 6.010578155517578,
"learning_rate": 5.6000000000000006e-05,
"loss": 0.5701,
"step": 1320
},
{
"epoch": 1.1521926053310405,
"grad_norm": 5.171779155731201,
"learning_rate": 5.5333333333333334e-05,
"loss": 0.5485,
"step": 1340
},
{
"epoch": 1.16938950988822,
"grad_norm": 5.51332426071167,
"learning_rate": 5.466666666666666e-05,
"loss": 0.5515,
"step": 1360
},
{
"epoch": 1.1865864144454,
"grad_norm": 6.2720947265625,
"learning_rate": 5.4000000000000005e-05,
"loss": 0.5503,
"step": 1380
},
{
"epoch": 1.2037833190025795,
"grad_norm": 6.498877048492432,
"learning_rate": 5.333333333333333e-05,
"loss": 0.525,
"step": 1400
},
{
"epoch": 1.2209802235597593,
"grad_norm": 5.129275321960449,
"learning_rate": 5.266666666666666e-05,
"loss": 0.4942,
"step": 1420
},
{
"epoch": 1.238177128116939,
"grad_norm": 4.145976543426514,
"learning_rate": 5.2000000000000004e-05,
"loss": 0.4961,
"step": 1440
},
{
"epoch": 1.2553740326741187,
"grad_norm": 6.678504467010498,
"learning_rate": 5.133333333333333e-05,
"loss": 0.5032,
"step": 1460
},
{
"epoch": 1.2725709372312983,
"grad_norm": 6.846457481384277,
"learning_rate": 5.0666666666666674e-05,
"loss": 0.5322,
"step": 1480
},
{
"epoch": 1.2897678417884781,
"grad_norm": 7.58906888961792,
"learning_rate": 5e-05,
"loss": 0.477,
"step": 1500
},
{
"epoch": 1.3069647463456577,
"grad_norm": 5.045712947845459,
"learning_rate": 4.933333333333334e-05,
"loss": 0.5139,
"step": 1520
},
{
"epoch": 1.3241616509028376,
"grad_norm": 4.599825859069824,
"learning_rate": 4.866666666666667e-05,
"loss": 0.4997,
"step": 1540
},
{
"epoch": 1.3413585554600171,
"grad_norm": 5.756386756896973,
"learning_rate": 4.8e-05,
"loss": 0.4841,
"step": 1560
},
{
"epoch": 1.358555460017197,
"grad_norm": 4.89516544342041,
"learning_rate": 4.7333333333333336e-05,
"loss": 0.4183,
"step": 1580
},
{
"epoch": 1.3757523645743766,
"grad_norm": 4.484691143035889,
"learning_rate": 4.666666666666667e-05,
"loss": 0.4185,
"step": 1600
},
{
"epoch": 1.3929492691315564,
"grad_norm": 5.203677654266357,
"learning_rate": 4.600000000000001e-05,
"loss": 0.4097,
"step": 1620
},
{
"epoch": 1.410146173688736,
"grad_norm": 6.922574996948242,
"learning_rate": 4.5333333333333335e-05,
"loss": 0.4367,
"step": 1640
},
{
"epoch": 1.4273430782459158,
"grad_norm": 5.618770122528076,
"learning_rate": 4.466666666666667e-05,
"loss": 0.4453,
"step": 1660
},
{
"epoch": 1.4445399828030954,
"grad_norm": 4.377410888671875,
"learning_rate": 4.4000000000000006e-05,
"loss": 0.4416,
"step": 1680
},
{
"epoch": 1.4617368873602752,
"grad_norm": 7.413736343383789,
"learning_rate": 4.3333333333333334e-05,
"loss": 0.4488,
"step": 1700
},
{
"epoch": 1.4789337919174548,
"grad_norm": 4.4008049964904785,
"learning_rate": 4.266666666666667e-05,
"loss": 0.4167,
"step": 1720
},
{
"epoch": 1.4961306964746346,
"grad_norm": 5.33242130279541,
"learning_rate": 4.2e-05,
"loss": 0.486,
"step": 1740
},
{
"epoch": 1.5133276010318144,
"grad_norm": 7.043882369995117,
"learning_rate": 4.133333333333333e-05,
"loss": 0.407,
"step": 1760
},
{
"epoch": 1.530524505588994,
"grad_norm": 6.068751335144043,
"learning_rate": 4.066666666666667e-05,
"loss": 0.3846,
"step": 1780
},
{
"epoch": 1.5477214101461736,
"grad_norm": 5.452756404876709,
"learning_rate": 4e-05,
"loss": 0.4327,
"step": 1800
},
{
"epoch": 1.5649183147033534,
"grad_norm": 3.541025161743164,
"learning_rate": 3.933333333333333e-05,
"loss": 0.3734,
"step": 1820
},
{
"epoch": 1.5821152192605332,
"grad_norm": 6.634982585906982,
"learning_rate": 3.866666666666667e-05,
"loss": 0.3679,
"step": 1840
},
{
"epoch": 1.5993121238177128,
"grad_norm": 3.89568829536438,
"learning_rate": 3.8e-05,
"loss": 0.372,
"step": 1860
},
{
"epoch": 1.6165090283748924,
"grad_norm": 6.27597188949585,
"learning_rate": 3.733333333333334e-05,
"loss": 0.3971,
"step": 1880
},
{
"epoch": 1.6337059329320722,
"grad_norm": 3.7944319248199463,
"learning_rate": 3.6666666666666666e-05,
"loss": 0.3854,
"step": 1900
},
{
"epoch": 1.650902837489252,
"grad_norm": 4.370260238647461,
"learning_rate": 3.6e-05,
"loss": 0.3609,
"step": 1920
},
{
"epoch": 1.6680997420464316,
"grad_norm": 5.236139297485352,
"learning_rate": 3.5333333333333336e-05,
"loss": 0.3932,
"step": 1940
},
{
"epoch": 1.6852966466036112,
"grad_norm": 4.053391456604004,
"learning_rate": 3.466666666666667e-05,
"loss": 0.4073,
"step": 1960
},
{
"epoch": 1.702493551160791,
"grad_norm": 4.105246543884277,
"learning_rate": 3.4000000000000007e-05,
"loss": 0.3533,
"step": 1980
},
{
"epoch": 1.7196904557179709,
"grad_norm": 4.842738151550293,
"learning_rate": 3.3333333333333335e-05,
"loss": 0.3529,
"step": 2000
}
],
"logging_steps": 20,
"max_steps": 3000,
"num_input_tokens_seen": 0,
"num_train_epochs": 3,
"save_steps": 500,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": false
},
"attributes": {}
}
},
"total_flos": 1.0128778067440435e+17,
"train_batch_size": 8,
"trial_name": null,
"trial_params": null
}