|
{ |
|
"best_metric": null, |
|
"best_model_checkpoint": null, |
|
"epoch": 1.7196904557179709, |
|
"eval_steps": 500, |
|
"global_step": 2000, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.017196904557179708, |
|
"grad_norm": 1.7918040752410889, |
|
"learning_rate": 9.933333333333334e-05, |
|
"loss": 4.1644, |
|
"step": 20 |
|
}, |
|
{ |
|
"epoch": 0.034393809114359415, |
|
"grad_norm": 1.8427823781967163, |
|
"learning_rate": 9.866666666666668e-05, |
|
"loss": 2.7767, |
|
"step": 40 |
|
}, |
|
{ |
|
"epoch": 0.051590713671539126, |
|
"grad_norm": 1.2594960927963257, |
|
"learning_rate": 9.8e-05, |
|
"loss": 2.3015, |
|
"step": 60 |
|
}, |
|
{ |
|
"epoch": 0.06878761822871883, |
|
"grad_norm": 1.5001391172409058, |
|
"learning_rate": 9.733333333333335e-05, |
|
"loss": 1.9096, |
|
"step": 80 |
|
}, |
|
{ |
|
"epoch": 0.08598452278589853, |
|
"grad_norm": 1.4705618619918823, |
|
"learning_rate": 9.666666666666667e-05, |
|
"loss": 1.8592, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 0.10318142734307825, |
|
"grad_norm": 1.678035020828247, |
|
"learning_rate": 9.6e-05, |
|
"loss": 1.7618, |
|
"step": 120 |
|
}, |
|
{ |
|
"epoch": 0.12037833190025796, |
|
"grad_norm": 1.9186018705368042, |
|
"learning_rate": 9.533333333333334e-05, |
|
"loss": 1.612, |
|
"step": 140 |
|
}, |
|
{ |
|
"epoch": 0.13757523645743766, |
|
"grad_norm": 2.0859336853027344, |
|
"learning_rate": 9.466666666666667e-05, |
|
"loss": 1.5829, |
|
"step": 160 |
|
}, |
|
{ |
|
"epoch": 0.15477214101461736, |
|
"grad_norm": 2.2418243885040283, |
|
"learning_rate": 9.4e-05, |
|
"loss": 1.6236, |
|
"step": 180 |
|
}, |
|
{ |
|
"epoch": 0.17196904557179707, |
|
"grad_norm": 2.3599705696105957, |
|
"learning_rate": 9.333333333333334e-05, |
|
"loss": 1.5204, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 0.18916595012897677, |
|
"grad_norm": 2.346595525741577, |
|
"learning_rate": 9.266666666666666e-05, |
|
"loss": 1.4757, |
|
"step": 220 |
|
}, |
|
{ |
|
"epoch": 0.2063628546861565, |
|
"grad_norm": 2.483389139175415, |
|
"learning_rate": 9.200000000000001e-05, |
|
"loss": 1.4369, |
|
"step": 240 |
|
}, |
|
{ |
|
"epoch": 0.2235597592433362, |
|
"grad_norm": 2.320002555847168, |
|
"learning_rate": 9.133333333333334e-05, |
|
"loss": 1.391, |
|
"step": 260 |
|
}, |
|
{ |
|
"epoch": 0.2407566638005159, |
|
"grad_norm": 3.222677230834961, |
|
"learning_rate": 9.066666666666667e-05, |
|
"loss": 1.5182, |
|
"step": 280 |
|
}, |
|
{ |
|
"epoch": 0.2579535683576956, |
|
"grad_norm": 2.7384626865386963, |
|
"learning_rate": 9e-05, |
|
"loss": 1.1515, |
|
"step": 300 |
|
}, |
|
{ |
|
"epoch": 0.2751504729148753, |
|
"grad_norm": 3.28292179107666, |
|
"learning_rate": 8.933333333333334e-05, |
|
"loss": 1.3981, |
|
"step": 320 |
|
}, |
|
{ |
|
"epoch": 0.292347377472055, |
|
"grad_norm": 2.6418075561523438, |
|
"learning_rate": 8.866666666666668e-05, |
|
"loss": 1.448, |
|
"step": 340 |
|
}, |
|
{ |
|
"epoch": 0.30954428202923473, |
|
"grad_norm": 2.810594081878662, |
|
"learning_rate": 8.800000000000001e-05, |
|
"loss": 1.1637, |
|
"step": 360 |
|
}, |
|
{ |
|
"epoch": 0.32674118658641443, |
|
"grad_norm": 2.897336006164551, |
|
"learning_rate": 8.733333333333333e-05, |
|
"loss": 1.3715, |
|
"step": 380 |
|
}, |
|
{ |
|
"epoch": 0.34393809114359414, |
|
"grad_norm": 3.5841643810272217, |
|
"learning_rate": 8.666666666666667e-05, |
|
"loss": 1.3044, |
|
"step": 400 |
|
}, |
|
{ |
|
"epoch": 0.36113499570077384, |
|
"grad_norm": 3.0653135776519775, |
|
"learning_rate": 8.6e-05, |
|
"loss": 1.1584, |
|
"step": 420 |
|
}, |
|
{ |
|
"epoch": 0.37833190025795355, |
|
"grad_norm": 3.761073112487793, |
|
"learning_rate": 8.533333333333334e-05, |
|
"loss": 1.2224, |
|
"step": 440 |
|
}, |
|
{ |
|
"epoch": 0.39552880481513325, |
|
"grad_norm": 3.481926441192627, |
|
"learning_rate": 8.466666666666667e-05, |
|
"loss": 1.1676, |
|
"step": 460 |
|
}, |
|
{ |
|
"epoch": 0.412725709372313, |
|
"grad_norm": 4.327862739562988, |
|
"learning_rate": 8.4e-05, |
|
"loss": 1.0294, |
|
"step": 480 |
|
}, |
|
{ |
|
"epoch": 0.4299226139294927, |
|
"grad_norm": 4.155755996704102, |
|
"learning_rate": 8.333333333333334e-05, |
|
"loss": 1.2208, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 0.4471195184866724, |
|
"grad_norm": 3.50590443611145, |
|
"learning_rate": 8.266666666666667e-05, |
|
"loss": 1.0706, |
|
"step": 520 |
|
}, |
|
{ |
|
"epoch": 0.4643164230438521, |
|
"grad_norm": 4.00937557220459, |
|
"learning_rate": 8.2e-05, |
|
"loss": 1.0627, |
|
"step": 540 |
|
}, |
|
{ |
|
"epoch": 0.4815133276010318, |
|
"grad_norm": 4.476954460144043, |
|
"learning_rate": 8.133333333333334e-05, |
|
"loss": 1.0246, |
|
"step": 560 |
|
}, |
|
{ |
|
"epoch": 0.49871023215821153, |
|
"grad_norm": 4.1531476974487305, |
|
"learning_rate": 8.066666666666667e-05, |
|
"loss": 1.2647, |
|
"step": 580 |
|
}, |
|
{ |
|
"epoch": 0.5159071367153912, |
|
"grad_norm": 3.9548251628875732, |
|
"learning_rate": 8e-05, |
|
"loss": 0.9846, |
|
"step": 600 |
|
}, |
|
{ |
|
"epoch": 0.5331040412725709, |
|
"grad_norm": 4.803060531616211, |
|
"learning_rate": 7.933333333333334e-05, |
|
"loss": 0.9058, |
|
"step": 620 |
|
}, |
|
{ |
|
"epoch": 0.5503009458297506, |
|
"grad_norm": 4.116948127746582, |
|
"learning_rate": 7.866666666666666e-05, |
|
"loss": 1.0455, |
|
"step": 640 |
|
}, |
|
{ |
|
"epoch": 0.5674978503869303, |
|
"grad_norm": 3.5376293659210205, |
|
"learning_rate": 7.800000000000001e-05, |
|
"loss": 1.0034, |
|
"step": 660 |
|
}, |
|
{ |
|
"epoch": 0.58469475494411, |
|
"grad_norm": 5.122928619384766, |
|
"learning_rate": 7.733333333333333e-05, |
|
"loss": 0.9539, |
|
"step": 680 |
|
}, |
|
{ |
|
"epoch": 0.6018916595012898, |
|
"grad_norm": 4.396443843841553, |
|
"learning_rate": 7.666666666666667e-05, |
|
"loss": 1.0106, |
|
"step": 700 |
|
}, |
|
{ |
|
"epoch": 0.6190885640584695, |
|
"grad_norm": 5.2031989097595215, |
|
"learning_rate": 7.6e-05, |
|
"loss": 1.1025, |
|
"step": 720 |
|
}, |
|
{ |
|
"epoch": 0.6362854686156492, |
|
"grad_norm": 4.93772554397583, |
|
"learning_rate": 7.533333333333334e-05, |
|
"loss": 1.0214, |
|
"step": 740 |
|
}, |
|
{ |
|
"epoch": 0.6534823731728289, |
|
"grad_norm": 3.970015048980713, |
|
"learning_rate": 7.466666666666667e-05, |
|
"loss": 0.8724, |
|
"step": 760 |
|
}, |
|
{ |
|
"epoch": 0.6706792777300086, |
|
"grad_norm": 4.316510200500488, |
|
"learning_rate": 7.4e-05, |
|
"loss": 0.9296, |
|
"step": 780 |
|
}, |
|
{ |
|
"epoch": 0.6878761822871883, |
|
"grad_norm": 5.551044464111328, |
|
"learning_rate": 7.333333333333333e-05, |
|
"loss": 0.9748, |
|
"step": 800 |
|
}, |
|
{ |
|
"epoch": 0.705073086844368, |
|
"grad_norm": 5.091616630554199, |
|
"learning_rate": 7.266666666666667e-05, |
|
"loss": 0.9048, |
|
"step": 820 |
|
}, |
|
{ |
|
"epoch": 0.7222699914015477, |
|
"grad_norm": 5.082363128662109, |
|
"learning_rate": 7.2e-05, |
|
"loss": 0.9605, |
|
"step": 840 |
|
}, |
|
{ |
|
"epoch": 0.7394668959587274, |
|
"grad_norm": 4.591577053070068, |
|
"learning_rate": 7.133333333333334e-05, |
|
"loss": 0.803, |
|
"step": 860 |
|
}, |
|
{ |
|
"epoch": 0.7566638005159071, |
|
"grad_norm": 3.200929880142212, |
|
"learning_rate": 7.066666666666667e-05, |
|
"loss": 0.8525, |
|
"step": 880 |
|
}, |
|
{ |
|
"epoch": 0.7738607050730868, |
|
"grad_norm": 5.56381368637085, |
|
"learning_rate": 7e-05, |
|
"loss": 0.8088, |
|
"step": 900 |
|
}, |
|
{ |
|
"epoch": 0.7910576096302665, |
|
"grad_norm": 4.371031761169434, |
|
"learning_rate": 6.933333333333334e-05, |
|
"loss": 0.811, |
|
"step": 920 |
|
}, |
|
{ |
|
"epoch": 0.8082545141874462, |
|
"grad_norm": 5.641899585723877, |
|
"learning_rate": 6.866666666666666e-05, |
|
"loss": 0.8693, |
|
"step": 940 |
|
}, |
|
{ |
|
"epoch": 0.825451418744626, |
|
"grad_norm": 5.0090436935424805, |
|
"learning_rate": 6.800000000000001e-05, |
|
"loss": 0.7813, |
|
"step": 960 |
|
}, |
|
{ |
|
"epoch": 0.8426483233018057, |
|
"grad_norm": 7.000046730041504, |
|
"learning_rate": 6.733333333333333e-05, |
|
"loss": 0.8189, |
|
"step": 980 |
|
}, |
|
{ |
|
"epoch": 0.8598452278589854, |
|
"grad_norm": 5.533496856689453, |
|
"learning_rate": 6.666666666666667e-05, |
|
"loss": 0.8019, |
|
"step": 1000 |
|
}, |
|
{ |
|
"epoch": 0.8770421324161651, |
|
"grad_norm": 5.878244400024414, |
|
"learning_rate": 6.6e-05, |
|
"loss": 0.7308, |
|
"step": 1020 |
|
}, |
|
{ |
|
"epoch": 0.8942390369733448, |
|
"grad_norm": 6.347448825836182, |
|
"learning_rate": 6.533333333333334e-05, |
|
"loss": 0.7523, |
|
"step": 1040 |
|
}, |
|
{ |
|
"epoch": 0.9114359415305245, |
|
"grad_norm": 5.9593634605407715, |
|
"learning_rate": 6.466666666666666e-05, |
|
"loss": 0.7736, |
|
"step": 1060 |
|
}, |
|
{ |
|
"epoch": 0.9286328460877042, |
|
"grad_norm": 5.173058986663818, |
|
"learning_rate": 6.400000000000001e-05, |
|
"loss": 0.803, |
|
"step": 1080 |
|
}, |
|
{ |
|
"epoch": 0.945829750644884, |
|
"grad_norm": 6.1787109375, |
|
"learning_rate": 6.333333333333333e-05, |
|
"loss": 0.7256, |
|
"step": 1100 |
|
}, |
|
{ |
|
"epoch": 0.9630266552020637, |
|
"grad_norm": 5.627285957336426, |
|
"learning_rate": 6.266666666666667e-05, |
|
"loss": 0.7492, |
|
"step": 1120 |
|
}, |
|
{ |
|
"epoch": 0.9802235597592434, |
|
"grad_norm": 5.914905071258545, |
|
"learning_rate": 6.2e-05, |
|
"loss": 0.6695, |
|
"step": 1140 |
|
}, |
|
{ |
|
"epoch": 0.9974204643164231, |
|
"grad_norm": 4.068761825561523, |
|
"learning_rate": 6.133333333333334e-05, |
|
"loss": 0.6607, |
|
"step": 1160 |
|
}, |
|
{ |
|
"epoch": 1.0146173688736027, |
|
"grad_norm": 5.116635322570801, |
|
"learning_rate": 6.066666666666667e-05, |
|
"loss": 0.5824, |
|
"step": 1180 |
|
}, |
|
{ |
|
"epoch": 1.0318142734307825, |
|
"grad_norm": 6.764676570892334, |
|
"learning_rate": 6e-05, |
|
"loss": 0.6238, |
|
"step": 1200 |
|
}, |
|
{ |
|
"epoch": 1.049011177987962, |
|
"grad_norm": 3.931511640548706, |
|
"learning_rate": 5.9333333333333343e-05, |
|
"loss": 0.5651, |
|
"step": 1220 |
|
}, |
|
{ |
|
"epoch": 1.0662080825451419, |
|
"grad_norm": 9.559135437011719, |
|
"learning_rate": 5.866666666666667e-05, |
|
"loss": 0.5615, |
|
"step": 1240 |
|
}, |
|
{ |
|
"epoch": 1.0834049871023215, |
|
"grad_norm": 8.055045127868652, |
|
"learning_rate": 5.8e-05, |
|
"loss": 0.5606, |
|
"step": 1260 |
|
}, |
|
{ |
|
"epoch": 1.1006018916595013, |
|
"grad_norm": 6.782190322875977, |
|
"learning_rate": 5.7333333333333336e-05, |
|
"loss": 0.5776, |
|
"step": 1280 |
|
}, |
|
{ |
|
"epoch": 1.117798796216681, |
|
"grad_norm": 5.142735004425049, |
|
"learning_rate": 5.666666666666667e-05, |
|
"loss": 0.5509, |
|
"step": 1300 |
|
}, |
|
{ |
|
"epoch": 1.1349957007738607, |
|
"grad_norm": 6.010578155517578, |
|
"learning_rate": 5.6000000000000006e-05, |
|
"loss": 0.5701, |
|
"step": 1320 |
|
}, |
|
{ |
|
"epoch": 1.1521926053310405, |
|
"grad_norm": 5.171779155731201, |
|
"learning_rate": 5.5333333333333334e-05, |
|
"loss": 0.5485, |
|
"step": 1340 |
|
}, |
|
{ |
|
"epoch": 1.16938950988822, |
|
"grad_norm": 5.51332426071167, |
|
"learning_rate": 5.466666666666666e-05, |
|
"loss": 0.5515, |
|
"step": 1360 |
|
}, |
|
{ |
|
"epoch": 1.1865864144454, |
|
"grad_norm": 6.2720947265625, |
|
"learning_rate": 5.4000000000000005e-05, |
|
"loss": 0.5503, |
|
"step": 1380 |
|
}, |
|
{ |
|
"epoch": 1.2037833190025795, |
|
"grad_norm": 6.498877048492432, |
|
"learning_rate": 5.333333333333333e-05, |
|
"loss": 0.525, |
|
"step": 1400 |
|
}, |
|
{ |
|
"epoch": 1.2209802235597593, |
|
"grad_norm": 5.129275321960449, |
|
"learning_rate": 5.266666666666666e-05, |
|
"loss": 0.4942, |
|
"step": 1420 |
|
}, |
|
{ |
|
"epoch": 1.238177128116939, |
|
"grad_norm": 4.145976543426514, |
|
"learning_rate": 5.2000000000000004e-05, |
|
"loss": 0.4961, |
|
"step": 1440 |
|
}, |
|
{ |
|
"epoch": 1.2553740326741187, |
|
"grad_norm": 6.678504467010498, |
|
"learning_rate": 5.133333333333333e-05, |
|
"loss": 0.5032, |
|
"step": 1460 |
|
}, |
|
{ |
|
"epoch": 1.2725709372312983, |
|
"grad_norm": 6.846457481384277, |
|
"learning_rate": 5.0666666666666674e-05, |
|
"loss": 0.5322, |
|
"step": 1480 |
|
}, |
|
{ |
|
"epoch": 1.2897678417884781, |
|
"grad_norm": 7.58906888961792, |
|
"learning_rate": 5e-05, |
|
"loss": 0.477, |
|
"step": 1500 |
|
}, |
|
{ |
|
"epoch": 1.3069647463456577, |
|
"grad_norm": 5.045712947845459, |
|
"learning_rate": 4.933333333333334e-05, |
|
"loss": 0.5139, |
|
"step": 1520 |
|
}, |
|
{ |
|
"epoch": 1.3241616509028376, |
|
"grad_norm": 4.599825859069824, |
|
"learning_rate": 4.866666666666667e-05, |
|
"loss": 0.4997, |
|
"step": 1540 |
|
}, |
|
{ |
|
"epoch": 1.3413585554600171, |
|
"grad_norm": 5.756386756896973, |
|
"learning_rate": 4.8e-05, |
|
"loss": 0.4841, |
|
"step": 1560 |
|
}, |
|
{ |
|
"epoch": 1.358555460017197, |
|
"grad_norm": 4.89516544342041, |
|
"learning_rate": 4.7333333333333336e-05, |
|
"loss": 0.4183, |
|
"step": 1580 |
|
}, |
|
{ |
|
"epoch": 1.3757523645743766, |
|
"grad_norm": 4.484691143035889, |
|
"learning_rate": 4.666666666666667e-05, |
|
"loss": 0.4185, |
|
"step": 1600 |
|
}, |
|
{ |
|
"epoch": 1.3929492691315564, |
|
"grad_norm": 5.203677654266357, |
|
"learning_rate": 4.600000000000001e-05, |
|
"loss": 0.4097, |
|
"step": 1620 |
|
}, |
|
{ |
|
"epoch": 1.410146173688736, |
|
"grad_norm": 6.922574996948242, |
|
"learning_rate": 4.5333333333333335e-05, |
|
"loss": 0.4367, |
|
"step": 1640 |
|
}, |
|
{ |
|
"epoch": 1.4273430782459158, |
|
"grad_norm": 5.618770122528076, |
|
"learning_rate": 4.466666666666667e-05, |
|
"loss": 0.4453, |
|
"step": 1660 |
|
}, |
|
{ |
|
"epoch": 1.4445399828030954, |
|
"grad_norm": 4.377410888671875, |
|
"learning_rate": 4.4000000000000006e-05, |
|
"loss": 0.4416, |
|
"step": 1680 |
|
}, |
|
{ |
|
"epoch": 1.4617368873602752, |
|
"grad_norm": 7.413736343383789, |
|
"learning_rate": 4.3333333333333334e-05, |
|
"loss": 0.4488, |
|
"step": 1700 |
|
}, |
|
{ |
|
"epoch": 1.4789337919174548, |
|
"grad_norm": 4.4008049964904785, |
|
"learning_rate": 4.266666666666667e-05, |
|
"loss": 0.4167, |
|
"step": 1720 |
|
}, |
|
{ |
|
"epoch": 1.4961306964746346, |
|
"grad_norm": 5.33242130279541, |
|
"learning_rate": 4.2e-05, |
|
"loss": 0.486, |
|
"step": 1740 |
|
}, |
|
{ |
|
"epoch": 1.5133276010318144, |
|
"grad_norm": 7.043882369995117, |
|
"learning_rate": 4.133333333333333e-05, |
|
"loss": 0.407, |
|
"step": 1760 |
|
}, |
|
{ |
|
"epoch": 1.530524505588994, |
|
"grad_norm": 6.068751335144043, |
|
"learning_rate": 4.066666666666667e-05, |
|
"loss": 0.3846, |
|
"step": 1780 |
|
}, |
|
{ |
|
"epoch": 1.5477214101461736, |
|
"grad_norm": 5.452756404876709, |
|
"learning_rate": 4e-05, |
|
"loss": 0.4327, |
|
"step": 1800 |
|
}, |
|
{ |
|
"epoch": 1.5649183147033534, |
|
"grad_norm": 3.541025161743164, |
|
"learning_rate": 3.933333333333333e-05, |
|
"loss": 0.3734, |
|
"step": 1820 |
|
}, |
|
{ |
|
"epoch": 1.5821152192605332, |
|
"grad_norm": 6.634982585906982, |
|
"learning_rate": 3.866666666666667e-05, |
|
"loss": 0.3679, |
|
"step": 1840 |
|
}, |
|
{ |
|
"epoch": 1.5993121238177128, |
|
"grad_norm": 3.89568829536438, |
|
"learning_rate": 3.8e-05, |
|
"loss": 0.372, |
|
"step": 1860 |
|
}, |
|
{ |
|
"epoch": 1.6165090283748924, |
|
"grad_norm": 6.27597188949585, |
|
"learning_rate": 3.733333333333334e-05, |
|
"loss": 0.3971, |
|
"step": 1880 |
|
}, |
|
{ |
|
"epoch": 1.6337059329320722, |
|
"grad_norm": 3.7944319248199463, |
|
"learning_rate": 3.6666666666666666e-05, |
|
"loss": 0.3854, |
|
"step": 1900 |
|
}, |
|
{ |
|
"epoch": 1.650902837489252, |
|
"grad_norm": 4.370260238647461, |
|
"learning_rate": 3.6e-05, |
|
"loss": 0.3609, |
|
"step": 1920 |
|
}, |
|
{ |
|
"epoch": 1.6680997420464316, |
|
"grad_norm": 5.236139297485352, |
|
"learning_rate": 3.5333333333333336e-05, |
|
"loss": 0.3932, |
|
"step": 1940 |
|
}, |
|
{ |
|
"epoch": 1.6852966466036112, |
|
"grad_norm": 4.053391456604004, |
|
"learning_rate": 3.466666666666667e-05, |
|
"loss": 0.4073, |
|
"step": 1960 |
|
}, |
|
{ |
|
"epoch": 1.702493551160791, |
|
"grad_norm": 4.105246543884277, |
|
"learning_rate": 3.4000000000000007e-05, |
|
"loss": 0.3533, |
|
"step": 1980 |
|
}, |
|
{ |
|
"epoch": 1.7196904557179709, |
|
"grad_norm": 4.842738151550293, |
|
"learning_rate": 3.3333333333333335e-05, |
|
"loss": 0.3529, |
|
"step": 2000 |
|
} |
|
], |
|
"logging_steps": 20, |
|
"max_steps": 3000, |
|
"num_input_tokens_seen": 0, |
|
"num_train_epochs": 3, |
|
"save_steps": 500, |
|
"stateful_callbacks": { |
|
"TrainerControl": { |
|
"args": { |
|
"should_epoch_stop": false, |
|
"should_evaluate": false, |
|
"should_log": false, |
|
"should_save": true, |
|
"should_training_stop": false |
|
}, |
|
"attributes": {} |
|
} |
|
}, |
|
"total_flos": 1.0128778067440435e+17, |
|
"train_batch_size": 8, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|