|
{ |
|
"best_metric": null, |
|
"best_model_checkpoint": null, |
|
"epoch": 0.512, |
|
"eval_steps": 500, |
|
"global_step": 60, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.008533333333333334, |
|
"grad_norm": 160.11701043689894, |
|
"learning_rate": 0.0, |
|
"loss": 32.4968, |
|
"step": 1 |
|
}, |
|
{ |
|
"epoch": 0.017066666666666667, |
|
"grad_norm": 157.24779534424323, |
|
"learning_rate": 1.5051499783199057e-06, |
|
"loss": 31.6979, |
|
"step": 2 |
|
}, |
|
{ |
|
"epoch": 0.0256, |
|
"grad_norm": 157.9465272449825, |
|
"learning_rate": 2.385606273598312e-06, |
|
"loss": 31.8828, |
|
"step": 3 |
|
}, |
|
{ |
|
"epoch": 0.034133333333333335, |
|
"grad_norm": 160.2154859965946, |
|
"learning_rate": 3.0102999566398115e-06, |
|
"loss": 31.9681, |
|
"step": 4 |
|
}, |
|
{ |
|
"epoch": 0.042666666666666665, |
|
"grad_norm": 158.5305446712084, |
|
"learning_rate": 3.4948500216800934e-06, |
|
"loss": 31.3717, |
|
"step": 5 |
|
}, |
|
{ |
|
"epoch": 0.0512, |
|
"grad_norm": 155.50243039700376, |
|
"learning_rate": 3.890756251918218e-06, |
|
"loss": 30.5348, |
|
"step": 6 |
|
}, |
|
{ |
|
"epoch": 0.05973333333333333, |
|
"grad_norm": 168.6887446693614, |
|
"learning_rate": 4.225490200071284e-06, |
|
"loss": 31.3845, |
|
"step": 7 |
|
}, |
|
{ |
|
"epoch": 0.06826666666666667, |
|
"grad_norm": 164.2631689450651, |
|
"learning_rate": 4.515449934959717e-06, |
|
"loss": 30.5243, |
|
"step": 8 |
|
}, |
|
{ |
|
"epoch": 0.0768, |
|
"grad_norm": 174.1878139573776, |
|
"learning_rate": 4.771212547196624e-06, |
|
"loss": 30.0138, |
|
"step": 9 |
|
}, |
|
{ |
|
"epoch": 0.08533333333333333, |
|
"grad_norm": 177.9519334680014, |
|
"learning_rate": 4.9999999999999996e-06, |
|
"loss": 29.6143, |
|
"step": 10 |
|
}, |
|
{ |
|
"epoch": 0.09386666666666667, |
|
"grad_norm": 183.57104380865735, |
|
"learning_rate": 5.206963425791125e-06, |
|
"loss": 28.8718, |
|
"step": 11 |
|
}, |
|
{ |
|
"epoch": 0.1024, |
|
"grad_norm": 186.4090344511231, |
|
"learning_rate": 5.395906230238124e-06, |
|
"loss": 26.1695, |
|
"step": 12 |
|
}, |
|
{ |
|
"epoch": 0.11093333333333333, |
|
"grad_norm": 198.17161320746723, |
|
"learning_rate": 5.5697167615341825e-06, |
|
"loss": 26.1266, |
|
"step": 13 |
|
}, |
|
{ |
|
"epoch": 0.11946666666666667, |
|
"grad_norm": 182.4443087115901, |
|
"learning_rate": 5.730640178391189e-06, |
|
"loss": 24.2121, |
|
"step": 14 |
|
}, |
|
{ |
|
"epoch": 0.128, |
|
"grad_norm": 159.38105380659272, |
|
"learning_rate": 5.880456295278406e-06, |
|
"loss": 22.5796, |
|
"step": 15 |
|
}, |
|
{ |
|
"epoch": 0.13653333333333334, |
|
"grad_norm": 142.82387126501297, |
|
"learning_rate": 6.020599913279623e-06, |
|
"loss": 21.1346, |
|
"step": 16 |
|
}, |
|
{ |
|
"epoch": 0.14506666666666668, |
|
"grad_norm": 123.86394296641578, |
|
"learning_rate": 6.15224460689137e-06, |
|
"loss": 19.8457, |
|
"step": 17 |
|
}, |
|
{ |
|
"epoch": 0.1536, |
|
"grad_norm": 112.3988260336824, |
|
"learning_rate": 6.276362525516529e-06, |
|
"loss": 18.7824, |
|
"step": 18 |
|
}, |
|
{ |
|
"epoch": 0.16213333333333332, |
|
"grad_norm": 120.96712330991012, |
|
"learning_rate": 6.393768004764144e-06, |
|
"loss": 18.0207, |
|
"step": 19 |
|
}, |
|
{ |
|
"epoch": 0.17066666666666666, |
|
"grad_norm": 129.42692949353702, |
|
"learning_rate": 6.505149978319905e-06, |
|
"loss": 16.8355, |
|
"step": 20 |
|
}, |
|
{ |
|
"epoch": 0.1792, |
|
"grad_norm": 120.65595457746791, |
|
"learning_rate": 6.611096473669596e-06, |
|
"loss": 15.252, |
|
"step": 21 |
|
}, |
|
{ |
|
"epoch": 0.18773333333333334, |
|
"grad_norm": 133.05280466087515, |
|
"learning_rate": 6.712113404111031e-06, |
|
"loss": 14.1391, |
|
"step": 22 |
|
}, |
|
{ |
|
"epoch": 0.19626666666666667, |
|
"grad_norm": 127.95029628849048, |
|
"learning_rate": 6.808639180087963e-06, |
|
"loss": 12.9566, |
|
"step": 23 |
|
}, |
|
{ |
|
"epoch": 0.2048, |
|
"grad_norm": 108.83495245094748, |
|
"learning_rate": 6.90105620855803e-06, |
|
"loss": 11.8743, |
|
"step": 24 |
|
}, |
|
{ |
|
"epoch": 0.21333333333333335, |
|
"grad_norm": 99.90727146021455, |
|
"learning_rate": 6.989700043360187e-06, |
|
"loss": 10.962, |
|
"step": 25 |
|
}, |
|
{ |
|
"epoch": 0.22186666666666666, |
|
"grad_norm": 98.37126740059823, |
|
"learning_rate": 7.074866739854089e-06, |
|
"loss": 9.9919, |
|
"step": 26 |
|
}, |
|
{ |
|
"epoch": 0.2304, |
|
"grad_norm": 92.26708429201608, |
|
"learning_rate": 7.156818820794936e-06, |
|
"loss": 8.8811, |
|
"step": 27 |
|
}, |
|
{ |
|
"epoch": 0.23893333333333333, |
|
"grad_norm": 83.36099898839835, |
|
"learning_rate": 7.235790156711096e-06, |
|
"loss": 7.7806, |
|
"step": 28 |
|
}, |
|
{ |
|
"epoch": 0.24746666666666667, |
|
"grad_norm": 68.07500315598597, |
|
"learning_rate": 7.3119899894947795e-06, |
|
"loss": 7.0528, |
|
"step": 29 |
|
}, |
|
{ |
|
"epoch": 0.256, |
|
"grad_norm": 69.58960332280246, |
|
"learning_rate": 7.385606273598311e-06, |
|
"loss": 6.3683, |
|
"step": 30 |
|
}, |
|
{ |
|
"epoch": 0.26453333333333334, |
|
"grad_norm": 68.77532204123075, |
|
"learning_rate": 7.456808469171363e-06, |
|
"loss": 6.1635, |
|
"step": 31 |
|
}, |
|
{ |
|
"epoch": 0.2730666666666667, |
|
"grad_norm": 66.29676636510072, |
|
"learning_rate": 7.5257498915995295e-06, |
|
"loss": 4.711, |
|
"step": 32 |
|
}, |
|
{ |
|
"epoch": 0.2816, |
|
"grad_norm": 42.87145091679237, |
|
"learning_rate": 7.592569699389437e-06, |
|
"loss": 4.5119, |
|
"step": 33 |
|
}, |
|
{ |
|
"epoch": 0.29013333333333335, |
|
"grad_norm": 26.2592350291551, |
|
"learning_rate": 7.657394585211274e-06, |
|
"loss": 4.31, |
|
"step": 34 |
|
}, |
|
{ |
|
"epoch": 0.2986666666666667, |
|
"grad_norm": 15.35959008067237, |
|
"learning_rate": 7.720340221751376e-06, |
|
"loss": 4.0001, |
|
"step": 35 |
|
}, |
|
{ |
|
"epoch": 0.3072, |
|
"grad_norm": 8.50847651865227, |
|
"learning_rate": 7.781512503836437e-06, |
|
"loss": 3.5723, |
|
"step": 36 |
|
}, |
|
{ |
|
"epoch": 0.3157333333333333, |
|
"grad_norm": 6.562581089063746, |
|
"learning_rate": 7.841008620334974e-06, |
|
"loss": 3.9254, |
|
"step": 37 |
|
}, |
|
{ |
|
"epoch": 0.32426666666666665, |
|
"grad_norm": 5.6145595722250095, |
|
"learning_rate": 7.89891798308405e-06, |
|
"loss": 3.8746, |
|
"step": 38 |
|
}, |
|
{ |
|
"epoch": 0.3328, |
|
"grad_norm": 5.385367220486204, |
|
"learning_rate": 7.955323035132495e-06, |
|
"loss": 3.8128, |
|
"step": 39 |
|
}, |
|
{ |
|
"epoch": 0.3413333333333333, |
|
"grad_norm": 5.403447124703616, |
|
"learning_rate": 8.010299956639811e-06, |
|
"loss": 3.885, |
|
"step": 40 |
|
}, |
|
{ |
|
"epoch": 0.34986666666666666, |
|
"grad_norm": 5.48242204895128, |
|
"learning_rate": 8.063919283598677e-06, |
|
"loss": 3.8048, |
|
"step": 41 |
|
}, |
|
{ |
|
"epoch": 0.3584, |
|
"grad_norm": 5.5525098950513865, |
|
"learning_rate": 8.116246451989503e-06, |
|
"loss": 3.7508, |
|
"step": 42 |
|
}, |
|
{ |
|
"epoch": 0.36693333333333333, |
|
"grad_norm": 5.354384520535484, |
|
"learning_rate": 8.167342277897933e-06, |
|
"loss": 3.5069, |
|
"step": 43 |
|
}, |
|
{ |
|
"epoch": 0.37546666666666667, |
|
"grad_norm": 5.46272338131107, |
|
"learning_rate": 8.217263382430936e-06, |
|
"loss": 3.6747, |
|
"step": 44 |
|
}, |
|
{ |
|
"epoch": 0.384, |
|
"grad_norm": 4.798550688968453, |
|
"learning_rate": 8.266062568876717e-06, |
|
"loss": 3.1609, |
|
"step": 45 |
|
}, |
|
{ |
|
"epoch": 0.39253333333333335, |
|
"grad_norm": 5.755104452953421, |
|
"learning_rate": 8.31378915840787e-06, |
|
"loss": 3.5733, |
|
"step": 46 |
|
}, |
|
{ |
|
"epoch": 0.4010666666666667, |
|
"grad_norm": 4.618763611067563, |
|
"learning_rate": 8.360489289678585e-06, |
|
"loss": 2.9402, |
|
"step": 47 |
|
}, |
|
{ |
|
"epoch": 0.4096, |
|
"grad_norm": 5.506785974818791, |
|
"learning_rate": 8.406206186877936e-06, |
|
"loss": 3.382, |
|
"step": 48 |
|
}, |
|
{ |
|
"epoch": 0.41813333333333336, |
|
"grad_norm": 4.68603207809794, |
|
"learning_rate": 8.450980400142568e-06, |
|
"loss": 2.9918, |
|
"step": 49 |
|
}, |
|
{ |
|
"epoch": 0.4266666666666667, |
|
"grad_norm": 5.124033394817131, |
|
"learning_rate": 8.494850021680093e-06, |
|
"loss": 3.3202, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 0.4352, |
|
"grad_norm": 4.293001183481895, |
|
"learning_rate": 8.537850880489681e-06, |
|
"loss": 2.8519, |
|
"step": 51 |
|
}, |
|
{ |
|
"epoch": 0.4437333333333333, |
|
"grad_norm": 4.382596858902394, |
|
"learning_rate": 8.580016718173996e-06, |
|
"loss": 2.9683, |
|
"step": 52 |
|
}, |
|
{ |
|
"epoch": 0.45226666666666665, |
|
"grad_norm": 4.3176263388044696, |
|
"learning_rate": 8.621379348003945e-06, |
|
"loss": 2.9257, |
|
"step": 53 |
|
}, |
|
{ |
|
"epoch": 0.4608, |
|
"grad_norm": 4.5250022171605195, |
|
"learning_rate": 8.661968799114844e-06, |
|
"loss": 3.0556, |
|
"step": 54 |
|
}, |
|
{ |
|
"epoch": 0.4693333333333333, |
|
"grad_norm": 4.429424190600661, |
|
"learning_rate": 8.701813447471218e-06, |
|
"loss": 2.9513, |
|
"step": 55 |
|
}, |
|
{ |
|
"epoch": 0.47786666666666666, |
|
"grad_norm": 4.349652568052827, |
|
"learning_rate": 8.740940135031001e-06, |
|
"loss": 2.9029, |
|
"step": 56 |
|
}, |
|
{ |
|
"epoch": 0.4864, |
|
"grad_norm": 4.299227871435445, |
|
"learning_rate": 8.779374278362457e-06, |
|
"loss": 2.5989, |
|
"step": 57 |
|
}, |
|
{ |
|
"epoch": 0.49493333333333334, |
|
"grad_norm": 4.562461330302201, |
|
"learning_rate": 8.817139967814684e-06, |
|
"loss": 2.8158, |
|
"step": 58 |
|
}, |
|
{ |
|
"epoch": 0.5034666666666666, |
|
"grad_norm": 4.606987182758338, |
|
"learning_rate": 8.854260058210721e-06, |
|
"loss": 2.6272, |
|
"step": 59 |
|
}, |
|
{ |
|
"epoch": 0.512, |
|
"grad_norm": 4.9420031522511545, |
|
"learning_rate": 8.890756251918216e-06, |
|
"loss": 2.5488, |
|
"step": 60 |
|
} |
|
], |
|
"logging_steps": 1, |
|
"max_steps": 301, |
|
"num_input_tokens_seen": 0, |
|
"num_train_epochs": 3, |
|
"save_steps": 20, |
|
"stateful_callbacks": { |
|
"TrainerControl": { |
|
"args": { |
|
"should_epoch_stop": false, |
|
"should_evaluate": false, |
|
"should_log": false, |
|
"should_save": true, |
|
"should_training_stop": false |
|
}, |
|
"attributes": {} |
|
} |
|
}, |
|
"total_flos": 8.473824188421898e+17, |
|
"train_batch_size": 16, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|