30k-Llama3-8B / checkpoint-60 /trainer_state.json
QJerry's picture
Initial commit.
ed266a5 verified
{
"best_metric": null,
"best_model_checkpoint": null,
"epoch": 0.512,
"eval_steps": 500,
"global_step": 60,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.008533333333333334,
"grad_norm": 160.11701043689894,
"learning_rate": 0.0,
"loss": 32.4968,
"step": 1
},
{
"epoch": 0.017066666666666667,
"grad_norm": 157.24779534424323,
"learning_rate": 1.5051499783199057e-06,
"loss": 31.6979,
"step": 2
},
{
"epoch": 0.0256,
"grad_norm": 157.9465272449825,
"learning_rate": 2.385606273598312e-06,
"loss": 31.8828,
"step": 3
},
{
"epoch": 0.034133333333333335,
"grad_norm": 160.2154859965946,
"learning_rate": 3.0102999566398115e-06,
"loss": 31.9681,
"step": 4
},
{
"epoch": 0.042666666666666665,
"grad_norm": 158.5305446712084,
"learning_rate": 3.4948500216800934e-06,
"loss": 31.3717,
"step": 5
},
{
"epoch": 0.0512,
"grad_norm": 155.50243039700376,
"learning_rate": 3.890756251918218e-06,
"loss": 30.5348,
"step": 6
},
{
"epoch": 0.05973333333333333,
"grad_norm": 168.6887446693614,
"learning_rate": 4.225490200071284e-06,
"loss": 31.3845,
"step": 7
},
{
"epoch": 0.06826666666666667,
"grad_norm": 164.2631689450651,
"learning_rate": 4.515449934959717e-06,
"loss": 30.5243,
"step": 8
},
{
"epoch": 0.0768,
"grad_norm": 174.1878139573776,
"learning_rate": 4.771212547196624e-06,
"loss": 30.0138,
"step": 9
},
{
"epoch": 0.08533333333333333,
"grad_norm": 177.9519334680014,
"learning_rate": 4.9999999999999996e-06,
"loss": 29.6143,
"step": 10
},
{
"epoch": 0.09386666666666667,
"grad_norm": 183.57104380865735,
"learning_rate": 5.206963425791125e-06,
"loss": 28.8718,
"step": 11
},
{
"epoch": 0.1024,
"grad_norm": 186.4090344511231,
"learning_rate": 5.395906230238124e-06,
"loss": 26.1695,
"step": 12
},
{
"epoch": 0.11093333333333333,
"grad_norm": 198.17161320746723,
"learning_rate": 5.5697167615341825e-06,
"loss": 26.1266,
"step": 13
},
{
"epoch": 0.11946666666666667,
"grad_norm": 182.4443087115901,
"learning_rate": 5.730640178391189e-06,
"loss": 24.2121,
"step": 14
},
{
"epoch": 0.128,
"grad_norm": 159.38105380659272,
"learning_rate": 5.880456295278406e-06,
"loss": 22.5796,
"step": 15
},
{
"epoch": 0.13653333333333334,
"grad_norm": 142.82387126501297,
"learning_rate": 6.020599913279623e-06,
"loss": 21.1346,
"step": 16
},
{
"epoch": 0.14506666666666668,
"grad_norm": 123.86394296641578,
"learning_rate": 6.15224460689137e-06,
"loss": 19.8457,
"step": 17
},
{
"epoch": 0.1536,
"grad_norm": 112.3988260336824,
"learning_rate": 6.276362525516529e-06,
"loss": 18.7824,
"step": 18
},
{
"epoch": 0.16213333333333332,
"grad_norm": 120.96712330991012,
"learning_rate": 6.393768004764144e-06,
"loss": 18.0207,
"step": 19
},
{
"epoch": 0.17066666666666666,
"grad_norm": 129.42692949353702,
"learning_rate": 6.505149978319905e-06,
"loss": 16.8355,
"step": 20
},
{
"epoch": 0.1792,
"grad_norm": 120.65595457746791,
"learning_rate": 6.611096473669596e-06,
"loss": 15.252,
"step": 21
},
{
"epoch": 0.18773333333333334,
"grad_norm": 133.05280466087515,
"learning_rate": 6.712113404111031e-06,
"loss": 14.1391,
"step": 22
},
{
"epoch": 0.19626666666666667,
"grad_norm": 127.95029628849048,
"learning_rate": 6.808639180087963e-06,
"loss": 12.9566,
"step": 23
},
{
"epoch": 0.2048,
"grad_norm": 108.83495245094748,
"learning_rate": 6.90105620855803e-06,
"loss": 11.8743,
"step": 24
},
{
"epoch": 0.21333333333333335,
"grad_norm": 99.90727146021455,
"learning_rate": 6.989700043360187e-06,
"loss": 10.962,
"step": 25
},
{
"epoch": 0.22186666666666666,
"grad_norm": 98.37126740059823,
"learning_rate": 7.074866739854089e-06,
"loss": 9.9919,
"step": 26
},
{
"epoch": 0.2304,
"grad_norm": 92.26708429201608,
"learning_rate": 7.156818820794936e-06,
"loss": 8.8811,
"step": 27
},
{
"epoch": 0.23893333333333333,
"grad_norm": 83.36099898839835,
"learning_rate": 7.235790156711096e-06,
"loss": 7.7806,
"step": 28
},
{
"epoch": 0.24746666666666667,
"grad_norm": 68.07500315598597,
"learning_rate": 7.3119899894947795e-06,
"loss": 7.0528,
"step": 29
},
{
"epoch": 0.256,
"grad_norm": 69.58960332280246,
"learning_rate": 7.385606273598311e-06,
"loss": 6.3683,
"step": 30
},
{
"epoch": 0.26453333333333334,
"grad_norm": 68.77532204123075,
"learning_rate": 7.456808469171363e-06,
"loss": 6.1635,
"step": 31
},
{
"epoch": 0.2730666666666667,
"grad_norm": 66.29676636510072,
"learning_rate": 7.5257498915995295e-06,
"loss": 4.711,
"step": 32
},
{
"epoch": 0.2816,
"grad_norm": 42.87145091679237,
"learning_rate": 7.592569699389437e-06,
"loss": 4.5119,
"step": 33
},
{
"epoch": 0.29013333333333335,
"grad_norm": 26.2592350291551,
"learning_rate": 7.657394585211274e-06,
"loss": 4.31,
"step": 34
},
{
"epoch": 0.2986666666666667,
"grad_norm": 15.35959008067237,
"learning_rate": 7.720340221751376e-06,
"loss": 4.0001,
"step": 35
},
{
"epoch": 0.3072,
"grad_norm": 8.50847651865227,
"learning_rate": 7.781512503836437e-06,
"loss": 3.5723,
"step": 36
},
{
"epoch": 0.3157333333333333,
"grad_norm": 6.562581089063746,
"learning_rate": 7.841008620334974e-06,
"loss": 3.9254,
"step": 37
},
{
"epoch": 0.32426666666666665,
"grad_norm": 5.6145595722250095,
"learning_rate": 7.89891798308405e-06,
"loss": 3.8746,
"step": 38
},
{
"epoch": 0.3328,
"grad_norm": 5.385367220486204,
"learning_rate": 7.955323035132495e-06,
"loss": 3.8128,
"step": 39
},
{
"epoch": 0.3413333333333333,
"grad_norm": 5.403447124703616,
"learning_rate": 8.010299956639811e-06,
"loss": 3.885,
"step": 40
},
{
"epoch": 0.34986666666666666,
"grad_norm": 5.48242204895128,
"learning_rate": 8.063919283598677e-06,
"loss": 3.8048,
"step": 41
},
{
"epoch": 0.3584,
"grad_norm": 5.5525098950513865,
"learning_rate": 8.116246451989503e-06,
"loss": 3.7508,
"step": 42
},
{
"epoch": 0.36693333333333333,
"grad_norm": 5.354384520535484,
"learning_rate": 8.167342277897933e-06,
"loss": 3.5069,
"step": 43
},
{
"epoch": 0.37546666666666667,
"grad_norm": 5.46272338131107,
"learning_rate": 8.217263382430936e-06,
"loss": 3.6747,
"step": 44
},
{
"epoch": 0.384,
"grad_norm": 4.798550688968453,
"learning_rate": 8.266062568876717e-06,
"loss": 3.1609,
"step": 45
},
{
"epoch": 0.39253333333333335,
"grad_norm": 5.755104452953421,
"learning_rate": 8.31378915840787e-06,
"loss": 3.5733,
"step": 46
},
{
"epoch": 0.4010666666666667,
"grad_norm": 4.618763611067563,
"learning_rate": 8.360489289678585e-06,
"loss": 2.9402,
"step": 47
},
{
"epoch": 0.4096,
"grad_norm": 5.506785974818791,
"learning_rate": 8.406206186877936e-06,
"loss": 3.382,
"step": 48
},
{
"epoch": 0.41813333333333336,
"grad_norm": 4.68603207809794,
"learning_rate": 8.450980400142568e-06,
"loss": 2.9918,
"step": 49
},
{
"epoch": 0.4266666666666667,
"grad_norm": 5.124033394817131,
"learning_rate": 8.494850021680093e-06,
"loss": 3.3202,
"step": 50
},
{
"epoch": 0.4352,
"grad_norm": 4.293001183481895,
"learning_rate": 8.537850880489681e-06,
"loss": 2.8519,
"step": 51
},
{
"epoch": 0.4437333333333333,
"grad_norm": 4.382596858902394,
"learning_rate": 8.580016718173996e-06,
"loss": 2.9683,
"step": 52
},
{
"epoch": 0.45226666666666665,
"grad_norm": 4.3176263388044696,
"learning_rate": 8.621379348003945e-06,
"loss": 2.9257,
"step": 53
},
{
"epoch": 0.4608,
"grad_norm": 4.5250022171605195,
"learning_rate": 8.661968799114844e-06,
"loss": 3.0556,
"step": 54
},
{
"epoch": 0.4693333333333333,
"grad_norm": 4.429424190600661,
"learning_rate": 8.701813447471218e-06,
"loss": 2.9513,
"step": 55
},
{
"epoch": 0.47786666666666666,
"grad_norm": 4.349652568052827,
"learning_rate": 8.740940135031001e-06,
"loss": 2.9029,
"step": 56
},
{
"epoch": 0.4864,
"grad_norm": 4.299227871435445,
"learning_rate": 8.779374278362457e-06,
"loss": 2.5989,
"step": 57
},
{
"epoch": 0.49493333333333334,
"grad_norm": 4.562461330302201,
"learning_rate": 8.817139967814684e-06,
"loss": 2.8158,
"step": 58
},
{
"epoch": 0.5034666666666666,
"grad_norm": 4.606987182758338,
"learning_rate": 8.854260058210721e-06,
"loss": 2.6272,
"step": 59
},
{
"epoch": 0.512,
"grad_norm": 4.9420031522511545,
"learning_rate": 8.890756251918216e-06,
"loss": 2.5488,
"step": 60
}
],
"logging_steps": 1,
"max_steps": 301,
"num_input_tokens_seen": 0,
"num_train_epochs": 3,
"save_steps": 20,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": false
},
"attributes": {}
}
},
"total_flos": 8.473824188421898e+17,
"train_batch_size": 16,
"trial_name": null,
"trial_params": null
}