30k-Llama3-8B / checkpoint-60 /trainer_state.json

Initial commit.

ed266a5 verified 5 months ago

10.8 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.512,
	"eval_steps": 500,
	"global_step": 60,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.008533333333333334,
	"grad_norm": 160.11701043689894,
	"learning_rate": 0.0,
	"loss": 32.4968,
	"step": 1
	},
	{
	"epoch": 0.017066666666666667,
	"grad_norm": 157.24779534424323,
	"learning_rate": 1.5051499783199057e-06,
	"loss": 31.6979,
	"step": 2
	},
	{
	"epoch": 0.0256,
	"grad_norm": 157.9465272449825,
	"learning_rate": 2.385606273598312e-06,
	"loss": 31.8828,
	"step": 3
	},
	{
	"epoch": 0.034133333333333335,
	"grad_norm": 160.2154859965946,
	"learning_rate": 3.0102999566398115e-06,
	"loss": 31.9681,
	"step": 4
	},
	{
	"epoch": 0.042666666666666665,
	"grad_norm": 158.5305446712084,
	"learning_rate": 3.4948500216800934e-06,
	"loss": 31.3717,
	"step": 5
	},
	{
	"epoch": 0.0512,
	"grad_norm": 155.50243039700376,
	"learning_rate": 3.890756251918218e-06,
	"loss": 30.5348,
	"step": 6
	},
	{
	"epoch": 0.05973333333333333,
	"grad_norm": 168.6887446693614,
	"learning_rate": 4.225490200071284e-06,
	"loss": 31.3845,
	"step": 7
	},
	{
	"epoch": 0.06826666666666667,
	"grad_norm": 164.2631689450651,
	"learning_rate": 4.515449934959717e-06,
	"loss": 30.5243,
	"step": 8
	},
	{
	"epoch": 0.0768,
	"grad_norm": 174.1878139573776,
	"learning_rate": 4.771212547196624e-06,
	"loss": 30.0138,
	"step": 9
	},
	{
	"epoch": 0.08533333333333333,
	"grad_norm": 177.9519334680014,
	"learning_rate": 4.9999999999999996e-06,
	"loss": 29.6143,
	"step": 10
	},
	{
	"epoch": 0.09386666666666667,
	"grad_norm": 183.57104380865735,
	"learning_rate": 5.206963425791125e-06,
	"loss": 28.8718,
	"step": 11
	},
	{
	"epoch": 0.1024,
	"grad_norm": 186.4090344511231,
	"learning_rate": 5.395906230238124e-06,
	"loss": 26.1695,
	"step": 12
	},
	{
	"epoch": 0.11093333333333333,
	"grad_norm": 198.17161320746723,
	"learning_rate": 5.5697167615341825e-06,
	"loss": 26.1266,
	"step": 13
	},
	{
	"epoch": 0.11946666666666667,
	"grad_norm": 182.4443087115901,
	"learning_rate": 5.730640178391189e-06,
	"loss": 24.2121,
	"step": 14
	},
	{
	"epoch": 0.128,
	"grad_norm": 159.38105380659272,
	"learning_rate": 5.880456295278406e-06,
	"loss": 22.5796,
	"step": 15
	},
	{
	"epoch": 0.13653333333333334,
	"grad_norm": 142.82387126501297,
	"learning_rate": 6.020599913279623e-06,
	"loss": 21.1346,
	"step": 16
	},
	{
	"epoch": 0.14506666666666668,
	"grad_norm": 123.86394296641578,
	"learning_rate": 6.15224460689137e-06,
	"loss": 19.8457,
	"step": 17
	},
	{
	"epoch": 0.1536,
	"grad_norm": 112.3988260336824,
	"learning_rate": 6.276362525516529e-06,
	"loss": 18.7824,
	"step": 18
	},
	{
	"epoch": 0.16213333333333332,
	"grad_norm": 120.96712330991012,
	"learning_rate": 6.393768004764144e-06,
	"loss": 18.0207,
	"step": 19
	},
	{
	"epoch": 0.17066666666666666,
	"grad_norm": 129.42692949353702,
	"learning_rate": 6.505149978319905e-06,
	"loss": 16.8355,
	"step": 20
	},
	{
	"epoch": 0.1792,
	"grad_norm": 120.65595457746791,
	"learning_rate": 6.611096473669596e-06,
	"loss": 15.252,
	"step": 21
	},
	{
	"epoch": 0.18773333333333334,
	"grad_norm": 133.05280466087515,
	"learning_rate": 6.712113404111031e-06,
	"loss": 14.1391,
	"step": 22
	},
	{
	"epoch": 0.19626666666666667,
	"grad_norm": 127.95029628849048,
	"learning_rate": 6.808639180087963e-06,
	"loss": 12.9566,
	"step": 23
	},
	{
	"epoch": 0.2048,
	"grad_norm": 108.83495245094748,
	"learning_rate": 6.90105620855803e-06,
	"loss": 11.8743,
	"step": 24
	},
	{
	"epoch": 0.21333333333333335,
	"grad_norm": 99.90727146021455,
	"learning_rate": 6.989700043360187e-06,
	"loss": 10.962,
	"step": 25
	},
	{
	"epoch": 0.22186666666666666,
	"grad_norm": 98.37126740059823,
	"learning_rate": 7.074866739854089e-06,
	"loss": 9.9919,
	"step": 26
	},
	{
	"epoch": 0.2304,
	"grad_norm": 92.26708429201608,
	"learning_rate": 7.156818820794936e-06,
	"loss": 8.8811,
	"step": 27
	},
	{
	"epoch": 0.23893333333333333,
	"grad_norm": 83.36099898839835,
	"learning_rate": 7.235790156711096e-06,
	"loss": 7.7806,
	"step": 28
	},
	{
	"epoch": 0.24746666666666667,
	"grad_norm": 68.07500315598597,
	"learning_rate": 7.3119899894947795e-06,
	"loss": 7.0528,
	"step": 29
	},
	{
	"epoch": 0.256,
	"grad_norm": 69.58960332280246,
	"learning_rate": 7.385606273598311e-06,
	"loss": 6.3683,
	"step": 30
	},
	{
	"epoch": 0.26453333333333334,
	"grad_norm": 68.77532204123075,
	"learning_rate": 7.456808469171363e-06,
	"loss": 6.1635,
	"step": 31
	},
	{
	"epoch": 0.2730666666666667,
	"grad_norm": 66.29676636510072,
	"learning_rate": 7.5257498915995295e-06,
	"loss": 4.711,
	"step": 32
	},
	{
	"epoch": 0.2816,
	"grad_norm": 42.87145091679237,
	"learning_rate": 7.592569699389437e-06,
	"loss": 4.5119,
	"step": 33
	},
	{
	"epoch": 0.29013333333333335,
	"grad_norm": 26.2592350291551,
	"learning_rate": 7.657394585211274e-06,
	"loss": 4.31,
	"step": 34
	},
	{
	"epoch": 0.2986666666666667,
	"grad_norm": 15.35959008067237,
	"learning_rate": 7.720340221751376e-06,
	"loss": 4.0001,
	"step": 35
	},
	{
	"epoch": 0.3072,
	"grad_norm": 8.50847651865227,
	"learning_rate": 7.781512503836437e-06,
	"loss": 3.5723,
	"step": 36
	},
	{
	"epoch": 0.3157333333333333,
	"grad_norm": 6.562581089063746,
	"learning_rate": 7.841008620334974e-06,
	"loss": 3.9254,
	"step": 37
	},
	{
	"epoch": 0.32426666666666665,
	"grad_norm": 5.6145595722250095,
	"learning_rate": 7.89891798308405e-06,
	"loss": 3.8746,
	"step": 38
	},
	{
	"epoch": 0.3328,
	"grad_norm": 5.385367220486204,
	"learning_rate": 7.955323035132495e-06,
	"loss": 3.8128,
	"step": 39
	},
	{
	"epoch": 0.3413333333333333,
	"grad_norm": 5.403447124703616,
	"learning_rate": 8.010299956639811e-06,
	"loss": 3.885,
	"step": 40
	},
	{
	"epoch": 0.34986666666666666,
	"grad_norm": 5.48242204895128,
	"learning_rate": 8.063919283598677e-06,
	"loss": 3.8048,
	"step": 41
	},
	{
	"epoch": 0.3584,
	"grad_norm": 5.5525098950513865,
	"learning_rate": 8.116246451989503e-06,
	"loss": 3.7508,
	"step": 42
	},
	{
	"epoch": 0.36693333333333333,
	"grad_norm": 5.354384520535484,
	"learning_rate": 8.167342277897933e-06,
	"loss": 3.5069,
	"step": 43
	},
	{
	"epoch": 0.37546666666666667,
	"grad_norm": 5.46272338131107,
	"learning_rate": 8.217263382430936e-06,
	"loss": 3.6747,
	"step": 44
	},
	{
	"epoch": 0.384,
	"grad_norm": 4.798550688968453,
	"learning_rate": 8.266062568876717e-06,
	"loss": 3.1609,
	"step": 45
	},
	{
	"epoch": 0.39253333333333335,
	"grad_norm": 5.755104452953421,
	"learning_rate": 8.31378915840787e-06,
	"loss": 3.5733,
	"step": 46
	},
	{
	"epoch": 0.4010666666666667,
	"grad_norm": 4.618763611067563,
	"learning_rate": 8.360489289678585e-06,
	"loss": 2.9402,
	"step": 47
	},
	{
	"epoch": 0.4096,
	"grad_norm": 5.506785974818791,
	"learning_rate": 8.406206186877936e-06,
	"loss": 3.382,
	"step": 48
	},
	{
	"epoch": 0.41813333333333336,
	"grad_norm": 4.68603207809794,
	"learning_rate": 8.450980400142568e-06,
	"loss": 2.9918,
	"step": 49
	},
	{
	"epoch": 0.4266666666666667,
	"grad_norm": 5.124033394817131,
	"learning_rate": 8.494850021680093e-06,
	"loss": 3.3202,
	"step": 50
	},
	{
	"epoch": 0.4352,
	"grad_norm": 4.293001183481895,
	"learning_rate": 8.537850880489681e-06,
	"loss": 2.8519,
	"step": 51
	},
	{
	"epoch": 0.4437333333333333,
	"grad_norm": 4.382596858902394,
	"learning_rate": 8.580016718173996e-06,
	"loss": 2.9683,
	"step": 52
	},
	{
	"epoch": 0.45226666666666665,
	"grad_norm": 4.3176263388044696,
	"learning_rate": 8.621379348003945e-06,
	"loss": 2.9257,
	"step": 53
	},
	{
	"epoch": 0.4608,
	"grad_norm": 4.5250022171605195,
	"learning_rate": 8.661968799114844e-06,
	"loss": 3.0556,
	"step": 54
	},
	{
	"epoch": 0.4693333333333333,
	"grad_norm": 4.429424190600661,
	"learning_rate": 8.701813447471218e-06,
	"loss": 2.9513,
	"step": 55
	},
	{
	"epoch": 0.47786666666666666,
	"grad_norm": 4.349652568052827,
	"learning_rate": 8.740940135031001e-06,
	"loss": 2.9029,
	"step": 56
	},
	{
	"epoch": 0.4864,
	"grad_norm": 4.299227871435445,
	"learning_rate": 8.779374278362457e-06,
	"loss": 2.5989,
	"step": 57
	},
	{
	"epoch": 0.49493333333333334,
	"grad_norm": 4.562461330302201,
	"learning_rate": 8.817139967814684e-06,
	"loss": 2.8158,
	"step": 58
	},
	{
	"epoch": 0.5034666666666666,
	"grad_norm": 4.606987182758338,
	"learning_rate": 8.854260058210721e-06,
	"loss": 2.6272,
	"step": 59
	},
	{
	"epoch": 0.512,
	"grad_norm": 4.9420031522511545,
	"learning_rate": 8.890756251918216e-06,
	"loss": 2.5488,
	"step": 60
	}
	],
	"logging_steps": 1,
	"max_steps": 301,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 20,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 8.473824188421898e+17,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}