Spaces:

anon5
/

classifier-example

Sleeping

App Files Files Community

classifier-example / checkpoint-600 /trainer_state.json

anon5

Upload 10 files

720ff4c verified 12 months ago

raw

history blame

11.1 kB

	{
	"best_metric": 0.2971116304397583,
	"best_model_checkpoint": "./svin/checkpoint-600",
	"epoch": 5.0,
	"eval_steps": 500,
	"global_step": 600,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.08,
	"grad_norm": 1.4835056066513062,
	"learning_rate": 1.9666666666666666e-05,
	"loss": 2.4036,
	"step": 10
	},
	{
	"epoch": 0.17,
	"grad_norm": 1.6403590440750122,
	"learning_rate": 1.9333333333333333e-05,
	"loss": 2.126,
	"step": 20
	},
	{
	"epoch": 0.25,
	"grad_norm": 1.8593930006027222,
	"learning_rate": 1.9e-05,
	"loss": 1.7892,
	"step": 30
	},
	{
	"epoch": 0.33,
	"grad_norm": 1.6115764379501343,
	"learning_rate": 1.866666666666667e-05,
	"loss": 1.5352,
	"step": 40
	},
	{
	"epoch": 0.42,
	"grad_norm": 1.3383398056030273,
	"learning_rate": 1.8333333333333333e-05,
	"loss": 1.3303,
	"step": 50
	},
	{
	"epoch": 0.5,
	"grad_norm": 1.3053131103515625,
	"learning_rate": 1.8e-05,
	"loss": 1.1755,
	"step": 60
	},
	{
	"epoch": 0.58,
	"grad_norm": 1.4148197174072266,
	"learning_rate": 1.7666666666666668e-05,
	"loss": 1.0469,
	"step": 70
	},
	{
	"epoch": 0.67,
	"grad_norm": 1.3164098262786865,
	"learning_rate": 1.7333333333333336e-05,
	"loss": 0.9351,
	"step": 80
	},
	{
	"epoch": 0.75,
	"grad_norm": 1.351128339767456,
	"learning_rate": 1.7e-05,
	"loss": 0.8411,
	"step": 90
	},
	{
	"epoch": 0.83,
	"grad_norm": 1.1163653135299683,
	"learning_rate": 1.6666666666666667e-05,
	"loss": 0.82,
	"step": 100
	},
	{
	"epoch": 0.92,
	"grad_norm": 1.2481478452682495,
	"learning_rate": 1.6333333333333335e-05,
	"loss": 0.7225,
	"step": 110
	},
	{
	"epoch": 1.0,
	"grad_norm": 1.494071364402771,
	"learning_rate": 1.6000000000000003e-05,
	"loss": 0.6972,
	"step": 120
	},
	{
	"epoch": 1.0,
	"eval_accuracy": 0.8978622327790974,
	"eval_loss": 0.6513156294822693,
	"eval_runtime": 31.845,
	"eval_samples_per_second": 92.542,
	"eval_steps_per_second": 0.691,
	"step": 120
	},
	{
	"epoch": 1.08,
	"grad_norm": 1.2568280696868896,
	"learning_rate": 1.5666666666666667e-05,
	"loss": 0.6147,
	"step": 130
	},
	{
	"epoch": 1.17,
	"grad_norm": 1.1234235763549805,
	"learning_rate": 1.5333333333333334e-05,
	"loss": 0.5977,
	"step": 140
	},
	{
	"epoch": 1.25,
	"grad_norm": 1.614490270614624,
	"learning_rate": 1.5000000000000002e-05,
	"loss": 0.6324,
	"step": 150
	},
	{
	"epoch": 1.33,
	"grad_norm": 1.1563916206359863,
	"learning_rate": 1.4666666666666666e-05,
	"loss": 0.5423,
	"step": 160
	},
	{
	"epoch": 1.42,
	"grad_norm": 1.1219310760498047,
	"learning_rate": 1.4333333333333334e-05,
	"loss": 0.5335,
	"step": 170
	},
	{
	"epoch": 1.5,
	"grad_norm": 1.0543292760849,
	"learning_rate": 1.4e-05,
	"loss": 0.5169,
	"step": 180
	},
	{
	"epoch": 1.58,
	"grad_norm": 1.5661933422088623,
	"learning_rate": 1.3666666666666667e-05,
	"loss": 0.5247,
	"step": 190
	},
	{
	"epoch": 1.67,
	"grad_norm": 1.4204506874084473,
	"learning_rate": 1.3333333333333333e-05,
	"loss": 0.4767,
	"step": 200
	},
	{
	"epoch": 1.75,
	"grad_norm": 1.054136872291565,
	"learning_rate": 1.3000000000000001e-05,
	"loss": 0.4874,
	"step": 210
	},
	{
	"epoch": 1.83,
	"grad_norm": 1.1543879508972168,
	"learning_rate": 1.2666666666666667e-05,
	"loss": 0.4546,
	"step": 220
	},
	{
	"epoch": 1.92,
	"grad_norm": 1.2403457164764404,
	"learning_rate": 1.2333333333333334e-05,
	"loss": 0.4272,
	"step": 230
	},
	{
	"epoch": 2.0,
	"grad_norm": 1.166118860244751,
	"learning_rate": 1.2e-05,
	"loss": 0.4305,
	"step": 240
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.9477434679334917,
	"eval_loss": 0.41236403584480286,
	"eval_runtime": 31.083,
	"eval_samples_per_second": 94.811,
	"eval_steps_per_second": 0.708,
	"step": 240
	},
	{
	"epoch": 2.08,
	"grad_norm": 1.3920248746871948,
	"learning_rate": 1.1666666666666668e-05,
	"loss": 0.3951,
	"step": 250
	},
	{
	"epoch": 2.17,
	"grad_norm": 1.9847582578659058,
	"learning_rate": 1.1333333333333334e-05,
	"loss": 0.4493,
	"step": 260
	},
	{
	"epoch": 2.25,
	"grad_norm": 0.9650905132293701,
	"learning_rate": 1.1000000000000001e-05,
	"loss": 0.3995,
	"step": 270
	},
	{
	"epoch": 2.33,
	"grad_norm": 1.1868102550506592,
	"learning_rate": 1.0666666666666667e-05,
	"loss": 0.401,
	"step": 280
	},
	{
	"epoch": 2.42,
	"grad_norm": 0.9317110776901245,
	"learning_rate": 1.0333333333333335e-05,
	"loss": 0.3785,
	"step": 290
	},
	{
	"epoch": 2.5,
	"grad_norm": 1.3572497367858887,
	"learning_rate": 1e-05,
	"loss": 0.3785,
	"step": 300
	},
	{
	"epoch": 2.58,
	"grad_norm": 0.971365749835968,
	"learning_rate": 9.666666666666667e-06,
	"loss": 0.3789,
	"step": 310
	},
	{
	"epoch": 2.67,
	"grad_norm": 1.131386399269104,
	"learning_rate": 9.333333333333334e-06,
	"loss": 0.3636,
	"step": 320
	},
	{
	"epoch": 2.75,
	"grad_norm": 1.010298728942871,
	"learning_rate": 9e-06,
	"loss": 0.3787,
	"step": 330
	},
	{
	"epoch": 2.83,
	"grad_norm": 1.622625470161438,
	"learning_rate": 8.666666666666668e-06,
	"loss": 0.3829,
	"step": 340
	},
	{
	"epoch": 2.92,
	"grad_norm": 1.2643784284591675,
	"learning_rate": 8.333333333333334e-06,
	"loss": 0.3581,
	"step": 350
	},
	{
	"epoch": 3.0,
	"grad_norm": 1.2496050596237183,
	"learning_rate": 8.000000000000001e-06,
	"loss": 0.3596,
	"step": 360
	},
	{
	"epoch": 3.0,
	"eval_accuracy": 0.9538513742789277,
	"eval_loss": 0.345228910446167,
	"eval_runtime": 30.154,
	"eval_samples_per_second": 97.732,
	"eval_steps_per_second": 0.73,
	"step": 360
	},
	{
	"epoch": 3.08,
	"grad_norm": 1.3197300434112549,
	"learning_rate": 7.666666666666667e-06,
	"loss": 0.3436,
	"step": 370
	},
	{
	"epoch": 3.17,
	"grad_norm": 1.0845314264297485,
	"learning_rate": 7.333333333333333e-06,
	"loss": 0.3334,
	"step": 380
	},
	{
	"epoch": 3.25,
	"grad_norm": 1.349538803100586,
	"learning_rate": 7e-06,
	"loss": 0.3274,
	"step": 390
	},
	{
	"epoch": 3.33,
	"grad_norm": 1.1228528022766113,
	"learning_rate": 6.666666666666667e-06,
	"loss": 0.3381,
	"step": 400
	},
	{
	"epoch": 3.42,
	"grad_norm": 0.8805223703384399,
	"learning_rate": 6.333333333333333e-06,
	"loss": 0.3157,
	"step": 410
	},
	{
	"epoch": 3.5,
	"grad_norm": 1.097921371459961,
	"learning_rate": 6e-06,
	"loss": 0.2886,
	"step": 420
	},
	{
	"epoch": 3.58,
	"grad_norm": 1.1974855661392212,
	"learning_rate": 5.666666666666667e-06,
	"loss": 0.3184,
	"step": 430
	},
	{
	"epoch": 3.67,
	"grad_norm": 0.9140454530715942,
	"learning_rate": 5.333333333333334e-06,
	"loss": 0.3114,
	"step": 440
	},
	{
	"epoch": 3.75,
	"grad_norm": 0.7140288949012756,
	"learning_rate": 5e-06,
	"loss": 0.2978,
	"step": 450
	},
	{
	"epoch": 3.83,
	"grad_norm": 0.7845974564552307,
	"learning_rate": 4.666666666666667e-06,
	"loss": 0.3082,
	"step": 460
	},
	{
	"epoch": 3.92,
	"grad_norm": 1.4480149745941162,
	"learning_rate": 4.333333333333334e-06,
	"loss": 0.3349,
	"step": 470
	},
	{
	"epoch": 4.0,
	"grad_norm": 0.9842857718467712,
	"learning_rate": 4.000000000000001e-06,
	"loss": 0.299,
	"step": 480
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.9582626399728538,
	"eval_loss": 0.3117567300796509,
	"eval_runtime": 30.981,
	"eval_samples_per_second": 95.123,
	"eval_steps_per_second": 0.71,
	"step": 480
	},
	{
	"epoch": 4.08,
	"grad_norm": 1.228848934173584,
	"learning_rate": 3.6666666666666666e-06,
	"loss": 0.3423,
	"step": 490
	},
	{
	"epoch": 4.17,
	"grad_norm": 0.9397204518318176,
	"learning_rate": 3.3333333333333333e-06,
	"loss": 0.3014,
	"step": 500
	},
	{
	"epoch": 4.25,
	"grad_norm": 1.3466633558273315,
	"learning_rate": 3e-06,
	"loss": 0.29,
	"step": 510
	},
	{
	"epoch": 4.33,
	"grad_norm": 1.0849584341049194,
	"learning_rate": 2.666666666666667e-06,
	"loss": 0.3092,
	"step": 520
	},
	{
	"epoch": 4.42,
	"grad_norm": 0.85384202003479,
	"learning_rate": 2.3333333333333336e-06,
	"loss": 0.2996,
	"step": 530
	},
	{
	"epoch": 4.5,
	"grad_norm": 1.3900597095489502,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 0.2788,
	"step": 540
	},
	{
	"epoch": 4.58,
	"grad_norm": 1.5993285179138184,
	"learning_rate": 1.6666666666666667e-06,
	"loss": 0.3014,
	"step": 550
	},
	{
	"epoch": 4.67,
	"grad_norm": 1.0854403972625732,
	"learning_rate": 1.3333333333333334e-06,
	"loss": 0.2894,
	"step": 560
	},
	{
	"epoch": 4.75,
	"grad_norm": 1.186776041984558,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 0.2906,
	"step": 570
	},
	{
	"epoch": 4.83,
	"grad_norm": 1.3972039222717285,
	"learning_rate": 6.666666666666667e-07,
	"loss": 0.2906,
	"step": 580
	},
	{
	"epoch": 4.92,
	"grad_norm": 1.1296278238296509,
	"learning_rate": 3.3333333333333335e-07,
	"loss": 0.2923,
	"step": 590
	},
	{
	"epoch": 5.0,
	"grad_norm": 1.1308748722076416,
	"learning_rate": 0.0,
	"loss": 0.2729,
	"step": 600
	},
	{
	"epoch": 5.0,
	"eval_accuracy": 0.9596199524940617,
	"eval_loss": 0.2971116304397583,
	"eval_runtime": 30.8812,
	"eval_samples_per_second": 95.43,
	"eval_steps_per_second": 0.712,
	"step": 600
	}
	],
	"logging_steps": 10,
	"max_steps": 600,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 500,
	"total_flos": 6.470773575863869e+18,
	"train_batch_size": 140,
	"trial_name": null,
	"trial_params": null
	}