classifier-example / checkpoint-600 /trainer_state.json
anon5's picture
Upload 10 files
720ff4c verified
raw
history blame
11.1 kB
{
"best_metric": 0.2971116304397583,
"best_model_checkpoint": "./svin/checkpoint-600",
"epoch": 5.0,
"eval_steps": 500,
"global_step": 600,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.08,
"grad_norm": 1.4835056066513062,
"learning_rate": 1.9666666666666666e-05,
"loss": 2.4036,
"step": 10
},
{
"epoch": 0.17,
"grad_norm": 1.6403590440750122,
"learning_rate": 1.9333333333333333e-05,
"loss": 2.126,
"step": 20
},
{
"epoch": 0.25,
"grad_norm": 1.8593930006027222,
"learning_rate": 1.9e-05,
"loss": 1.7892,
"step": 30
},
{
"epoch": 0.33,
"grad_norm": 1.6115764379501343,
"learning_rate": 1.866666666666667e-05,
"loss": 1.5352,
"step": 40
},
{
"epoch": 0.42,
"grad_norm": 1.3383398056030273,
"learning_rate": 1.8333333333333333e-05,
"loss": 1.3303,
"step": 50
},
{
"epoch": 0.5,
"grad_norm": 1.3053131103515625,
"learning_rate": 1.8e-05,
"loss": 1.1755,
"step": 60
},
{
"epoch": 0.58,
"grad_norm": 1.4148197174072266,
"learning_rate": 1.7666666666666668e-05,
"loss": 1.0469,
"step": 70
},
{
"epoch": 0.67,
"grad_norm": 1.3164098262786865,
"learning_rate": 1.7333333333333336e-05,
"loss": 0.9351,
"step": 80
},
{
"epoch": 0.75,
"grad_norm": 1.351128339767456,
"learning_rate": 1.7e-05,
"loss": 0.8411,
"step": 90
},
{
"epoch": 0.83,
"grad_norm": 1.1163653135299683,
"learning_rate": 1.6666666666666667e-05,
"loss": 0.82,
"step": 100
},
{
"epoch": 0.92,
"grad_norm": 1.2481478452682495,
"learning_rate": 1.6333333333333335e-05,
"loss": 0.7225,
"step": 110
},
{
"epoch": 1.0,
"grad_norm": 1.494071364402771,
"learning_rate": 1.6000000000000003e-05,
"loss": 0.6972,
"step": 120
},
{
"epoch": 1.0,
"eval_accuracy": 0.8978622327790974,
"eval_loss": 0.6513156294822693,
"eval_runtime": 31.845,
"eval_samples_per_second": 92.542,
"eval_steps_per_second": 0.691,
"step": 120
},
{
"epoch": 1.08,
"grad_norm": 1.2568280696868896,
"learning_rate": 1.5666666666666667e-05,
"loss": 0.6147,
"step": 130
},
{
"epoch": 1.17,
"grad_norm": 1.1234235763549805,
"learning_rate": 1.5333333333333334e-05,
"loss": 0.5977,
"step": 140
},
{
"epoch": 1.25,
"grad_norm": 1.614490270614624,
"learning_rate": 1.5000000000000002e-05,
"loss": 0.6324,
"step": 150
},
{
"epoch": 1.33,
"grad_norm": 1.1563916206359863,
"learning_rate": 1.4666666666666666e-05,
"loss": 0.5423,
"step": 160
},
{
"epoch": 1.42,
"grad_norm": 1.1219310760498047,
"learning_rate": 1.4333333333333334e-05,
"loss": 0.5335,
"step": 170
},
{
"epoch": 1.5,
"grad_norm": 1.0543292760849,
"learning_rate": 1.4e-05,
"loss": 0.5169,
"step": 180
},
{
"epoch": 1.58,
"grad_norm": 1.5661933422088623,
"learning_rate": 1.3666666666666667e-05,
"loss": 0.5247,
"step": 190
},
{
"epoch": 1.67,
"grad_norm": 1.4204506874084473,
"learning_rate": 1.3333333333333333e-05,
"loss": 0.4767,
"step": 200
},
{
"epoch": 1.75,
"grad_norm": 1.054136872291565,
"learning_rate": 1.3000000000000001e-05,
"loss": 0.4874,
"step": 210
},
{
"epoch": 1.83,
"grad_norm": 1.1543879508972168,
"learning_rate": 1.2666666666666667e-05,
"loss": 0.4546,
"step": 220
},
{
"epoch": 1.92,
"grad_norm": 1.2403457164764404,
"learning_rate": 1.2333333333333334e-05,
"loss": 0.4272,
"step": 230
},
{
"epoch": 2.0,
"grad_norm": 1.166118860244751,
"learning_rate": 1.2e-05,
"loss": 0.4305,
"step": 240
},
{
"epoch": 2.0,
"eval_accuracy": 0.9477434679334917,
"eval_loss": 0.41236403584480286,
"eval_runtime": 31.083,
"eval_samples_per_second": 94.811,
"eval_steps_per_second": 0.708,
"step": 240
},
{
"epoch": 2.08,
"grad_norm": 1.3920248746871948,
"learning_rate": 1.1666666666666668e-05,
"loss": 0.3951,
"step": 250
},
{
"epoch": 2.17,
"grad_norm": 1.9847582578659058,
"learning_rate": 1.1333333333333334e-05,
"loss": 0.4493,
"step": 260
},
{
"epoch": 2.25,
"grad_norm": 0.9650905132293701,
"learning_rate": 1.1000000000000001e-05,
"loss": 0.3995,
"step": 270
},
{
"epoch": 2.33,
"grad_norm": 1.1868102550506592,
"learning_rate": 1.0666666666666667e-05,
"loss": 0.401,
"step": 280
},
{
"epoch": 2.42,
"grad_norm": 0.9317110776901245,
"learning_rate": 1.0333333333333335e-05,
"loss": 0.3785,
"step": 290
},
{
"epoch": 2.5,
"grad_norm": 1.3572497367858887,
"learning_rate": 1e-05,
"loss": 0.3785,
"step": 300
},
{
"epoch": 2.58,
"grad_norm": 0.971365749835968,
"learning_rate": 9.666666666666667e-06,
"loss": 0.3789,
"step": 310
},
{
"epoch": 2.67,
"grad_norm": 1.131386399269104,
"learning_rate": 9.333333333333334e-06,
"loss": 0.3636,
"step": 320
},
{
"epoch": 2.75,
"grad_norm": 1.010298728942871,
"learning_rate": 9e-06,
"loss": 0.3787,
"step": 330
},
{
"epoch": 2.83,
"grad_norm": 1.622625470161438,
"learning_rate": 8.666666666666668e-06,
"loss": 0.3829,
"step": 340
},
{
"epoch": 2.92,
"grad_norm": 1.2643784284591675,
"learning_rate": 8.333333333333334e-06,
"loss": 0.3581,
"step": 350
},
{
"epoch": 3.0,
"grad_norm": 1.2496050596237183,
"learning_rate": 8.000000000000001e-06,
"loss": 0.3596,
"step": 360
},
{
"epoch": 3.0,
"eval_accuracy": 0.9538513742789277,
"eval_loss": 0.345228910446167,
"eval_runtime": 30.154,
"eval_samples_per_second": 97.732,
"eval_steps_per_second": 0.73,
"step": 360
},
{
"epoch": 3.08,
"grad_norm": 1.3197300434112549,
"learning_rate": 7.666666666666667e-06,
"loss": 0.3436,
"step": 370
},
{
"epoch": 3.17,
"grad_norm": 1.0845314264297485,
"learning_rate": 7.333333333333333e-06,
"loss": 0.3334,
"step": 380
},
{
"epoch": 3.25,
"grad_norm": 1.349538803100586,
"learning_rate": 7e-06,
"loss": 0.3274,
"step": 390
},
{
"epoch": 3.33,
"grad_norm": 1.1228528022766113,
"learning_rate": 6.666666666666667e-06,
"loss": 0.3381,
"step": 400
},
{
"epoch": 3.42,
"grad_norm": 0.8805223703384399,
"learning_rate": 6.333333333333333e-06,
"loss": 0.3157,
"step": 410
},
{
"epoch": 3.5,
"grad_norm": 1.097921371459961,
"learning_rate": 6e-06,
"loss": 0.2886,
"step": 420
},
{
"epoch": 3.58,
"grad_norm": 1.1974855661392212,
"learning_rate": 5.666666666666667e-06,
"loss": 0.3184,
"step": 430
},
{
"epoch": 3.67,
"grad_norm": 0.9140454530715942,
"learning_rate": 5.333333333333334e-06,
"loss": 0.3114,
"step": 440
},
{
"epoch": 3.75,
"grad_norm": 0.7140288949012756,
"learning_rate": 5e-06,
"loss": 0.2978,
"step": 450
},
{
"epoch": 3.83,
"grad_norm": 0.7845974564552307,
"learning_rate": 4.666666666666667e-06,
"loss": 0.3082,
"step": 460
},
{
"epoch": 3.92,
"grad_norm": 1.4480149745941162,
"learning_rate": 4.333333333333334e-06,
"loss": 0.3349,
"step": 470
},
{
"epoch": 4.0,
"grad_norm": 0.9842857718467712,
"learning_rate": 4.000000000000001e-06,
"loss": 0.299,
"step": 480
},
{
"epoch": 4.0,
"eval_accuracy": 0.9582626399728538,
"eval_loss": 0.3117567300796509,
"eval_runtime": 30.981,
"eval_samples_per_second": 95.123,
"eval_steps_per_second": 0.71,
"step": 480
},
{
"epoch": 4.08,
"grad_norm": 1.228848934173584,
"learning_rate": 3.6666666666666666e-06,
"loss": 0.3423,
"step": 490
},
{
"epoch": 4.17,
"grad_norm": 0.9397204518318176,
"learning_rate": 3.3333333333333333e-06,
"loss": 0.3014,
"step": 500
},
{
"epoch": 4.25,
"grad_norm": 1.3466633558273315,
"learning_rate": 3e-06,
"loss": 0.29,
"step": 510
},
{
"epoch": 4.33,
"grad_norm": 1.0849584341049194,
"learning_rate": 2.666666666666667e-06,
"loss": 0.3092,
"step": 520
},
{
"epoch": 4.42,
"grad_norm": 0.85384202003479,
"learning_rate": 2.3333333333333336e-06,
"loss": 0.2996,
"step": 530
},
{
"epoch": 4.5,
"grad_norm": 1.3900597095489502,
"learning_rate": 2.0000000000000003e-06,
"loss": 0.2788,
"step": 540
},
{
"epoch": 4.58,
"grad_norm": 1.5993285179138184,
"learning_rate": 1.6666666666666667e-06,
"loss": 0.3014,
"step": 550
},
{
"epoch": 4.67,
"grad_norm": 1.0854403972625732,
"learning_rate": 1.3333333333333334e-06,
"loss": 0.2894,
"step": 560
},
{
"epoch": 4.75,
"grad_norm": 1.186776041984558,
"learning_rate": 1.0000000000000002e-06,
"loss": 0.2906,
"step": 570
},
{
"epoch": 4.83,
"grad_norm": 1.3972039222717285,
"learning_rate": 6.666666666666667e-07,
"loss": 0.2906,
"step": 580
},
{
"epoch": 4.92,
"grad_norm": 1.1296278238296509,
"learning_rate": 3.3333333333333335e-07,
"loss": 0.2923,
"step": 590
},
{
"epoch": 5.0,
"grad_norm": 1.1308748722076416,
"learning_rate": 0.0,
"loss": 0.2729,
"step": 600
},
{
"epoch": 5.0,
"eval_accuracy": 0.9596199524940617,
"eval_loss": 0.2971116304397583,
"eval_runtime": 30.8812,
"eval_samples_per_second": 95.43,
"eval_steps_per_second": 0.712,
"step": 600
}
],
"logging_steps": 10,
"max_steps": 600,
"num_input_tokens_seen": 0,
"num_train_epochs": 5,
"save_steps": 500,
"total_flos": 6.470773575863869e+18,
"train_batch_size": 140,
"trial_name": null,
"trial_params": null
}