Spaces:
Sleeping
Sleeping
{ | |
"best_metric": 0.2971116304397583, | |
"best_model_checkpoint": "./svin/checkpoint-600", | |
"epoch": 5.0, | |
"eval_steps": 500, | |
"global_step": 600, | |
"is_hyper_param_search": false, | |
"is_local_process_zero": true, | |
"is_world_process_zero": true, | |
"log_history": [ | |
{ | |
"epoch": 0.08, | |
"grad_norm": 1.4835056066513062, | |
"learning_rate": 1.9666666666666666e-05, | |
"loss": 2.4036, | |
"step": 10 | |
}, | |
{ | |
"epoch": 0.17, | |
"grad_norm": 1.6403590440750122, | |
"learning_rate": 1.9333333333333333e-05, | |
"loss": 2.126, | |
"step": 20 | |
}, | |
{ | |
"epoch": 0.25, | |
"grad_norm": 1.8593930006027222, | |
"learning_rate": 1.9e-05, | |
"loss": 1.7892, | |
"step": 30 | |
}, | |
{ | |
"epoch": 0.33, | |
"grad_norm": 1.6115764379501343, | |
"learning_rate": 1.866666666666667e-05, | |
"loss": 1.5352, | |
"step": 40 | |
}, | |
{ | |
"epoch": 0.42, | |
"grad_norm": 1.3383398056030273, | |
"learning_rate": 1.8333333333333333e-05, | |
"loss": 1.3303, | |
"step": 50 | |
}, | |
{ | |
"epoch": 0.5, | |
"grad_norm": 1.3053131103515625, | |
"learning_rate": 1.8e-05, | |
"loss": 1.1755, | |
"step": 60 | |
}, | |
{ | |
"epoch": 0.58, | |
"grad_norm": 1.4148197174072266, | |
"learning_rate": 1.7666666666666668e-05, | |
"loss": 1.0469, | |
"step": 70 | |
}, | |
{ | |
"epoch": 0.67, | |
"grad_norm": 1.3164098262786865, | |
"learning_rate": 1.7333333333333336e-05, | |
"loss": 0.9351, | |
"step": 80 | |
}, | |
{ | |
"epoch": 0.75, | |
"grad_norm": 1.351128339767456, | |
"learning_rate": 1.7e-05, | |
"loss": 0.8411, | |
"step": 90 | |
}, | |
{ | |
"epoch": 0.83, | |
"grad_norm": 1.1163653135299683, | |
"learning_rate": 1.6666666666666667e-05, | |
"loss": 0.82, | |
"step": 100 | |
}, | |
{ | |
"epoch": 0.92, | |
"grad_norm": 1.2481478452682495, | |
"learning_rate": 1.6333333333333335e-05, | |
"loss": 0.7225, | |
"step": 110 | |
}, | |
{ | |
"epoch": 1.0, | |
"grad_norm": 1.494071364402771, | |
"learning_rate": 1.6000000000000003e-05, | |
"loss": 0.6972, | |
"step": 120 | |
}, | |
{ | |
"epoch": 1.0, | |
"eval_accuracy": 0.8978622327790974, | |
"eval_loss": 0.6513156294822693, | |
"eval_runtime": 31.845, | |
"eval_samples_per_second": 92.542, | |
"eval_steps_per_second": 0.691, | |
"step": 120 | |
}, | |
{ | |
"epoch": 1.08, | |
"grad_norm": 1.2568280696868896, | |
"learning_rate": 1.5666666666666667e-05, | |
"loss": 0.6147, | |
"step": 130 | |
}, | |
{ | |
"epoch": 1.17, | |
"grad_norm": 1.1234235763549805, | |
"learning_rate": 1.5333333333333334e-05, | |
"loss": 0.5977, | |
"step": 140 | |
}, | |
{ | |
"epoch": 1.25, | |
"grad_norm": 1.614490270614624, | |
"learning_rate": 1.5000000000000002e-05, | |
"loss": 0.6324, | |
"step": 150 | |
}, | |
{ | |
"epoch": 1.33, | |
"grad_norm": 1.1563916206359863, | |
"learning_rate": 1.4666666666666666e-05, | |
"loss": 0.5423, | |
"step": 160 | |
}, | |
{ | |
"epoch": 1.42, | |
"grad_norm": 1.1219310760498047, | |
"learning_rate": 1.4333333333333334e-05, | |
"loss": 0.5335, | |
"step": 170 | |
}, | |
{ | |
"epoch": 1.5, | |
"grad_norm": 1.0543292760849, | |
"learning_rate": 1.4e-05, | |
"loss": 0.5169, | |
"step": 180 | |
}, | |
{ | |
"epoch": 1.58, | |
"grad_norm": 1.5661933422088623, | |
"learning_rate": 1.3666666666666667e-05, | |
"loss": 0.5247, | |
"step": 190 | |
}, | |
{ | |
"epoch": 1.67, | |
"grad_norm": 1.4204506874084473, | |
"learning_rate": 1.3333333333333333e-05, | |
"loss": 0.4767, | |
"step": 200 | |
}, | |
{ | |
"epoch": 1.75, | |
"grad_norm": 1.054136872291565, | |
"learning_rate": 1.3000000000000001e-05, | |
"loss": 0.4874, | |
"step": 210 | |
}, | |
{ | |
"epoch": 1.83, | |
"grad_norm": 1.1543879508972168, | |
"learning_rate": 1.2666666666666667e-05, | |
"loss": 0.4546, | |
"step": 220 | |
}, | |
{ | |
"epoch": 1.92, | |
"grad_norm": 1.2403457164764404, | |
"learning_rate": 1.2333333333333334e-05, | |
"loss": 0.4272, | |
"step": 230 | |
}, | |
{ | |
"epoch": 2.0, | |
"grad_norm": 1.166118860244751, | |
"learning_rate": 1.2e-05, | |
"loss": 0.4305, | |
"step": 240 | |
}, | |
{ | |
"epoch": 2.0, | |
"eval_accuracy": 0.9477434679334917, | |
"eval_loss": 0.41236403584480286, | |
"eval_runtime": 31.083, | |
"eval_samples_per_second": 94.811, | |
"eval_steps_per_second": 0.708, | |
"step": 240 | |
}, | |
{ | |
"epoch": 2.08, | |
"grad_norm": 1.3920248746871948, | |
"learning_rate": 1.1666666666666668e-05, | |
"loss": 0.3951, | |
"step": 250 | |
}, | |
{ | |
"epoch": 2.17, | |
"grad_norm": 1.9847582578659058, | |
"learning_rate": 1.1333333333333334e-05, | |
"loss": 0.4493, | |
"step": 260 | |
}, | |
{ | |
"epoch": 2.25, | |
"grad_norm": 0.9650905132293701, | |
"learning_rate": 1.1000000000000001e-05, | |
"loss": 0.3995, | |
"step": 270 | |
}, | |
{ | |
"epoch": 2.33, | |
"grad_norm": 1.1868102550506592, | |
"learning_rate": 1.0666666666666667e-05, | |
"loss": 0.401, | |
"step": 280 | |
}, | |
{ | |
"epoch": 2.42, | |
"grad_norm": 0.9317110776901245, | |
"learning_rate": 1.0333333333333335e-05, | |
"loss": 0.3785, | |
"step": 290 | |
}, | |
{ | |
"epoch": 2.5, | |
"grad_norm": 1.3572497367858887, | |
"learning_rate": 1e-05, | |
"loss": 0.3785, | |
"step": 300 | |
}, | |
{ | |
"epoch": 2.58, | |
"grad_norm": 0.971365749835968, | |
"learning_rate": 9.666666666666667e-06, | |
"loss": 0.3789, | |
"step": 310 | |
}, | |
{ | |
"epoch": 2.67, | |
"grad_norm": 1.131386399269104, | |
"learning_rate": 9.333333333333334e-06, | |
"loss": 0.3636, | |
"step": 320 | |
}, | |
{ | |
"epoch": 2.75, | |
"grad_norm": 1.010298728942871, | |
"learning_rate": 9e-06, | |
"loss": 0.3787, | |
"step": 330 | |
}, | |
{ | |
"epoch": 2.83, | |
"grad_norm": 1.622625470161438, | |
"learning_rate": 8.666666666666668e-06, | |
"loss": 0.3829, | |
"step": 340 | |
}, | |
{ | |
"epoch": 2.92, | |
"grad_norm": 1.2643784284591675, | |
"learning_rate": 8.333333333333334e-06, | |
"loss": 0.3581, | |
"step": 350 | |
}, | |
{ | |
"epoch": 3.0, | |
"grad_norm": 1.2496050596237183, | |
"learning_rate": 8.000000000000001e-06, | |
"loss": 0.3596, | |
"step": 360 | |
}, | |
{ | |
"epoch": 3.0, | |
"eval_accuracy": 0.9538513742789277, | |
"eval_loss": 0.345228910446167, | |
"eval_runtime": 30.154, | |
"eval_samples_per_second": 97.732, | |
"eval_steps_per_second": 0.73, | |
"step": 360 | |
}, | |
{ | |
"epoch": 3.08, | |
"grad_norm": 1.3197300434112549, | |
"learning_rate": 7.666666666666667e-06, | |
"loss": 0.3436, | |
"step": 370 | |
}, | |
{ | |
"epoch": 3.17, | |
"grad_norm": 1.0845314264297485, | |
"learning_rate": 7.333333333333333e-06, | |
"loss": 0.3334, | |
"step": 380 | |
}, | |
{ | |
"epoch": 3.25, | |
"grad_norm": 1.349538803100586, | |
"learning_rate": 7e-06, | |
"loss": 0.3274, | |
"step": 390 | |
}, | |
{ | |
"epoch": 3.33, | |
"grad_norm": 1.1228528022766113, | |
"learning_rate": 6.666666666666667e-06, | |
"loss": 0.3381, | |
"step": 400 | |
}, | |
{ | |
"epoch": 3.42, | |
"grad_norm": 0.8805223703384399, | |
"learning_rate": 6.333333333333333e-06, | |
"loss": 0.3157, | |
"step": 410 | |
}, | |
{ | |
"epoch": 3.5, | |
"grad_norm": 1.097921371459961, | |
"learning_rate": 6e-06, | |
"loss": 0.2886, | |
"step": 420 | |
}, | |
{ | |
"epoch": 3.58, | |
"grad_norm": 1.1974855661392212, | |
"learning_rate": 5.666666666666667e-06, | |
"loss": 0.3184, | |
"step": 430 | |
}, | |
{ | |
"epoch": 3.67, | |
"grad_norm": 0.9140454530715942, | |
"learning_rate": 5.333333333333334e-06, | |
"loss": 0.3114, | |
"step": 440 | |
}, | |
{ | |
"epoch": 3.75, | |
"grad_norm": 0.7140288949012756, | |
"learning_rate": 5e-06, | |
"loss": 0.2978, | |
"step": 450 | |
}, | |
{ | |
"epoch": 3.83, | |
"grad_norm": 0.7845974564552307, | |
"learning_rate": 4.666666666666667e-06, | |
"loss": 0.3082, | |
"step": 460 | |
}, | |
{ | |
"epoch": 3.92, | |
"grad_norm": 1.4480149745941162, | |
"learning_rate": 4.333333333333334e-06, | |
"loss": 0.3349, | |
"step": 470 | |
}, | |
{ | |
"epoch": 4.0, | |
"grad_norm": 0.9842857718467712, | |
"learning_rate": 4.000000000000001e-06, | |
"loss": 0.299, | |
"step": 480 | |
}, | |
{ | |
"epoch": 4.0, | |
"eval_accuracy": 0.9582626399728538, | |
"eval_loss": 0.3117567300796509, | |
"eval_runtime": 30.981, | |
"eval_samples_per_second": 95.123, | |
"eval_steps_per_second": 0.71, | |
"step": 480 | |
}, | |
{ | |
"epoch": 4.08, | |
"grad_norm": 1.228848934173584, | |
"learning_rate": 3.6666666666666666e-06, | |
"loss": 0.3423, | |
"step": 490 | |
}, | |
{ | |
"epoch": 4.17, | |
"grad_norm": 0.9397204518318176, | |
"learning_rate": 3.3333333333333333e-06, | |
"loss": 0.3014, | |
"step": 500 | |
}, | |
{ | |
"epoch": 4.25, | |
"grad_norm": 1.3466633558273315, | |
"learning_rate": 3e-06, | |
"loss": 0.29, | |
"step": 510 | |
}, | |
{ | |
"epoch": 4.33, | |
"grad_norm": 1.0849584341049194, | |
"learning_rate": 2.666666666666667e-06, | |
"loss": 0.3092, | |
"step": 520 | |
}, | |
{ | |
"epoch": 4.42, | |
"grad_norm": 0.85384202003479, | |
"learning_rate": 2.3333333333333336e-06, | |
"loss": 0.2996, | |
"step": 530 | |
}, | |
{ | |
"epoch": 4.5, | |
"grad_norm": 1.3900597095489502, | |
"learning_rate": 2.0000000000000003e-06, | |
"loss": 0.2788, | |
"step": 540 | |
}, | |
{ | |
"epoch": 4.58, | |
"grad_norm": 1.5993285179138184, | |
"learning_rate": 1.6666666666666667e-06, | |
"loss": 0.3014, | |
"step": 550 | |
}, | |
{ | |
"epoch": 4.67, | |
"grad_norm": 1.0854403972625732, | |
"learning_rate": 1.3333333333333334e-06, | |
"loss": 0.2894, | |
"step": 560 | |
}, | |
{ | |
"epoch": 4.75, | |
"grad_norm": 1.186776041984558, | |
"learning_rate": 1.0000000000000002e-06, | |
"loss": 0.2906, | |
"step": 570 | |
}, | |
{ | |
"epoch": 4.83, | |
"grad_norm": 1.3972039222717285, | |
"learning_rate": 6.666666666666667e-07, | |
"loss": 0.2906, | |
"step": 580 | |
}, | |
{ | |
"epoch": 4.92, | |
"grad_norm": 1.1296278238296509, | |
"learning_rate": 3.3333333333333335e-07, | |
"loss": 0.2923, | |
"step": 590 | |
}, | |
{ | |
"epoch": 5.0, | |
"grad_norm": 1.1308748722076416, | |
"learning_rate": 0.0, | |
"loss": 0.2729, | |
"step": 600 | |
}, | |
{ | |
"epoch": 5.0, | |
"eval_accuracy": 0.9596199524940617, | |
"eval_loss": 0.2971116304397583, | |
"eval_runtime": 30.8812, | |
"eval_samples_per_second": 95.43, | |
"eval_steps_per_second": 0.712, | |
"step": 600 | |
} | |
], | |
"logging_steps": 10, | |
"max_steps": 600, | |
"num_input_tokens_seen": 0, | |
"num_train_epochs": 5, | |
"save_steps": 500, | |
"total_flos": 6.470773575863869e+18, | |
"train_batch_size": 140, | |
"trial_name": null, | |
"trial_params": null | |
} | |