{ "best_metric": 0.2971116304397583, "best_model_checkpoint": "./svin/checkpoint-600", "epoch": 5.0, "eval_steps": 500, "global_step": 600, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.08, "grad_norm": 1.4835056066513062, "learning_rate": 1.9666666666666666e-05, "loss": 2.4036, "step": 10 }, { "epoch": 0.17, "grad_norm": 1.6403590440750122, "learning_rate": 1.9333333333333333e-05, "loss": 2.126, "step": 20 }, { "epoch": 0.25, "grad_norm": 1.8593930006027222, "learning_rate": 1.9e-05, "loss": 1.7892, "step": 30 }, { "epoch": 0.33, "grad_norm": 1.6115764379501343, "learning_rate": 1.866666666666667e-05, "loss": 1.5352, "step": 40 }, { "epoch": 0.42, "grad_norm": 1.3383398056030273, "learning_rate": 1.8333333333333333e-05, "loss": 1.3303, "step": 50 }, { "epoch": 0.5, "grad_norm": 1.3053131103515625, "learning_rate": 1.8e-05, "loss": 1.1755, "step": 60 }, { "epoch": 0.58, "grad_norm": 1.4148197174072266, "learning_rate": 1.7666666666666668e-05, "loss": 1.0469, "step": 70 }, { "epoch": 0.67, "grad_norm": 1.3164098262786865, "learning_rate": 1.7333333333333336e-05, "loss": 0.9351, "step": 80 }, { "epoch": 0.75, "grad_norm": 1.351128339767456, "learning_rate": 1.7e-05, "loss": 0.8411, "step": 90 }, { "epoch": 0.83, "grad_norm": 1.1163653135299683, "learning_rate": 1.6666666666666667e-05, "loss": 0.82, "step": 100 }, { "epoch": 0.92, "grad_norm": 1.2481478452682495, "learning_rate": 1.6333333333333335e-05, "loss": 0.7225, "step": 110 }, { "epoch": 1.0, "grad_norm": 1.494071364402771, "learning_rate": 1.6000000000000003e-05, "loss": 0.6972, "step": 120 }, { "epoch": 1.0, "eval_accuracy": 0.8978622327790974, "eval_loss": 0.6513156294822693, "eval_runtime": 31.845, "eval_samples_per_second": 92.542, "eval_steps_per_second": 0.691, "step": 120 }, { "epoch": 1.08, "grad_norm": 1.2568280696868896, "learning_rate": 1.5666666666666667e-05, "loss": 0.6147, "step": 130 }, { "epoch": 1.17, "grad_norm": 1.1234235763549805, "learning_rate": 1.5333333333333334e-05, "loss": 0.5977, "step": 140 }, { "epoch": 1.25, "grad_norm": 1.614490270614624, "learning_rate": 1.5000000000000002e-05, "loss": 0.6324, "step": 150 }, { "epoch": 1.33, "grad_norm": 1.1563916206359863, "learning_rate": 1.4666666666666666e-05, "loss": 0.5423, "step": 160 }, { "epoch": 1.42, "grad_norm": 1.1219310760498047, "learning_rate": 1.4333333333333334e-05, "loss": 0.5335, "step": 170 }, { "epoch": 1.5, "grad_norm": 1.0543292760849, "learning_rate": 1.4e-05, "loss": 0.5169, "step": 180 }, { "epoch": 1.58, "grad_norm": 1.5661933422088623, "learning_rate": 1.3666666666666667e-05, "loss": 0.5247, "step": 190 }, { "epoch": 1.67, "grad_norm": 1.4204506874084473, "learning_rate": 1.3333333333333333e-05, "loss": 0.4767, "step": 200 }, { "epoch": 1.75, "grad_norm": 1.054136872291565, "learning_rate": 1.3000000000000001e-05, "loss": 0.4874, "step": 210 }, { "epoch": 1.83, "grad_norm": 1.1543879508972168, "learning_rate": 1.2666666666666667e-05, "loss": 0.4546, "step": 220 }, { "epoch": 1.92, "grad_norm": 1.2403457164764404, "learning_rate": 1.2333333333333334e-05, "loss": 0.4272, "step": 230 }, { "epoch": 2.0, "grad_norm": 1.166118860244751, "learning_rate": 1.2e-05, "loss": 0.4305, "step": 240 }, { "epoch": 2.0, "eval_accuracy": 0.9477434679334917, "eval_loss": 0.41236403584480286, "eval_runtime": 31.083, "eval_samples_per_second": 94.811, "eval_steps_per_second": 0.708, "step": 240 }, { "epoch": 2.08, "grad_norm": 1.3920248746871948, "learning_rate": 1.1666666666666668e-05, "loss": 0.3951, "step": 250 }, { "epoch": 2.17, "grad_norm": 1.9847582578659058, "learning_rate": 1.1333333333333334e-05, "loss": 0.4493, "step": 260 }, { "epoch": 2.25, "grad_norm": 0.9650905132293701, "learning_rate": 1.1000000000000001e-05, "loss": 0.3995, "step": 270 }, { "epoch": 2.33, "grad_norm": 1.1868102550506592, "learning_rate": 1.0666666666666667e-05, "loss": 0.401, "step": 280 }, { "epoch": 2.42, "grad_norm": 0.9317110776901245, "learning_rate": 1.0333333333333335e-05, "loss": 0.3785, "step": 290 }, { "epoch": 2.5, "grad_norm": 1.3572497367858887, "learning_rate": 1e-05, "loss": 0.3785, "step": 300 }, { "epoch": 2.58, "grad_norm": 0.971365749835968, "learning_rate": 9.666666666666667e-06, "loss": 0.3789, "step": 310 }, { "epoch": 2.67, "grad_norm": 1.131386399269104, "learning_rate": 9.333333333333334e-06, "loss": 0.3636, "step": 320 }, { "epoch": 2.75, "grad_norm": 1.010298728942871, "learning_rate": 9e-06, "loss": 0.3787, "step": 330 }, { "epoch": 2.83, "grad_norm": 1.622625470161438, "learning_rate": 8.666666666666668e-06, "loss": 0.3829, "step": 340 }, { "epoch": 2.92, "grad_norm": 1.2643784284591675, "learning_rate": 8.333333333333334e-06, "loss": 0.3581, "step": 350 }, { "epoch": 3.0, "grad_norm": 1.2496050596237183, "learning_rate": 8.000000000000001e-06, "loss": 0.3596, "step": 360 }, { "epoch": 3.0, "eval_accuracy": 0.9538513742789277, "eval_loss": 0.345228910446167, "eval_runtime": 30.154, "eval_samples_per_second": 97.732, "eval_steps_per_second": 0.73, "step": 360 }, { "epoch": 3.08, "grad_norm": 1.3197300434112549, "learning_rate": 7.666666666666667e-06, "loss": 0.3436, "step": 370 }, { "epoch": 3.17, "grad_norm": 1.0845314264297485, "learning_rate": 7.333333333333333e-06, "loss": 0.3334, "step": 380 }, { "epoch": 3.25, "grad_norm": 1.349538803100586, "learning_rate": 7e-06, "loss": 0.3274, "step": 390 }, { "epoch": 3.33, "grad_norm": 1.1228528022766113, "learning_rate": 6.666666666666667e-06, "loss": 0.3381, "step": 400 }, { "epoch": 3.42, "grad_norm": 0.8805223703384399, "learning_rate": 6.333333333333333e-06, "loss": 0.3157, "step": 410 }, { "epoch": 3.5, "grad_norm": 1.097921371459961, "learning_rate": 6e-06, "loss": 0.2886, "step": 420 }, { "epoch": 3.58, "grad_norm": 1.1974855661392212, "learning_rate": 5.666666666666667e-06, "loss": 0.3184, "step": 430 }, { "epoch": 3.67, "grad_norm": 0.9140454530715942, "learning_rate": 5.333333333333334e-06, "loss": 0.3114, "step": 440 }, { "epoch": 3.75, "grad_norm": 0.7140288949012756, "learning_rate": 5e-06, "loss": 0.2978, "step": 450 }, { "epoch": 3.83, "grad_norm": 0.7845974564552307, "learning_rate": 4.666666666666667e-06, "loss": 0.3082, "step": 460 }, { "epoch": 3.92, "grad_norm": 1.4480149745941162, "learning_rate": 4.333333333333334e-06, "loss": 0.3349, "step": 470 }, { "epoch": 4.0, "grad_norm": 0.9842857718467712, "learning_rate": 4.000000000000001e-06, "loss": 0.299, "step": 480 }, { "epoch": 4.0, "eval_accuracy": 0.9582626399728538, "eval_loss": 0.3117567300796509, "eval_runtime": 30.981, "eval_samples_per_second": 95.123, "eval_steps_per_second": 0.71, "step": 480 }, { "epoch": 4.08, "grad_norm": 1.228848934173584, "learning_rate": 3.6666666666666666e-06, "loss": 0.3423, "step": 490 }, { "epoch": 4.17, "grad_norm": 0.9397204518318176, "learning_rate": 3.3333333333333333e-06, "loss": 0.3014, "step": 500 }, { "epoch": 4.25, "grad_norm": 1.3466633558273315, "learning_rate": 3e-06, "loss": 0.29, "step": 510 }, { "epoch": 4.33, "grad_norm": 1.0849584341049194, "learning_rate": 2.666666666666667e-06, "loss": 0.3092, "step": 520 }, { "epoch": 4.42, "grad_norm": 0.85384202003479, "learning_rate": 2.3333333333333336e-06, "loss": 0.2996, "step": 530 }, { "epoch": 4.5, "grad_norm": 1.3900597095489502, "learning_rate": 2.0000000000000003e-06, "loss": 0.2788, "step": 540 }, { "epoch": 4.58, "grad_norm": 1.5993285179138184, "learning_rate": 1.6666666666666667e-06, "loss": 0.3014, "step": 550 }, { "epoch": 4.67, "grad_norm": 1.0854403972625732, "learning_rate": 1.3333333333333334e-06, "loss": 0.2894, "step": 560 }, { "epoch": 4.75, "grad_norm": 1.186776041984558, "learning_rate": 1.0000000000000002e-06, "loss": 0.2906, "step": 570 }, { "epoch": 4.83, "grad_norm": 1.3972039222717285, "learning_rate": 6.666666666666667e-07, "loss": 0.2906, "step": 580 }, { "epoch": 4.92, "grad_norm": 1.1296278238296509, "learning_rate": 3.3333333333333335e-07, "loss": 0.2923, "step": 590 }, { "epoch": 5.0, "grad_norm": 1.1308748722076416, "learning_rate": 0.0, "loss": 0.2729, "step": 600 }, { "epoch": 5.0, "eval_accuracy": 0.9596199524940617, "eval_loss": 0.2971116304397583, "eval_runtime": 30.8812, "eval_samples_per_second": 95.43, "eval_steps_per_second": 0.712, "step": 600 } ], "logging_steps": 10, "max_steps": 600, "num_input_tokens_seen": 0, "num_train_epochs": 5, "save_steps": 500, "total_flos": 6.470773575863869e+18, "train_batch_size": 140, "trial_name": null, "trial_params": null }