Training in progress, step 1500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +403 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0dd0a0d817dec0f13a91bbdebdab941824497147e44c1798a98fad307dc57ce7
 size 410636248

 version https://git-lfs.github.com/spec/v1
+oid sha256:91c7a1763ef70813211a3e126e99ed02a4d68911db407a86f3c01451154abfd9
 size 410636248

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9848c8c56692efd3776d40a5bddcd4432060212437984f62108627cdf924bf06
 size 821393658

 version https://git-lfs.github.com/spec/v1
+oid sha256:0e58bcb928dd8bb1203c8e8f7525d51a0322d66d5e46c62c33a51265957ea734
 size 821393658

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99077ea0f39ab9a2a73c591b9a25382a425ad11a428ab4632ccc7cbfe7bf5983
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:cdcef4615c497648044a6d80895c3d46b1c5f7a9c132beb33350b027c8cf3c17
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5703ca913eab162c25a0bf110cd330db4a862d1f0434dd16326b1640bd4f079c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:66e6f95527be7d742c182b1b25b1632bf2465fc58ebbe4ae2f736399e0d31f82
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.2427118569612503,
   "best_model_checkpoint": "./results/checkpoint-340",
-  "epoch": 2.865329512893983,
   "eval_steps": 20,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -807,6 +807,406 @@
       "eval_samples_per_second": 36.847,
       "eval_steps_per_second": 9.328,
       "step": 1000
     }
   ],
   "logging_steps": 20,
@@ -826,7 +1226,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 902257656041100.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.2427118569612503,
   "best_model_checkpoint": "./results/checkpoint-340",
+  "epoch": 4.2979942693409745,
   "eval_steps": 20,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 36.847,
       "eval_steps_per_second": 9.328,
       "step": 1000
+    },
+    {
+      "epoch": 2.9226361031518624,
+      "grad_norm": 0.0065177069045603275,
+      "learning_rate": 8.30945558739255e-06,
+      "loss": 0.0006,
+      "step": 1020
+    },
+    {
+      "epoch": 2.9226361031518624,
+      "eval_accuracy": 0.9240506329113924,
+      "eval_loss": 0.38359534740448,
+      "eval_runtime": 4.251,
+      "eval_samples_per_second": 37.167,
+      "eval_steps_per_second": 9.409,
+      "step": 1020
+    },
+    {
+      "epoch": 2.9799426934097424,
+      "grad_norm": 0.008996536955237389,
+      "learning_rate": 8.080229226361033e-06,
+      "loss": 0.0062,
+      "step": 1040
+    },
+    {
+      "epoch": 2.9799426934097424,
+      "eval_accuracy": 0.9113924050632911,
+      "eval_loss": 0.40920865535736084,
+      "eval_runtime": 4.4231,
+      "eval_samples_per_second": 35.722,
+      "eval_steps_per_second": 9.043,
+      "step": 1040
+    },
+    {
+      "epoch": 3.037249283667622,
+      "grad_norm": 0.008578244596719742,
+      "learning_rate": 7.851002865329513e-06,
+      "loss": 0.0018,
+      "step": 1060
+    },
+    {
+      "epoch": 3.037249283667622,
+      "eval_accuracy": 0.9240506329113924,
+      "eval_loss": 0.4326882064342499,
+      "eval_runtime": 4.3644,
+      "eval_samples_per_second": 36.202,
+      "eval_steps_per_second": 9.165,
+      "step": 1060
+    },
+    {
+      "epoch": 3.0945558739255015,
+      "grad_norm": 0.029599307104945183,
+      "learning_rate": 7.6217765042979954e-06,
+      "loss": 0.0006,
+      "step": 1080
+    },
+    {
+      "epoch": 3.0945558739255015,
+      "eval_accuracy": 0.9177215189873418,
+      "eval_loss": 0.4501863420009613,
+      "eval_runtime": 4.3033,
+      "eval_samples_per_second": 36.716,
+      "eval_steps_per_second": 9.295,
+      "step": 1080
+    },
+    {
+      "epoch": 3.151862464183381,
+      "grad_norm": 0.014250312000513077,
+      "learning_rate": 7.392550143266476e-06,
+      "loss": 0.1874,
+      "step": 1100
+    },
+    {
+      "epoch": 3.151862464183381,
+      "eval_accuracy": 0.9177215189873418,
+      "eval_loss": 0.4321536421775818,
+      "eval_runtime": 4.2681,
+      "eval_samples_per_second": 37.019,
+      "eval_steps_per_second": 9.372,
+      "step": 1100
+    },
+    {
+      "epoch": 3.2091690544412605,
+      "grad_norm": 0.026432504877448082,
+      "learning_rate": 7.163323782234957e-06,
+      "loss": 0.0676,
+      "step": 1120
+    },
+    {
+      "epoch": 3.2091690544412605,
+      "eval_accuracy": 0.9113924050632911,
+      "eval_loss": 0.4126332998275757,
+      "eval_runtime": 4.2309,
+      "eval_samples_per_second": 37.344,
+      "eval_steps_per_second": 9.454,
+      "step": 1120
+    },
+    {
+      "epoch": 3.2664756446991405,
+      "grad_norm": 0.01032521203160286,
+      "learning_rate": 6.934097421203439e-06,
+      "loss": 0.0199,
+      "step": 1140
+    },
+    {
+      "epoch": 3.2664756446991405,
+      "eval_accuracy": 0.9050632911392406,
+      "eval_loss": 0.41126754879951477,
+      "eval_runtime": 4.2627,
+      "eval_samples_per_second": 37.066,
+      "eval_steps_per_second": 9.384,
+      "step": 1140
+    },
+    {
+      "epoch": 3.32378223495702,
+      "grad_norm": 0.016674930229783058,
+      "learning_rate": 6.70487106017192e-06,
+      "loss": 0.0674,
+      "step": 1160
+    },
+    {
+      "epoch": 3.32378223495702,
+      "eval_accuracy": 0.9177215189873418,
+      "eval_loss": 0.4134314954280853,
+      "eval_runtime": 4.2734,
+      "eval_samples_per_second": 36.973,
+      "eval_steps_per_second": 9.36,
+      "step": 1160
+    },
+    {
+      "epoch": 3.3810888252148996,
+      "grad_norm": 0.0032745320349931717,
+      "learning_rate": 6.475644699140402e-06,
+      "loss": 0.0004,
+      "step": 1180
+    },
+    {
+      "epoch": 3.3810888252148996,
+      "eval_accuracy": 0.9177215189873418,
+      "eval_loss": 0.4212283790111542,
+      "eval_runtime": 4.2821,
+      "eval_samples_per_second": 36.898,
+      "eval_steps_per_second": 9.341,
+      "step": 1180
+    },
+    {
+      "epoch": 3.4383954154727796,
+      "grad_norm": 0.012243836186826229,
+      "learning_rate": 6.246418338108883e-06,
+      "loss": 0.0004,
+      "step": 1200
+    },
+    {
+      "epoch": 3.4383954154727796,
+      "eval_accuracy": 0.9177215189873418,
+      "eval_loss": 0.42768773436546326,
+      "eval_runtime": 4.2965,
+      "eval_samples_per_second": 36.774,
+      "eval_steps_per_second": 9.31,
+      "step": 1200
+    },
+    {
+      "epoch": 3.495702005730659,
+      "grad_norm": 0.09642524272203445,
+      "learning_rate": 6.017191977077364e-06,
+      "loss": 0.1097,
+      "step": 1220
+    },
+    {
+      "epoch": 3.495702005730659,
+      "eval_accuracy": 0.9177215189873418,
+      "eval_loss": 0.4246382415294647,
+      "eval_runtime": 4.2676,
+      "eval_samples_per_second": 37.023,
+      "eval_steps_per_second": 9.373,
+      "step": 1220
+    },
+    {
+      "epoch": 3.5530085959885387,
+      "grad_norm": 0.004081379622220993,
+      "learning_rate": 5.787965616045845e-06,
+      "loss": 0.0004,
+      "step": 1240
+    },
+    {
+      "epoch": 3.5530085959885387,
+      "eval_accuracy": 0.9177215189873418,
+      "eval_loss": 0.42067304253578186,
+      "eval_runtime": 4.2338,
+      "eval_samples_per_second": 37.319,
+      "eval_steps_per_second": 9.448,
+      "step": 1240
+    },
+    {
+      "epoch": 3.6103151862464182,
+      "grad_norm": 0.013711544685065746,
+      "learning_rate": 5.558739255014327e-06,
+      "loss": 0.0152,
+      "step": 1260
+    },
+    {
+      "epoch": 3.6103151862464182,
+      "eval_accuracy": 0.9177215189873418,
+      "eval_loss": 0.4250052869319916,
+      "eval_runtime": 4.2297,
+      "eval_samples_per_second": 37.355,
+      "eval_steps_per_second": 9.457,
+      "step": 1260
+    },
+    {
+      "epoch": 3.6676217765042978,
+      "grad_norm": 148.3441619873047,
+      "learning_rate": 5.3295128939828086e-06,
+      "loss": 0.0146,
+      "step": 1280
+    },
+    {
+      "epoch": 3.6676217765042978,
+      "eval_accuracy": 0.9240506329113924,
+      "eval_loss": 0.412005752325058,
+      "eval_runtime": 4.2278,
+      "eval_samples_per_second": 37.372,
+      "eval_steps_per_second": 9.461,
+      "step": 1280
+    },
+    {
+      "epoch": 3.7249283667621778,
+      "grad_norm": 0.0035390935372561216,
+      "learning_rate": 5.10028653295129e-06,
+      "loss": 0.0377,
+      "step": 1300
+    },
+    {
+      "epoch": 3.7249283667621778,
+      "eval_accuracy": 0.930379746835443,
+      "eval_loss": 0.40523138642311096,
+      "eval_runtime": 4.2347,
+      "eval_samples_per_second": 37.311,
+      "eval_steps_per_second": 9.446,
+      "step": 1300
+    },
+    {
+      "epoch": 3.7822349570200573,
+      "grad_norm": 9.169730186462402,
+      "learning_rate": 4.871060171919771e-06,
+      "loss": 0.1061,
+      "step": 1320
+    },
+    {
+      "epoch": 3.7822349570200573,
+      "eval_accuracy": 0.9177215189873418,
+      "eval_loss": 0.40109243988990784,
+      "eval_runtime": 4.2624,
+      "eval_samples_per_second": 37.069,
+      "eval_steps_per_second": 9.384,
+      "step": 1320
+    },
+    {
+      "epoch": 3.839541547277937,
+      "grad_norm": 0.004674045369029045,
+      "learning_rate": 4.641833810888253e-06,
+      "loss": 0.1026,
+      "step": 1340
+    },
+    {
+      "epoch": 3.839541547277937,
+      "eval_accuracy": 0.9177215189873418,
+      "eval_loss": 0.43842944502830505,
+      "eval_runtime": 4.2684,
+      "eval_samples_per_second": 37.016,
+      "eval_steps_per_second": 9.371,
+      "step": 1340
+    },
+    {
+      "epoch": 3.896848137535817,
+      "grad_norm": 0.014885048381984234,
+      "learning_rate": 4.412607449856734e-06,
+      "loss": 0.1264,
+      "step": 1360
+    },
+    {
+      "epoch": 3.896848137535817,
+      "eval_accuracy": 0.9177215189873418,
+      "eval_loss": 0.4101775884628296,
+      "eval_runtime": 4.2709,
+      "eval_samples_per_second": 36.995,
+      "eval_steps_per_second": 9.366,
+      "step": 1360
+    },
+    {
+      "epoch": 3.9541547277936964,
+      "grad_norm": 0.00861190166324377,
+      "learning_rate": 4.1833810888252155e-06,
+      "loss": 0.0079,
+      "step": 1380
+    },
+    {
+      "epoch": 3.9541547277936964,
+      "eval_accuracy": 0.9240506329113924,
+      "eval_loss": 0.40192869305610657,
+      "eval_runtime": 4.2834,
+      "eval_samples_per_second": 36.887,
+      "eval_steps_per_second": 9.338,
+      "step": 1380
+    },
+    {
+      "epoch": 4.011461318051576,
+      "grad_norm": 0.0044676773250103,
+      "learning_rate": 3.954154727793696e-06,
+      "loss": 0.0249,
+      "step": 1400
+    },
+    {
+      "epoch": 4.011461318051576,
+      "eval_accuracy": 0.9177215189873418,
+      "eval_loss": 0.3997720777988434,
+      "eval_runtime": 4.2897,
+      "eval_samples_per_second": 36.833,
+      "eval_steps_per_second": 9.325,
+      "step": 1400
+    },
+    {
+      "epoch": 4.0687679083094554,
+      "grad_norm": 0.1052209734916687,
+      "learning_rate": 3.724928366762178e-06,
+      "loss": 0.0115,
+      "step": 1420
+    },
+    {
+      "epoch": 4.0687679083094554,
+      "eval_accuracy": 0.9240506329113924,
+      "eval_loss": 0.39488697052001953,
+      "eval_runtime": 4.2996,
+      "eval_samples_per_second": 36.748,
+      "eval_steps_per_second": 9.303,
+      "step": 1420
+    },
+    {
+      "epoch": 4.126074498567335,
+      "grad_norm": 0.012624930590391159,
+      "learning_rate": 3.4957020057306597e-06,
+      "loss": 0.0004,
+      "step": 1440
+    },
+    {
+      "epoch": 4.126074498567335,
+      "eval_accuracy": 0.9240506329113924,
+      "eval_loss": 0.39705362915992737,
+      "eval_runtime": 4.2873,
+      "eval_samples_per_second": 36.853,
+      "eval_steps_per_second": 9.33,
+      "step": 1440
+    },
+    {
+      "epoch": 4.1833810888252145,
+      "grad_norm": 0.008006641641259193,
+      "learning_rate": 3.2664756446991407e-06,
+      "loss": 0.0847,
+      "step": 1460
+    },
+    {
+      "epoch": 4.1833810888252145,
+      "eval_accuracy": 0.930379746835443,
+      "eval_loss": 0.3859291076660156,
+      "eval_runtime": 4.3068,
+      "eval_samples_per_second": 36.686,
+      "eval_steps_per_second": 9.288,
+      "step": 1460
+    },
+    {
+      "epoch": 4.240687679083095,
+      "grad_norm": 0.022626299411058426,
+      "learning_rate": 3.037249283667622e-06,
+      "loss": 0.0004,
+      "step": 1480
+    },
+    {
+      "epoch": 4.240687679083095,
+      "eval_accuracy": 0.930379746835443,
+      "eval_loss": 0.38549065589904785,
+      "eval_runtime": 4.2744,
+      "eval_samples_per_second": 36.964,
+      "eval_steps_per_second": 9.358,
+      "step": 1480
+    },
+    {
+      "epoch": 4.2979942693409745,
+      "grad_norm": 0.00761532224714756,
+      "learning_rate": 2.8080229226361035e-06,
+      "loss": 0.002,
+      "step": 1500
+    },
+    {
+      "epoch": 4.2979942693409745,
+      "eval_accuracy": 0.9367088607594937,
+      "eval_loss": 0.3879244923591614,
+      "eval_runtime": 4.2938,
+      "eval_samples_per_second": 36.797,
+      "eval_steps_per_second": 9.316,
+      "step": 1500
     }
   ],
   "logging_steps": 20,
       "attributes": {}
     }
   },
+  "total_flos": 1358383281613980.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null