Training in progress, epoch 2, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/README.md +7 -0
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +163 -2

last-checkpoint/README.md CHANGED Viewed

@@ -548,6 +548,13 @@ You can finetune this model on your own dataset.
 | 0.6000 | 20680 | 0.1918        | 0.1494         | 0.0053                |
 | 0.7501 | 25850 | 0.2103        | 0.1488         | 0.0082                |
 | 0.9001 | 31020 | 0.2056        | 0.1513         | 0.0039                |
 ### Framework Versions

 | 0.6000 | 20680 | 0.1918        | 0.1494         | 0.0053                |
 | 0.7501 | 25850 | 0.2103        | 0.1488         | 0.0082                |
 | 0.9001 | 31020 | 0.2056        | 0.1513         | 0.0039                |
+| 1.0501 | 36190 | 0.2067        | 0.1501         | 0.0079                |
+| 1.2001 | 41360 | 0.1987        | 0.1485         | 0.0084                |
+| 1.3501 | 46530 | 0.1987        | 0.1517         | 0.0056                |
+| 1.5001 | 51700 | 0.205         | 0.1490         | 0.0062                |
+| 1.6501 | 56870 | 0.183         | 0.1458         | 0.0061                |
+| 1.8001 | 62040 | 0.1763        | 0.1418         | 0.0080                |
+| 1.9502 | 67210 | 0.1982        | 0.1401         | 0.0066                |
 ### Framework Versions

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8aaf87bb13046028734be90752771144aaea10be484bb1bf6bd2a0259e7d15a2
 size 1130520122

 version https://git-lfs.github.com/spec/v1
+oid sha256:7a4d8431b48e856a491158daf2e05d6d19c3cbee19aa226bb35c138ccb02575f
 size 1130520122

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:948aeb47d3b4ece77853054875d7cd8623a91ad195a23f1375df30e23b0bd550
 size 565251810

 version https://git-lfs.github.com/spec/v1
+oid sha256:f777e57dce9511e38a577e3c3f65017f044e27d6bcadc200f36e0f75dd77f5a2
 size 565251810

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f2cfc2a4e406b13ab6c68c4666a4523963a93147dc76551672404fbc20c90b68
 size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:44ecceb368c1d95b84fe7a285ca12f63a4025e3b262133ec37fd4ee3222b8d0e
 size 14180

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:10fdc263b51d98641af52cf837a2f3c4f9e5027460536e6f4b62067f974df7c7
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b8b7ee3d4870162babeb8f348c3bae7fa4103003a4bea7169789a91a35a43fe
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
   "eval_steps": 5170,
-  "global_step": 34464,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -145,6 +145,167 @@
       "eval_qnli-contrastive_samples_per_second": 342.998,
       "eval_qnli-contrastive_steps_per_second": 21.473,
       "step": 31020
     }
   ],
   "logging_steps": 5170,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0,
   "eval_steps": 5170,
+  "global_step": 68928,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_qnli-contrastive_samples_per_second": 342.998,
       "eval_qnli-contrastive_steps_per_second": 21.473,
       "step": 31020
+    },
+    {
+      "epoch": 1.050081244196843,
+      "grad_norm": 3.5489258766174316,
+      "learning_rate": 4.989171745750203e-06,
+      "loss": 0.2067,
+      "step": 36190
+    },
+    {
+      "epoch": 1.050081244196843,
+      "eval_nli-pairs_loss": 0.15012863278388977,
+      "eval_nli-pairs_runtime": 15.698,
+      "eval_nli-pairs_samples_per_second": 433.687,
+      "eval_nli-pairs_steps_per_second": 27.137,
+      "step": 36190
+    },
+    {
+      "epoch": 1.050081244196843,
+      "eval_qnli-contrastive_loss": 0.007893337868154049,
+      "eval_qnli-contrastive_runtime": 16.0422,
+      "eval_qnli-contrastive_samples_per_second": 340.539,
+      "eval_qnli-contrastive_steps_per_second": 21.319,
+      "step": 36190
+    },
+    {
+      "epoch": 1.2000928505106778,
+      "grad_norm": 1.2927824258804321,
+      "learning_rate": 4.867136962447637e-06,
+      "loss": 0.1987,
+      "step": 41360
+    },
+    {
+      "epoch": 1.2000928505106778,
+      "eval_nli-pairs_loss": 0.14854447543621063,
+      "eval_nli-pairs_runtime": 15.3871,
+      "eval_nli-pairs_samples_per_second": 442.449,
+      "eval_nli-pairs_steps_per_second": 27.686,
+      "step": 41360
+    },
+    {
+      "epoch": 1.2000928505106778,
+      "eval_qnli-contrastive_loss": 0.008381461724638939,
+      "eval_qnli-contrastive_runtime": 15.7761,
+      "eval_qnli-contrastive_samples_per_second": 346.283,
+      "eval_qnli-contrastive_steps_per_second": 21.678,
+      "step": 41360
+    },
+    {
+      "epoch": 1.3501044568245124,
+      "grad_norm": 12.146841049194336,
+      "learning_rate": 4.615724011281596e-06,
+      "loss": 0.1987,
+      "step": 46530
+    },
+    {
+      "epoch": 1.3501044568245124,
+      "eval_nli-pairs_loss": 0.15174470841884613,
+      "eval_nli-pairs_runtime": 15.5759,
+      "eval_nli-pairs_samples_per_second": 437.085,
+      "eval_nli-pairs_steps_per_second": 27.35,
+      "step": 46530
+    },
+    {
+      "epoch": 1.3501044568245124,
+      "eval_qnli-contrastive_loss": 0.00563395069912076,
+      "eval_qnli-contrastive_runtime": 15.9485,
+      "eval_qnli-contrastive_samples_per_second": 342.54,
+      "eval_qnli-contrastive_steps_per_second": 21.444,
+      "step": 46530
+    },
+    {
+      "epoch": 1.5001160631383472,
+      "grad_norm": 0.12127237021923065,
+      "learning_rate": 4.248583657440329e-06,
+      "loss": 0.205,
+      "step": 51700
+    },
+    {
+      "epoch": 1.5001160631383472,
+      "eval_nli-pairs_loss": 0.1490125209093094,
+      "eval_nli-pairs_runtime": 15.4029,
+      "eval_nli-pairs_samples_per_second": 441.994,
+      "eval_nli-pairs_steps_per_second": 27.657,
+      "step": 51700
+    },
+    {
+      "epoch": 1.5001160631383472,
+      "eval_qnli-contrastive_loss": 0.0062314593233168125,
+      "eval_qnli-contrastive_runtime": 15.801,
+      "eval_qnli-contrastive_samples_per_second": 345.738,
+      "eval_qnli-contrastive_steps_per_second": 21.644,
+      "step": 51700
+    },
+    {
+      "epoch": 1.650127669452182,
+      "grad_norm": 9.487723350524902,
+      "learning_rate": 3.7857309145658974e-06,
+      "loss": 0.183,
+      "step": 56870
+    },
+    {
+      "epoch": 1.650127669452182,
+      "eval_nli-pairs_loss": 0.14577454328536987,
+      "eval_nli-pairs_runtime": 15.5234,
+      "eval_nli-pairs_samples_per_second": 438.563,
+      "eval_nli-pairs_steps_per_second": 27.442,
+      "step": 56870
+    },
+    {
+      "epoch": 1.650127669452182,
+      "eval_qnli-contrastive_loss": 0.006071700248867273,
+      "eval_qnli-contrastive_runtime": 15.7649,
+      "eval_qnli-contrastive_samples_per_second": 346.529,
+      "eval_qnli-contrastive_steps_per_second": 21.694,
+      "step": 56870
+    },
+    {
+      "epoch": 1.8001392757660168,
+      "grad_norm": 3.4426660537719727,
+      "learning_rate": 3.252653526527395e-06,
+      "loss": 0.1763,
+      "step": 62040
+    },
+    {
+      "epoch": 1.8001392757660168,
+      "eval_nli-pairs_loss": 0.1418175995349884,
+      "eval_nli-pairs_runtime": 15.4065,
+      "eval_nli-pairs_samples_per_second": 441.89,
+      "eval_nli-pairs_steps_per_second": 27.651,
+      "step": 62040
+    },
+    {
+      "epoch": 1.8001392757660168,
+      "eval_qnli-contrastive_loss": 0.007999507710337639,
+      "eval_qnli-contrastive_runtime": 15.8195,
+      "eval_qnli-contrastive_samples_per_second": 345.334,
+      "eval_qnli-contrastive_steps_per_second": 21.619,
+      "step": 62040
+    },
+    {
+      "epoch": 1.9501508820798514,
+      "grad_norm": 0.897132158279419,
+      "learning_rate": 2.678533013873007e-06,
+      "loss": 0.1982,
+      "step": 67210
+    },
+    {
+      "epoch": 1.9501508820798514,
+      "eval_nli-pairs_loss": 0.14005425572395325,
+      "eval_nli-pairs_runtime": 15.4671,
+      "eval_nli-pairs_samples_per_second": 440.16,
+      "eval_nli-pairs_steps_per_second": 27.542,
+      "step": 67210
+    },
+    {
+      "epoch": 1.9501508820798514,
+      "eval_qnli-contrastive_loss": 0.006610157899558544,
+      "eval_qnli-contrastive_runtime": 15.8954,
+      "eval_qnli-contrastive_samples_per_second": 343.684,
+      "eval_qnli-contrastive_steps_per_second": 21.516,
+      "step": 67210
     }
   ],
   "logging_steps": 5170,