Training in progress, step 20, checkpoint

Browse files

Files changed (9) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +2 -2
last-checkpoint/rng_state_1.pth +2 -2
last-checkpoint/rng_state_2.pth +2 -2
last-checkpoint/rng_state_3.pth +2 -2
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +25 -223
last-checkpoint/training_args.bin +2 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8d53c9b548e090317fded4ec69e6a50e79f7abd1f4e1ece6e1c034858cf7070
 size 28130688

 version https://git-lfs.github.com/spec/v1
+oid sha256:cc3e671a65038f4899a55dec4cfd97e67a440d971093fbf09b12471fda37cedb
 size 28130688

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d62c75d0600bae678b1f273eb2794e7fdd1c7257fad922fb6b903851d4ef365
 size 28684730

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe762fd4e86adc0ca4e1d9002b17ab5ca3657d0af542c8db9631539f774ffedc
 size 28684730

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:63b25501508b4f34ea1a73010114c43b1739477011f6f24a5e1766c3a43b5bb5
-size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:02bd6697dd0ac01f79967d93e880e93c5ad7e5d6a672668dd596f9f42c435066
+size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5532b29acfbb21e7d70bbcb7b93a6c6bd479aa36c62bea63ef7a900d782c98dc
-size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:1946c0d35865c02655624537450071d8e3a581f1d24f3c539357cae293b3d2d2
+size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:257e790feaf3afbabfdd893ed6079c69aeb0f2fda34b2ddc62f567dd45e58200
-size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:a9faf933c304288a566e09316737d2bdccb42e76da4138d98110982bcbf5dbf1
+size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:383db1212f88ccb59b67f456f008a4b37947154cd7ae5385dd6e0aad41cfdda3
-size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f2cb6de5c0f2b78c1515e90a9ab03144587d336dd27fc87023f09785c5d64cb
+size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:25d9368287315b2afbde3ac53b1bfc6e6c60e14723f23ec40564523c8a5be5ec
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:84f22729b765b6841bd185712dd3ab8bf338866cd8396b5dce62f9950913691a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,247 +1,49 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.23668639053254437,
   "eval_steps": 20,
-  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.001183431952662722,
-      "eval_loss": 6.91423225402832,
-      "eval_runtime": 2.3165,
-      "eval_samples_per_second": 648.398,
-      "eval_steps_per_second": 40.579,
       "step": 1
     },
     {
-      "epoch": 0.011834319526627219,
-      "grad_norm": 8640.0,
-      "learning_rate": 1.6000000000000003e-05,
-      "loss": 6.7118,
       "step": 10
     },
     {
-      "epoch": 0.023668639053254437,
-      "grad_norm": 2368.0,
-      "learning_rate": 3.2000000000000005e-05,
-      "loss": 6.7944,
       "step": 20
     },
     {
-      "epoch": 0.023668639053254437,
-      "eval_loss": 6.8260087966918945,
-      "eval_runtime": 2.3051,
-      "eval_samples_per_second": 651.607,
-      "eval_steps_per_second": 40.78,
       "step": 20
-    },
-    {
-      "epoch": 0.03550295857988166,
-      "grad_norm": 8096.0,
-      "learning_rate": 4.8e-05,
-      "loss": 6.762,
-      "step": 30
-    },
-    {
-      "epoch": 0.047337278106508875,
-      "grad_norm": 4160.0,
-      "learning_rate": 6.400000000000001e-05,
-      "loss": 6.5961,
-      "step": 40
-    },
-    {
-      "epoch": 0.047337278106508875,
-      "eval_loss": 6.617987632751465,
-      "eval_runtime": 2.3313,
-      "eval_samples_per_second": 644.27,
-      "eval_steps_per_second": 40.321,
-      "step": 40
-    },
-    {
-      "epoch": 0.05917159763313609,
-      "grad_norm": 17920.0,
-      "learning_rate": 8e-05,
-      "loss": 6.4182,
-      "step": 50
-    },
-    {
-      "epoch": 0.07100591715976332,
-      "grad_norm": 13632.0,
-      "learning_rate": 9.6e-05,
-      "loss": 6.5851,
-      "step": 60
-    },
-    {
-      "epoch": 0.07100591715976332,
-      "eval_loss": 6.849647045135498,
-      "eval_runtime": 2.5266,
-      "eval_samples_per_second": 594.476,
-      "eval_steps_per_second": 37.204,
-      "step": 60
-    },
-    {
-      "epoch": 0.08284023668639054,
-      "grad_norm": 11136.0,
-      "learning_rate": 0.00011200000000000001,
-      "loss": 7.1215,
-      "step": 70
-    },
-    {
-      "epoch": 0.09467455621301775,
-      "grad_norm": 13568.0,
-      "learning_rate": 0.00012800000000000002,
-      "loss": 6.9277,
-      "step": 80
-    },
-    {
-      "epoch": 0.09467455621301775,
-      "eval_loss": 7.1117143630981445,
-      "eval_runtime": 2.3547,
-      "eval_samples_per_second": 637.865,
-      "eval_steps_per_second": 39.92,
-      "step": 80
-    },
-    {
-      "epoch": 0.10650887573964497,
-      "grad_norm": 7520.0,
-      "learning_rate": 0.000144,
-      "loss": 6.9477,
-      "step": 90
-    },
-    {
-      "epoch": 0.11834319526627218,
-      "grad_norm": 5344.0,
-      "learning_rate": 0.00016,
-      "loss": 7.4897,
-      "step": 100
-    },
-    {
-      "epoch": 0.11834319526627218,
-      "eval_loss": 7.819643497467041,
-      "eval_runtime": 2.3681,
-      "eval_samples_per_second": 634.257,
-      "eval_steps_per_second": 39.694,
-      "step": 100
-    },
-    {
-      "epoch": 0.1301775147928994,
-      "grad_norm": 1944.0,
-      "learning_rate": 0.00017600000000000002,
-      "loss": 8.0353,
-      "step": 110
-    },
-    {
-      "epoch": 0.14201183431952663,
-      "grad_norm": 386.0,
-      "learning_rate": 0.000192,
-      "loss": 8.3949,
-      "step": 120
-    },
-    {
-      "epoch": 0.14201183431952663,
-      "eval_loss": 8.92322063446045,
-      "eval_runtime": 2.2886,
-      "eval_samples_per_second": 656.309,
-      "eval_steps_per_second": 41.074,
-      "step": 120
-    },
-    {
-      "epoch": 0.15384615384615385,
-      "grad_norm": 2752.0,
-      "learning_rate": 0.0001999978128380225,
-      "loss": 8.8096,
-      "step": 130
-    },
-    {
-      "epoch": 0.16568047337278108,
-      "grad_norm": 2208.0,
-      "learning_rate": 0.0001999803161162393,
-      "loss": 9.3893,
-      "step": 140
-    },
-    {
-      "epoch": 0.16568047337278108,
-      "eval_loss": 10.95390510559082,
-      "eval_runtime": 2.3845,
-      "eval_samples_per_second": 629.893,
-      "eval_steps_per_second": 39.421,
-      "step": 140
-    },
-    {
-      "epoch": 0.17751479289940827,
-      "grad_norm": 1104.0,
-      "learning_rate": 0.00019994532573409262,
-      "loss": 10.2318,
-      "step": 150
-    },
-    {
-      "epoch": 0.1893491124260355,
-      "grad_norm": 664.0,
-      "learning_rate": 0.00019989284781388617,
-      "loss": 8.9254,
-      "step": 160
-    },
-    {
-      "epoch": 0.1893491124260355,
-      "eval_loss": 9.343338966369629,
-      "eval_runtime": 2.3475,
-      "eval_samples_per_second": 639.824,
-      "eval_steps_per_second": 40.042,
-      "step": 160
-    },
-    {
-      "epoch": 0.20118343195266272,
-      "grad_norm": 576.0,
-      "learning_rate": 0.00019982289153773646,
-      "loss": 8.9456,
-      "step": 170
-    },
-    {
-      "epoch": 0.21301775147928995,
-      "grad_norm": 3888.0,
-      "learning_rate": 0.00019973546914596623,
-      "loss": 9.1233,
-      "step": 180
-    },
-    {
-      "epoch": 0.21301775147928995,
-      "eval_loss": 9.207473754882812,
-      "eval_runtime": 2.8413,
-      "eval_samples_per_second": 528.635,
-      "eval_steps_per_second": 33.084,
-      "step": 180
-    },
-    {
-      "epoch": 0.22485207100591717,
-      "grad_norm": 884.0,
-      "learning_rate": 0.00019963059593496268,
-      "loss": 9.3116,
-      "step": 190
-    },
-    {
-      "epoch": 0.23668639053254437,
-      "grad_norm": 410.0,
-      "learning_rate": 0.00019950829025450114,
-      "loss": 9.2642,
-      "step": 200
-    },
-    {
-      "epoch": 0.23668639053254437,
-      "eval_loss": 9.775616645812988,
-      "eval_runtime": 2.3679,
-      "eval_samples_per_second": 634.329,
-      "eval_steps_per_second": 39.698,
-      "step": 200
     }
   ],
   "logging_steps": 10,
-  "max_steps": 2500,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
-  "save_steps": 40,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -254,8 +56,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 300220566994944.0,
-  "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.3333333333333335,
   "eval_steps": 20,
+  "global_step": 20,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.16666666666666666,
+      "eval_loss": 6.829399108886719,
+      "eval_runtime": 5.106,
+      "eval_samples_per_second": 293.967,
+      "eval_steps_per_second": 2.35,
       "step": 1
     },
     {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 166.0,
+      "learning_rate": 0.00019863613034027224,
+      "loss": 9.8547,
       "step": 10
     },
     {
+      "epoch": 3.3333333333333335,
+      "grad_norm": 79.0,
+      "learning_rate": 0.0001879473751206489,
+      "loss": 10.057,
       "step": 20
     },
     {
+      "epoch": 3.3333333333333335,
+      "eval_loss": 8.625370979309082,
+      "eval_runtime": 5.0565,
+      "eval_samples_per_second": 296.845,
+      "eval_steps_per_second": 2.373,
       "step": 20
     }
   ],
   "logging_steps": 10,
+  "max_steps": 100,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 17,
+  "save_steps": 20,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
       "attributes": {}
     }
   },
+  "total_flos": 234160803282944.0,
+  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c733d91ae8e6c85156e620fe003f3edb50e80afe2abe62c2d021547d726d6f81
-size 6712

 version https://git-lfs.github.com/spec/v1
+oid sha256:3d017ea85dad9834527e99981d9d328910e06d27693af57af90566fe2cce7ce0
+size 6840