Training in progress, epoch 2

Browse files

Files changed (15) hide show

all_results.json +5 -5
model.safetensors +1 -1
runs/Jan15_20-00-25_a99b99d67614/events.out.tfevents.1736971226.a99b99d67614.505.23 +3 -0
runs/Jan15_20-03-54_a99b99d67614/events.out.tfevents.1736971435.a99b99d67614.505.24 +3 -0
runs/Jan15_20-04-21_a99b99d67614/events.out.tfevents.1736971462.a99b99d67614.505.25 +3 -0
runs/Jan15_20-04-45_a99b99d67614/events.out.tfevents.1736971487.a99b99d67614.505.26 +3 -0
runs/Jan15_20-06-01_a99b99d67614/events.out.tfevents.1736971563.a99b99d67614.505.27 +3 -0
runs/Jan15_20-09-35_a99b99d67614/events.out.tfevents.1736971776.a99b99d67614.505.28 +3 -0
runs/Jan15_20-11-17_a99b99d67614/events.out.tfevents.1736971878.a99b99d67614.505.29 +3 -0
runs/Jan15_20-12-32_a99b99d67614/events.out.tfevents.1736971953.a99b99d67614.505.30 +3 -0
runs/Jan15_20-13-32_a99b99d67614/events.out.tfevents.1736972014.a99b99d67614.505.31 +3 -0
runs/Jan15_20-14-36_a99b99d67614/events.out.tfevents.1736972077.a99b99d67614.505.32 +3 -0
train_results.json +5 -5
trainer_state.json +341 -208
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -5,9 +5,9 @@
     "eval_runtime": 3.9702,
     "eval_samples_per_second": 73.548,
     "eval_steps_per_second": 9.319,
-    "total_flos": 3.431561927399424e+17,
-    "train_loss": 0.02884543471570526,
-    "train_runtime": 336.86,
-    "train_samples_per_second": 13.121,
-    "train_steps_per_second": 0.831
 }

     "eval_runtime": 3.9702,
     "eval_samples_per_second": 73.548,
     "eval_steps_per_second": 9.319,
+    "total_flos": 5.916629591779738e+17,
+    "train_loss": 0.020844636825805014,
+    "train_runtime": 401.6875,
+    "train_samples_per_second": 18.621,
+    "train_steps_per_second": 1.17
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d874bb4c4bd029cdb2a0ba42bf8b83f0f9b96e8d9b9e0b699d2b4ff8eea7b322
 size 350497036

 version https://git-lfs.github.com/spec/v1
+oid sha256:04baf4507a8e1db4fa09c84c382f7ffb623cdc85a6428e220660a802d73b633b
 size 350497036

runs/Jan15_20-00-25_a99b99d67614/events.out.tfevents.1736971226.a99b99d67614.505.23 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4136644bdda2b28ecc7c8056dd4a0c62f1045ced8fd4fc4f446d34b810c915ea
+size 16665

runs/Jan15_20-03-54_a99b99d67614/events.out.tfevents.1736971435.a99b99d67614.505.24 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:07e4d97f320983e3d0ffbdc2a4bed50d41e082851563e5df7520a88e89cf137c
+size 16693

runs/Jan15_20-04-21_a99b99d67614/events.out.tfevents.1736971462.a99b99d67614.505.25 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:104574891a791fd31d7546229a10d159f6261f828d19f2d9687d194ea2bf6129
+size 16693

runs/Jan15_20-04-45_a99b99d67614/events.out.tfevents.1736971487.a99b99d67614.505.26 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f6fa2a8e661341099c7d0c3e9e7ddaff51111c99cced0dedd6ac68ed019b1078
+size 16665

runs/Jan15_20-06-01_a99b99d67614/events.out.tfevents.1736971563.a99b99d67614.505.27 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:83f3cf9beb83507f16417ee9009bd49ed7af0b3dd56599fde0a4b45e961f6129
+size 17521

runs/Jan15_20-09-35_a99b99d67614/events.out.tfevents.1736971776.a99b99d67614.505.28 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b8b01367ff3620586805a4a4a2292429adf9396baa9a64913c564bf7875218a5
+size 17569

runs/Jan15_20-11-17_a99b99d67614/events.out.tfevents.1736971878.a99b99d67614.505.29 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1ea36559b72d0b9b6e09066ac12a0b159775173f187db37dba87bfbea5db232e
+size 17569

runs/Jan15_20-12-32_a99b99d67614/events.out.tfevents.1736971953.a99b99d67614.505.30 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cc4e6eb67a94ecee1c6c3de970aa120f2264f7be6bf7359830688274bbd8d47d
+size 17569

runs/Jan15_20-13-32_a99b99d67614/events.out.tfevents.1736972014.a99b99d67614.505.31 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fe679ed8609dd968498732b3a3b28ab9e6ec8a8eba64769fee4109ccc20b0fd4
+size 17569

runs/Jan15_20-14-36_a99b99d67614/events.out.tfevents.1736972077.a99b99d67614.505.32 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:351ebe821b37bf1d768caf8f0c7678bc5d68d54ffe37ec935636c01eec50d914
+size 19238

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 10.0,
-    "total_flos": 3.431561927399424e+17,
-    "train_loss": 0.02884543471570526,
-    "train_runtime": 336.86,
-    "train_samples_per_second": 13.121,
-    "train_steps_per_second": 0.831
 }

 {
     "epoch": 10.0,
+    "total_flos": 5.916629591779738e+17,
+    "train_loss": 0.020844636825805014,
+    "train_runtime": 401.6875,
+    "train_samples_per_second": 18.621,
+    "train_steps_per_second": 1.17
 }

trainer_state.json CHANGED Viewed

@@ -1,311 +1,444 @@
 {
-  "best_metric": 0.01529290433973074,
-  "best_model_checkpoint": "./logo-matching-base/checkpoint-252",
   "epoch": 10.0,
   "eval_steps": 500,
-  "global_step": 280,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.35714285714285715,
-      "grad_norm": 0.28576332330703735,
-      "learning_rate": 0.00019285714285714286,
-      "loss": 0.3081,
       "step": 10
     },
     {
-      "epoch": 0.7142857142857143,
-      "grad_norm": 0.11291749030351639,
-      "learning_rate": 0.00018571428571428572,
-      "loss": 0.0994,
       "step": 20
     },
     {
-      "epoch": 1.0,
-      "eval_accuracy": 0.5886287625418061,
-      "eval_loss": 0.03771600499749184,
-      "eval_runtime": 4.5177,
-      "eval_samples_per_second": 66.184,
-      "eval_steps_per_second": 8.411,
-      "step": 28
-    },
-    {
-      "epoch": 1.0714285714285714,
-      "grad_norm": 0.057985421270132065,
-      "learning_rate": 0.0001785714285714286,
-      "loss": 0.0461,
       "step": 30
     },
     {
-      "epoch": 1.4285714285714286,
-      "grad_norm": 0.03649172931909561,
-      "learning_rate": 0.00017142857142857143,
-      "loss": 0.0282,
       "step": 40
     },
     {
-      "epoch": 1.7857142857142856,
-      "grad_norm": 0.03120347298681736,
-      "learning_rate": 0.00016428571428571428,
-      "loss": 0.0222,
       "step": 50
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 0.5886287625418061,
-      "eval_loss": 0.020119963213801384,
-      "eval_runtime": 3.2248,
-      "eval_samples_per_second": 92.718,
-      "eval_steps_per_second": 11.784,
-      "step": 56
-    },
-    {
-      "epoch": 2.142857142857143,
-      "grad_norm": 0.02560759335756302,
-      "learning_rate": 0.00015714285714285716,
-      "loss": 0.0174,
       "step": 60
     },
     {
-      "epoch": 2.5,
-      "grad_norm": 0.03040032461285591,
-      "learning_rate": 0.00015000000000000001,
-      "loss": 0.0178,
       "step": 70
     },
     {
-      "epoch": 2.857142857142857,
-      "grad_norm": 0.023641686886548996,
-      "learning_rate": 0.00014285714285714287,
-      "loss": 0.015,
       "step": 80
     },
     {
-      "epoch": 3.0,
-      "eval_accuracy": 0.5886287625418061,
-      "eval_loss": 0.017308849841356277,
-      "eval_runtime": 2.905,
-      "eval_samples_per_second": 102.924,
-      "eval_steps_per_second": 13.081,
-      "step": 84
-    },
-    {
-      "epoch": 3.2142857142857144,
-      "grad_norm": 0.019254567101597786,
-      "learning_rate": 0.00013571428571428572,
-      "loss": 0.0145,
       "step": 90
     },
     {
-      "epoch": 3.571428571428571,
-      "grad_norm": 0.019579825922846794,
-      "learning_rate": 0.00012857142857142858,
-      "loss": 0.0139,
       "step": 100
     },
     {
-      "epoch": 3.928571428571429,
-      "grad_norm": 0.019746659323573112,
-      "learning_rate": 0.00012142857142857143,
-      "loss": 0.0148,
       "step": 110
     },
     {
-      "epoch": 4.0,
-      "eval_accuracy": 0.5886287625418061,
-      "eval_loss": 0.016309447586536407,
-      "eval_runtime": 4.4763,
-      "eval_samples_per_second": 66.797,
-      "eval_steps_per_second": 8.489,
-      "step": 112
-    },
-    {
-      "epoch": 4.285714285714286,
-      "grad_norm": 0.02770456299185753,
-      "learning_rate": 0.00011428571428571428,
-      "loss": 0.0145,
       "step": 120
     },
     {
-      "epoch": 4.642857142857143,
-      "grad_norm": 0.019606683403253555,
-      "learning_rate": 0.00010714285714285715,
-      "loss": 0.013,
       "step": 130
     },
     {
-      "epoch": 5.0,
-      "grad_norm": 0.017767397686839104,
-      "learning_rate": 0.0001,
-      "loss": 0.0128,
       "step": 140
     },
     {
-      "epoch": 5.0,
-      "eval_accuracy": 0.5886287625418061,
-      "eval_loss": 0.015752054750919342,
-      "eval_runtime": 3.1756,
-      "eval_samples_per_second": 94.156,
-      "eval_steps_per_second": 11.966,
-      "step": 140
-    },
-    {
-      "epoch": 5.357142857142857,
-      "grad_norm": 0.01708129048347473,
-      "learning_rate": 9.285714285714286e-05,
-      "loss": 0.0113,
       "step": 150
     },
     {
-      "epoch": 5.714285714285714,
-      "grad_norm": 0.01555562112480402,
-      "learning_rate": 8.571428571428571e-05,
-      "loss": 0.0148,
       "step": 160
     },
     {
-      "epoch": 6.0,
-      "eval_accuracy": 0.5886287625418061,
-      "eval_loss": 0.01554945856332779,
-      "eval_runtime": 2.7646,
-      "eval_samples_per_second": 108.154,
-      "eval_steps_per_second": 13.745,
-      "step": 168
-    },
-    {
-      "epoch": 6.071428571428571,
-      "grad_norm": 0.026734082028269768,
-      "learning_rate": 7.857142857142858e-05,
-      "loss": 0.0129,
       "step": 170
     },
     {
-      "epoch": 6.428571428571429,
-      "grad_norm": 0.01421839464455843,
-      "learning_rate": 7.142857142857143e-05,
-      "loss": 0.0111,
       "step": 180
     },
     {
-      "epoch": 6.785714285714286,
-      "grad_norm": 0.011912204325199127,
-      "learning_rate": 6.428571428571429e-05,
-      "loss": 0.013,
       "step": 190
     },
     {
-      "epoch": 7.0,
-      "eval_accuracy": 0.5886287625418061,
-      "eval_loss": 0.015377058647572994,
-      "eval_runtime": 3.7025,
-      "eval_samples_per_second": 80.757,
-      "eval_steps_per_second": 10.263,
-      "step": 196
-    },
-    {
-      "epoch": 7.142857142857143,
-      "grad_norm": 0.023527879267930984,
-      "learning_rate": 5.714285714285714e-05,
-      "loss": 0.0116,
       "step": 200
     },
     {
-      "epoch": 7.5,
-      "grad_norm": 0.017122577875852585,
-      "learning_rate": 5e-05,
-      "loss": 0.0113,
       "step": 210
     },
     {
-      "epoch": 7.857142857142857,
-      "grad_norm": 0.018162399530410767,
-      "learning_rate": 4.2857142857142856e-05,
-      "loss": 0.0131,
       "step": 220
     },
     {
-      "epoch": 8.0,
-      "eval_accuracy": 0.5886287625418061,
-      "eval_loss": 0.015300475060939789,
-      "eval_runtime": 2.8162,
-      "eval_samples_per_second": 106.173,
-      "eval_steps_per_second": 13.494,
-      "step": 224
-    },
-    {
-      "epoch": 8.214285714285714,
-      "grad_norm": 0.023050658404827118,
-      "learning_rate": 3.571428571428572e-05,
-      "loss": 0.0124,
       "step": 230
     },
     {
-      "epoch": 8.571428571428571,
-      "grad_norm": 0.01859254017472267,
-      "learning_rate": 2.857142857142857e-05,
       "loss": 0.0118,
       "step": 240
     },
     {
-      "epoch": 8.928571428571429,
-      "grad_norm": 0.020781200379133224,
-      "learning_rate": 2.1428571428571428e-05,
-      "loss": 0.0111,
       "step": 250
     },
     {
-      "epoch": 9.0,
-      "eval_accuracy": 0.5886287625418061,
-      "eval_loss": 0.01529290433973074,
-      "eval_runtime": 2.8264,
-      "eval_samples_per_second": 105.789,
-      "eval_steps_per_second": 13.445,
-      "step": 252
-    },
-    {
-      "epoch": 9.285714285714286,
-      "grad_norm": 0.02203691191971302,
-      "learning_rate": 1.4285714285714285e-05,
-      "loss": 0.0126,
       "step": 260
     },
     {
-      "epoch": 9.642857142857142,
-      "grad_norm": 0.016590403392910957,
-      "learning_rate": 7.142857142857143e-06,
-      "loss": 0.0104,
       "step": 270
     },
     {
       "epoch": 10.0,
-      "grad_norm": 0.025512348860502243,
       "learning_rate": 0.0,
-      "loss": 0.0127,
-      "step": 280
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.5886287625418061,
-      "eval_loss": 0.015296942554414272,
-      "eval_runtime": 4.6262,
-      "eval_samples_per_second": 64.633,
-      "eval_steps_per_second": 8.214,
-      "step": 280
     },
     {
       "epoch": 10.0,
-      "step": 280,
-      "total_flos": 3.431561927399424e+17,
-      "train_loss": 0.02884543471570526,
-      "train_runtime": 336.86,
-      "train_samples_per_second": 13.121,
-      "train_steps_per_second": 0.831
     }
   ],
   "logging_steps": 10,
-  "max_steps": 280,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
@@ -321,7 +454,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.431561927399424e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.03154107183218002,
+  "best_model_checkpoint": "./logo-matching-base/checkpoint-141",
   "epoch": 10.0,
   "eval_steps": 500,
+  "global_step": 470,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.2127659574468085,
+      "grad_norm": 0.20348502695560455,
+      "learning_rate": 0.00019574468085106384,
+      "loss": 0.2136,
       "step": 10
     },
     {
+      "epoch": 0.425531914893617,
+      "grad_norm": 0.20952267944812775,
+      "learning_rate": 0.00019148936170212768,
+      "loss": 0.0284,
       "step": 20
     },
     {
+      "epoch": 0.6382978723404256,
+      "grad_norm": 0.21442832052707672,
+      "learning_rate": 0.0001872340425531915,
+      "loss": 0.183,
       "step": 30
     },
     {
+      "epoch": 0.851063829787234,
+      "grad_norm": 0.38694852590560913,
+      "learning_rate": 0.00018297872340425532,
+      "loss": 0.0225,
       "step": 40
     },
     {
+      "epoch": 1.0,
+      "eval_accuracy": 0.3229357798165138,
+      "eval_loss": 0.032035112380981445,
+      "eval_runtime": 6.0654,
+      "eval_samples_per_second": 89.854,
+      "eval_steps_per_second": 11.376,
+      "step": 47
+    },
+    {
+      "epoch": 1.0638297872340425,
+      "grad_norm": 0.11812812834978104,
+      "learning_rate": 0.00017872340425531915,
+      "loss": 0.02,
       "step": 50
     },
     {
+      "epoch": 1.2765957446808511,
+      "grad_norm": 0.1575324535369873,
+      "learning_rate": 0.00017446808510638298,
+      "loss": 0.0213,
       "step": 60
     },
     {
+      "epoch": 1.4893617021276595,
+      "grad_norm": 0.12748625874519348,
+      "learning_rate": 0.00017021276595744682,
+      "loss": 0.0207,
       "step": 70
     },
     {
+      "epoch": 1.702127659574468,
+      "grad_norm": 0.11703016608953476,
+      "learning_rate": 0.00016595744680851065,
+      "loss": 0.0178,
       "step": 80
     },
     {
+      "epoch": 1.9148936170212765,
+      "grad_norm": 0.09279447048902512,
+      "learning_rate": 0.00016170212765957446,
+      "loss": 0.0184,
       "step": 90
     },
     {
+      "epoch": 2.0,
+      "eval_accuracy": 0.27706422018348625,
+      "eval_loss": 0.03198189660906792,
+      "eval_runtime": 4.7267,
+      "eval_samples_per_second": 115.302,
+      "eval_steps_per_second": 14.598,
+      "step": 94
+    },
+    {
+      "epoch": 2.127659574468085,
+      "grad_norm": 0.09347425401210785,
+      "learning_rate": 0.00015744680851063832,
+      "loss": 0.0161,
       "step": 100
     },
     {
+      "epoch": 2.3404255319148937,
+      "grad_norm": 0.09166835993528366,
+      "learning_rate": 0.00015319148936170213,
+      "loss": 0.0169,
       "step": 110
     },
     {
+      "epoch": 2.5531914893617023,
+      "grad_norm": 0.12563753128051758,
+      "learning_rate": 0.00014893617021276596,
+      "loss": 0.0181,
       "step": 120
     },
     {
+      "epoch": 2.7659574468085104,
+      "grad_norm": 0.10614734888076782,
+      "learning_rate": 0.0001446808510638298,
+      "loss": 0.0166,
       "step": 130
     },
     {
+      "epoch": 2.978723404255319,
+      "grad_norm": 0.10630539804697037,
+      "learning_rate": 0.00014042553191489363,
+      "loss": 0.0177,
       "step": 140
     },
     {
+      "epoch": 3.0,
+      "eval_accuracy": 0.26788990825688075,
+      "eval_loss": 0.03154107183218002,
+      "eval_runtime": 6.1724,
+      "eval_samples_per_second": 88.296,
+      "eval_steps_per_second": 11.179,
+      "step": 141
+    },
+    {
+      "epoch": 3.1914893617021276,
+      "grad_norm": 0.08008704334497452,
+      "learning_rate": 0.00013617021276595746,
+      "loss": 0.0175,
       "step": 150
     },
     {
+      "epoch": 3.404255319148936,
+      "grad_norm": 0.1296830177307129,
+      "learning_rate": 0.00013191489361702127,
+      "loss": 0.0174,
       "step": 160
     },
     {
+      "epoch": 3.617021276595745,
+      "grad_norm": 0.11523136496543884,
+      "learning_rate": 0.00012765957446808513,
+      "loss": 0.014,
       "step": 170
     },
     {
+      "epoch": 3.829787234042553,
+      "grad_norm": 0.10043615847826004,
+      "learning_rate": 0.00012340425531914893,
+      "loss": 0.0144,
       "step": 180
     },
     {
+      "epoch": 4.0,
+      "eval_accuracy": 0.25321100917431194,
+      "eval_loss": 0.03288332372903824,
+      "eval_runtime": 5.7194,
+      "eval_samples_per_second": 95.289,
+      "eval_steps_per_second": 12.064,
+      "step": 188
+    },
+    {
+      "epoch": 4.042553191489362,
+      "grad_norm": 0.1341152787208557,
+      "learning_rate": 0.00011914893617021277,
+      "loss": 0.0143,
       "step": 190
     },
     {
+      "epoch": 4.25531914893617,
+      "grad_norm": 0.11163297295570374,
+      "learning_rate": 0.00011489361702127661,
+      "loss": 0.0147,
       "step": 200
     },
     {
+      "epoch": 4.468085106382979,
+      "grad_norm": 0.14031550288200378,
+      "learning_rate": 0.00011063829787234043,
+      "loss": 0.0129,
       "step": 210
     },
     {
+      "epoch": 4.680851063829787,
+      "grad_norm": 0.11095025390386581,
+      "learning_rate": 0.00010638297872340425,
+      "loss": 0.0159,
       "step": 220
     },
     {
+      "epoch": 4.8936170212765955,
+      "grad_norm": 0.09944932162761688,
+      "learning_rate": 0.00010212765957446809,
+      "loss": 0.0133,
       "step": 230
     },
     {
+      "epoch": 5.0,
+      "eval_accuracy": 0.30825688073394497,
+      "eval_loss": 0.03211478143930435,
+      "eval_runtime": 4.8718,
+      "eval_samples_per_second": 111.869,
+      "eval_steps_per_second": 14.163,
+      "step": 235
+    },
+    {
+      "epoch": 5.1063829787234045,
+      "grad_norm": 0.07057506591081619,
+      "learning_rate": 9.787234042553192e-05,
       "loss": 0.0118,
       "step": 240
     },
     {
+      "epoch": 5.319148936170213,
+      "grad_norm": 0.11148671805858612,
+      "learning_rate": 9.361702127659576e-05,
+      "loss": 0.0123,
       "step": 250
     },
     {
+      "epoch": 5.531914893617021,
+      "grad_norm": 0.1193113625049591,
+      "learning_rate": 8.936170212765958e-05,
+      "loss": 0.0128,
       "step": 260
     },
     {
+      "epoch": 5.74468085106383,
+      "grad_norm": 0.15620863437652588,
+      "learning_rate": 8.510638297872341e-05,
+      "loss": 0.013,
       "step": 270
     },
+    {
+      "epoch": 5.957446808510638,
+      "grad_norm": 0.09126376360654831,
+      "learning_rate": 8.085106382978723e-05,
+      "loss": 0.0108,
+      "step": 280
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.3137614678899083,
+      "eval_loss": 0.03295579180121422,
+      "eval_runtime": 4.8988,
+      "eval_samples_per_second": 111.251,
+      "eval_steps_per_second": 14.085,
+      "step": 282
+    },
+    {
+      "epoch": 6.170212765957447,
+      "grad_norm": 0.11392467468976974,
+      "learning_rate": 7.659574468085106e-05,
+      "loss": 0.0115,
+      "step": 290
+    },
+    {
+      "epoch": 6.382978723404255,
+      "grad_norm": 0.07867500931024551,
+      "learning_rate": 7.23404255319149e-05,
+      "loss": 0.0105,
+      "step": 300
+    },
+    {
+      "epoch": 6.595744680851064,
+      "grad_norm": 0.07005509734153748,
+      "learning_rate": 6.808510638297873e-05,
+      "loss": 0.0099,
+      "step": 310
+    },
+    {
+      "epoch": 6.808510638297872,
+      "grad_norm": 0.10206523537635803,
+      "learning_rate": 6.382978723404256e-05,
+      "loss": 0.0097,
+      "step": 320
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.25688073394495414,
+      "eval_loss": 0.034237515181303024,
+      "eval_runtime": 5.8682,
+      "eval_samples_per_second": 92.873,
+      "eval_steps_per_second": 11.758,
+      "step": 329
+    },
+    {
+      "epoch": 7.0212765957446805,
+      "grad_norm": 0.15130436420440674,
+      "learning_rate": 5.9574468085106384e-05,
+      "loss": 0.0106,
+      "step": 330
+    },
+    {
+      "epoch": 7.23404255319149,
+      "grad_norm": 0.07350896298885345,
+      "learning_rate": 5.531914893617022e-05,
+      "loss": 0.0086,
+      "step": 340
+    },
+    {
+      "epoch": 7.446808510638298,
+      "grad_norm": 0.10417384654283524,
+      "learning_rate": 5.1063829787234044e-05,
+      "loss": 0.0108,
+      "step": 350
+    },
+    {
+      "epoch": 7.659574468085106,
+      "grad_norm": 0.12092699855566025,
+      "learning_rate": 4.680851063829788e-05,
+      "loss": 0.0079,
+      "step": 360
+    },
+    {
+      "epoch": 7.872340425531915,
+      "grad_norm": 0.11693856120109558,
+      "learning_rate": 4.2553191489361704e-05,
+      "loss": 0.0086,
+      "step": 370
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.3192660550458716,
+      "eval_loss": 0.03412623330950737,
+      "eval_runtime": 6.8764,
+      "eval_samples_per_second": 79.257,
+      "eval_steps_per_second": 10.034,
+      "step": 376
+    },
+    {
+      "epoch": 8.085106382978724,
+      "grad_norm": 0.07324172556400299,
+      "learning_rate": 3.829787234042553e-05,
+      "loss": 0.0076,
+      "step": 380
+    },
+    {
+      "epoch": 8.297872340425531,
+      "grad_norm": 0.1128627359867096,
+      "learning_rate": 3.4042553191489365e-05,
+      "loss": 0.0074,
+      "step": 390
+    },
+    {
+      "epoch": 8.51063829787234,
+      "grad_norm": 0.10660151392221451,
+      "learning_rate": 2.9787234042553192e-05,
+      "loss": 0.0067,
+      "step": 400
+    },
+    {
+      "epoch": 8.72340425531915,
+      "grad_norm": 0.0888807401061058,
+      "learning_rate": 2.5531914893617022e-05,
+      "loss": 0.0076,
+      "step": 410
+    },
+    {
+      "epoch": 8.936170212765958,
+      "grad_norm": 0.07239257544279099,
+      "learning_rate": 2.1276595744680852e-05,
+      "loss": 0.0068,
+      "step": 420
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.3155963302752294,
+      "eval_loss": 0.03542930632829666,
+      "eval_runtime": 5.9234,
+      "eval_samples_per_second": 92.008,
+      "eval_steps_per_second": 11.649,
+      "step": 423
+    },
+    {
+      "epoch": 9.148936170212766,
+      "grad_norm": 0.08497753739356995,
+      "learning_rate": 1.7021276595744682e-05,
+      "loss": 0.0067,
+      "step": 430
+    },
+    {
+      "epoch": 9.361702127659575,
+      "grad_norm": 0.06389721482992172,
+      "learning_rate": 1.2765957446808511e-05,
+      "loss": 0.0062,
+      "step": 440
+    },
+    {
+      "epoch": 9.574468085106384,
+      "grad_norm": 0.06799926608800888,
+      "learning_rate": 8.510638297872341e-06,
+      "loss": 0.0054,
+      "step": 450
+    },
+    {
+      "epoch": 9.787234042553191,
+      "grad_norm": 0.08153792470693588,
+      "learning_rate": 4.255319148936171e-06,
+      "loss": 0.0053,
+      "step": 460
+    },
     {
       "epoch": 10.0,
+      "grad_norm": 0.1752246469259262,
       "learning_rate": 0.0,
+      "loss": 0.0056,
+      "step": 470
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.3339449541284404,
+      "eval_loss": 0.03554193675518036,
+      "eval_runtime": 6.6038,
+      "eval_samples_per_second": 82.529,
+      "eval_steps_per_second": 10.449,
+      "step": 470
     },
     {
       "epoch": 10.0,
+      "step": 470,
+      "total_flos": 5.916629591779738e+17,
+      "train_loss": 0.020844636825805014,
+      "train_runtime": 401.6875,
+      "train_samples_per_second": 18.621,
+      "train_steps_per_second": 1.17
     }
   ],
   "logging_steps": 10,
+  "max_steps": 470,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 5.916629591779738e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:71319c6b4a4532c672c778ea1f888794e3f01a4eacd84321c42d8d203f79a3a2
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:a54f12faa92c2188517ce8459d7a38b184f5075cca10aea02a378d12b2444aa4
 size 5368