Training in progress, epoch 1

Browse files

Files changed (6) hide show

all_results.json +6 -2
config.json +1 -1
model.safetensors +1 -1
train_results.json +6 -6
trainer_state.json +505 -384
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,4 +1,8 @@
 {
-    "eval_accuracy": 0.24349442379182157,
-    "eval_loss": 0.034249916672706604
 }

 {
+    "epoch": 20.0,
+    "total_flos": 0.0,
+    "train_loss": 0.44298483904670266,
+    "train_runtime": 986.129,
+    "train_samples_per_second": 21.843,
+    "train_steps_per_second": 0.69
 }

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "openai/clip-vit-base-patch32",
   "architectures": [
     "CLIPModel"
   ],

 {
+  "_name_or_path": "ellabettison/logo-matching-base",
   "architectures": [
     "CLIPModel"
   ],

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cbedbdc865506373a1da560e00b99bc692dfc892a99cfe51f48ef95edc641528
 size 605156676

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab4af9aa03da49868df3e4c2c94b297aff45455cfdd13e28107e8a8bc4eec710
 size 605156676

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 10.0,
-    "total_flos": 5.916629591779738e+17,
-    "train_loss": 0.006165030080468413,
-    "train_runtime": 454.1808,
-    "train_samples_per_second": 16.469,
-    "train_steps_per_second": 1.035
 }

 {
+    "epoch": 20.0,
+    "total_flos": 0.0,
+    "train_loss": 0.44298483904670266,
+    "train_runtime": 986.129,
+    "train_samples_per_second": 21.843,
+    "train_steps_per_second": 0.69
 }

trainer_state.json CHANGED Viewed

@@ -1,446 +1,567 @@
 {
-  "best_metric": 0.04811817407608032,
-  "best_model_checkpoint": "./logo-matching-base/checkpoint-47",
-  "epoch": 10.0,
   "eval_steps": 500,
-  "global_step": 470,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
-    {
-      "epoch": 0.2127659574468085,
-      "grad_norm": 0.07344582676887512,
-      "learning_rate": 0.00019574468085106384,
-      "loss": 0.0184,
-      "step": 10
-    },
-    {
-      "epoch": 0.425531914893617,
-      "grad_norm": 0.07934936881065369,
-      "learning_rate": 0.00019148936170212768,
-      "loss": 0.0158,
-      "step": 20
-    },
-    {
-      "epoch": 0.6382978723404256,
-      "grad_norm": 0.06698207557201385,
-      "learning_rate": 0.0001872340425531915,
-      "loss": 0.0147,
-      "step": 30
-    },
-    {
-      "epoch": 0.851063829787234,
-      "grad_norm": 0.08733490109443665,
-      "learning_rate": 0.00018297872340425532,
-      "loss": 0.014,
-      "step": 40
-    },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.28807339449541286,
-      "eval_loss": 0.04811817407608032,
-      "eval_runtime": 6.3598,
-      "eval_samples_per_second": 85.695,
-      "eval_steps_per_second": 10.849,
-      "step": 47
-    },
-    {
-      "epoch": 1.0638297872340425,
-      "grad_norm": 0.062165793031454086,
-      "learning_rate": 0.00017872340425531915,
-      "loss": 0.0126,
-      "step": 50
-    },
-    {
-      "epoch": 1.2765957446808511,
-      "grad_norm": 0.07251156866550446,
-      "learning_rate": 0.00017446808510638298,
-      "loss": 0.0128,
-      "step": 60
     },
     {
-      "epoch": 1.4893617021276595,
-      "grad_norm": 0.0481877438724041,
-      "learning_rate": 0.00017021276595744682,
-      "loss": 0.0126,
-      "step": 70
-    },
-    {
-      "epoch": 1.702127659574468,
-      "grad_norm": 0.07360873371362686,
-      "learning_rate": 0.00016595744680851065,
-      "loss": 0.0121,
-      "step": 80
-    },
-    {
-      "epoch": 1.9148936170212765,
-      "grad_norm": 0.058246735483407974,
-      "learning_rate": 0.00016170212765957446,
-      "loss": 0.0127,
-      "step": 90
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.12844036697247707,
-      "eval_loss": 0.054430264979600906,
-      "eval_runtime": 6.5223,
-      "eval_samples_per_second": 83.559,
-      "eval_steps_per_second": 10.579,
-      "step": 94
-    },
-    {
-      "epoch": 2.127659574468085,
-      "grad_norm": 0.06463072448968887,
-      "learning_rate": 0.00015744680851063832,
-      "loss": 0.0113,
-      "step": 100
-    },
-    {
-      "epoch": 2.3404255319148937,
-      "grad_norm": 0.055768080055713654,
-      "learning_rate": 0.00015319148936170213,
-      "loss": 0.0099,
-      "step": 110
-    },
-    {
-      "epoch": 2.5531914893617023,
-      "grad_norm": 0.08255070447921753,
-      "learning_rate": 0.00014893617021276596,
-      "loss": 0.0105,
-      "step": 120
     },
     {
-      "epoch": 2.7659574468085104,
-      "grad_norm": 0.07059154659509659,
-      "learning_rate": 0.0001446808510638298,
-      "loss": 0.0092,
-      "step": 130
-    },
-    {
-      "epoch": 2.978723404255319,
-      "grad_norm": 0.0670301541686058,
-      "learning_rate": 0.00014042553191489363,
-      "loss": 0.0097,
-      "step": 140
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.13394495412844037,
-      "eval_loss": 0.056532666087150574,
-      "eval_runtime": 6.5935,
-      "eval_samples_per_second": 82.657,
-      "eval_steps_per_second": 10.465,
-      "step": 141
-    },
-    {
-      "epoch": 3.1914893617021276,
-      "grad_norm": 0.05259150639176369,
-      "learning_rate": 0.00013617021276595746,
-      "loss": 0.0094,
-      "step": 150
-    },
-    {
-      "epoch": 3.404255319148936,
-      "grad_norm": 0.08173543959856033,
-      "learning_rate": 0.00013191489361702127,
-      "loss": 0.0096,
-      "step": 160
-    },
-    {
-      "epoch": 3.617021276595745,
-      "grad_norm": 0.04590131714940071,
-      "learning_rate": 0.00012765957446808513,
-      "loss": 0.0071,
-      "step": 170
     },
     {
-      "epoch": 3.829787234042553,
-      "grad_norm": 0.03957865759730339,
-      "learning_rate": 0.00012340425531914893,
-      "loss": 0.0062,
-      "step": 180
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.1669724770642202,
-      "eval_loss": 0.0624094121158123,
-      "eval_runtime": 6.6046,
-      "eval_samples_per_second": 82.518,
-      "eval_steps_per_second": 10.447,
-      "step": 188
     },
     {
-      "epoch": 4.042553191489362,
-      "grad_norm": 0.07129650563001633,
-      "learning_rate": 0.00011914893617021277,
-      "loss": 0.0056,
-      "step": 190
-    },
-    {
-      "epoch": 4.25531914893617,
-      "grad_norm": 0.056660715490579605,
-      "learning_rate": 0.00011489361702127661,
-      "loss": 0.0061,
-      "step": 200
-    },
-    {
-      "epoch": 4.468085106382979,
-      "grad_norm": 0.05685529112815857,
-      "learning_rate": 0.00011063829787234043,
-      "loss": 0.005,
-      "step": 210
-    },
-    {
-      "epoch": 4.680851063829787,
-      "grad_norm": 0.03731105104088783,
-      "learning_rate": 0.00010638297872340425,
-      "loss": 0.006,
-      "step": 220
-    },
-    {
-      "epoch": 4.8936170212765955,
-      "grad_norm": 0.039578877389431,
-      "learning_rate": 0.00010212765957446809,
-      "loss": 0.0051,
-      "step": 230
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.23669724770642203,
-      "eval_loss": 0.059408094733953476,
-      "eval_runtime": 6.822,
-      "eval_samples_per_second": 79.889,
-      "eval_steps_per_second": 10.114,
-      "step": 235
-    },
-    {
-      "epoch": 5.1063829787234045,
-      "grad_norm": 0.05410230532288551,
-      "learning_rate": 9.787234042553192e-05,
-      "loss": 0.0044,
-      "step": 240
-    },
-    {
-      "epoch": 5.319148936170213,
-      "grad_norm": 0.03862292692065239,
-      "learning_rate": 9.361702127659576e-05,
-      "loss": 0.0037,
-      "step": 250
-    },
-    {
-      "epoch": 5.531914893617021,
-      "grad_norm": 0.06473053991794586,
-      "learning_rate": 8.936170212765958e-05,
-      "loss": 0.0046,
-      "step": 260
-    },
-    {
-      "epoch": 5.74468085106383,
-      "grad_norm": 0.03953048214316368,
-      "learning_rate": 8.510638297872341e-05,
-      "loss": 0.0039,
-      "step": 270
     },
     {
-      "epoch": 5.957446808510638,
-      "grad_norm": 0.050171270966529846,
-      "learning_rate": 8.085106382978723e-05,
-      "loss": 0.0037,
-      "step": 280
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.20917431192660552,
-      "eval_loss": 0.06461313366889954,
-      "eval_runtime": 5.4957,
-      "eval_samples_per_second": 99.169,
-      "eval_steps_per_second": 12.555,
-      "step": 282
-    },
-    {
-      "epoch": 6.170212765957447,
-      "grad_norm": 0.05051916465163231,
-      "learning_rate": 7.659574468085106e-05,
-      "loss": 0.0035,
-      "step": 290
-    },
-    {
-      "epoch": 6.382978723404255,
-      "grad_norm": 0.03177861496806145,
-      "learning_rate": 7.23404255319149e-05,
-      "loss": 0.0029,
-      "step": 300
     },
     {
-      "epoch": 6.595744680851064,
-      "grad_norm": 0.01716785505414009,
-      "learning_rate": 6.808510638297873e-05,
-      "loss": 0.0026,
-      "step": 310
-    },
-    {
-      "epoch": 6.808510638297872,
-      "grad_norm": 0.02455182373523712,
-      "learning_rate": 6.382978723404256e-05,
-      "loss": 0.0023,
-      "step": 320
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.1981651376146789,
-      "eval_loss": 0.06650757044553757,
-      "eval_runtime": 6.6722,
-      "eval_samples_per_second": 81.683,
-      "eval_steps_per_second": 10.341,
-      "step": 329
-    },
-    {
-      "epoch": 7.0212765957446805,
-      "grad_norm": 0.06645756959915161,
-      "learning_rate": 5.9574468085106384e-05,
-      "loss": 0.0023,
-      "step": 330
-    },
-    {
-      "epoch": 7.23404255319149,
-      "grad_norm": 0.036258358508348465,
-      "learning_rate": 5.531914893617022e-05,
-      "loss": 0.0022,
-      "step": 340
-    },
-    {
-      "epoch": 7.446808510638298,
-      "grad_norm": 0.055592458695173264,
-      "learning_rate": 5.1063829787234044e-05,
-      "loss": 0.0027,
-      "step": 350
-    },
-    {
-      "epoch": 7.659574468085106,
-      "grad_norm": 0.02403583563864231,
-      "learning_rate": 4.680851063829788e-05,
-      "loss": 0.0015,
-      "step": 360
     },
     {
-      "epoch": 7.872340425531915,
-      "grad_norm": 0.01888449862599373,
-      "learning_rate": 4.2553191489361704e-05,
-      "loss": 0.0015,
-      "step": 370
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.1596330275229358,
-      "eval_loss": 0.06884702295064926,
-      "eval_runtime": 6.3823,
-      "eval_samples_per_second": 85.393,
-      "eval_steps_per_second": 10.811,
-      "step": 376
-    },
-    {
-      "epoch": 8.085106382978724,
-      "grad_norm": 0.012278878130018711,
-      "learning_rate": 3.829787234042553e-05,
-      "loss": 0.0015,
-      "step": 380
-    },
-    {
-      "epoch": 8.297872340425531,
-      "grad_norm": 0.029290180653333664,
-      "learning_rate": 3.4042553191489365e-05,
-      "loss": 0.0013,
-      "step": 390
     },
     {
-      "epoch": 8.51063829787234,
-      "grad_norm": 0.01336819026619196,
-      "learning_rate": 2.9787234042553192e-05,
-      "loss": 0.0012,
-      "step": 400
-    },
-    {
-      "epoch": 8.72340425531915,
-      "grad_norm": 0.01985483057796955,
-      "learning_rate": 2.5531914893617022e-05,
-      "loss": 0.0013,
-      "step": 410
-    },
-    {
-      "epoch": 8.936170212765958,
-      "grad_norm": 0.026989364996552467,
-      "learning_rate": 2.1276595744680852e-05,
-      "loss": 0.0013,
-      "step": 420
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.181651376146789,
-      "eval_loss": 0.0706261619925499,
-      "eval_runtime": 6.7059,
-      "eval_samples_per_second": 81.272,
-      "eval_steps_per_second": 10.29,
-      "step": 423
     },
     {
-      "epoch": 9.148936170212766,
-      "grad_norm": 0.02496664598584175,
-      "learning_rate": 1.7021276595744682e-05,
-      "loss": 0.0014,
-      "step": 430
-    },
-    {
-      "epoch": 9.361702127659575,
-      "grad_norm": 0.01364427525550127,
-      "learning_rate": 1.2765957446808511e-05,
-      "loss": 0.0009,
-      "step": 440
-    },
-    {
-      "epoch": 9.574468085106384,
-      "grad_norm": 0.010134860873222351,
-      "learning_rate": 8.510638297872341e-06,
-      "loss": 0.0009,
-      "step": 450
-    },
-    {
-      "epoch": 9.787234042553191,
-      "grad_norm": 0.03484776243567467,
-      "learning_rate": 4.255319148936171e-06,
-      "loss": 0.0011,
-      "step": 460
     },
     {
       "epoch": 10.0,
-      "grad_norm": 0.0072807134129107,
-      "learning_rate": 0.0,
-      "loss": 0.0007,
-      "step": 470
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.1743119266055046,
-      "eval_loss": 0.07116351276636124,
-      "eval_runtime": 6.8862,
-      "eval_samples_per_second": 79.144,
-      "eval_steps_per_second": 10.02,
-      "step": 470
     },
     {
-      "epoch": 10.0,
-      "step": 470,
-      "total_flos": 5.916629591779738e+17,
-      "train_loss": 0.006165030080468413,
-      "train_runtime": 454.1808,
-      "train_samples_per_second": 16.469,
-      "train_steps_per_second": 1.035
     }
   ],
-  "logging_steps": 10,
-  "max_steps": 470,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 10,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -454,8 +575,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.916629591779738e+17,
-  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.25979954936421096,
+  "best_model_checkpoint": "./logo-matching-base/checkpoint-510",
+  "epoch": 20.0,
   "eval_steps": 500,
+  "global_step": 680,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 72.06623077392578,
+      "learning_rate": 9.5e-06,
+      "loss": 0.6833,
+      "step": 34
     },
     {
+      "epoch": 1.0,
+      "eval_adjusted_mutual_info_score": 0.0959962302587181,
+      "eval_adjusted_rand_score": 0.06912863690017566,
+      "eval_completeness_score": 0.5109803955924982,
+      "eval_fowlkes_mallows_score": 0.44395093511191686,
+      "eval_homogeneity_score": 0.12370192092796624,
+      "eval_loss": 0.06912863690017566,
+      "eval_pair_confusion_matrix": [
+        [
+          16212,
+          31438
+        ],
+        [
+          2986,
+          10620
+        ]
+      ],
+      "step": 34
     },
     {
       "epoch": 2.0,
+      "grad_norm": 0.0,
+      "learning_rate": 9e-06,
+      "loss": 0.5711,
+      "step": 68
     },
     {
+      "epoch": 2.0,
+      "eval_adjusted_mutual_info_score": 0.16050612062870448,
+      "eval_adjusted_rand_score": 0.04788887456487486,
+      "eval_completeness_score": 0.4801879169228485,
+      "eval_fowlkes_mallows_score": 0.326241320471177,
+      "eval_homogeneity_score": 0.24777791806632807,
+      "eval_loss": 0.04788887456487486,
+      "eval_pair_confusion_matrix": [
+        [
+          30178,
+          17472
+        ],
+        [
+          7800,
+          5806
+        ]
+      ],
+      "step": 68
     },
     {
       "epoch": 3.0,
+      "grad_norm": 0.0,
+      "learning_rate": 8.5e-06,
+      "loss": 0.5048,
+      "step": 102
     },
     {
+      "epoch": 3.0,
+      "eval_adjusted_mutual_info_score": 0.14453579947468986,
+      "eval_adjusted_rand_score": 0.06941336059571244,
+      "eval_completeness_score": 0.48534870125531976,
+      "eval_fowlkes_mallows_score": 0.35623205660821267,
+      "eval_homogeneity_score": 0.20687927372388243,
+      "eval_loss": 0.06941336059571244,
+      "eval_pair_confusion_matrix": [
+        [
+          28728,
+          18922
+        ],
+        [
+          6962,
+          6644
+        ]
+      ],
+      "step": 102
     },
     {
       "epoch": 4.0,
+      "grad_norm": 0.0,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.4474,
+      "step": 136
     },
     {
+      "epoch": 4.0,
+      "eval_adjusted_mutual_info_score": 0.15197952267992879,
+      "eval_adjusted_rand_score": 0.06395362023662775,
+      "eval_completeness_score": 0.5053597877227305,
+      "eval_fowlkes_mallows_score": 0.36009183925771726,
+      "eval_homogeneity_score": 0.201135083549786,
+      "eval_loss": 0.06395362023662775,
+      "eval_pair_confusion_matrix": [
+        [
+          27632,
+          20018
+        ],
+        [
+          6716,
+          6890
+        ]
+      ],
+      "step": 136
     },
     {
       "epoch": 5.0,
+      "grad_norm": 53.12451934814453,
+      "learning_rate": 7.500000000000001e-06,
+      "loss": 0.4433,
+      "step": 170
     },
     {
+      "epoch": 5.0,
+      "eval_adjusted_mutual_info_score": 0.09225927782155577,
+      "eval_adjusted_rand_score": 0.04497696614477031,
+      "eval_completeness_score": 0.4856685890606832,
+      "eval_fowlkes_mallows_score": 0.41794001145778076,
+      "eval_homogeneity_score": 0.12954647762487131,
+      "eval_loss": 0.04497696614477031,
+      "eval_pair_confusion_matrix": [
+        [
+          16938,
+          30712
+        ],
+        [
+          3792,
+          9814
+        ]
+      ],
+      "step": 170
     },
     {
       "epoch": 6.0,
+      "grad_norm": 0.0,
+      "learning_rate": 7e-06,
+      "loss": 0.4582,
+      "step": 204
     },
     {
+      "epoch": 6.0,
+      "eval_adjusted_mutual_info_score": 0.1550123095541971,
+      "eval_adjusted_rand_score": 0.1235971988422464,
+      "eval_completeness_score": 0.7625668447266793,
+      "eval_fowlkes_mallows_score": 0.5091255095660694,
+      "eval_homogeneity_score": 0.13490749128374505,
+      "eval_loss": 0.1235971988422464,
+      "eval_pair_confusion_matrix": [
+        [
+          13668,
+          33982
+        ],
+        [
+          754,
+          12852
+        ]
+      ],
+      "step": 204
     },
     {
       "epoch": 7.0,
+      "grad_norm": 24.434818267822266,
+      "learning_rate": 6.5000000000000004e-06,
+      "loss": 0.4384,
+      "step": 238
     },
     {
+      "epoch": 7.0,
+      "eval_adjusted_mutual_info_score": 0.17177361413411174,
+      "eval_adjusted_rand_score": 0.08374811610033726,
+      "eval_completeness_score": 0.5222737901409524,
+      "eval_fowlkes_mallows_score": 0.3647858508374196,
+      "eval_homogeneity_score": 0.2242118568770657,
+      "eval_loss": 0.08374811610033726,
+      "eval_pair_confusion_matrix": [
+        [
+          29196,
+          18454
+        ],
+        [
+          6850,
+          6756
+        ]
+      ],
+      "step": 238
     },
     {
       "epoch": 8.0,
+      "grad_norm": 0.0,
+      "learning_rate": 6e-06,
+      "loss": 0.4388,
+      "step": 272
     },
     {
+      "epoch": 8.0,
+      "eval_adjusted_mutual_info_score": 0.20449439835224686,
+      "eval_adjusted_rand_score": 0.20212814342460073,
+      "eval_completeness_score": 0.5850787856442333,
+      "eval_fowlkes_mallows_score": 0.4533371718722817,
+      "eval_homogeneity_score": 0.22520931487447624,
+      "eval_loss": 0.20212814342460073,
+      "eval_pair_confusion_matrix": [
+        [
+          30796,
+          16854
+        ],
+        [
+          5202,
+          8404
+        ]
+      ],
+      "step": 272
     },
     {
       "epoch": 9.0,
+      "grad_norm": 0.0,
+      "learning_rate": 5.500000000000001e-06,
+      "loss": 0.4136,
+      "step": 306
     },
     {
+      "epoch": 9.0,
+      "eval_adjusted_mutual_info_score": 0.11177382718405922,
+      "eval_adjusted_rand_score": 0.09640002189335507,
+      "eval_completeness_score": 0.6506809526372479,
+      "eval_fowlkes_mallows_score": 0.4899932693994939,
+      "eval_homogeneity_score": 0.10817341204672741,
+      "eval_loss": 0.09640002189335507,
+      "eval_pair_confusion_matrix": [
+        [
+          12770,
+          34880
+        ],
+        [
+          1174,
+          12432
+        ]
+      ],
+      "step": 306
     },
     {
       "epoch": 10.0,
+      "grad_norm": 0.0,
+      "learning_rate": 5e-06,
+      "loss": 0.4148,
+      "step": 340
     },
     {
       "epoch": 10.0,
+      "eval_adjusted_mutual_info_score": 0.13291287868141516,
+      "eval_adjusted_rand_score": 0.0173768729388201,
+      "eval_completeness_score": 0.46335582053405955,
+      "eval_fowlkes_mallows_score": 0.3147845140860169,
+      "eval_homogeneity_score": 0.20737389396161876,
+      "eval_loss": 0.0173768729388201,
+      "eval_pair_confusion_matrix": [
+        [
+          28346,
+          19304
+        ],
+        [
+          7786,
+          5820
+        ]
+      ],
+      "step": 340
     },
     {
+      "epoch": 11.0,
+      "grad_norm": 0.0,
+      "learning_rate": 4.5e-06,
+      "loss": 0.4146,
+      "step": 374
+    },
+    {
+      "epoch": 11.0,
+      "eval_adjusted_mutual_info_score": 0.15463237739434937,
+      "eval_adjusted_rand_score": 0.05775589302463435,
+      "eval_completeness_score": 0.5013447616164763,
+      "eval_fowlkes_mallows_score": 0.34999174740596783,
+      "eval_homogeneity_score": 0.21319532171325858,
+      "eval_loss": 0.05775589302463435,
+      "eval_pair_confusion_matrix": [
+        [
+          28252,
+          19398
+        ],
+        [
+          7026,
+          6580
+        ]
+      ],
+      "step": 374
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 0.0,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.4096,
+      "step": 408
+    },
+    {
+      "epoch": 12.0,
+      "eval_adjusted_mutual_info_score": 0.15954128854018185,
+      "eval_adjusted_rand_score": 0.08353262118433151,
+      "eval_completeness_score": 0.48657807669089076,
+      "eval_fowlkes_mallows_score": 0.3488784926098972,
+      "eval_homogeneity_score": 0.23781381627812734,
+      "eval_loss": 0.08353262118433151,
+      "eval_pair_confusion_matrix": [
+        [
+          31128,
+          16522
+        ],
+        [
+          7482,
+          6124
+        ]
+      ],
+      "step": 408
+    },
+    {
+      "epoch": 13.0,
+      "grad_norm": 0.0,
+      "learning_rate": 3.5e-06,
+      "loss": 0.3973,
+      "step": 442
+    },
+    {
+      "epoch": 13.0,
+      "eval_adjusted_mutual_info_score": 0.19041946370338364,
+      "eval_adjusted_rand_score": 0.12553878006056823,
+      "eval_completeness_score": 0.5046617692993569,
+      "eval_fowlkes_mallows_score": 0.36189400936638344,
+      "eval_homogeneity_score": 0.27375639307416655,
+      "eval_loss": 0.12553878006056823,
+      "eval_pair_confusion_matrix": [
+        [
+          33812,
+          13838
+        ],
+        [
+          7670,
+          5936
+        ]
+      ],
+      "step": 442
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 0.0,
+      "learning_rate": 3e-06,
+      "loss": 0.4051,
+      "step": 476
+    },
+    {
+      "epoch": 14.0,
+      "eval_adjusted_mutual_info_score": 0.18691214822396793,
+      "eval_adjusted_rand_score": 0.18158266255584393,
+      "eval_completeness_score": 0.5245970271191535,
+      "eval_fowlkes_mallows_score": 0.41690193788215973,
+      "eval_homogeneity_score": 0.24324643119902978,
+      "eval_loss": 0.18158266255584393,
+      "eval_pair_confusion_matrix": [
+        [
+          33010,
+          14640
+        ],
+        [
+          6422,
+          7184
+        ]
+      ],
+      "step": 476
+    },
+    {
+      "epoch": 15.0,
+      "grad_norm": 20.364652633666992,
+      "learning_rate": 2.5e-06,
+      "loss": 0.4062,
+      "step": 510
+    },
+    {
+      "epoch": 15.0,
+      "eval_adjusted_mutual_info_score": 0.21823634710165685,
+      "eval_adjusted_rand_score": 0.25979954936421096,
+      "eval_completeness_score": 0.5641057686568595,
+      "eval_fowlkes_mallows_score": 0.47949730143044716,
+      "eval_homogeneity_score": 0.2648407343665406,
+      "eval_loss": 0.25979954936421096,
+      "eval_pair_confusion_matrix": [
+        [
+          33538,
+          14112
+        ],
+        [
+          5216,
+          8390
+        ]
+      ],
+      "step": 510
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 0.0,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.4025,
+      "step": 544
+    },
+    {
+      "epoch": 16.0,
+      "eval_adjusted_mutual_info_score": 0.10056939420043334,
+      "eval_adjusted_rand_score": 0.0907629141131465,
+      "eval_completeness_score": 0.5696556835173626,
+      "eval_fowlkes_mallows_score": 0.4759933991482618,
+      "eval_homogeneity_score": 0.11380033927304208,
+      "eval_loss": 0.0907629141131465,
+      "eval_pair_confusion_matrix": [
+        [
+          14202,
+          33448
+        ],
+        [
+          1794,
+          11812
+        ]
+      ],
+      "step": 544
+    },
+    {
+      "epoch": 17.0,
+      "grad_norm": 0.0,
+      "learning_rate": 1.5e-06,
+      "loss": 0.4043,
+      "step": 578
+    },
+    {
+      "epoch": 17.0,
+      "eval_adjusted_mutual_info_score": 0.11845707888523377,
+      "eval_adjusted_rand_score": 0.06151994460143414,
+      "eval_completeness_score": 0.5431310507543884,
+      "eval_fowlkes_mallows_score": 0.4323980307250435,
+      "eval_homogeneity_score": 0.14340786222528185,
+      "eval_loss": 0.06151994460143414,
+      "eval_pair_confusion_matrix": [
+        [
+          16966,
+          30684
+        ],
+        [
+          3408,
+          10198
+        ]
+      ],
+      "step": 578
+    },
+    {
+      "epoch": 18.0,
+      "grad_norm": 0.0,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.4013,
+      "step": 612
+    },
+    {
+      "epoch": 18.0,
+      "eval_adjusted_mutual_info_score": 0.20098591140511965,
+      "eval_adjusted_rand_score": 0.24115050477114428,
+      "eval_completeness_score": 0.5343711342342489,
+      "eval_fowlkes_mallows_score": 0.45788735752549203,
+      "eval_homogeneity_score": 0.2597787469313228,
+      "eval_loss": 0.24115050477114428,
+      "eval_pair_confusion_matrix": [
+        [
+          34176,
+          13474
+        ],
+        [
+          5818,
+          7788
+        ]
+      ],
+      "step": 612
+    },
+    {
+      "epoch": 19.0,
+      "grad_norm": 0.0,
+      "learning_rate": 5.000000000000001e-07,
+      "loss": 0.4006,
+      "step": 646
+    },
+    {
+      "epoch": 19.0,
+      "eval_adjusted_mutual_info_score": 0.252153502376998,
+      "eval_adjusted_rand_score": 0.24023922903374736,
+      "eval_completeness_score": 0.5460417717065094,
+      "eval_fowlkes_mallows_score": 0.4233209236936553,
+      "eval_homogeneity_score": 0.34453853702602516,
+      "eval_loss": 0.24023922903374736,
+      "eval_pair_confusion_matrix": [
+        [
+          37986,
+          9664
+        ],
+        [
+          7382,
+          6224
+        ]
+      ],
+      "step": 646
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 0.0,
+      "learning_rate": 0.0,
+      "loss": 0.4044,
+      "step": 680
+    },
+    {
+      "epoch": 20.0,
+      "eval_adjusted_mutual_info_score": 0.08179538296319702,
+      "eval_adjusted_rand_score": 0.040227652358330604,
+      "eval_completeness_score": 0.48262386100058413,
+      "eval_fowlkes_mallows_score": 0.423484876527761,
+      "eval_homogeneity_score": 0.11562820805581293,
+      "eval_loss": 0.040227652358330604,
+      "eval_pair_confusion_matrix": [
+        [
+          15374,
+          32276
+        ],
+        [
+          3428,
+          10178
+        ]
+      ],
+      "step": 680
+    },
+    {
+      "epoch": 20.0,
+      "step": 680,
+      "total_flos": 0.0,
+      "train_loss": 0.44298483904670266,
+      "train_runtime": 986.129,
+      "train_samples_per_second": 21.843,
+      "train_steps_per_second": 0.69
     }
   ],
+  "logging_steps": 500,
+  "max_steps": 680,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 0.0,
+  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5440bc76789849f1270a013a667a26ba0df7e77608e41c4d4889d359c200832f
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:00f042ac9e32eaa0803d403d8098c83b0a2076477b858022993c5020ef613021
 size 5304