Spaces:

TraceForce
/

varun-kd-finetune

Sleeping

Varun Wadhwa commited on Jan 7

Commit

e3f5712

unverified ·

1 Parent(s): 5e89ee6

Fixing accuracy

Files changed (1) hide show

app.py CHANGED Viewed

@@ -133,21 +133,23 @@ def evaluate_model(model, dataloader, device):
             logits = outputs.logits
             # Get predictions
-            preds = torch.argmax(logits, dim=-1).cpu().numpy()
-            all_preds.extend(preds)
-            all_labels.extend(labels.cpu().numpy())
     # Calculate evaluation metrics
     print("evaluate_model sizes")
     print(len(all_preds[0]))
     print(len(all_labels[0]))
-    all_preds = np.asarray(all_preds, dtype=np.float32)
-    all_labels = np.asarray(all_labels, dtype=np.float32)
     print("Flattened sizes")
     print(all_preds.size)
     print(all_labels.size)
-    all_preds = all_preds.flatten()
-    all_labels = all_labels.flatten()
     accuracy = accuracy_score(all_labels, all_preds)
     precision, recall, f1, _ = precision_recall_fscore_support(all_labels, all_preds, average='micro')

             logits = outputs.logits
             # Get predictions
+            preds = torch.argmax(logits, dim=-1)
+            for p, l in zip(preds.cpu().numpy(), labels.cpu().numpy()):
+                # Filter out `-100` labels and align predictions with valid tokens
+                valid_indices = l != -100
+                all_preds.extend(p[valid_indices])
+                all_labels.extend(l[valid_indices])
     # Calculate evaluation metrics
     print("evaluate_model sizes")
     print(len(all_preds[0]))
     print(len(all_labels[0]))
+    all_preds = np.array(all_preds)
+    all_labels = np.array(all_labels)
     print("Flattened sizes")
     print(all_preds.size)
     print(all_labels.size)
     accuracy = accuracy_score(all_labels, all_preds)
     precision, recall, f1, _ = precision_recall_fscore_support(all_labels, all_preds, average='micro')