submission-template

Sleeping

App Files Files Community

IlayMalinyak commited on Feb 4

Commit

a79c5f2

1 Parent(s): 82a319f

tested locally

Browse files

Files changed (11) hide show

.gitignore +1 -1
req.txt +0 -0
tasks/audio.py +3 -11
tasks/run.py +15 -16
tasks/utils/data.py +1 -0
tasks/utils/dfs/test.csv +0 -0
tasks/utils/dfs/train.csv +0 -0
tasks/utils/dfs/train_val.csv +0 -0
tasks/utils/dfs/val.csv +0 -0
tasks/utils/models.py +1 -1
tasks/utils/train.py +4 -3

.gitignore CHANGED Viewed

@@ -14,6 +14,6 @@ eval-queue-bk/
 eval-results-bk/
 logs/
 tasks/model
-req.txt
 emissions.csv

 eval-results-bk/
 logs/
 tasks/model
+req.txtal
 emissions.csv

req.txt ADDED Viewed

Binary file (20.5 kB). View file

tasks/audio.py CHANGED Viewed

@@ -128,7 +128,6 @@ async def evaluate_audio(request: AudioEvaluationRequest):
                       accumulation_step=1, max_iter=np.inf,
                       exp_name=f"frugal_cnnencoder_inference")
     predictions, true_labels, acc = trainer.predict(test_dl, device=device)
-    # true_labels = test_dataset["label"]
     # Make random predictions (placeholder for actual model inference)
     print("accuracy: ", acc)
@@ -144,7 +143,7 @@ async def evaluate_audio(request: AudioEvaluationRequest):
     # Calculate accuracy
     accuracy = accuracy_score(true_labels, predictions)
     # Prepare results dictionary
     results = {
         "username": username,
@@ -162,14 +161,7 @@ async def evaluate_audio(request: AudioEvaluationRequest):
             "test_seed": request.test_seed
         }
     }
     return results
-# if __name__ == "__main__":
-#     sample_request = AudioEvaluationRequest(
-#         dataset_name="rfcx/frugalai",  # Replace with actual dataset name
-#         test_size=0.2,  # Example values
-#         test_seed=42
-#     )
-# #
-#     asyncio.run(evaluate_audio(sample_request))

                       accumulation_step=1, max_iter=np.inf,
                       exp_name=f"frugal_cnnencoder_inference")
     predictions, true_labels, acc = trainer.predict(test_dl, device=device)
     # Make random predictions (placeholder for actual model inference)
     print("accuracy: ", acc)
     # Calculate accuracy
     accuracy = accuracy_score(true_labels, predictions)
     # Prepare results dictionary
     results = {
         "username": username,
             "test_seed": request.test_seed
         }
     }
+    print('results: ', results)
     return results

tasks/run.py CHANGED Viewed

@@ -38,9 +38,7 @@ def create_dataframe(ds, save_name='train'):
             # Flatten the nested dictionary structure
             feature_dict = {'label': label}
             for k, v in features.items():
-                if isinstance(v, dict):
-                    for sub_k, sub_v in v.items():
-                        feature_dict[f"{k}_{sub_k}"] = sub_v[0].item()  # Aggregate (e.g., mean)
             data.append(feature_dict)
         # Convert to DataFrame
         df = pd.DataFrame(data)
@@ -88,13 +86,14 @@ test_dl = DataLoader(test_ds,batch_size=data_args.batch_size, collate_fn=collate
 x,y = create_dataframe(full_ds, save_name='train_val')
-print(x.shape)
 x_train, x_val, y_train, y_val = train_test_split(x, y, test_size=0.2, random_state=42)
 evals_result = {}
 num_boost_round = 1000  # Set a large number of boosting rounds
 # Watchlist to monitor performance on train and validation data
 dtrain = xgb.DMatrix(x_train, label=y_train)
 dval = xgb.DMatrix(x_val, label=y_val)
@@ -178,13 +177,13 @@ model = CNNKanFeaturesEncoder(xgb_model, model_args, kan_args.get_dict())
 # model = KanEncoder(kan_args.get_dict())
 model = model.to(local_rank)
-# state_dict = torch.load(data_args.checkpoint_path, map_location=torch.device('cpu'))
-# new_state_dict = OrderedDict()
-# for key, value in state_dict.items():
-#     if key.startswith('module.'):
-#         key = key[7:]
-#     new_state_dict[key] = value
-# missing, unexpected = model.load_state_dict(new_state_dict)
 # model = DDP(model, device_ids=[local_rank], output_device=local_rank)
 num_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
@@ -209,11 +208,11 @@ trainer = Trainer(model=model, optimizer=optimizer,
                             range_update=None,
                            accumulation_step=1, max_iter=np.inf,
                            exp_name=f"frugal_kan_features_{exp_num}")
-fit_res = trainer.fit(num_epochs=100, device=local_rank,
-                        early_stopping=10, only_p=False, best='loss', conf=True)
-output_filename = f'{data_args.log_dir}/{datetime_dir}/{model_name}_frugal_{exp_num}.json'
-with open(output_filename, "w") as f:
-    json.dump(fit_res, f, indent=2)
 preds, tru, acc = trainer.predict(test_dl, local_rank)
 print(f"Accuracy: {acc}")

             # Flatten the nested dictionary structure
             feature_dict = {'label': label}
             for k, v in features.items():
+                feature_dict[f"{k}"] = v[0].item()  # Aggregate (e.g., mean)
             data.append(feature_dict)
         # Convert to DataFrame
         df = pd.DataFrame(data)
 x,y = create_dataframe(full_ds, save_name='train_val')
 x_train, x_val, y_train, y_val = train_test_split(x, y, test_size=0.2, random_state=42)
+print(x_train.shape)
 evals_result = {}
 num_boost_round = 1000  # Set a large number of boosting rounds
 # Watchlist to monitor performance on train and validation data
+print(x_train.head())
 dtrain = xgb.DMatrix(x_train, label=y_train)
 dval = xgb.DMatrix(x_val, label=y_val)
 # model = KanEncoder(kan_args.get_dict())
 model = model.to(local_rank)
+state_dict = torch.load(data_args.checkpoint_path, map_location=torch.device('cpu'))
+new_state_dict = OrderedDict()
+for key, value in state_dict.items():
+    if key.startswith('module.'):
+        key = key[7:]
+    new_state_dict[key] = value
+missing, unexpected = model.load_state_dict(new_state_dict)
 # model = DDP(model, device_ids=[local_rank], output_device=local_rank)
 num_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
                             range_update=None,
                            accumulation_step=1, max_iter=np.inf,
                            exp_name=f"frugal_kan_features_{exp_num}")
+# fit_res = trainer.fit(num_epochs=100, device=local_rank,
+#                         early_stopping=10, only_p=False, best='loss', conf=True)
+# output_filename = f'{data_args.log_dir}/{datetime_dir}/{model_name}_frugal_{exp_num}.json'
+# with open(output_filename, "w") as f:
+#     json.dump(fit_res, f, indent=2)
 preds, tru, acc = trainer.predict(test_dl, local_rank)
 print(f"Accuracy: {acc}")

tasks/utils/data.py CHANGED Viewed

@@ -57,6 +57,7 @@ class FFTDataset(IterableDataset):
                  orig_sample_rate=12000,
                  target_sample_rate=3000,
                  features=False):
         self.dataset = original_dataset
         self.resampler = T.Resample(orig_freq=orig_sample_rate, new_freq=target_sample_rate)
         self.target_sample_rate = target_sample_rate

                  orig_sample_rate=12000,
                  target_sample_rate=3000,
                  features=False):
+        super().__init__()
         self.dataset = original_dataset
         self.resampler = T.Resample(orig_freq=orig_sample_rate, new_freq=target_sample_rate)
         self.target_sample_rate = target_sample_rate

tasks/utils/dfs/test.csv DELETED Viewed

The diff for this file is too large to render. See raw diff

tasks/utils/dfs/train.csv DELETED Viewed

The diff for this file is too large to render. See raw diff

tasks/utils/dfs/train_val.csv CHANGED Viewed

The diff for this file is too large to render. See raw diff

tasks/utils/dfs/val.csv DELETED Viewed

The diff for this file is too large to render. See raw diff

tasks/utils/models.py CHANGED Viewed

@@ -234,7 +234,7 @@ class CNNKanFeaturesEncoder(nn.Module):
         for batch_idx in range(batch_size):
             feature_dict = {}
             for k, v in features[batch_idx].items():
-                feature_dict[f"frequency_domain_{k}"] = v[0].item()
             data.append(feature_dict)
         return pd.DataFrame(data)

         for batch_idx in range(batch_size):
             feature_dict = {}
             for k, v in features[batch_idx].items():
+                feature_dict[f"{k}"] = v[0].item()
             data.append(feature_dict)
         return pd.DataFrame(data)

tasks/utils/train.py CHANGED Viewed

@@ -226,7 +226,7 @@ class Trainer(object):
     def train_batch(self, batch, batch_idx, device):
         x, fft, y = batch['audio']['array'], batch['audio']['fft_mag'], batch['label']
-        # features = batch['audio']['features']
         # cwt = batch['audio']['cwt_mag']
         x = x.to(device).float()
         fft = fft.to(device).float()
@@ -267,7 +267,7 @@ class Trainer(object):
     def eval_batch(self, batch, batch_idx, device):
         x, fft, y = batch['audio']['array'], batch['audio']['fft_mag'], batch['label']
-        # features = batch['audio']['features']
         # features = batch['audio']['features_arr'].to(device).float()
         x = x.to(device).float()
@@ -294,6 +294,7 @@ class Trainer(object):
         pbar = tqdm(test_dataloader)
         for i,batch in enumerate(pbar):
             x, fft, y = batch['audio']['array'], batch['audio']['fft_mag'], batch['label']
             x = x.to(device).float()
             fft = fft.to(device).float()
             x_fft = torch.cat((x.unsqueeze(dim=1), fft.unsqueeze(dim=1)), dim=1)
@@ -305,7 +306,7 @@ class Trainer(object):
             cls_pred = (probs > 0.5).float()
             acc = (cls_pred == y).sum()
             predictions.extend(cls_pred.cpu().numpy())
-            true_labels.extend(y.cpu().numpy())
             all_accs += acc
             total += len(y)
             pbar.set_description("acc: {:.4f}".format(acc))

     def train_batch(self, batch, batch_idx, device):
         x, fft, y = batch['audio']['array'], batch['audio']['fft_mag'], batch['label']
+        # features = torch.stack(batch['audio']['features']).to(device).float()
         # cwt = batch['audio']['cwt_mag']
         x = x.to(device).float()
         fft = fft.to(device).float()
     def eval_batch(self, batch, batch_idx, device):
         x, fft, y = batch['audio']['array'], batch['audio']['fft_mag'], batch['label']
+        # features = torch.stack(batch['audio']['features']).to(device).float()
         # features = batch['audio']['features_arr'].to(device).float()
         x = x.to(device).float()
         pbar = tqdm(test_dataloader)
         for i,batch in enumerate(pbar):
             x, fft, y = batch['audio']['array'], batch['audio']['fft_mag'], batch['label']
+            # features = batch['audio']['features']
             x = x.to(device).float()
             fft = fft.to(device).float()
             x_fft = torch.cat((x.unsqueeze(dim=1), fft.unsqueeze(dim=1)), dim=1)
             cls_pred = (probs > 0.5).float()
             acc = (cls_pred == y).sum()
             predictions.extend(cls_pred.cpu().numpy())
+            true_labels.extend(y.cpu().numpy().astype(np.int64))
             all_accs += acc
             total += len(y)
             pbar.set_description("acc: {:.4f}".format(acc))