Spaces:

qgyd2021
/

vm_sound_classification

Runtime error

App Files Files Community

HoneyTian commited on Dec 17, 2024

Commit

6e26705

1 Parent(s): 463adfc

update

Browse files

Files changed (3) hide show

examples/vm_sound_classification/run.sh +8 -6
examples/vm_sound_classification/step_1_prepare_data.py +58 -50
toolbox/torchaudio/augment/spec_augment.py +1 -0

examples/vm_sound_classification/run.sh CHANGED Viewed

@@ -5,18 +5,18 @@
 sh run.sh --stage 0 --stop_stage 1 --system_version windows --file_folder_name file_dir --final_model_name vm_sound_classification4-ch16 \
 --filename_patterns "E:/Users/tianx/HuggingDatasets/vm_sound_classification/data/wav_finished/wav_finished/en-US/wav_finished/*/*.wav \
 E:/Users/tianx/HuggingDatasets/vm_sound_classification/data/wav_finished/id-ID/wav_finished/*/*.wav" \
 sh run.sh --stage 2 --stop_stage 2 --system_version windows --file_folder_name file_dir --final_model_name vm_sound_classification4-ch16 \
 --filename_patterns "E:/Users/tianx/HuggingDatasets/vm_sound_classification/data/wav_finished/wav_finished/en-US/wav_finished/*/*.wav \
 E:/Users/tianx/HuggingDatasets/vm_sound_classification/data/wav_finished/id-ID/wav_finished/*/*.wav" \
-sh run.sh --stage 2 --stop_stage 2 --system_version windows --file_folder_name file_dir --final_model_name vm_sound_classification3
-sh run.sh --stage 3 --stop_stage 3 --system_version windows --file_folder_name file_dir --final_model_name vm_sound_classification3
-sh run.sh --stage 0 --stop_stage 5 --system_version centos --file_folder_name file_dir --final_model_name vm_sound_classification4-ch16 \
---filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/*/wav_finished/*/*.wav"
 "
@@ -33,6 +33,7 @@ work_dir="$(pwd)"
 file_folder_name=file_folder_name
 final_model_name=final_model_name
 filename_patterns="/data/tianxing/PycharmProjects/datasets/voicemail/*/wav_finished/*/*.wav"
 nohup_name=nohup.out
 country=en-US
@@ -112,6 +113,7 @@ if [ ${stage} -le 1 ] && [ ${stop_stage} -ge 1 ]; then
   --vocabulary_dir "${vocabulary_dir}" \
   --train_dataset "${train_dataset}" \
   --valid_dataset "${valid_dataset}" \
 fi

 sh run.sh --stage 0 --stop_stage 1 --system_version windows --file_folder_name file_dir --final_model_name vm_sound_classification4-ch16 \
 --filename_patterns "E:/Users/tianx/HuggingDatasets/vm_sound_classification/data/wav_finished/wav_finished/en-US/wav_finished/*/*.wav \
 E:/Users/tianx/HuggingDatasets/vm_sound_classification/data/wav_finished/id-ID/wav_finished/*/*.wav" \
+--label_plan 4
 sh run.sh --stage 2 --stop_stage 2 --system_version windows --file_folder_name file_dir --final_model_name vm_sound_classification4-ch16 \
 --filename_patterns "E:/Users/tianx/HuggingDatasets/vm_sound_classification/data/wav_finished/wav_finished/en-US/wav_finished/*/*.wav \
 E:/Users/tianx/HuggingDatasets/vm_sound_classification/data/wav_finished/id-ID/wav_finished/*/*.wav" \
+--label_plan 4
+sh run.sh --stage 2 --stop_stage 2 --system_version windows --file_folder_name file_dir --final_model_name vm_sound_classification3 --label_plan 4
+sh run.sh --stage 3 --stop_stage 3 --system_version windows --file_folder_name file_dir --final_model_name vm_sound_classification3 --label_plan 4
+sh run.sh --stage 2 --stop_stage 5 --system_version centos --file_folder_name file_dir --final_model_name vm_sound_classification4-ch16 \
+--filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/*/wav_finished/*/*.wav" --label_plan 4
 "
 file_folder_name=file_folder_name
 final_model_name=final_model_name
 filename_patterns="/data/tianxing/PycharmProjects/datasets/voicemail/*/wav_finished/*/*.wav"
+label_plan=4
 nohup_name=nohup.out
 country=en-US
   --vocabulary_dir "${vocabulary_dir}" \
   --train_dataset "${train_dataset}" \
   --valid_dataset "${valid_dataset}" \
+  --label_plan "${label_plan}" \
 fi

examples/vm_sound_classification/step_1_prepare_data.py CHANGED Viewed

@@ -25,6 +25,8 @@ def get_args():
     parser.add_argument("--train_dataset", default="train.xlsx", type=str)
     parser.add_argument("--valid_dataset", default="valid.xlsx", type=str)
     args = parser.parse_args()
     return args
@@ -37,54 +39,60 @@ def get_dataset(args):
     file_dir = Path(args.file_dir)
     file_dir.mkdir(exist_ok=True)
-    # label2_map = {
-    #     "bell": "non_voice",
-    #     "white_noise": "non_voice",
-    #     "low_white_noise": "non_voice",
-    #     "high_white_noise": "non_voice",
-    #     "music": "non_voice",
-    #     "mute": "non_voice",
-    #     "noise": "non_voice",
-    #     "noise_mute": "non_voice",
-    #     "voice": "voice",
-    #     "voicemail": "voice",
-    # }
-    # label3_map = {
-    #     "bell": "voicemail",
-    #     "white_noise": "mute",
-    #     "low_white_noise": "mute",
-    #     "high_white_noise": "mute",
-    #     # "music": "music",
-    #     "mute": "mute",
-    #     "noise": "voice_or_noise",
-    #     "noise_mute": "voice_or_noise",
-    #     "voice": "voice_or_noise",
-    #     "voicemail": "voicemail",
-    # }
-    label4_map = {
-        "bell": "voicemail",
-        "white_noise": "mute",
-        "low_white_noise": "mute",
-        "high_white_noise": "mute",
-        # "music": "music",
-        "mute": "mute",
-        "noise": "noise",
-        "noise_mute": "noise",
-        "voice": "voice",
-        "voicemail": "voicemail",
-    }
-    # label8_map = {
-    #     "bell": "bell",
-    #     "white_noise": "white_noise",
-    #     "low_white_noise": "white_noise",
-    #     "high_white_noise": "white_noise",
-    #     "music": "music",
-    #     "mute": "mute",
-    #     "noise": "noise",
-    #     "noise_mute": "noise_mute",
-    #     "voice": "voice",
-    #     "voicemail": "voicemail",
-    # }
     result = list()
     for filename_pattern in filename_patterns:
@@ -98,10 +106,10 @@ def get_dataset(args):
             folder = filename.parts[-2]
             country = filename.parts[-4]
-            if folder not in label4_map.keys():
                 continue
-            labels = label4_map[folder]
             random1 = random.random()
             random2 = random.random()

     parser.add_argument("--train_dataset", default="train.xlsx", type=str)
     parser.add_argument("--valid_dataset", default="valid.xlsx", type=str)
+    parser.add_argument("--label_plan", default="4", type=str)
     args = parser.parse_args()
     return args
     file_dir = Path(args.file_dir)
     file_dir.mkdir(exist_ok=True)
+    if args.label_plan == "2":
+        label_map = {
+            "bell": "non_voice",
+            "white_noise": "non_voice",
+            "low_white_noise": "non_voice",
+            "high_white_noise": "non_voice",
+            "music": "non_voice",
+            "mute": "non_voice",
+            "noise": "non_voice",
+            "noise_mute": "non_voice",
+            "voice": "voice",
+            "voicemail": "voice",
+        }
+    elif args.label_plan == "3":
+        label_map = {
+            "bell": "voicemail",
+            "white_noise": "mute",
+            "low_white_noise": "mute",
+            "high_white_noise": "mute",
+            # "music": "music",
+            "mute": "mute",
+            "noise": "voice_or_noise",
+            "noise_mute": "voice_or_noise",
+            "voice": "voice_or_noise",
+            "voicemail": "voicemail",
+        }
+    elif args.label_plan == "4":
+        label_map = {
+            "bell": "voicemail",
+            "white_noise": "mute",
+            "low_white_noise": "mute",
+            "high_white_noise": "mute",
+            # "music": "music",
+            "mute": "mute",
+            "noise": "noise",
+            "noise_mute": "noise",
+            "voice": "voice",
+            "voicemail": "voicemail",
+        }
+    elif args.label_plan == "8":
+        label_map = {
+            "bell": "bell",
+            "white_noise": "white_noise",
+            "low_white_noise": "white_noise",
+            "high_white_noise": "white_noise",
+            "music": "music",
+            "mute": "mute",
+            "noise": "noise",
+            "noise_mute": "noise_mute",
+            "voice": "voice",
+            "voicemail": "voicemail",
+        }
+    else:
+        raise AssertionError
     result = list()
     for filename_pattern in filename_patterns:
             folder = filename.parts[-2]
             country = filename.parts[-4]
+            if folder not in label_map.keys():
                 continue
+            labels = label_map[folder]
             random1 = random.random()
             random2 = random.random()

toolbox/torchaudio/augment/spec_augment.py CHANGED Viewed

@@ -20,6 +20,7 @@ class SpecAugment(nn.Module):
     @staticmethod
     def augment_volume(spec: torch.Tensor, factor_range: Tuple[float, float] = (0.5, 2.0)):
         factor = random.uniform(*factor_range)
         spec_ = spec.clone().detach()
         spec_ *= factor
         return spec_

     @staticmethod
     def augment_volume(spec: torch.Tensor, factor_range: Tuple[float, float] = (0.5, 2.0)):
         factor = random.uniform(*factor_range)
+        factor = torch.tensor(factor, dtype=torch.float32)
         spec_ = spec.clone().detach()
         spec_ *= factor
         return spec_