Spaces:

qgyd2021
/

cc_audio_8

Running

App Files Files Community

HoneyTian commited on Dec 17, 2024

Commit

12e00ec

1 Parent(s): 68ac03b

update

Browse files

Files changed (4) hide show

examples/vm_sound_classification/conv2d_classifier.yaml +6 -11
examples/vm_sound_classification/run.sh +2 -2
toolbox/torchaudio/models/cnn_audio_classifier/configuration_cnn_audio_classifier.py +0 -2
toolbox/torchaudio/models/cnn_audio_classifier/modeling_cnn_audio_classifier.py +0 -14

examples/vm_sound_classification/conv2d_classifier.yaml CHANGED Viewed

@@ -10,29 +10,24 @@ mel_spectrogram_param:
   window_fn: hamming
   n_mels: 80
-spec_augment_param:
-  aug_volume_factor_range:
-    - 0.5
-    - 2.0
 conv2d_block_param_list:
   - batch_norm: true
     in_channels: 1
-    out_channels: 16
     kernel_size: 3
     stride: 1
     dilation: 3
     activation: relu
     dropout: 0.1
-  - in_channels: 16
-    out_channels: 16
     kernel_size: 5
     stride: 2
     dilation: 3
     activation: relu
     dropout: 0.1
-  - in_channels: 16
-    out_channels: 16
     kernel_size: 3
     stride: 1
     dilation: 2
@@ -40,7 +35,7 @@ conv2d_block_param_list:
     dropout: 0.1
 cls_head_param:
-  input_dim: 432
   num_layers: 2
   hidden_dims:
     - 128

   window_fn: hamming
   n_mels: 80
 conv2d_block_param_list:
   - batch_norm: true
     in_channels: 1
+    out_channels: 4
     kernel_size: 3
     stride: 1
     dilation: 3
     activation: relu
     dropout: 0.1
+  - in_channels: 4
+    out_channels: 4
     kernel_size: 5
     stride: 2
     dilation: 3
     activation: relu
     dropout: 0.1
+  - in_channels: 4
+    out_channels: 4
     kernel_size: 3
     stride: 1
     dilation: 2
     dropout: 0.1
 cls_head_param:
+  input_dim: 108
   num_layers: 2
   hidden_dims:
     - 128

examples/vm_sound_classification/run.sh CHANGED Viewed

@@ -12,8 +12,8 @@ sh run.sh --stage 2 --stop_stage 2 --system_version windows --file_folder_name f
 E:/Users/tianx/HuggingDatasets/vm_sound_classification/data/wav_finished/id-ID/wav_finished/*/*.wav" \
 --label_plan 4
-sh run.sh --stage 0 --stop_stage 5 --system_version centos --file_folder_name file_dir --final_model_name vm_sound_classification2-ch16 \
---filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/*/wav_finished/*/*.wav" --label_plan 2
 "

 E:/Users/tianx/HuggingDatasets/vm_sound_classification/data/wav_finished/id-ID/wav_finished/*/*.wav" \
 --label_plan 4
+sh run.sh --stage 0 --stop_stage 5 --system_version centos --file_folder_name file_dir --final_model_name vm_sound_classification3-ch16 \
+--filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/*/wav_finished/*/*.wav" --label_plan 3
 "

toolbox/torchaudio/models/cnn_audio_classifier/configuration_cnn_audio_classifier.py CHANGED Viewed

@@ -8,7 +8,6 @@ from toolbox.torchaudio.configuration_utils import PretrainedConfig
 class CnnAudioClassifierConfig(PretrainedConfig):
     def __init__(self,
                  mel_spectrogram_param: dict,
-                 spec_augment_param: dict,
                  cls_head_param: dict,
                  conv1d_block_param_list: List[dict] = None,
                  conv2d_block_param_list: List[dict] = None,
@@ -16,7 +15,6 @@ class CnnAudioClassifierConfig(PretrainedConfig):
                  ):
         super(CnnAudioClassifierConfig, self).__init__(**kwargs)
         self.mel_spectrogram_param = mel_spectrogram_param
-        self.spec_augment_param = spec_augment_param
         self.cls_head_param = cls_head_param
         self.conv1d_block_param_list = conv1d_block_param_list
         self.conv2d_block_param_list = conv2d_block_param_list

 class CnnAudioClassifierConfig(PretrainedConfig):
     def __init__(self,
                  mel_spectrogram_param: dict,
                  cls_head_param: dict,
                  conv1d_block_param_list: List[dict] = None,
                  conv2d_block_param_list: List[dict] = None,
                  ):
         super(CnnAudioClassifierConfig, self).__init__(**kwargs)
         self.mel_spectrogram_param = mel_spectrogram_param
         self.cls_head_param = cls_head_param
         self.conv1d_block_param_list = conv1d_block_param_list
         self.conv2d_block_param_list = conv2d_block_param_list

toolbox/torchaudio/models/cnn_audio_classifier/modeling_cnn_audio_classifier.py CHANGED Viewed

@@ -9,7 +9,6 @@ import torchaudio
 from toolbox.torchaudio.models.cnn_audio_classifier.configuration_cnn_audio_classifier import CnnAudioClassifierConfig
 from toolbox.torchaudio.configuration_utils import CONFIG_FILE
-from toolbox.torchaudio.augment.spec_augment import SpecAugment
 MODEL_FILE = "model.pt"
@@ -241,7 +240,6 @@ class SpectrogramEncoder(nn.Module):
 class WaveEncoder(nn.Module):
     def __init__(self,
                  mel_spectrogram_param: dict,
-                 spec_augment_param: dict,
                  conv1d_block_param_list: List[dict] = None,
                  conv2d_block_param_list: List[dict] = None,
                  ):
@@ -264,21 +262,11 @@ class WaveEncoder(nn.Module):
             ),
         )
-        self.spec_augment = SpecAugment(
-            aug_volume_factor_range=spec_augment_param["aug_volume_factor_range"]
-        )
         self.spectrogram_encoder = SpectrogramEncoder(
             conv1d_block_param_list=conv1d_block_param_list,
             conv2d_block_param_list=conv2d_block_param_list,
         )
-    @torch.jit.ignore
-    def do_spec_augment(self, spec: torch.Tensor) -> torch.Tensor:
-        if self.training:
-            spec = self.spec_augment.forward(spec)
-        return spec
     def forward(self, inputs: torch.Tensor):
         # x: [batch_size, spec_dim, seq_length]
         x = inputs
@@ -289,8 +277,6 @@ class WaveEncoder(nn.Module):
             x = x.log()
             x = x - torch.mean(x, dim=-1, keepdim=True)
-            x = self.do_spec_augment(x)
         x = x.transpose(1, 2)
         features = self.spectrogram_encoder.forward(x)

 from toolbox.torchaudio.models.cnn_audio_classifier.configuration_cnn_audio_classifier import CnnAudioClassifierConfig
 from toolbox.torchaudio.configuration_utils import CONFIG_FILE
 MODEL_FILE = "model.pt"
 class WaveEncoder(nn.Module):
     def __init__(self,
                  mel_spectrogram_param: dict,
                  conv1d_block_param_list: List[dict] = None,
                  conv2d_block_param_list: List[dict] = None,
                  ):
             ),
         )
         self.spectrogram_encoder = SpectrogramEncoder(
             conv1d_block_param_list=conv1d_block_param_list,
             conv2d_block_param_list=conv2d_block_param_list,
         )
     def forward(self, inputs: torch.Tensor):
         # x: [batch_size, spec_dim, seq_length]
         x = inputs
             x = x.log()
             x = x - torch.mean(x, dim=-1, keepdim=True)
         x = x.transpose(1, 2)
         features = self.spectrogram_encoder.forward(x)