Spaces:

qgyd2021
/

cc_vad

Running

App Files Files Community

HoneyTian commited on Jul 1

Commit

86a51a3

1 Parent(s): 2d3c983

update

Browse files

Files changed (5) hide show

examples/silero_vad_by_webrtcvad/run.sh +1 -1
examples/silero_vad_by_webrtcvad/yaml/config.yaml +7 -0
toolbox/torchaudio/models/vad/silero_vad/configuration_silero_vad.py +7 -0
toolbox/torchaudio/models/vad/silero_vad/yaml/config.yaml +7 -0
toolbox/torchaudio/modules/freq_bands/mel_bands.py +49 -1

examples/silero_vad_by_webrtcvad/run.sh CHANGED Viewed

@@ -8,7 +8,7 @@ bash run.sh --stage 1 --stop_stage 1 --system_version centos \
 --noise_dir "/data/tianxing/HuggingDatasets/nx_noise/data/noise/" \
 --speech_dir "/data/tianxing/HuggingDatasets/nx_noise/data/speech/"
-bash run.sh --stage 2 --stop_stage 2 --system_version centos \
 --file_folder_name silero-vad-by-webrtcvad-nx2-dns3 \
 --final_model_name silero-vad-by-webrtcvad-nx2-dns3 \
 --noise_dir "/data/tianxing/HuggingDatasets/nx_noise/data/noise/" \

 --noise_dir "/data/tianxing/HuggingDatasets/nx_noise/data/noise/" \
 --speech_dir "/data/tianxing/HuggingDatasets/nx_noise/data/speech/"
+bash run.sh --stage 3 --stop_stage 3 --system_version centos \
 --file_folder_name silero-vad-by-webrtcvad-nx2-dns3 \
 --final_model_name silero-vad-by-webrtcvad-nx2-dns3 \
 --noise_dir "/data/tianxing/HuggingDatasets/nx_noise/data/noise/" \

examples/silero_vad_by_webrtcvad/yaml/config.yaml CHANGED Viewed

@@ -1,14 +1,21 @@
 model_name: "silero_vad"
 sample_rate: 8000
 nfft: 512
 win_size: 240
 hop_size: 80
 win_type: hann
 in_channels: 64
 hidden_size: 128
 lr: 0.001
 lr_scheduler: CosineAnnealingLR
 lr_scheduler_kwargs: {}

 model_name: "silero_vad"
+# spec
 sample_rate: 8000
 nfft: 512
 win_size: 240
 hop_size: 80
 win_type: hann
+# model
 in_channels: 64
 hidden_size: 128
+# data
+min_snr_db: -10
+max_snr_db: 20
+# train
 lr: 0.001
 lr_scheduler: CosineAnnealingLR
 lr_scheduler_kwargs: {}

toolbox/torchaudio/models/vad/silero_vad/configuration_silero_vad.py CHANGED Viewed

@@ -16,6 +16,9 @@ class SileroVadConfig(PretrainedConfig):
                  in_channels: int = 64,
                  hidden_size: int = 128,
                  lr: float = 0.001,
                  lr_scheduler: str = "CosineAnnealingLR",
                  lr_scheduler_kwargs: dict = None,
@@ -42,6 +45,10 @@ class SileroVadConfig(PretrainedConfig):
         self.in_channels = in_channels
         self.hidden_size = hidden_size
         # train
         self.lr = lr
         self.lr_scheduler = lr_scheduler

                  in_channels: int = 64,
                  hidden_size: int = 128,
+                 min_snr_db: float = -10,
+                 max_snr_db: float = 20,
                  lr: float = 0.001,
                  lr_scheduler: str = "CosineAnnealingLR",
                  lr_scheduler_kwargs: dict = None,
         self.in_channels = in_channels
         self.hidden_size = hidden_size
+        # data snr
+        self.min_snr_db = min_snr_db
+        self.max_snr_db = max_snr_db
         # train
         self.lr = lr
         self.lr_scheduler = lr_scheduler

toolbox/torchaudio/models/vad/silero_vad/yaml/config.yaml CHANGED Viewed

@@ -1,14 +1,21 @@
 model_name: "silero_vad"
 sample_rate: 8000
 nfft: 512
 win_size: 240
 hop_size: 80
 win_type: hann
 in_channels: 64
 hidden_size: 128
 lr: 0.001
 lr_scheduler: CosineAnnealingLR
 lr_scheduler_kwargs: {}

 model_name: "silero_vad"
+# spec
 sample_rate: 8000
 nfft: 512
 win_size: 240
 hop_size: 80
 win_type: hann
+# model
 in_channels: 64
 hidden_size: 128
+# data
+min_snr_db: -10
+max_snr_db: 20
+# train
 lr: 0.001
 lr_scheduler: CosineAnnealingLR
 lr_scheduler_kwargs: {}

toolbox/torchaudio/modules/freq_bands/mel_bands.py CHANGED Viewed

@@ -1,6 +1,54 @@
 #!/usr/bin/python3
 # -*- coding: utf-8 -*-
 if __name__ == "__main__":
-    pass

 #!/usr/bin/python3
 # -*- coding: utf-8 -*-
+import librosa
+import numpy as np
+class MelBandsNumpy(object):
+    @staticmethod
+    def get_mel_points(sample_rate: int, nfft: int, n_mels: int, fmin: float = 0, fmax: int = None):
+        fmax = fmax or sample_rate // 2
+        mel_points = librosa.mel_frequencies(n_mels=n_mels, fmin=fmin, fmax=fmax)
+        return mel_points
+    @staticmethod
+    def get_mel_filter_bank(mel_points: np.ndarray,
+                            sample_rate: int, nfft: int, n_mels: int, fmin: float = 0, fmax: int = None,
+                            normalized: bool = True,
+                            inverse: bool = False,
+                            ):
+        fmax = fmax or sample_rate // 2
+        mel_points = librosa.mel_frequencies(n_mels=n_mels, fmin=fmin, fmax=fmax)
+        bin_freqs = np.linspace(0, sample_rate // 2, nfft // 2 + 1)
+        fft_bins = np.floor((nfft + 1) * mel_points / sample_rate).astype(int)
+        filterbank = np.zeros((n_mels, nfft // 2 + 1))
+        for i in range(1, n_mels + 1):
+            left = fft_bins[i - 1]
+            center = fft_bins[i]
+            right = fft_bins[i + 1] if i < n_mels - 1 else center
+            filterbank[i - 1, left:center] = np.linspace(0, 1, center - left)
+            filterbank[i - 1, center:right] = np.linspace(1, 0, right - center)
+        filterbank = librosa.util.normalize(filterbank, norm=1, axis=1)
+        return filterbank
+def main():
+    mel_points = MelBandsNumpy.get_mel_points(
+        sample_rate=8000,
+        nfft=512,
+        n_mels=80,
+        fmin=10,
+        fmax=3800
+    )
+    return
 if __name__ == "__main__":
+    main()