Spaces:

qgyd2021
/

cc_vad

Running

App Files Files Community

HoneyTian commited on Jul 11

Commit

35035c8

1 Parent(s): 48776cd

update

Browse files

Files changed (2) hide show

examples/fsmn_vad_by_webrtcvad/run.sh +14 -7
examples/fsmn_vad_by_webrtcvad/step_1_prepare_data.py +3 -3

examples/fsmn_vad_by_webrtcvad/run.sh CHANGED Viewed

@@ -2,18 +2,25 @@
 : <<'END'
 bash run.sh --stage 1 --stop_stage 1 --system_version centos \
 --file_folder_name fsmn-vad-by-webrtcvad-nx2-dns3 \
 --final_model_name fsmn-vad-by-webrtcvad-nx2-dns3 \
---noise_dir "/data/tianxing/HuggingDatasets/nx_noise/data/noise/**/*.wav" \
---speech_dir "/data/tianxing/HuggingDatasets/nx_noise/data/speech/dns3-speech/**/*.wav \
 /data/tianxing/HuggingDatasets/nx_noise/data/speech/nx-speech2/**/*.wav"
 bash run.sh --stage 3 --stop_stage 3 --system_version centos \
 --file_folder_name fsmn-vad-by-webrtcvad-nx2-dns3 \
 --final_model_name fsmn-vad-by-webrtcvad-nx2-dns3 \
---noise_dir "/data/tianxing/HuggingDatasets/nx_noise/data/noise/**/*.wav" \
---speech_dir "/data/tianxing/HuggingDatasets/nx_noise/data/speech/dns3-speech/**/*.wav \
 /data/tianxing/HuggingDatasets/nx_noise/data/speech/nx-speech2/**/*.wav"
@@ -89,10 +96,10 @@ $verbose && echo "system_version: ${system_version}"
 $verbose && echo "file_folder_name: ${file_folder_name}"
 if [ $system_version == "windows" ]; then
-  alias python3='D:/Users/tianx/PycharmProjects/virtualenv/nx_denoise/Scripts/python.exe'
 elif [ $system_version == "centos" ] || [ $system_version == "ubuntu" ]; then
-  #source /data/local/bin/nx_denoise/bin/activate
-  alias python3='/data/local/bin/nx_denoise/bin/python3'
 fi

 : <<'END'
+bash run.sh --stage 1 --stop_stage 1 --system_version windows \
+--file_folder_name fsmn-vad-by-webrtcvad-nx2-dns3 \
+--final_model_name fsmn-vad-by-webrtcvad-nx2-dns3 \
+--noise_patterns "D:/Users/tianx/HuggingDatasets/nx_noise/data/noise/**/*.wav" \
+--speech_patterns "D:/Users/tianx/HuggingDatasets/nx_noise/data/speech/**/*.wav"
 bash run.sh --stage 1 --stop_stage 1 --system_version centos \
 --file_folder_name fsmn-vad-by-webrtcvad-nx2-dns3 \
 --final_model_name fsmn-vad-by-webrtcvad-nx2-dns3 \
+--noise_patterns "/data/tianxing/HuggingDatasets/nx_noise/data/noise/**/*.wav" \
+--speech_patterns "/data/tianxing/HuggingDatasets/nx_noise/data/speech/dns3-speech/**/*.wav \
 /data/tianxing/HuggingDatasets/nx_noise/data/speech/nx-speech2/**/*.wav"
 bash run.sh --stage 3 --stop_stage 3 --system_version centos \
 --file_folder_name fsmn-vad-by-webrtcvad-nx2-dns3 \
 --final_model_name fsmn-vad-by-webrtcvad-nx2-dns3 \
+--noise_patterns "/data/tianxing/HuggingDatasets/nx_noise/data/noise/**/*.wav" \
+--speech_patterns "/data/tianxing/HuggingDatasets/nx_noise/data/speech/dns3-speech/**/*.wav \
 /data/tianxing/HuggingDatasets/nx_noise/data/speech/nx-speech2/**/*.wav"
 $verbose && echo "file_folder_name: ${file_folder_name}"
 if [ $system_version == "windows" ]; then
+  alias python3='D:/Users/tianx/PycharmProjects/virtualenv/cc_vad/Scripts/python.exe'
 elif [ $system_version == "centos" ] || [ $system_version == "ubuntu" ]; then
+  #source /data/local/bin/cc_vad/bin/activate
+  alias python3='/data/local/bin/cc_vad/bin/python3'
 fi

examples/fsmn_vad_by_webrtcvad/step_1_prepare_data.py CHANGED Viewed

@@ -35,7 +35,7 @@ def get_args():
     parser.add_argument("--valid_dataset", default="valid.jsonl", type=str)
     parser.add_argument("--duration", default=8.0, type=float)
-    parser.add_argument("--min_speech_duration", default=6.0, type=float)
     parser.add_argument("--max_speech_duration", default=8.0, type=float)
     parser.add_argument("--min_snr_db", default=-10, type=float)
     parser.add_argument("--max_snr_db", default=20, type=float)
@@ -56,7 +56,7 @@ def target_second_noise_signal_generator(filename_patterns: List[str],
     for epoch_idx in range(max_epoch):
         for filename_pattern in filename_patterns:
-            for filename in glob(filename_pattern):
                 signal, _ = librosa.load(filename, sr=sample_rate)
                 if signal.ndim != 1:
@@ -109,7 +109,7 @@ def target_second_speech_signal_generator(filename_patterns: List[str],
                                           sample_rate: int = 8000, max_epoch: int = 1):
     for epoch_idx in range(max_epoch):
         for filename_pattern in filename_patterns:
-            for filename in glob(filename_pattern):
                 signal, _ = librosa.load(filename, sr=sample_rate)
                 raw_duration = librosa.get_duration(y=signal, sr=sample_rate)

     parser.add_argument("--valid_dataset", default="valid.jsonl", type=str)
     parser.add_argument("--duration", default=8.0, type=float)
+    parser.add_argument("--min_speech_duration", default=4.0, type=float)
     parser.add_argument("--max_speech_duration", default=8.0, type=float)
     parser.add_argument("--min_snr_db", default=-10, type=float)
     parser.add_argument("--max_snr_db", default=20, type=float)
     for epoch_idx in range(max_epoch):
         for filename_pattern in filename_patterns:
+            for filename in glob(filename_pattern, recursive=True):
                 signal, _ = librosa.load(filename, sr=sample_rate)
                 if signal.ndim != 1:
                                           sample_rate: int = 8000, max_epoch: int = 1):
     for epoch_idx in range(max_epoch):
         for filename_pattern in filename_patterns:
+            for filename in glob(filename_pattern, recursive=True):
                 signal, _ = librosa.load(filename, sr=sample_rate)
                 raw_duration = librosa.get_duration(y=signal, sr=sample_rate)