Spaces:

ahmedkasem
/

quran-nlp

Sleeping

App Files Files Community

deveix commited on Apr 20, 2024

Commit

754923b

1 Parent(s): 9dae67d

resample

Browse files

Files changed (1) hide show

app/main.py +39 -36

app/main.py CHANGED Viewed

@@ -27,16 +27,16 @@ default_sample_rate=22050
 def load(file_name, skip_seconds=0):
     return librosa.load(file_name, sr=None, res_type='kaiser_fast')
-def preprocess_audio(audio_data, rate):
-    # Apply preprocessing steps
-    audio_data = nr.reduce_noise(y=audio_data, sr=rate)
-    audio_data = librosa.util.normalize(audio_data)
-    audio_data, _ = librosa.effects.trim(audio_data)
-    audio_data = librosa.resample(audio_data, orig_sr=rate, target_sr=default_sample_rate)
-#     audio_data = fix_length(audio_data)
-    rate = default_sample_rate
-    return audio_data, rate
 def extract_features(X, sample_rate):
     # Generate Mel-frequency cepstral coefficients (MFCCs) from a time series
@@ -187,23 +187,26 @@ pca = joblib.load('app/pca.pkl')
 scaler = joblib.load('app/1713638595.3178492_scaler.joblib')
 label_encoder = joblib.load('app/1713638744.044928_label_encoder.joblib')
-# def preprocess_audio(path, save_dir):
-#     y, sr = librosa.load(path)
-#     # remove silence
-#     intervals = librosa.effects.split(y, top_db=20)
-#     # Concatenate non-silent intervals
-#     y_no_gaps = np.concatenate([y[start:end] for start, end in intervals])
-#     file_name_without_extension = os.path.basename(path).split('.')[0]
-#     extension = os.path.basename(path).split('.')[1]
-#     y_trimmed, _ = librosa.effects.trim(y_no_gaps, top_db = 20)
-#     D = librosa.stft(y)
-#     S_db = librosa.amplitude_to_db(np.abs(D), ref=np.max)
-#     S = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=128*2,)
-#     S_db_mel = librosa.amplitude_to_db(np.abs(S), ref=np.max)
-#     # Apply noise reduction (example using spectral subtraction)
 #     y_denoised = librosa.effects.preemphasis(y_trimmed)
 #     # Apply dynamic range compression
@@ -221,25 +224,25 @@ label_encoder = joblib.load('app/1713638744.044928_label_encoder.joblib')
 #     # Define target sample rate
 #     target_sr = sr
-# #     # Data Augmentation (example: pitch shifting)
-# #     y_pitch_shifted = librosa.effects.pitch_shift(y_normalized, sr=target_sr, n_steps=2)
-#     # Split audio into non-silent intervals
-#     # Normalize the audio signal
-#     y_normalized = librosa.util.normalize(y_equalized)
-#     # Feature Extraction (example: MFCCs)
-# #     mfccs = librosa.feature.mfcc(y=y_normalized, sr=target_sr, n_mfcc=20)
-#     # output_file_path = os.path.join(save_dir, f"{file_name_without_extension}.{extension}")
-#     # Write the audio data to the output file in .wav format
-#     sf.write(path, y_normalized, target_sr)
-#     return 'success'
 # smile = opensmile.Smile(
 #     feature_set=opensmile.FeatureSet.ComParE_2016,

 def load(file_name, skip_seconds=0):
     return librosa.load(file_name, sr=None, res_type='kaiser_fast')
+# def preprocess_audio(audio_data, rate):
+#     # Apply preprocessing steps
+#     audio_data = nr.reduce_noise(y=audio_data, sr=rate)
+#     audio_data = librosa.util.normalize(audio_data)
+#     audio_data, _ = librosa.effects.trim(audio_data)
+#     audio_data = librosa.resample(audio_data, orig_sr=rate, target_sr=default_sample_rate)
+# #     audio_data = fix_length(audio_data)
+#     rate = default_sample_rate
+#     return audio_data, rate
 def extract_features(X, sample_rate):
     # Generate Mel-frequency cepstral coefficients (MFCCs) from a time series
 scaler = joblib.load('app/1713638595.3178492_scaler.joblib')
 label_encoder = joblib.load('app/1713638744.044928_label_encoder.joblib')
+def preprocess_audio(audio_data, rate):
+    audio_data = nr.reduce_noise(y=audio_data, sr=rate)
+    # remove silence
+    intervals = librosa.effects.split(audio_data, top_db=20)
+    # Concatenate non-silent intervals
+    audio_data = np.concatenate([audio_data[start:end] for start, end in intervals])
+    audio_data = librosa.util.normalize(audio_data)
+    audio_data, _ = librosa.effects.trim(audio_data)
+    audio_data = librosa.resample(audio_data, orig_sr=rate, target_sr=default_sample_rate)
+#     audio_data = fix_length(audio_data)
+    rate = default_sample_rate
+    # y_trimmed, _ = librosa.effects.trim(y_no_gaps, top_db = 20)
+    # D = librosa.stft(y)
+    # S_db = librosa.amplitude_to_db(np.abs(D), ref=np.max)
+    # S = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=128*2,)
+    # S_db_mel = librosa.amplitude_to_db(np.abs(S), ref=np.max)
+    # Apply noise reduction (example using spectral subtraction)
 #     y_denoised = librosa.effects.preemphasis(y_trimmed)
 #     # Apply dynamic range compression
 #     # Define target sample rate
 #     target_sr = sr
+#     # Data Augmentation (example: pitch shifting)
+#     y_pitch_shifted = librosa.effects.pitch_shift(y_normalized, sr=target_sr, n_steps=2)
+    # Split audio into non-silent intervals
+    # Normalize the audio signal
+    # y_normalized = librosa.util.normalize(y_equalized)
+    # Feature Extraction (example: MFCCs)
+#     mfccs = librosa.feature.mfcc(y=y_normalized, sr=target_sr, n_mfcc=20)
+    # output_file_path = os.path.join(save_dir, f"{file_name_without_extension}.{extension}")
+    # Write the audio data to the output file in .wav format
+    # sf.write(path, y_normalized, target_sr)
+    return audio_data, rate
 # smile = opensmile.Smile(
 #     feature_set=opensmile.FeatureSet.ComParE_2016,