Spaces:

ahmedkasem
/

quran-nlp

Sleeping

App Files Files Community

deveix commited on Apr 21, 2024

Commit

3dddc6f

1 Parent(s): 491a059

change models

Browse files

Files changed (1) hide show

app/main.py +57 -40

app/main.py CHANGED Viewed

@@ -182,66 +182,83 @@ async def get_answer(item: Item, token: str = Depends(verify_token)):
         raise HTTPException(status_code=500, detail=str(e))
 # random forest
-model = joblib.load('app/1713661391.0946255_trained_model.joblib')
 pca = joblib.load('app/pca.pkl')
-scaler = joblib.load('app/1713661464.8205004_scaler.joblib')
-label_encoder = joblib.load('app/1713661470.6730225_label_encoder.joblib')
 def preprocess_audio(audio_data, rate):
-    audio_data = nr.reduce_noise(y=audio_data, sr=rate)
-    # remove silence
-    # intervals = librosa.effects.split(audio_data, top_db=20)
-    # # Concatenate non-silent intervals
-    # audio_data = np.concatenate([audio_data[start:end] for start, end in intervals])
-    audio_data = librosa.util.normalize(audio_data)
     audio_data, _ = librosa.effects.trim(audio_data)
-    audio_data = librosa.resample(audio_data, orig_sr=rate, target_sr=default_sample_rate)
-    rate = default_sample_rate
-    # y_trimmed, _ = librosa.effects.trim(y_no_gaps, top_db = 20)
-    # D = librosa.stft(y)
-    # S_db = librosa.amplitude_to_db(np.abs(D), ref=np.max)
-    # S = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=128*2,)
-    # S_db_mel = librosa.amplitude_to_db(np.abs(S), ref=np.max)
-    # Apply noise reduction (example using spectral subtraction)
-#     y_denoised = librosa.effects.preemphasis(y_trimmed)
-#     # Apply dynamic range compression
-#     y_compressed = librosa.effects.preemphasis(y_denoised)
-#     # Augmentation (example of time stretching)
-# #     y_stretched = librosa.effects.time_stretch(y_compressed, rate=1.2)
-#     # Silence Removal
-#     y_silence_removed, _ = librosa.effects.trim(y_compressed)
-#     # Equalization (example: apply high-pass filter)
-#     y_equalized = librosa.effects.preemphasis(y_silence_removed)
-#     # Define target sample rate
-#     target_sr = sr
-#     # Data Augmentation (example: pitch shifting)
-#     y_pitch_shifted = librosa.effects.pitch_shift(y_normalized, sr=target_sr, n_steps=2)
-    # Split audio into non-silent intervals
-    # Normalize the audio signal
-    # y_normalized = librosa.util.normalize(y_equalized)
-    # Feature Extraction (example: MFCCs)
-#     mfccs = librosa.feature.mfcc(y=y_normalized, sr=target_sr, n_mfcc=20)
-    # output_file_path = os.path.join(save_dir, f"{file_name_without_extension}.{extension}")
-    # Write the audio data to the output file in .wav format
-    # sf.write(path, y_normalized, target_sr)
-    return audio_data, rate
 # smile = opensmile.Smile(
 #     feature_set=opensmile.FeatureSet.ComParE_2016,

         raise HTTPException(status_code=500, detail=str(e))
 # random forest
+model = joblib.load('app/1713696933.326759_trained_model.joblib')
 pca = joblib.load('app/pca.pkl')
+scaler = joblib.load('app/1713696947.894978_scaler.joblib')
+label_encoder = joblib.load('app/1713696954.9487948_label_encoder.joblib')
 def preprocess_audio(audio_data, rate):
+    # Resample first if the target rate is lower to reduce data size for subsequent operations
+    if rate > default_sample_rate:
+        audio_data = librosa.resample(audio_data, orig_sr=rate, target_sr=default_sample_rate)
+        rate = default_sample_rate
+    # Trim silence before applying computationally expensive noise reduction
     audio_data, _ = librosa.effects.trim(audio_data)
+    # Normalize the audio data
+    audio_data = librosa.util.normalize(audio_data)
+    # Apply noise reduction
+    audio_data = nr.reduce_noise(y=audio_data, sr=rate)
+    return audio_data, rate
+# def preprocess_audio(audio_data, rate):
+#     audio_data = nr.reduce_noise(y=audio_data, sr=rate)
+#     # remove silence
+#     # intervals = librosa.effects.split(audio_data, top_db=20)
+#     # # Concatenate non-silent intervals
+#     # audio_data = np.concatenate([audio_data[start:end] for start, end in intervals])
+#     audio_data = librosa.util.normalize(audio_data)
+#     audio_data, _ = librosa.effects.trim(audio_data)
+#     audio_data = librosa.resample(audio_data, orig_sr=rate, target_sr=default_sample_rate)
+#     rate = default_sample_rate
+#     # y_trimmed, _ = librosa.effects.trim(y_no_gaps, top_db = 20)
+#     # D = librosa.stft(y)
+#     # S_db = librosa.amplitude_to_db(np.abs(D), ref=np.max)
+#     # S = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=128*2,)
+#     # S_db_mel = librosa.amplitude_to_db(np.abs(S), ref=np.max)
+#     # Apply noise reduction (example using spectral subtraction)
+# #     y_denoised = librosa.effects.preemphasis(y_trimmed)
+# #     # Apply dynamic range compression
+# #     y_compressed = librosa.effects.preemphasis(y_denoised)
+# #     # Augmentation (example of time stretching)
+# # #     y_stretched = librosa.effects.time_stretch(y_compressed, rate=1.2)
+# #     # Silence Removal
+# #     y_silence_removed, _ = librosa.effects.trim(y_compressed)
+# #     # Equalization (example: apply high-pass filter)
+# #     y_equalized = librosa.effects.preemphasis(y_silence_removed)
+# #     # Define target sample rate
+# #     target_sr = sr
+# #     # Data Augmentation (example: pitch shifting)
+# #     y_pitch_shifted = librosa.effects.pitch_shift(y_normalized, sr=target_sr, n_steps=2)
+#     # Split audio into non-silent intervals
+#     # Normalize the audio signal
+#     # y_normalized = librosa.util.normalize(y_equalized)
+#     # Feature Extraction (example: MFCCs)
+# #     mfccs = librosa.feature.mfcc(y=y_normalized, sr=target_sr, n_mfcc=20)
+#     # output_file_path = os.path.join(save_dir, f"{file_name_without_extension}.{extension}")
+#     # Write the audio data to the output file in .wav format
+#     # sf.write(path, y_normalized, target_sr)
+#     return audio_data, rate
 # smile = opensmile.Smile(
 #     feature_set=opensmile.FeatureSet.ComParE_2016,