Spaces:

ahmedkasem
/

quran-nlp

Sleeping

App Files Files Community

deveix commited on Apr 21, 2024

Commit

9c01213

1 Parent(s): b1d468e

return to old model

Browse files

Files changed (1) hide show

app/main.py +54 -97

app/main.py CHANGED Viewed

@@ -27,32 +27,16 @@ default_sample_rate=22050
 def load(file_name, skip_seconds=0):
     return librosa.load(file_name, sr=None, res_type='kaiser_fast')
-def split_audio(audio_data, sample_rate, segment_length_sec=20):
-    # Calculate the number of samples in each segment
-    num_samples_per_segment = segment_length_sec * sample_rate
-    # Calculate total number of segments
-    total_segments = int(np.ceil(len(audio_data) / num_samples_per_segment))
-    # Split the audio data into segments
-    segments = []
-    for i in range(total_segments):
-        start = i * num_samples_per_segment
-        end = start + num_samples_per_segment
-        segment = audio_data[start:end]
-        segments.append(segment)
-    return segments
-def preprocess_audio(audio_data, rate):
-    # Apply preprocessing steps
-    audio_data = nr.reduce_noise(y=audio_data, sr=rate)
-    audio_data = librosa.util.normalize(audio_data)
-    audio_data, _ = librosa.effects.trim(audio_data)
-    audio_data = librosa.resample(audio_data, orig_sr=rate, target_sr=default_sample_rate)
-#     audio_data = fix_length(audio_data)
-    rate = default_sample_rate
-    return audio_data, rate
 def extract_features(X, sample_rate):
     # Generate Mel-frequency cepstral coefficients (MFCCs) from a time series
@@ -198,83 +182,66 @@ async def get_answer(item: Item, token: str = Depends(verify_token)):
         raise HTTPException(status_code=500, detail=str(e))
 # random forest
-model = joblib.load('app/1713696933.326759_trained_model.joblib')
 pca = joblib.load('app/pca.pkl')
-scaler = joblib.load('app/1713696947.894978_scaler.joblib')
-label_encoder = joblib.load('app/1713696954.9487948_label_encoder.joblib')
-# def preprocess_audio(audio_data, rate):
-#     # Resample first if the target rate is lower to reduce data size for subsequent operations
-#     if rate > default_sample_rate:
-#         audio_data = librosa.resample(audio_data, orig_sr=rate, target_sr=default_sample_rate)
-#         rate = default_sample_rate
-#     # Trim silence before applying computationally expensive noise reduction
-#     audio_data, _ = librosa.effects.trim(audio_data)
-#     # Normalize the audio data
-#     audio_data = librosa.util.normalize(audio_data)
-#     # Apply noise reduction
-#     audio_data = nr.reduce_noise(y=audio_data, sr=rate)
-#     return audio_data, rate
-# def preprocess_audio(audio_data, rate):
-#     audio_data = nr.reduce_noise(y=audio_data, sr=rate)
-#     # remove silence
-#     # intervals = librosa.effects.split(audio_data, top_db=20)
-#     # # Concatenate non-silent intervals
-#     # audio_data = np.concatenate([audio_data[start:end] for start, end in intervals])
-#     audio_data = librosa.util.normalize(audio_data)
-#     audio_data, _ = librosa.effects.trim(audio_data)
-#     audio_data = librosa.resample(audio_data, orig_sr=rate, target_sr=default_sample_rate)
-#     rate = default_sample_rate
-#     # y_trimmed, _ = librosa.effects.trim(y_no_gaps, top_db = 20)
-#     # D = librosa.stft(y)
-#     # S_db = librosa.amplitude_to_db(np.abs(D), ref=np.max)
-#     # S = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=128*2,)
-#     # S_db_mel = librosa.amplitude_to_db(np.abs(S), ref=np.max)
-#     # Apply noise reduction (example using spectral subtraction)
-# #     y_denoised = librosa.effects.preemphasis(y_trimmed)
-# #     # Apply dynamic range compression
-# #     y_compressed = librosa.effects.preemphasis(y_denoised)
-# #     # Augmentation (example of time stretching)
-# # #     y_stretched = librosa.effects.time_stretch(y_compressed, rate=1.2)
-# #     # Silence Removal
-# #     y_silence_removed, _ = librosa.effects.trim(y_compressed)
-# #     # Equalization (example: apply high-pass filter)
-# #     y_equalized = librosa.effects.preemphasis(y_silence_removed)
-# #     # Define target sample rate
-# #     target_sr = sr
-# #     # Data Augmentation (example: pitch shifting)
-# #     y_pitch_shifted = librosa.effects.pitch_shift(y_normalized, sr=target_sr, n_steps=2)
-#     # Split audio into non-silent intervals
-#     # Normalize the audio signal
-#     # y_normalized = librosa.util.normalize(y_equalized)
-#     # Feature Extraction (example: MFCCs)
-# #     mfccs = librosa.feature.mfcc(y=y_normalized, sr=target_sr, n_mfcc=20)
-#     # output_file_path = os.path.join(save_dir, f"{file_name_without_extension}.{extension}")
-#     # Write the audio data to the output file in .wav format
-#     # sf.write(path, y_normalized, target_sr)
-#     return audio_data, rate
 # smile = opensmile.Smile(
 #     feature_set=opensmile.FeatureSet.ComParE_2016,
@@ -359,16 +326,7 @@ async def handle_audio(file: UploadFile = File(...)):
         audio_data, sr = preprocess_audio(audio_data, sr)
         print("finished processing ", temp_filename)
         # Extract features
-        features_list = []
         features = extract_features(audio_data, sr)
-        features_list.append(features)
-        segments = split_audio(audio_data, sr)
-        for i, segment in enumerate(segments):
-            # Extract features from the processed audio segment (you need to define this function)
-            features = extract_features(segment, sr)
-            print(f"Features extracted for segment {i+1}")
-            features_list.append(features)
         # preprocess_audio(temp_filename, 'app')
         # repair_mp3_with_ffmpeg_python(temp_filename, temp_filename)
@@ -377,18 +335,17 @@ async def handle_audio(file: UploadFile = File(...)):
         # print("Extracted Features:", features)
         # features = pca.transform(features)
         # features = np.array(features).reshape(1, -1)
-        # features = features.reshape(1, -1)
-        features_list = scaler.transform(features_list)
         # proceed with an inference
-        results = model.predict(features_list)
         # decoded_predictions = [label_encoder.classes_[i] for i in results]
-        print('decoded', results)
         # # Decode the predictions using the label encoder
         decoded_predictions = label_encoder.inverse_transform(results)
-        print('decoded', decoded_predictions)
         # .tolist()
         # Clean up the temporary file
         os.remove(temp_filename)

 def load(file_name, skip_seconds=0):
     return librosa.load(file_name, sr=None, res_type='kaiser_fast')
+# def preprocess_audio(audio_data, rate):
+#     # Apply preprocessing steps
+#     audio_data = nr.reduce_noise(y=audio_data, sr=rate)
+#     audio_data = librosa.util.normalize(audio_data)
+#     audio_data, _ = librosa.effects.trim(audio_data)
+#     audio_data = librosa.resample(audio_data, orig_sr=rate, target_sr=default_sample_rate)
+# #     audio_data = fix_length(audio_data)
+#     rate = default_sample_rate
+#     return audio_data, rate
 def extract_features(X, sample_rate):
     # Generate Mel-frequency cepstral coefficients (MFCCs) from a time series
         raise HTTPException(status_code=500, detail=str(e))
 # random forest
+model = joblib.load('app/1713661391.0946255_trained_model.joblib')
 pca = joblib.load('app/pca.pkl')
+scaler = joblib.load('app/1713661464.8205004_scaler.joblib')
+label_encoder = joblib.load('app/1713661470.6730225_label_encoder.joblib')
+def preprocess_audio(audio_data, rate):
+    audio_data = nr.reduce_noise(y=audio_data, sr=rate)
+    # remove silence
+    # intervals = librosa.effects.split(audio_data, top_db=20)
+    # # Concatenate non-silent intervals
+    # audio_data = np.concatenate([audio_data[start:end] for start, end in intervals])
+    audio_data = librosa.util.normalize(audio_data)
+    audio_data, _ = librosa.effects.trim(audio_data)
+    audio_data = librosa.resample(audio_data, orig_sr=rate, target_sr=default_sample_rate)
+    rate = default_sample_rate
+    # y_trimmed, _ = librosa.effects.trim(y_no_gaps, top_db = 20)
+    # D = librosa.stft(y)
+    # S_db = librosa.amplitude_to_db(np.abs(D), ref=np.max)
+    # S = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=128*2,)
+    # S_db_mel = librosa.amplitude_to_db(np.abs(S), ref=np.max)
+    # Apply noise reduction (example using spectral subtraction)
+#     y_denoised = librosa.effects.preemphasis(y_trimmed)
+#     # Apply dynamic range compression
+#     y_compressed = librosa.effects.preemphasis(y_denoised)
+#     # Augmentation (example of time stretching)
+# #     y_stretched = librosa.effects.time_stretch(y_compressed, rate=1.2)
+#     # Silence Removal
+#     y_silence_removed, _ = librosa.effects.trim(y_compressed)
+#     # Equalization (example: apply high-pass filter)
+#     y_equalized = librosa.effects.preemphasis(y_silence_removed)
+#     # Define target sample rate
+#     target_sr = sr
+#     # Data Augmentation (example: pitch shifting)
+#     y_pitch_shifted = librosa.effects.pitch_shift(y_normalized, sr=target_sr, n_steps=2)
+    # Split audio into non-silent intervals
+    # Normalize the audio signal
+    # y_normalized = librosa.util.normalize(y_equalized)
+    # Feature Extraction (example: MFCCs)
+#     mfccs = librosa.feature.mfcc(y=y_normalized, sr=target_sr, n_mfcc=20)
+    # output_file_path = os.path.join(save_dir, f"{file_name_without_extension}.{extension}")
+    # Write the audio data to the output file in .wav format
+    # sf.write(path, y_normalized, target_sr)
+    return audio_data, rate
 # smile = opensmile.Smile(
 #     feature_set=opensmile.FeatureSet.ComParE_2016,
         audio_data, sr = preprocess_audio(audio_data, sr)
         print("finished processing ", temp_filename)
         # Extract features
         features = extract_features(audio_data, sr)
         # preprocess_audio(temp_filename, 'app')
         # repair_mp3_with_ffmpeg_python(temp_filename, temp_filename)
         # print("Extracted Features:", features)
         # features = pca.transform(features)
         # features = np.array(features).reshape(1, -1)
+        features = features.reshape(1, -1)
+        features = scaler.transform(features)
         # proceed with an inference
+        results = model.predict(features)
         # decoded_predictions = [label_encoder.classes_[i] for i in results]
         # # Decode the predictions using the label encoder
         decoded_predictions = label_encoder.inverse_transform(results)
+        print('decoded', decoded_predictions[0])
         # .tolist()
         # Clean up the temporary file
         os.remove(temp_filename)