Spaces:

Mohssinibra
/

speakerDiarization

Running

Mohssinibra commited on Feb 14

Commit

2ee2f68

verified ·

1 Parent(s): f276524

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -5,6 +5,7 @@ import soundfile as sf
 from sklearn.preprocessing import StandardScaler
 from sklearn.cluster import KMeans
 from transformers import pipeline
 print("Chargement du modèle Wav2Vec2...")
 stt_pipeline = pipeline("automatic-speech-recognition", model="boumehdi/wav2vec2-large-xlsr-moroccan-darija")
@@ -18,8 +19,12 @@ def process_audio(audio_path):
         audio, sr = librosa.load(audio_path, sr=None, duration=30)
         print(f"Audio chargé : {len(audio)} échantillons à {sr} Hz")
         # Extraction des MFCC
-        mfccs = librosa.feature.mfcc(y=audio, sr=sr, n_mfcc=13)
         print(f"MFCC extrait, shape: {mfccs.shape}")
         # Normalisation
@@ -34,13 +39,13 @@ def process_audio(audio_path):
         # Regrouper les segments audio par speaker
         speaker_audio = {speaker: [] for speaker in set(speaker_labels)}
-        segment_duration = len(audio) // len(speaker_labels)
         for i in range(len(speaker_labels)):
             start = i * segment_duration
             end = start + segment_duration
             speaker_id = speaker_labels[i]
-            speaker_audio[speaker_id].extend(audio[start:end])
         # Transcrire les segments fusionnés
         result = []

 from sklearn.preprocessing import StandardScaler
 from sklearn.cluster import KMeans
 from transformers import pipeline
+import noisereduce as nr  # Ajout de la bibliothèque pour réduire le bruit
 print("Chargement du modèle Wav2Vec2...")
 stt_pipeline = pipeline("automatic-speech-recognition", model="boumehdi/wav2vec2-large-xlsr-moroccan-darija")
         audio, sr = librosa.load(audio_path, sr=None, duration=30)
         print(f"Audio chargé : {len(audio)} échantillons à {sr} Hz")
+        # Réduction du bruit (si nécessaire)
+        audio_denoised = nr.reduce_noise(y=audio, sr=sr)
+        print("Bruit réduit.")
         # Extraction des MFCC
+        mfccs = librosa.feature.mfcc(y=audio_denoised, sr=sr, n_mfcc=13)
         print(f"MFCC extrait, shape: {mfccs.shape}")
         # Normalisation
         # Regrouper les segments audio par speaker
         speaker_audio = {speaker: [] for speaker in set(speaker_labels)}
+        segment_duration = len(audio_denoised) // len(speaker_labels)
         for i in range(len(speaker_labels)):
             start = i * segment_duration
             end = start + segment_duration
             speaker_id = speaker_labels[i]
+            speaker_audio[speaker_id].extend(audio_denoised[start:end])
         # Transcrire les segments fusionnés
         result = []