Spaces:

Mohssinibra
/

speakerDiarization

Running

App Files Files Community

Mohssinibra commited on Feb 14

Commit

0cf693f

verified ·

1 Parent(s): 6163755

Update app.py

Browse files

Files changed (1) hide show

app.py +27 -15

app.py CHANGED Viewed

@@ -5,12 +5,30 @@ import soundfile as sf
 from sklearn.preprocessing import StandardScaler
 from sklearn.cluster import KMeans
 from transformers import pipeline
-import noisereduce as nr  # Ajout de la bibliothèque pour réduire le bruit
 print("Chargement du modèle Wav2Vec2...")
 stt_pipeline = pipeline("automatic-speech-recognition", model="boumehdi/wav2vec2-large-xlsr-moroccan-darija")
 print("Modèle chargé avec succès !")
 def process_audio(audio_path):
     print(f"Fichier reçu : {audio_path}")
@@ -19,11 +37,11 @@ def process_audio(audio_path):
         audio, sr = librosa.load(audio_path, sr=None, duration=30)
         print(f"Audio chargé : {len(audio)} échantillons à {sr} Hz")
-        # Réduction du bruit (si nécessaire)
         audio_denoised = nr.reduce_noise(y=audio, sr=sr)
         print("Bruit réduit.")
-        # Extraction des MFCC
         mfccs = librosa.feature.mfcc(y=audio_denoised, sr=sr, n_mfcc=13)
         print(f"MFCC extrait, shape: {mfccs.shape}")
@@ -32,19 +50,13 @@ def process_audio(audio_path):
         mfccs_scaled = scaler.fit_transform(mfccs.T)
         print("MFCC normalisé.")
-        # Clustering avec KMeans (au départ avec 2 clusters, mais on peut ajuster après)
-        kmeans = KMeans(n_clusters=2, random_state=42, n_init=10)
         speaker_labels = kmeans.fit_predict(mfccs_scaled)
-        print(f"Clustering terminé, {len(set(speaker_labels))} locuteurs détectés.")
-        # Vérification du nombre de locuteurs
-        num_speakers = len(set(speaker_labels))
-        if num_speakers == 1:
-            print("Un seul locuteur détecté.")
-        elif num_speakers == 2:
-            print("Deux locuteurs détectés.")
-        else:
-            print(f"Plus de deux locuteurs détectés : {num_speakers} locuteurs.")
         # Regrouper les segments audio par speaker
         speaker_audio = {speaker: [] for speaker in set(speaker_labels)}

 from sklearn.preprocessing import StandardScaler
 from sklearn.cluster import KMeans
 from transformers import pipeline
+import noisereduce as nr
+from sklearn.metrics import silhouette_score
 print("Chargement du modèle Wav2Vec2...")
 stt_pipeline = pipeline("automatic-speech-recognition", model="boumehdi/wav2vec2-large-xlsr-moroccan-darija")
 print("Modèle chargé avec succès !")
+def find_optimal_clusters(mfccs_scaled):
+    """Trouve le nombre optimal de locuteurs en utilisant la méthode du score silhouette"""
+    best_score = -1
+    best_n_clusters = 1  # Au moins 1 cluster (1 locuteur)
+    for n_clusters in range(1, 3):  # On teste pour 1 ou 2 locuteurs
+        kmeans = KMeans(n_clusters=n_clusters, random_state=42, n_init=10)
+        labels = kmeans.fit_predict(mfccs_scaled)
+        if n_clusters > 1:
+            score = silhouette_score(mfccs_scaled, labels)  # Score d’évaluation
+            if score > best_score:
+                best_score = score
+                best_n_clusters = n_clusters
+    return best_n_clusters
 def process_audio(audio_path):
     print(f"Fichier reçu : {audio_path}")
         audio, sr = librosa.load(audio_path, sr=None, duration=30)
         print(f"Audio chargé : {len(audio)} échantillons à {sr} Hz")
+        # Réduction du bruit (amélioration du SNR)
         audio_denoised = nr.reduce_noise(y=audio, sr=sr)
         print("Bruit réduit.")
+        # Extraction des MFCC après réduction du bruit
         mfccs = librosa.feature.mfcc(y=audio_denoised, sr=sr, n_mfcc=13)
         print(f"MFCC extrait, shape: {mfccs.shape}")
         mfccs_scaled = scaler.fit_transform(mfccs.T)
         print("MFCC normalisé.")
+        # Trouver le nombre optimal de locuteurs
+        optimal_clusters = find_optimal_clusters(mfccs_scaled)
+        print(f"Nombre optimal de locuteurs détecté : {optimal_clusters}")
+        # Appliquer KMeans avec le bon nombre de locuteurs
+        kmeans = KMeans(n_clusters=optimal_clusters, random_state=42, n_init=10)
         speaker_labels = kmeans.fit_predict(mfccs_scaled)
         # Regrouper les segments audio par speaker
         speaker_audio = {speaker: [] for speaker in set(speaker_labels)}