Spaces:

Mohssinibra
/

speakerDiarization

Running

App Files Files Community

Mohssinibra commited on Feb 14

Commit

46c4156

verified ·

1 Parent(s): 0cf693f

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -6

app.py CHANGED Viewed

@@ -12,17 +12,23 @@ print("Chargement du modèle Wav2Vec2...")
 stt_pipeline = pipeline("automatic-speech-recognition", model="boumehdi/wav2vec2-large-xlsr-moroccan-darija")
 print("Modèle chargé avec succès !")
 def find_optimal_clusters(mfccs_scaled):
-    """Trouve le nombre optimal de locuteurs en utilisant la méthode du score silhouette"""
     best_score = -1
-    best_n_clusters = 1  # Au moins 1 cluster (1 locuteur)
     for n_clusters in range(1, 3):  # On teste pour 1 ou 2 locuteurs
         kmeans = KMeans(n_clusters=n_clusters, random_state=42, n_init=10)
         labels = kmeans.fit_predict(mfccs_scaled)
         if n_clusters > 1:
-            score = silhouette_score(mfccs_scaled, labels)  # Score d’évaluation
             if score > best_score:
                 best_score = score
                 best_n_clusters = n_clusters
@@ -37,11 +43,16 @@ def process_audio(audio_path):
         audio, sr = librosa.load(audio_path, sr=None, duration=30)
         print(f"Audio chargé : {len(audio)} échantillons à {sr} Hz")
-        # Réduction du bruit (amélioration du SNR)
         audio_denoised = nr.reduce_noise(y=audio, sr=sr)
         print("Bruit réduit.")
-        # Extraction des MFCC après réduction du bruit
         mfccs = librosa.feature.mfcc(y=audio_denoised, sr=sr, n_mfcc=13)
         print(f"MFCC extrait, shape: {mfccs.shape}")
@@ -82,7 +93,7 @@ def process_audio(audio_path):
             print(f"Transcription Speaker {speaker} terminée.")
-        return "\n".join(result)
     except Exception as e:
         print(f"Erreur : {e}")

 stt_pipeline = pipeline("automatic-speech-recognition", model="boumehdi/wav2vec2-large-xlsr-moroccan-darija")
 print("Modèle chargé avec succès !")
+def is_silent(audio, threshold=0.005):
+    """Vérifie si l'audio est principalement du silence ou du bruit de fond faible."""
+    energy = np.mean(np.abs(audio))  # Mesure de l'énergie du signal
+    print(f"Énergie du signal: {energy}")
+    return energy < threshold
 def find_optimal_clusters(mfccs_scaled):
+    """Trouve le nombre optimal de locuteurs en utilisant le score silhouette"""
     best_score = -1
+    best_n_clusters = 1  # Par défaut, on suppose un seul locuteur
     for n_clusters in range(1, 3):  # On teste pour 1 ou 2 locuteurs
         kmeans = KMeans(n_clusters=n_clusters, random_state=42, n_init=10)
         labels = kmeans.fit_predict(mfccs_scaled)
         if n_clusters > 1:
+            score = silhouette_score(mfccs_scaled, labels)  # Score silhouette
             if score > best_score:
                 best_score = score
                 best_n_clusters = n_clusters
         audio, sr = librosa.load(audio_path, sr=None, duration=30)
         print(f"Audio chargé : {len(audio)} échantillons à {sr} Hz")
+        # Vérifier si l'audio est vide (silence)
+        if is_silent(audio):
+            print("Aucun locuteur détecté (audio trop silencieux).")
+            return "Aucun locuteur détecté."
+        # Réduction du bruit (SNR)
         audio_denoised = nr.reduce_noise(y=audio, sr=sr)
         print("Bruit réduit.")
+        # Extraction des MFCC
         mfccs = librosa.feature.mfcc(y=audio_denoised, sr=sr, n_mfcc=13)
         print(f"MFCC extrait, shape: {mfccs.shape}")
             print(f"Transcription Speaker {speaker} terminée.")
+        return "\n".join(result) if result else "Aucune voix détectée."
     except Exception as e:
         print(f"Erreur : {e}")