Spaces:

Mohssinibra
/

speakerDiarization

Running

App Files Files Community

Mohssinibra commited on Feb 14

Commit

c3303c6

verified ·

1 Parent(s): 46c4156

Filtrer les speakers vides

Browse files

Files changed (1) hide show

app.py +16 -45

app.py CHANGED Viewed

@@ -5,36 +5,11 @@ import soundfile as sf
 from sklearn.preprocessing import StandardScaler
 from sklearn.cluster import KMeans
 from transformers import pipeline
-import noisereduce as nr
-from sklearn.metrics import silhouette_score
 print("Chargement du modèle Wav2Vec2...")
 stt_pipeline = pipeline("automatic-speech-recognition", model="boumehdi/wav2vec2-large-xlsr-moroccan-darija")
 print("Modèle chargé avec succès !")
-def is_silent(audio, threshold=0.005):
-    """Vérifie si l'audio est principalement du silence ou du bruit de fond faible."""
-    energy = np.mean(np.abs(audio))  # Mesure de l'énergie du signal
-    print(f"Énergie du signal: {energy}")
-    return energy < threshold
-def find_optimal_clusters(mfccs_scaled):
-    """Trouve le nombre optimal de locuteurs en utilisant le score silhouette"""
-    best_score = -1
-    best_n_clusters = 1  # Par défaut, on suppose un seul locuteur
-    for n_clusters in range(1, 3):  # On teste pour 1 ou 2 locuteurs
-        kmeans = KMeans(n_clusters=n_clusters, random_state=42, n_init=10)
-        labels = kmeans.fit_predict(mfccs_scaled)
-        if n_clusters > 1:
-            score = silhouette_score(mfccs_scaled, labels)  # Score silhouette
-            if score > best_score:
-                best_score = score
-                best_n_clusters = n_clusters
-    return best_n_clusters
 def process_audio(audio_path):
     print(f"Fichier reçu : {audio_path}")
@@ -43,17 +18,8 @@ def process_audio(audio_path):
         audio, sr = librosa.load(audio_path, sr=None, duration=30)
         print(f"Audio chargé : {len(audio)} échantillons à {sr} Hz")
-        # Vérifier si l'audio est vide (silence)
-        if is_silent(audio):
-            print("Aucun locuteur détecté (audio trop silencieux).")
-            return "Aucun locuteur détecté."
-        # Réduction du bruit (SNR)
-        audio_denoised = nr.reduce_noise(y=audio, sr=sr)
-        print("Bruit réduit.")
         # Extraction des MFCC
-        mfccs = librosa.feature.mfcc(y=audio_denoised, sr=sr, n_mfcc=13)
         print(f"MFCC extrait, shape: {mfccs.shape}")
         # Normalisation
@@ -61,23 +27,20 @@ def process_audio(audio_path):
         mfccs_scaled = scaler.fit_transform(mfccs.T)
         print("MFCC normalisé.")
-        # Trouver le nombre optimal de locuteurs
-        optimal_clusters = find_optimal_clusters(mfccs_scaled)
-        print(f"Nombre optimal de locuteurs détecté : {optimal_clusters}")
-        # Appliquer KMeans avec le bon nombre de locuteurs
-        kmeans = KMeans(n_clusters=optimal_clusters, random_state=42, n_init=10)
         speaker_labels = kmeans.fit_predict(mfccs_scaled)
         # Regrouper les segments audio par speaker
         speaker_audio = {speaker: [] for speaker in set(speaker_labels)}
-        segment_duration = len(audio_denoised) // len(speaker_labels)
         for i in range(len(speaker_labels)):
             start = i * segment_duration
             end = start + segment_duration
             speaker_id = speaker_labels[i]
-            speaker_audio[speaker_id].extend(audio_denoised[start:end])
         # Transcrire les segments fusionnés
         result = []
@@ -89,11 +52,19 @@ def process_audio(audio_path):
             sf.write(temp_filename, np.array(audio_segment), sr)  # Sauvegarder le segment
             transcription = stt_pipeline(temp_filename)  # Transcrire
-            result.append(f"Speaker {speaker}: {transcription['text']}")
             print(f"Transcription Speaker {speaker} terminée.")
-        return "\n".join(result) if result else "Aucune voix détectée."
     except Exception as e:
         print(f"Erreur : {e}")

 from sklearn.preprocessing import StandardScaler
 from sklearn.cluster import KMeans
 from transformers import pipeline
 print("Chargement du modèle Wav2Vec2...")
 stt_pipeline = pipeline("automatic-speech-recognition", model="boumehdi/wav2vec2-large-xlsr-moroccan-darija")
 print("Modèle chargé avec succès !")
 def process_audio(audio_path):
     print(f"Fichier reçu : {audio_path}")
         audio, sr = librosa.load(audio_path, sr=None, duration=30)
         print(f"Audio chargé : {len(audio)} échantillons à {sr} Hz")
         # Extraction des MFCC
+        mfccs = librosa.feature.mfcc(y=audio, sr=sr, n_mfcc=13)
         print(f"MFCC extrait, shape: {mfccs.shape}")
         # Normalisation
         mfccs_scaled = scaler.fit_transform(mfccs.T)
         print("MFCC normalisé.")
+        # Clustering avec KMeans
+        kmeans = KMeans(n_clusters=2, random_state=42, n_init=10)
         speaker_labels = kmeans.fit_predict(mfccs_scaled)
+        print(f"Clustering terminé, {len(set(speaker_labels))} locuteurs détectés.")
         # Regrouper les segments audio par speaker
         speaker_audio = {speaker: [] for speaker in set(speaker_labels)}
+        segment_duration = len(audio) // len(speaker_labels)
         for i in range(len(speaker_labels)):
             start = i * segment_duration
             end = start + segment_duration
             speaker_id = speaker_labels[i]
+            speaker_audio[speaker_id].extend(audio[start:end])
         # Transcrire les segments fusionnés
         result = []
             sf.write(temp_filename, np.array(audio_segment), sr)  # Sauvegarder le segment
             transcription = stt_pipeline(temp_filename)  # Transcrire
+            text = transcription["text"].strip()
+            # Ajouter seulement si le texte n'est pas vide
+            if text:
+                result.append(f"Speaker {speaker}: {text}")
             print(f"Transcription Speaker {speaker} terminée.")
+        # Filtrer les speakers sans texte
+        if not result:
+            return "Aucune parole détectée."
+        return "\n".join(result)
     except Exception as e:
         print(f"Erreur : {e}")