Spaces:

Mohssinibra
/

speakerDiarization

Running

Mohssinibra commited on Feb 13

Commit

e5c4db0

verified ·

1 Parent(s): 1053c8b

..

Files changed (1) hide show

app.py CHANGED Viewed

@@ -27,22 +27,31 @@ def remove_phone_tonalities(audio, sr):
     filtered_audio = signal.filtfilt(b, a, audio)
     return filtered_audio
 def process_audio(audio_path):
     print(f"Received audio file: {audio_path}")
     try:
         # Load the audio file using librosa
-        audio, sr = librosa.load(audio_path, sr=None, duration=30)
         print(f"Audio loaded: {len(audio)} samples at {sr} Hz")
         # Remove phone tonalities (if any)
         audio = remove_phone_tonalities(audio, sr)
         print("Phone tonalities removed")
-        # Convert to AudioSegment for silence detection
-        sound = AudioSegment.from_wav(audio_path)
         # Silence detection: split based on silence
         min_silence_len = 1000  # minimum silence length in ms
         silence_thresh = sound.dBFS - 14  # threshold for silence (adjust as needed)
         non_silent_chunks = [
@@ -50,7 +59,7 @@ def process_audio(audio_path):
         ]
         # Apply diarization (WhisperX)
-        diarization = diarize_model(audio_path)
         transcriptions = []
         for chunk in non_silent_chunks:
@@ -71,6 +80,7 @@ def process_audio(audio_path):
         # Clean up temporary files
         os.remove("chunk.wav")
         return "\n".join(transcriptions)

     filtered_audio = signal.filtfilt(b, a, audio)
     return filtered_audio
+def convert_audio_to_wav(audio_path):
+    # Convert any audio format to WAV using pydub
+    sound = AudioSegment.from_file(audio_path)
+    wav_path = "converted_audio.wav"
+    sound.export(wav_path, format="wav")
+    return wav_path
 def process_audio(audio_path):
     print(f"Received audio file: {audio_path}")
     try:
+        # Convert the input audio to WAV format
+        wav_path = convert_audio_to_wav(audio_path)
+        print(f"Audio converted to WAV: {wav_path}")
         # Load the audio file using librosa
+        audio, sr = librosa.load(wav_path, sr=None, duration=30)
         print(f"Audio loaded: {len(audio)} samples at {sr} Hz")
         # Remove phone tonalities (if any)
         audio = remove_phone_tonalities(audio, sr)
         print("Phone tonalities removed")
         # Silence detection: split based on silence
+        sound = AudioSegment.from_wav(wav_path)
         min_silence_len = 1000  # minimum silence length in ms
         silence_thresh = sound.dBFS - 14  # threshold for silence (adjust as needed)
         non_silent_chunks = [
         ]
         # Apply diarization (WhisperX)
+        diarization = diarize_model(wav_path)
         transcriptions = []
         for chunk in non_silent_chunks:
         # Clean up temporary files
         os.remove("chunk.wav")
+        os.remove(wav_path)  # Remove converted wav file
         return "\n".join(transcriptions)