Spaces:

Mohssinibra
/

speakerDiarization

Running

App Files Files Community

Mohssinibra commited on Feb 13

Commit

6f061b9

verified ·

1 Parent(s): 99623d3

Update app.py

Browse files

Files changed (1) hide show

app.py +19 -9

app.py CHANGED Viewed

@@ -8,6 +8,8 @@ import os
 import scipy.signal as signal
 import torch
 hf_token = os.getenv('diarizationToken')
 print("Initializing Speech-to-Text Model...")
@@ -34,32 +36,40 @@ def convert_audio_to_wav(audio_path):
     sound.export(wav_path, format="wav")
     return wav_path
 def process_audio(audio_path):
     print(f"Received audio file: {audio_path}")
     try:
-        # Convert the input audio to WAV format
-        wav_path = convert_audio_to_wav(audio_path)
-        print(f"Audio converted to WAV: {wav_path}")
         # Load the audio file using librosa
-        audio, sr = librosa.load(wav_path, sr=None, duration=30)
         print(f"Audio loaded: {len(audio)} samples at {sr} Hz")
         # Remove phone tonalities (if any)
         audio = remove_phone_tonalities(audio, sr)
         print("Phone tonalities removed")
         # Silence detection: split based on silence
-        sound = AudioSegment.from_wav(wav_path)
         min_silence_len = 1000  # minimum silence length in ms
         silence_thresh = sound.dBFS - 14  # threshold for silence (adjust as needed)
         non_silent_chunks = [
-            sound[start:end] for start, end in sound.detect_nonsilent(min_silence_len=min_silence_len, silence_thresh=silence_thresh)
         ]
         # Apply diarization (WhisperX)
-        diarization = diarize_model(wav_path)
         transcriptions = []
         for chunk in non_silent_chunks:
@@ -80,7 +90,6 @@ def process_audio(audio_path):
         # Clean up temporary files
         os.remove("chunk.wav")
-        os.remove(wav_path)  # Remove converted wav file
         return "\n".join(transcriptions)
@@ -88,6 +97,7 @@ def process_audio(audio_path):
         print(f"Error: {str(e)}")
         return f"Error: {str(e)}"
 # Create Gradio interface
 iface = gr.Interface(
     fn=process_audio,

 import scipy.signal as signal
 import torch
+from pydub.silence import detect_nonsilent  # Correct import
 hf_token = os.getenv('diarizationToken')
 print("Initializing Speech-to-Text Model...")
     sound.export(wav_path, format="wav")
     return wav_path
 def process_audio(audio_path):
     print(f"Received audio file: {audio_path}")
     try:
         # Load the audio file using librosa
+        audio, sr = librosa.load(audio_path, sr=None, duration=30)
         print(f"Audio loaded: {len(audio)} samples at {sr} Hz")
         # Remove phone tonalities (if any)
         audio = remove_phone_tonalities(audio, sr)
         print("Phone tonalities removed")
+        # Convert to AudioSegment for silence detection
+        sound = AudioSegment.from_wav(audio_path)
         # Silence detection: split based on silence
         min_silence_len = 1000  # minimum silence length in ms
         silence_thresh = sound.dBFS - 14  # threshold for silence (adjust as needed)
+        # Correct usage of detect_nonsilent from pydub.silence
+        nonsilent_chunks = detect_nonsilent(
+            sound,
+            min_silence_len=min_silence_len,
+            silence_thresh=silence_thresh
+        )
         non_silent_chunks = [
+            sound[start:end] for start, end in nonsilent_chunks
         ]
         # Apply diarization (WhisperX)
+        diarization = diarize_model(audio_path)
         transcriptions = []
         for chunk in non_silent_chunks:
         # Clean up temporary files
         os.remove("chunk.wav")
         return "\n".join(transcriptions)
         print(f"Error: {str(e)}")
         return f"Error: {str(e)}"
 # Create Gradio interface
 iface = gr.Interface(
     fn=process_audio,