Spaces:

Delik
/

pyannote-speaker-diarization-3.1

Running on Zero

Delik commited on May 3, 2024

Commit

a68a1ac

verified ·

1 Parent(s): 18be947

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -6,6 +6,7 @@ import wavio
 from pyannote.audio import Pipeline
 from pyannote.audio import Audio
 from pyannote.core import Segment
 pipeline = Pipeline.from_pretrained(
   "pyannote/speaker-diarization-3.1",
@@ -15,9 +16,11 @@ def process_audio(audio):
     # Extract the audio data and sample rate from the tuple
     audio_data, sample_rate = audio
     # Save the uploaded audio file to a temporary location
-    with wavio.open("temp.wav", "w", rate=sample_rate, channels=1, sampwidth=2) as wav:
-        wav.write(audio_data)
     # Use the diarization pipeline to process the audio
     diarization = pipeline("temp.wav")

 from pyannote.audio import Pipeline
 from pyannote.audio import Audio
 from pyannote.core import Segment
+import numpy as np
 pipeline = Pipeline.from_pretrained(
   "pyannote/speaker-diarization-3.1",
     # Extract the audio data and sample rate from the tuple
     audio_data, sample_rate = audio
+    # Ensure the audio data is in the correct format
+    audio_data = np.int16(audio_data / np.max(np.abs(audio_data)) * 32767)
     # Save the uploaded audio file to a temporary location
+    wavio.write("temp.wav", audio_data, sample_rate, sampwidth=2)
     # Use the diarization pipeline to process the audio
     diarization = pipeline("temp.wav")