Spaces:

reab5555
/

Multimodal-Behavioral-Anomalies-Detection

Running

reab5555 commited on Jul 28, 2024

Commit

38c3415

verified ·

1 Parent(s): 9263021

Update voice_analysis.py

Files changed (1) hide show

voice_analysis.py CHANGED Viewed

@@ -34,6 +34,12 @@ def get_speaker_embeddings(audio_path, diarization, model_name="pyannote/embeddi
     waveform, sample_rate = torchaudio.load(audio_path)
     print(f"Sample rate: {sample_rate}")
     embeddings = []
     for turn, _, speaker in diarization.itertracks(yield_label=True):
@@ -55,9 +61,6 @@ def get_speaker_embeddings(audio_path, diarization, model_name="pyannote/embeddi
         if segment.shape[1] > 10 * sample_rate:
             segment = segment[:, :10 * sample_rate]
-        # Reshape the segment to match the model's expected input
-        segment = segment.unsqueeze(0)  # Add batch dimension
         print(f"Segment shape after processing: {segment.shape}")
         with torch.no_grad():

     waveform, sample_rate = torchaudio.load(audio_path)
     print(f"Sample rate: {sample_rate}")
+    print(f"Waveform shape: {waveform.shape}")
+    # Convert stereo to mono if necessary
+    if waveform.shape[0] == 2:
+        waveform = torch.mean(waveform, dim=0, keepdim=True)
     embeddings = []
     for turn, _, speaker in diarization.itertracks(yield_label=True):
         if segment.shape[1] > 10 * sample_rate:
             segment = segment[:, :10 * sample_rate]
         print(f"Segment shape after processing: {segment.shape}")
         with torch.no_grad():