Spaces:

Kr08
/

ASR_gradio

Build error

App Files Files Community

Kr08 commited on Sep 4, 2024

Commit

5cf5423

verified ·

1 Parent(s): 9148c64

Update audio_processing.py

Browse files

Files changed (1) hide show

audio_processing.py +19 -11

audio_processing.py CHANGED Viewed

@@ -38,10 +38,14 @@ def process_audio(audio_file, translate=False, model_size="small"):
         audio = whisperx.load_audio(audio_file)
         model = whisperx.load_model(model_size, device, compute_type=compute_type)
-        diarization_pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization", use_auth_token=hf_token)
-        diarization_pipeline = diarization_pipeline.to(torch.device(device))
-        diarization_result = diarization_pipeline({"waveform": torch.from_numpy(audio).unsqueeze(0), "sample_rate": 16000})
         chunks = preprocess_audio(audio)
@@ -71,16 +75,19 @@ def process_audio(audio_file, translate=False, model_size="small"):
                     print(f"Skipping segment in overlap with next chunk: {segment_start:.2f} - {segment_end:.2f}")
                     continue
-                speakers = []
-                for turn, track, speaker in diarization_result.itertracks(yield_label=True):
-                    if turn.start <= segment_end and turn.end >= segment_start:
-                        speakers.append(speaker)
                 segment = {
                     "start": segment_start,
                     "end": segment_end,
                     "language": lang,
-                    "speaker": max(set(speakers), key=speakers.count) if speakers else "Unknown",
                     "text": t_seg["text"],
                 }
@@ -121,11 +128,12 @@ def merge_nearby_segments(segments, time_threshold=0.5, similarity_threshold=0.7
             if match.size / len(segment['text']) > similarity_threshold:
                 # Merge the segments
                 merged_text = merged[-1]['text'] + segment['text'][match.b + match.size:]
-                merged_translated = merged[-1]['translated'] + segment['translated'][match.b + match.size:]
                 merged[-1]['end'] = segment['end']
                 merged[-1]['text'] = merged_text
-                merged[-1]['translated'] = merged_translated
             else:
                 # If no significant overlap, append as a new segment
                 merged.append(segment)

         audio = whisperx.load_audio(audio_file)
         model = whisperx.load_model(model_size, device, compute_type=compute_type)
+        # Try to initialize diarization pipeline, but proceed without it if there's an error
+        try:
+            diarization_pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization", use_auth_token=hf_token)
+            diarization_pipeline = diarization_pipeline.to(torch.device(device))
+            diarization_result = diarization_pipeline({"waveform": torch.from_numpy(audio).unsqueeze(0), "sample_rate": 16000})
+        except Exception as e:
+            logger.warning(f"Diarization pipeline initialization failed: {str(e)}. Proceeding without diarization.")
+            diarization_result = None
         chunks = preprocess_audio(audio)
                     print(f"Skipping segment in overlap with next chunk: {segment_start:.2f} - {segment_end:.2f}")
                     continue
+                speaker = "Unknown"
+                if diarization_result is not None:
+                    speakers = []
+                    for turn, track, spk in diarization_result.itertracks(yield_label=True):
+                        if turn.start <= segment_end and turn.end >= segment_start:
+                            speakers.append(spk)
+                    speaker = max(set(speakers), key=speakers.count) if speakers else "Unknown"
                 segment = {
                     "start": segment_start,
                     "end": segment_end,
                     "language": lang,
+                    "speaker": speaker,
                     "text": t_seg["text"],
                 }
             if match.size / len(segment['text']) > similarity_threshold:
                 # Merge the segments
                 merged_text = merged[-1]['text'] + segment['text'][match.b + match.size:]
+                merged_translated = merged[-1].get('translated', '') + segment.get('translated', '')[match.b + match.size:]
                 merged[-1]['end'] = segment['end']
                 merged[-1]['text'] = merged_text
+                if 'translated' in segment:
+                    merged[-1]['translated'] = merged_translated
             else:
                 # If no significant overlap, append as a new segment
                 merged.append(segment)