Spaces:

chompionsawelo
/

whisper_transcribe

Runtime error

chompionsawelo commited on Aug 10, 2023

Commit

bdec318

1 Parent(s): b58af27

full adjust

Files changed (3) hide show

.gitignore ADDED Viewed

	@@ -0,0 +1 @@


1	+ __pycache__

app.py CHANGED Viewed

@@ -4,31 +4,20 @@ import ffmpeg
 import gradio as gr
 import os
-# Get video & convert it
-def video_to_audio(input_video_path, output_audio_path):
-    (
-        ffmpeg.input(input_video_path)
-        .output(output_audio_path, format='wav')
-        .run()
-    )
-inputs_interface = gr.inputs.Video(label="Insert video").value
-print("Input source: " + "inputs_interface")
-out_file = ffmpeg.input(inputs_interface).audio.output(
-    "input.wav", format="wav").run()
-def prepareInput():
-    return startDiarization(out_file)
-gr.Interface(
-    prepareInput,
-    inputs=inputs_interface,
     outputs="text",
     title="Get Diarization"
-).launch()

 import gradio as gr
 import os
+def prepareInput(input_file):
+    output_file = "input.wav"
+    ffmpeg.input(input_file).audio.output(
+        output_file, format="wav").run()
+    return startDiarization(output_file)
+video_interface = gr.Interface(
+    fn=prepareInput,
+    inputs=gr.Video(type="file"),
     outputs="text",
     title="Get Diarization"
+)
+if __name__ == "__main__":
+    video_interface.launch()

diarization.py CHANGED Viewed

@@ -12,6 +12,7 @@ pipeline.to(device)
 def startDiarization(input_file):
     diarization = pipeline(input_file)
     sample_groups = []
@@ -26,8 +27,12 @@ def startDiarization(input_file):
             suffix += 1
             file_name = f"{speaker}-{suffix}"
         speaker_groups[file_name] = [turn.start, turn.end]
     saveGroupsJson(sample_groups, speaker_groups)
     audioSegmentation(input_file, speaker_groups)
     return str(speaker_groups)

 def startDiarization(input_file):
+    print("Starting diarization")
     diarization = pipeline(input_file)
     sample_groups = []
             suffix += 1
             file_name = f"{speaker}-{suffix}"
         speaker_groups[file_name] = [turn.start, turn.end]
+        print(f"speaker_groups {file_name}: {speaker_groups[file_name]}")
+        print(f"start={turn.start:.3f}s stop={turn.end:.3f}s speaker_{speaker}")
     saveGroupsJson(sample_groups, speaker_groups)
     audioSegmentation(input_file, speaker_groups)
+    print(str(speaker_groups))
     return str(speaker_groups)