Spaces:

chompionsawelo
/

whisper_transcribe

Runtime error

App Files Files Community

chompionsawelo commited on Aug 10, 2023

Commit

32e4ded

1 Parent(s): 3130060

last adjusment

Browse files

Files changed (3) hide show

app.py +4 -1
list.py +0 -0
transcribe.py +33 -6

app.py CHANGED Viewed

@@ -16,10 +16,13 @@ def prepare_input(input_file, progress=gr.Progress()):
     return start_transcribe(progress)
 video_interface = gr.Interface(
     fn=prepare_input,
     inputs=gr.Video(type="file"),
-    outputs="text",
     title="Test 2"
 )

     return start_transcribe(progress)
+output_files = gr.outputs.File(
+    label="Transcribe"), gr.outputs.File(label="Subtitle")
 video_interface = gr.Interface(
     fn=prepare_input,
     inputs=gr.Video(type="file"),
+    outputs=output_files,
     title="Test 2"
 )

list.py ADDED Viewed

File without changes

transcribe.py CHANGED Viewed

@@ -11,6 +11,7 @@ model = WhisperModel("medium", device="cuda", compute_type="int8_float16")
 def start_transcribe(progress):
     _, speaker_groups = load_groups_json()
     for speaker, _ in zip(speaker_groups, progress.tqdm(speaker_groups, desc="Processing diarization")):
         # Transcribe and save temp file
         audiof = f"{speaker}.wav"
@@ -18,12 +19,38 @@ def start_transcribe(progress):
         segments, _ = model.transcribe(
             audio=audiof, language='id', word_timestamps=True)
         segments_list = list(segments)
-        print("SEGMENT LIST: " + str(segments_list))
-        text = segments_list.join(' ')
-        print("TEXT: " + str(text))
-        # with open(f"{speaker}.json", "w") as text_file:
-        #     json.dump(text, text_file, indent=4)
-        # return result['text']
 def load_groups_json():

 def start_transcribe(progress):
     _, speaker_groups = load_groups_json()
     for speaker, _ in zip(speaker_groups, progress.tqdm(speaker_groups, desc="Processing diarization")):
         # Transcribe and save temp file
         audiof = f"{speaker}.wav"
         segments, _ = model.transcribe(
             audio=audiof, language='id', word_timestamps=True)
         segments_list = list(segments)
+        text_list_to_print = []
+        for segment in segments_list:
+            start = timeStr(segment['start'])
+            end = timeStr(segment['end'])
+            name = str(speaker)[:10]
+            text = segment["text"]
+            subtitle_txt = f"{len(subtitle_txt) + 1}\n{start} --> {end}\n[{name}] {text}\n\n"
+            # Appending subtitle txt for each segment
+            with open("subtitle.srt", "a") as file:
+                file.writelines(subtitle_txt)
+            # Appending text for each segment to print
+            text_list_to_print.append(text)
+        # Print full text for each speaker turn
+        text = "\n".join(text_list_to_print)
+        print(text)
+        # Create transcribe per speaker
+        with open(f"{speaker}.json", "w") as text_file:
+            json.dump(segments_list, text_file, indent=4)
+        # Append to complete transcribe file
+        with open("transcribe.txt", "a") as file:
+            file.write(f"[{name}] {text}\n")
+    return ["subtitle.srt", "transcribe.txt"]
+def timeStr(t):
+    return '{0:02d}:{1:02d}:{2:06.2f}'.format(round(t // 3600),
+                                              round(t % 3600 // 60),
+                                              t % 60)
 def load_groups_json():