Spaces:

chompionsawelo
/

whisper_transcribe

Runtime error

App Files Files Community

chompionsawelo commited on Aug 10, 2023

Commit

ed6e5d8

1 Parent(s): 18e34db

small trial

Browse files

Files changed (2) hide show

app.py +8 -4
diarization.py +27 -19

app.py CHANGED Viewed

@@ -1,19 +1,23 @@
 from huggingface_hub import login
-from diarization import startDiarization
 import ffmpeg
 import gradio as gr
 import os
-def prepareInput(input_file):
     output_file = "input.wav"
     ffmpeg.input(input_file).audio.output(
         output_file, format="wav").run()
-    return startDiarization(output_file)
 video_interface = gr.Interface(
-    fn=prepareInput,
     inputs=gr.Video(type="file"),
     outputs="text",
     title="Get Diarization"

 from huggingface_hub import login
+from diarization import start_diarization
+from transcribe import start_transcribe
 import ffmpeg
 import gradio as gr
 import os
+def prepare_input(input_file):
     output_file = "input.wav"
     ffmpeg.input(input_file).audio.output(
         output_file, format="wav").run()
+    progress = gr.Progress()
+    start_diarization(output_file, progress)
+    return start_transcribe(progress)
 video_interface = gr.Interface(
+    fn=prepare_input,
     inputs=gr.Video(type="file"),
     outputs="text",
     title="Get Diarization"

diarization.py CHANGED Viewed

@@ -1,42 +1,50 @@
 from pyannote.audio import Pipeline
 from pydub import AudioSegment
 import os
 import torch
 import json
-hugging_face_token = os.environ["HUGGING_FACE_TOKEN"]
 pipeline = Pipeline.from_pretrained(
     'pyannote/speaker-diarization', use_auth_token=hugging_face_token)
 device = torch.device("cuda")
 pipeline.to(device)
-def startDiarization(input_file):
     print("Starting diarization")
     diarization = pipeline(input_file)
     sample_groups = []
     speaker_groups = {}
-    for turn, _, speaker in diarization.itertracks(yield_label=True):
-        if (speaker not in sample_groups):
-            sample_groups.append(str(speaker))
-        suffix = 1
-        file_name = f"{speaker}-{suffix}"
-        while file_name in speaker_groups:
-            suffix += 1
-            file_name = f"{speaker}-{suffix}"
-        speaker_groups[file_name] = [turn.start, turn.end]
-        print(f"speaker_groups {file_name}: {speaker_groups[file_name]}")
-        print(f"start={turn.start:.3f}s stop={turn.end:.3f}s speaker_{speaker}")
-    saveGroupsJson(sample_groups, speaker_groups)
-    audioSegmentation(input_file, speaker_groups)
     print(str(speaker_groups))
     return str(speaker_groups)
-def audioSegmentation(input_file, speaker_groups_dict):
     audioSegment = AudioSegment.from_wav(input_file)
     for speaker in speaker_groups_dict:
         time = speaker_groups_dict[speaker]
@@ -45,7 +53,7 @@ def audioSegmentation(input_file, speaker_groups_dict):
         print(f"group {speaker}: {time[0]*1000}--{time[1]*1000}")
-def saveGroupsJson(sample_groups_list: list, speaker_groups_dict: dict):
     with open("sample_groups.json", "w") as json_file_sample:
         json.dump(sample_groups_list, json_file_sample)
     with open("speaker_groups.json", "w") as json_file_speaker:

 from pyannote.audio import Pipeline
 from pydub import AudioSegment
+import gradio as gr
 import os
 import torch
 import json
+# hugging_face_token = os.environ["HUGGING_FACE_TOKEN"]
+hugging_face_token = "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"
 pipeline = Pipeline.from_pretrained(
     'pyannote/speaker-diarization', use_auth_token=hugging_face_token)
 device = torch.device("cuda")
 pipeline.to(device)
+def start_diarization(input_file, progress: gr.Progress):
     print("Starting diarization")
+    progress(0, desc="Starting diarization")
     diarization = pipeline(input_file)
     sample_groups = []
     speaker_groups = {}
+    print(str(diarization))
+    # for turn, _, speaker in diarization.itertracks(yield_label=True):
+    # print(diarization)
+    # for step in progress.tqdm(diarization.)
+    # if (speaker not in sample_groups):
+    #     sample_groups.append(str(speaker))
+    # suffix = 1
+    # file_name = f"{speaker}-{suffix}"
+    # while file_name in speaker_groups:
+    #     suffix += 1
+    #     file_name = f"{speaker}-{suffix}"
+    # speaker_groups[file_name] = [turn.start, turn.end]
+    # print(f"speaker_groups {file_name}: {speaker_groups[file_name]}")
+    # print(f"start={turn.start:.3f}s stop={turn.end:.3f}s speaker_{speaker}")
+    save_groups_json(sample_groups, speaker_groups)
+    audio_segmentation(input_file, speaker_groups)
     print(str(speaker_groups))
     return str(speaker_groups)
+def audio_segmentation(input_file, speaker_groups_dict):
     audioSegment = AudioSegment.from_wav(input_file)
     for speaker in speaker_groups_dict:
         time = speaker_groups_dict[speaker]
         print(f"group {speaker}: {time[0]*1000}--{time[1]*1000}")
+def save_groups_json(sample_groups_list: list, speaker_groups_dict: dict):
     with open("sample_groups.json", "w") as json_file_sample:
         json.dump(sample_groups_list, json_file_sample)
     with open("speaker_groups.json", "w") as json_file_speaker: