Spaces:

archivartaunik
/

SubtitlesBE

Running

App Files Files Community

archivartaunik commited on Mar 10

Commit

a4cbcc8

verified ·

1 Parent(s): 70e99af

Update app.py

Browse files

Files changed (1) hide show

app.py +38 -31

app.py CHANGED Viewed

@@ -8,51 +8,58 @@ GEMINI_API_KEY = os.getenv("gemini")
 # Ініцыялізуем кліент Google Generative AI
 genai.configure(api_key=GEMINI_API_KEY)
-# Функцыя для транскрыпцыі аўдыя з вызначэннем фармату
 def transcribe_audio(audio_file):
     try:
         # Загружаем файл
         with open(audio_file, "rb") as f:
             audio_data = f.read()
-        # Вызначаем фармат файла па пашырэнні
-        ext = os.path.splitext(audio_file)[1].lower()
-        if ext == ".mp3":
-            mime_type = "audio/mpeg"
-        else:
-            mime_type = "audio/wav"
-        # Ствараем запыт да Gemini 2.0 Flash: аўдыя перадаецца асобна ад промпта
         model = genai.GenerativeModel("gemini-2.0-flash-thinking-exp-01-21")
-        prompt = ("Ствары субтытры з часовымі меткамі. Вось прыклад фармату: \n"
-                  "0:00:28.373,0:00:32.347 Нешта маналітнае, цэльнае, а тут чалавек эвалюцыянаваў.\n"
-                  "0:00:32.898,0:00:37.061 Ды зрабіў круты паварот у сваіх поглядах яшчэ да развалу эсэсэ.\n"
-                  "0:00:37.901,0:00:41.504 Забываем даражэнькія пра падабайку і падпіску на наш канал, добра.")
-        content = {"parts": [{"mime_type": mime_type, "data": audio_data}]}
-        response = model.generate_content([prompt, content])
-        # Атрыманне тэксту транскрыпцыі з часовымі меткамі
         transcript = response.text.strip() if response.text else "Не атрымалася транскрыбаваць аўдыя."
-        # Захоўваем у файл SRT
-        srt_path = "subtitles.srt"
-        with open(srt_path, "w", encoding="utf-8") as f:
-            f.write(transcript)
-        return transcript, srt_path
     except Exception as e:
-        return f"Памылка: {str(e)}", None
 # Gradio інтэрфейс
 iface = gr.Interface(
-    fn=transcribe_audio,
     inputs=gr.Audio(type="filepath"),
-    outputs=[
-        gr.Textbox(label="Субтытры з часовымі меткамі (SRT)"),
-        gr.File(label="SRT-файл")
-    ],
-    title="Генерацыя субтытраў на беларускай мове",
-    description="Загрузіце аўдыяфайл (напрыклад, MP3 або WAV), каб адразу атрымаць субтытры з часовымі меткамі."
 )
 if __name__ == "__main__":

 # Ініцыялізуем кліент Google Generative AI
 genai.configure(api_key=GEMINI_API_KEY)
+# Функцыя для транскрыпцыі аўдыя з даданым промптам для стварэння субтытраў з часовымі меткамі
 def transcribe_audio(audio_file):
     try:
         # Загружаем файл
         with open(audio_file, "rb") as f:
             audio_data = f.read()
+        # Дадатковы промпт для стварэння субтытраў з часовымі меткамі
+        prompt_text = (
+            "ствары субтытры з часовымі меткамі\n"
+            "вось прыклад фармату\n"
+            "0:00:28.373,0:00:32.347 Нешта маналітнае, цэльнае, а тут чалавек эвалюцыянаваў.\n"
+            "0:00:32.898,0:00:37.061 Ды зрабіў круты паварот у сваіх поглядах яшчэ да развалу эсэсэ.\n"
+            "0:00:37.901,0:00:41.504 Забываем даражэнькія пра падабайку і падпіску на наш канал, добра."
+        )
+        # Ствараем запыт да Gemini 2.0 Flash з даданнем промпту
         model = genai.GenerativeModel("gemini-2.0-flash-thinking-exp-01-21")
+        response = model.generate_content(
+            [audio_data],
+            request_options={
+                "mime_type": "audio/wav",
+                "prompt": prompt_text
+            }
+        )
+        # Атрыманне тэксту транскрыпцыі (які ўжо змяшчае часовыя меткі)
         transcript = response.text.strip() if response.text else "Не атрымалася транскрыбаваць аўдыя."
+        return transcript
     except Exception as e:
+        return f"Памылка: {str(e)}"
+# Функцыя для стварэння SRT-файла, у якім субтытры ўжо змяшчаюць часовыя меткі
+def create_srt(transcript):
+    srt_path = "subtitles.srt"
+    with open(srt_path, "w", encoding="utf-8") as f:
+        f.write(transcript)
+    return transcript, srt_path
+# Функцыя для апрацоўкі аўдыя
+def process_audio(audio):
+    transcript = transcribe_audio(audio)
+    text, srt_file = create_srt(transcript)
+    return text, srt_file
 # Gradio інтэрфейс
 iface = gr.Interface(
+    fn=process_audio,
     inputs=gr.Audio(type="filepath"),
+    outputs=[gr.Textbox(label="Транскрыпцыя"), gr.File(label="SRT-файл")],
+    title="Транскрыпцыя аўдыя з Gemini 2.0",
+    description="Загрузіце аўдыяфайл, і мадэль Gemini 2.0 Flash створыць субтытры з часовымі меткамі."
 )
 if __name__ == "__main__":