Spaces:

andgrt
/

doc-qa-demo-gradio

Runtime error

App Files Files Community

andgrt commited on Nov 3, 2024

Commit

55b76ac

1 Parent(s): 36e06f1

udp: voice input

Browse files

Files changed (1) hide show

app.py +29 -9

app.py CHANGED Viewed

@@ -4,23 +4,28 @@ from transformers import (
     AutoModelForSeq2SeqLM,
     AutoProcessor,
     AutoModelForDocumentQuestionAnswering,
 )
 import torch
 processor = AutoProcessor.from_pretrained(
-    "MariaK/layoutlmv2-base-uncased_finetuned_docvqa_v2"
 )
 model = AutoModelForDocumentQuestionAnswering.from_pretrained(
-    "MariaK/layoutlmv2-base-uncased_finetuned_docvqa_v2"
 )
 tokenizer_ru2en = AutoTokenizer.from_pretrained("Helsinki-NLP/opus-mt-ru-en")
 model_ru2en = AutoModelForSeq2SeqLM.from_pretrained("Helsinki-NLP/opus-mt-ru-en")
 tokenizer_en2ru = AutoTokenizer.from_pretrained("Helsinki-NLP/opus-mt-en-ru")
 model_en2ru = AutoModelForSeq2SeqLM.from_pretrained("Helsinki-NLP/opus-mt-en-ru")
 def translate_ru2en(text):
     inputs = tokenizer_ru2en(text, return_tensors="pt")
     outputs = model_ru2en.generate(**inputs)
@@ -35,8 +40,8 @@ def translate_en2ru(text):
     return translated_text
 def generate_answer_git(image, question):
     with torch.no_grad():
         encoding = processor(
             images=image,
@@ -68,25 +73,40 @@ def generate_answer(image, question):
     return answer_ru
-examples = [
-    ["doc.png", "О чем данный документ?"],
-]
 interface = gr.Interface(
     fn=generate_answer,
     inputs=[
         gr.Image(type="pil"),
         gr.Textbox(label="Вопрос (на русском)", placeholder="Ваш вопрос"),
     ],
     outputs=gr.Textbox(label="Ответ (на русском)"),
-    examples=examples,
     title="Демо визуального ответчика на вопросы (на русском)",
     description=(
         "Gradio демо для модели doc-qa с переводом вопросов и ответов"
         "на русский язык. Загрузите изображение и задайте вопрос, чтобы"
         "получить ответ. Вы также можете использовать голосовой ввод!"
     ),
-    allow_flagging="never",
 )
 interface.launch(debug=True, share=True)

     AutoModelForSeq2SeqLM,
     AutoProcessor,
     AutoModelForDocumentQuestionAnswering,
+    pipeline,
 )
 import torch
+import numpy as np
 processor = AutoProcessor.from_pretrained(
+    "andgrt/layoutlmv2-base-uncased_finetuned_docvqa"
 )
 model = AutoModelForDocumentQuestionAnswering.from_pretrained(
+    "andgrt/layoutlmv2-base-uncased_finetuned_docvqa"
 )
 tokenizer_ru2en = AutoTokenizer.from_pretrained("Helsinki-NLP/opus-mt-ru-en")
 model_ru2en = AutoModelForSeq2SeqLM.from_pretrained("Helsinki-NLP/opus-mt-ru-en")
 tokenizer_en2ru = AutoTokenizer.from_pretrained("Helsinki-NLP/opus-mt-en-ru")
 model_en2ru = AutoModelForSeq2SeqLM.from_pretrained("Helsinki-NLP/opus-mt-en-ru")
+# Load the speech recognition model
+transcriber = pipeline("automatic-speech-recognition", model="openai/whisper-base.en")
+# Functions for translation
 def translate_ru2en(text):
     inputs = tokenizer_ru2en(text, return_tensors="pt")
     outputs = model_ru2en.generate(**inputs)
     return translated_text
+# Function to generate answers
 def generate_answer_git(image, question):
     with torch.no_grad():
         encoding = processor(
             images=image,
     return answer_ru
+def transcribe(stream, new_chunk):
+    sr, y = new_chunk
+    # Convert to mono if stereo
+    if y.ndim > 1:
+        y = y.mean(axis=1)
+    y = y.astype(np.float32)
+    y /= np.max(np.abs(y))
+    if stream is not None:
+        stream = np.concatenate([stream, y])
+    else:
+        stream = y
+    return stream, transcriber({"sampling_rate": sr, "raw": stream})["text"]
+# Gradio Interface
 interface = gr.Interface(
     fn=generate_answer,
     inputs=[
         gr.Image(type="pil"),
         gr.Textbox(label="Вопрос (на русском)", placeholder="Ваш вопрос"),
+        gr.Audio(source="microphone", streaming=True, label="Голосовой ввод"),
     ],
     outputs=gr.Textbox(label="Ответ (на русском)"),
+    examples=[["doc.png", "О чем данный документ?"]],
     title="Демо визуального ответчика на вопросы (на русском)",
     description=(
         "Gradio демо для модели doc-qa с переводом вопросов и ответов"
         "на русский язык. Загрузите изображение и задайте вопрос, чтобы"
         "получить ответ. Вы также можете использовать голосовой ввод!"
     ),
+    live=True,
 )
 interface.launch(debug=True, share=True)