Spaces:

andgrt
/

doc-qa-demo-gradio

Runtime error

andgrt commited on Nov 3, 2024

Commit

1e19f64

1 Parent(s): 86e6582

upd: speech-to-text

Files changed (1) hide show

app.py CHANGED Viewed

@@ -7,7 +7,6 @@ from transformers import (
     pipeline,
 )
 import torch
-import torchaudio
 processor = AutoProcessor.from_pretrained(
     "MariaK/layoutlmv2-base-uncased_finetuned_docvqa_v2"
@@ -22,7 +21,7 @@ tokenizer_en2ru = AutoTokenizer.from_pretrained("Helsinki-NLP/opus-mt-en-ru")
 model_en2ru = AutoModelForSeq2SeqLM.from_pretrained("Helsinki-NLP/opus-mt-en-ru")
 transcriber = pipeline(
-    "automatic-speech-recognition", model="artyomboyko/whisper-base-fine_tuned-ru"
 )
@@ -80,30 +79,7 @@ def transcribe(image, audio):
     if y.ndim > 1:
         y = y.mean(axis=1)
-    y_tensor = torch.tensor(y, dtype=torch.float32)
-    print(y.shape)
-    if sr != 16000:
-        resampler = torchaudio.transforms.Resample(orig_freq=sr, new_freq=16000)
-        y_tensor = resampler(y_tensor)
-        sr = 16000
-    y_tensor /= torch.max(torch.abs(y_tensor))
-    y = y_tensor.numpy()
-    print(y.shape)
-    input_features = transcriber.feature_extractor(
-        y, sampling_rate=sr, return_tensors="pt"
-    ).input_features
-    print(input_features.shape)
-    print(input_features)
-    transcription = transcriber.model.generate(input_features)
-    transcription_text = transcriber.tokenizer.decode(
-        transcription[0], skip_special_tokens=True
-    )
     return generate_answer(image, transcription_text)

     pipeline,
 )
 import torch
 processor = AutoProcessor.from_pretrained(
     "MariaK/layoutlmv2-base-uncased_finetuned_docvqa_v2"
 model_en2ru = AutoModelForSeq2SeqLM.from_pretrained("Helsinki-NLP/opus-mt-en-ru")
 transcriber = pipeline(
+    "automatic-speech-recognition", model="lorenzoncina/whisper-medium-ru"
 )
     if y.ndim > 1:
         y = y.mean(axis=1)
+    transcription_text = transcriber({"sampling_rate": sr, "raw": y})["text"]
     return generate_answer(image, transcription_text)