Spaces:

pratikshahp
/

audio-to-text-conversion

Runtime error

pratikshahp commited on Mar 26, 2024

Commit

b521892

verified ·

1 Parent(s): 821e791

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -12,12 +12,23 @@ from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
 def transcribe_audio(audio_bytes):
     processor = AutoProcessor.from_pretrained("openai/whisper-large")
     model = AutoModelForSpeechSeq2Seq.from_pretrained("openai/whisper-large")
     audio_array = np.frombuffer(audio_bytes, dtype=np.int16)
     audio_tensor = torch.tensor(audio_array, dtype=torch.float64) / 32768.0
-    inputs = processor(feature_extractor=audio_tensor, sampling_rate=16000, return_tensors="pt")
     logits = model(**inputs).logits
     predicted_ids = torch.argmax(logits, dim=-1)
     transcription = processor.decode(predicted_ids[0])
     return transcription

 def transcribe_audio(audio_bytes):
     processor = AutoProcessor.from_pretrained("openai/whisper-large")
     model = AutoModelForSpeechSeq2Seq.from_pretrained("openai/whisper-large")
+    # Convert audio bytes to numpy array
     audio_array = np.frombuffer(audio_bytes, dtype=np.int16)
+    # Normalize audio array
     audio_tensor = torch.tensor(audio_array, dtype=torch.float64) / 32768.0
+    # Provide inputs to the processor
+    inputs = processor(audio=audio_tensor, sampling_rate=16000, return_tensors="pt")
+    # Generate logits from the model
     logits = model(**inputs).logits
+    # Decode the predicted IDs to get the transcription
     predicted_ids = torch.argmax(logits, dim=-1)
     transcription = processor.decode(predicted_ids[0])
     return transcription