Spaces:

anzorq
/

w2v-bert-2.0-kbd

Sleeping

anzorq commited on May 16, 2024

Commit

0c872e7

verified ·

1 Parent(s): bfb5ccb

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -7,6 +7,9 @@ from transformers import AutoModelForCTC, Wav2Vec2BertProcessor
 model = AutoModelForCTC.from_pretrained("anzorq/w2v-bert-2.0-kbd")
 processor = Wav2Vec2BertProcessor.from_pretrained("anzorq/w2v-bert-2.0-kbd")
 @spaces.GPU
 def transcribe_speech(audio):
     # Load the audio file
@@ -25,7 +28,7 @@ def transcribe_speech(audio):
     # Extract input features
     input_features = processor(waveform.unsqueeze(0), sampling_rate=16000).input_features
-    input_features = torch.from_numpy(input_features).to("cuda" if torch.cuda.is_available() else "cpu")
     # Generate logits using the model
     with torch.no_grad():

 model = AutoModelForCTC.from_pretrained("anzorq/w2v-bert-2.0-kbd")
 processor = Wav2Vec2BertProcessor.from_pretrained("anzorq/w2v-bert-2.0-kbd")
+device = "cuda" if torch.cuda.is_available() else "cpu"
+model.to(device)
 @spaces.GPU
 def transcribe_speech(audio):
     # Load the audio file
     # Extract input features
     input_features = processor(waveform.unsqueeze(0), sampling_rate=16000).input_features
+    input_features = torch.from_numpy(input_features).to(device)
     # Generate logits using the model
     with torch.no_grad():