Macedonian-ASR
/

whisper-large-v3-macedonian-asr

Model card Files Files and versions Community

Porjaz commited on Sep 30, 2024

Commit

b3b62d6

·

verified ·

1 Parent(s): c31791e

Update custom_interface.py

Files changed (1) hide show

custom_interface.py +7 -18

custom_interface.py CHANGED Viewed

@@ -11,25 +11,14 @@ class ASR(Pretrained):
         wavs = wavs.to(device)
         wav_lens = wav_lens.to(device)
-        # Forward pass
-        encoded_outputs = self.mods.encoder_w2v2(wavs.detach())
-        # append
-        tokens_bos = torch.zeros((wavs.size(0), 1), dtype=torch.long).to(device)
-        embedded_tokens = self.mods.embedding(tokens_bos)
-        decoder_outputs, _ = self.mods.decoder(embedded_tokens, encoded_outputs, wav_lens)
-        # Output layer for seq2seq log-probabilities
-        predictions = self.hparams.test_search(encoded_outputs, wav_lens)[0]
-        # predicted_words = [self.hparams.tokenizer.decode_ids(prediction).split(" ") for prediction in predictions]
-        predicted_words = []
-        for prediction in predictions:
-            prediction = [token for token in prediction if token != 0]
-            predicted_words.append(self.hparams.tokenizer.decode_ids(prediction).split(" "))
-        prediction = []
-        for sent in predicted_words:
-            sent = self.filter_repetitions(sent, 3)
-            prediction.append(sent)
-        predicted_words = prediction
         return predicted_words
     def filter_repetitions(self, seq, max_repetition_length):

         wavs = wavs.to(device)
         wav_lens = wav_lens.to(device)
+        # Forward encoder + decoder
+        tokens = torch.tensor([[1, 1]]) * self.mods.whisper.config.decoder_start_token_id
+        tokens = tokens.to(device)
+        enc_out, logits, _ = self.mods.whisper(wavs, tokens)
+        log_probs = self.hparams.log_softmax(logits)
+        hyps, _, _, _ = self.hparams.test_search(enc_out.detach(), wav_lens)
+        predicted_words = [self.mods.whisper.tokenizer.decode(token, skip_special_tokens=True).strip() for token in hyps]
         return predicted_words
     def filter_repetitions(self, seq, max_repetition_length):