gchhablani
/

wav2vec2-large-xlsr-mr-3

Automatic Speech Recognition

xlsr-fine-tuning-week

Inference Endpoints

Model card Files Files and versions Community

gchhablani commited on Mar 26, 2021

Commit

ec5a7fc

·

1 Parent(s): 02f2518

Update README.md

Files changed (1) hide show

README.md +4 -5

README.md CHANGED Viewed

@@ -37,6 +37,7 @@ The model can be used directly (without a language model) as follows, assuming y
 ```python
 import torch
 import torchaudio
 from datasets import load_dataset
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
@@ -45,10 +46,6 @@ from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
 processor = Wav2Vec2Processor.from_pretrained("gchhablani/wav2vec2-large-xlsr-mr-3")
 model = Wav2Vec2ForCTC.from_pretrained("gchhablani/wav2vec2-large-xlsr-mr-3")
-import librosa
-import numpy as np
 # Preprocessing the datasets.
 # We need to read the audio files as arrays
 def speech_file_to_array_fn(batch):
@@ -76,6 +73,7 @@ The model can be evaluated as follows on 10% of the Marathi data on OpenSLR.
 ```python
 import torch
 import torchaudio
 from datasets import load_dataset, load_metric
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
 import re
@@ -89,6 +87,7 @@ model.to("cuda")
 chars_to_ignore_regex = '[\,\?\.\!\-\;\:\"\“\%\‘\”\�\–\…]'
 # Preprocessing the datasets.
 # We need to read the audio files as arrays
 def speech_file_to_array_fn(batch):
@@ -113,7 +112,7 @@ result = test_data.map(evaluate, batched=True, batch_size=8)
 print("WER: {:2f}".format(100 * wer.compute(predictions=result["pred_strings"], references=result["text"])))
 ```
-**Test Result**: 19.05 %
 **Test Result on OpenSLR test**: 14.15 % (157 examples)

 ```python
 import torch
 import torchaudio
+import librosa
 from datasets import load_dataset
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
 processor = Wav2Vec2Processor.from_pretrained("gchhablani/wav2vec2-large-xlsr-mr-3")
 model = Wav2Vec2ForCTC.from_pretrained("gchhablani/wav2vec2-large-xlsr-mr-3")
 # Preprocessing the datasets.
 # We need to read the audio files as arrays
 def speech_file_to_array_fn(batch):
 ```python
 import torch
 import torchaudio
+import librosa
 from datasets import load_dataset, load_metric
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
 import re
 chars_to_ignore_regex = '[\,\?\.\!\-\;\:\"\“\%\‘\”\�\–\…]'
 # Preprocessing the datasets.
 # We need to read the audio files as arrays
 def speech_file_to_array_fn(batch):
 print("WER: {:2f}".format(100 * wer.compute(predictions=result["pred_strings"], references=result["text"])))
 ```
+**Test Result**: 19.05 % (157+157 examples)
 **Test Result on OpenSLR test**: 14.15 % (157 examples)