NbAiLab
/

wav2vec2-large-voxrex-npsc-nst

Automatic Speech Recognition

Generated from Trainer

Model card Files Files and versions Community

Rolv-Arild commited on May 4, 2022

Commit

57f88c8

·

1 Parent(s): 8773566

Fix vocabulary creation

Files changed (1) hide show

run_speech_recognition_ctc.py +8 -8

run_speech_recognition_ctc.py CHANGED Viewed

@@ -314,14 +314,14 @@ def create_vocabulary_from_data(
         all_text = " ".join(batch["target_text"])
         alphabet.update(all_text)
-    # vocabs = datasets.map(
-    #     extract_all_chars,
-    #     batched=True,
-    #     batch_size=-1,
-    #     keep_in_memory=True,
-    #     remove_columns=datasets["train"].column_names,
-    # )
-    #
     # # take union of all unique characters in each dataset
     # vocab_set = functools.reduce(
     #     lambda vocab_1, vocab_2: {"vocab": list(set(vocab_1["vocab"][0]) | set(vocab_2["vocab"][0]))}, vocabs.values()

         all_text = " ".join(batch["target_text"])
         alphabet.update(all_text)
+    datasets.map(
+        extract_all_chars,
+        batched=True,
+        batch_size=-1,
+        keep_in_memory=True,
+        remove_columns=datasets["train"].column_names,
+    )
     # # take union of all unique characters in each dataset
     # vocab_set = functools.reduce(
     #     lambda vocab_1, vocab_2: {"vocab": list(set(vocab_1["vocab"][0]) | set(vocab_2["vocab"][0]))}, vocabs.values()