Rolv-Arild
/

xls-r-300m-npsc-seq2seq

Automatic Speech Recognition

Transformers

PyTorch

TensorBoard

speech-encoder-decoder

Generated from Trainer

Model card Files Files and versions Metrics Training metrics Community

Rolv-Arild commited on Feb 10, 2022

Commit

fcff61b

1 Parent(s): eec3f65

Add bandaid for empty strings

Browse files

Files changed (1) hide show

run_speech_recognition_seq2seq.py +12 -9

run_speech_recognition_seq2seq.py CHANGED Viewed

@@ -46,7 +46,6 @@ from transformers.trainer_utils import get_last_checkpoint, is_main_process
 from transformers.utils import check_min_version
 from transformers.utils.versions import require_version
 # Will error if the minimal version of Transformers is not installed. Remove at your own risks.
 check_min_version("4.17.0.dev0")
@@ -89,7 +88,7 @@ class ModelArguments:
         default=False,
         metadata={
             "help": "Will use the token generated when running `transformers-cli login` (necessary to use this script "
-            "with private models)."
         },
     )
     freeze_feature_encoder: bool = field(
@@ -124,14 +123,14 @@ class DataTrainingArguments:
         default=None,
         metadata={
             "help": "For debugging purposes or quicker training, truncate the number of training examples to this "
-            "value if set."
         },
     )
     max_eval_samples: Optional[int] = field(
         default=None,
         metadata={
             "help": "For debugging purposes or quicker training, truncate the number of evaluation examples to this "
-            "value if set."
         },
     )
     audio_column_name: str = field(
@@ -155,9 +154,9 @@ class DataTrainingArguments:
         default=False,
         metadata={
             "help": "Whether to only do data preprocessing and skip training. "
-            "This is especially useful when data preprocessing errors out in distributed training due to timeout. "
-            "In this case, one should run the preprocessing in a non-distributed setup with `preprocessing_only=True` "
-            "so that the cached datasets can consequently be loaded in distributed training"
         },
     )
     train_split_name: str = field(
@@ -283,12 +282,14 @@ def main():
     if training_args.do_train:
         raw_datasets["train"] = load_dataset(
-            data_args.dataset_name, data_args.dataset_config_name, split=data_args.train_split_name, cache_dir=data_args.data_cache_dir
         )
     if training_args.do_eval:
         raw_datasets["eval"] = load_dataset(
-            data_args.dataset_name, data_args.dataset_config_name, split=data_args.eval_split_name, cache_dir=data_args.data_cache_dir
         )
     if data_args.audio_column_name not in next(iter(raw_datasets.values())).column_names:
@@ -378,6 +379,8 @@ def main():
         input_str = batch[text_column_name].lower() if do_lower_case else batch[text_column_name]
         input_str = re.sub(r"<\*?(ee|qq|mm|inaudible)>", "", input_str, re.IGNORECASE)
         batch["labels"] = tokenizer(input_str).input_ids
         return batch

 from transformers.utils import check_min_version
 from transformers.utils.versions import require_version
 # Will error if the minimal version of Transformers is not installed. Remove at your own risks.
 check_min_version("4.17.0.dev0")
         default=False,
         metadata={
             "help": "Will use the token generated when running `transformers-cli login` (necessary to use this script "
+                    "with private models)."
         },
     )
     freeze_feature_encoder: bool = field(
         default=None,
         metadata={
             "help": "For debugging purposes or quicker training, truncate the number of training examples to this "
+                    "value if set."
         },
     )
     max_eval_samples: Optional[int] = field(
         default=None,
         metadata={
             "help": "For debugging purposes or quicker training, truncate the number of evaluation examples to this "
+                    "value if set."
         },
     )
     audio_column_name: str = field(
         default=False,
         metadata={
             "help": "Whether to only do data preprocessing and skip training. "
+                    "This is especially useful when data preprocessing errors out in distributed training due to timeout. "
+                    "In this case, one should run the preprocessing in a non-distributed setup with `preprocessing_only=True` "
+                    "so that the cached datasets can consequently be loaded in distributed training"
         },
     )
     train_split_name: str = field(
     if training_args.do_train:
         raw_datasets["train"] = load_dataset(
+            data_args.dataset_name, data_args.dataset_config_name, split=data_args.train_split_name,
+            cache_dir=data_args.data_cache_dir
         )
     if training_args.do_eval:
         raw_datasets["eval"] = load_dataset(
+            data_args.dataset_name, data_args.dataset_config_name, split=data_args.eval_split_name,
+            cache_dir=data_args.data_cache_dir
         )
     if data_args.audio_column_name not in next(iter(raw_datasets.values())).column_names:
         input_str = batch[text_column_name].lower() if do_lower_case else batch[text_column_name]
         input_str = re.sub(r"<\*?(ee|qq|mm|inaudible)>", "", input_str, re.IGNORECASE)
+        if len(input_str) == 0:
+            input_str = "."  # bandaid
         batch["labels"] = tokenizer(input_str).input_ids
         return batch