mispeech
/

ced-base

jimbozhang commited on Feb 15, 2024

Commit

db12bbd

verified ·

1 Parent(s): 9cd3efa

Update README.md

Files changed (1) hide show

README.md CHANGED Viewed

@@ -31,20 +31,21 @@ pip install -r requirements.txt
 >>> from ced_model.feature_extraction_ced import CedFeatureExtractor
 >>> from ced_model.modeling_ced import CedForAudioClassification
->>> model_id = "mispeech/ced-base"
->>> feature_extractor = CedFeatureExtractor.from_pretrained(model_id)
->>> model = CedForAudioClassification.from_pretrained(model_id)
 >>> import torchaudio
 >>> audio, sampling_rate = torchaudio.load("resources/JeD5V5aaaoI_931_932.wav")
 >>> inputs = feature_extractor(audio, sampling_rate=sampling_rate, return_tensors="pt")
 >>> with torch.no_grad():
 ...     logits = model(**inputs).logits
->>> import torch
->>> predicted_class_ids = torch.argmax(logits, dim=-1).item()
->>> model.config.id2label[predicted_class_ids]
 'Finger snapping'
 ```

 >>> from ced_model.feature_extraction_ced import CedFeatureExtractor
 >>> from ced_model.modeling_ced import CedForAudioClassification
+>>> model_name = "mispeech/ced-base"
+>>> feature_extractor = CedFeatureExtractor.from_pretrained(model_name)
+>>> model = CedForAudioClassification.from_pretrained(model_name)
 >>> import torchaudio
 >>> audio, sampling_rate = torchaudio.load("resources/JeD5V5aaaoI_931_932.wav")
+>>> assert sampling_rate == 16000
 >>> inputs = feature_extractor(audio, sampling_rate=sampling_rate, return_tensors="pt")
+>>> import torch
 >>> with torch.no_grad():
 ...     logits = model(**inputs).logits
+>>> predicted_class_id = torch.argmax(logits, dim=-1).item()
+>>> model.config.id2label[predicted_class_id]
 'Finger snapping'
 ```