HviskeTiske
Hviske-Tiske er "nok" den hurtigste danske ASR model. Modellen er en distilleret version af hviske-v2.
I grove tal så øges hastigheden ca. 4x uden store tab i accuracy for hviske-v2, og dermed er det umiddelbart den hurtigste og næsten den mest præcise open source danske transskriberings model.
Ved lange lydfiler (30min +) så ses en forskel på 17 sekunder pr. fil. Samtidig fylder denne model kun ½delen på den nødvendige Vram på GPU. Dermed mindre krav til hardware for at køre den
HviskeV2 turbo model for CTranslate2
Modellen konverterre syvai/hviske-v2 til CTranslate2 model format for dermed at kunne køre transskriberingerne markant hurtigere.
Modellen kan blive brugt i python bibliotekker der understøtter CTranslate2 så som faster-whisper.
Example
from faster_whisper import WhisperModel
model = WhisperModel("pluttodk/hviske-tiske")
segments, info = model.transcribe("audio.mp3")
for segment in segments:
print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
Konvertering
Den originalle model er konverteret med følgende logik Github
Model vægtene er gemt i FP16, da det giver størst performance mæssigt Note that the model weights are saved in FP16. This type can be changed when the model is loaded using the compute_type option in CTranslate2.
Performance:
Performance er evalueret på alexandrainst/coral
, hvor alle lydbider er 5 sekunder. Dermed er det retvisende for performance i dette tilfælde. Ved simple test tyder det på at performance
går igen ved større lydfiler. (herunder note at faster-whisper-large-v3-turbo-ct2 præstere bedst ved 30 sekunders lydfiler)
Performance
Hastighed
For at teste hastighed, er der kørt på følgende længder lyd, hvor CER og WER fordeler sig også som i ovenstående plot
- 5 sekunder
- 10 sekunder
- 30 sekunder
- 1 minut
- 10 minutter
- 30 minutter
- Downloads last month
- 34
Model tree for pluttodk/hviske-tiske
Base model
openai/whisper-large-v3