firstpixel/F5-TTS-pt-br · Dificuldade em usar REF_AUDIO e REF

Olá! Quando utilizo o modelo sem REF_AUDIO e REF_TEXT ele funciona bem, com a voz padrão.
Quando tento utilizar com REF_AUDIO e REF_TEXT, ele consegue clonar o timbre da voz, mas as palavras ficam irreconhecíveis (coisas sem sentido). Estou usando assim:

 #!/bin/bash
f5-tts_infer-cli  \
   --REF_AUDIO "samples/refaudio/myvoice.mp3"  \ #contém audio em PT BR
   --REF_TEXT "samples/refaudio/myvoice.txt"  \ #contém a transcrição 
   --CKPT_FILE "modelos/model_last.pt"  \
   --GEN_TEXT "Isso é um teste de geração de áudio em português Brasileiro"  \
   -w resultado.wav

Poderia me orientar no que posso estar fazendo errado? Obrigado!

firstpixel
/

F5-TTS-pt-br

Dificuldade em usar REF_AUDIO e REF_TEXT