Dificuldade em usar REF_AUDIO e REF_TEXT

#8
by MarvinBelfort - opened

Olá! Quando utilizo o modelo sem REF_AUDIO e REF_TEXT ele funciona bem, com a voz padrão.
Quando tento utilizar com REF_AUDIO e REF_TEXT, ele consegue clonar o timbre da voz, mas as palavras ficam irreconhecíveis (coisas sem sentido). Estou usando assim:

 #!/bin/bash
f5-tts_infer-cli  \
   --REF_AUDIO "samples/refaudio/myvoice.mp3"  \ #contém audio em PT BR
   --REF_TEXT "samples/refaudio/myvoice.txt"  \ #contém a transcrição 
   --CKPT_FILE "modelos/model_last.pt"  \
   --GEN_TEXT "Isso é um teste de geração de áudio em português Brasileiro"  \
   -w resultado.wav

Poderia me orientar no que posso estar fazendo errado? Obrigado!

Veja se o texto da referência(REF_TEXT) bate com o do audio de referência (REF_AUDIO), normalmente isso acontece quando o audio de referência tem um texto que não condiz.

Sign up or log in to comment