Spaces:

Pranjal12345
/

Text_to_Speech

Sleeping

App Files Files Community

Text_to_Speech / app.py

Pranjal12345

Update app.py

1d9f047 almost 2 years ago

raw

history blame

1.99 kB

	import os
	import torch
	import gradio as gr
	import torchaudio
	import time
	from datetime import datetime
	from tortoise.api import TextToSpeech
	from tortoise.utils.audio import load_voice, load_voices

	VOICE_OPTIONS = [
	"angie",
	"deniro",
	"freeman",
	"random",
	]

	def inference(
	text,
	voice,
	preset_option,
	):

	texts = [text]

	voices = [voice]

	if len(voices) == 1:
	voice_samples, conditioning_latents = load_voice(voice)
	else:
	voice_samples, conditioning_latents = load_voices(voices)

	start_time = time.time()

	for j, text in enumerate(texts):
	for audio_frame in tts.tts_with_preset(
	text,
	voice_samples=voice_samples,
	conditioning_latents=conditioning_latents,
	preset= preset_option,
	k=1
	):
	yield (24000, audio_frame.cpu().detach().numpy())

	def main():
	title = "Tortoise TTS "

	text = gr.Textbox(
	lines=4,
	label="Text:",
	)

	voice = gr.Dropdown(
	VOICE_OPTIONS, value="jane_eyre", label="Select voice:", type="value"
	)

	preset_option = gr.Radio(
	["ultra_fast", "fast", "standard", "high_quality"],
	label="ultra_fast for quick inference and high_quality for better inference",
	type="value",
	value="ultra_fast",
	)

	output_audio = gr.Audio(label="streaming audio:", streaming=True, autoplay=True)
	interface = gr.Interface(
	fn=inference,
	inputs=[
	text,
	voice,
	preset_option,
	],
	title=title,
	outputs=[output_audio],
	)
	interface.queue().launch()

	if __name__ == "__main__":
	tts = TextToSpeech(kv_cache=True, use_deepspeed=True, half=True)

	with open("Tortoise_TTS_Runs_Scripts.log", "a") as f:
	f.write(
	f"\n\n-------------------------Tortoise TTS Scripts Logs, {datetime.now()}-------------------------\n"
	)

	main()