Spaces:

marioluciofjr
/

voxsense

Sleeping

App Files Files Community

voxsense / app.py

marioluciofjr

Update app.py

5c4b08e verified 6 months ago

raw

history blame

2.14 kB

	import gradio as gr
	from transformers import pipeline, AutoTokenizer
	import torch

	# Verificando se a GPU está disponível
	device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

	# Carregando o modelo Whisper para transcrição de áudio
	transcriber = pipeline(
	task="automatic-speech-recognition",
	model="openai/whisper-small",
	device=device
	)

	# Carregando o tokenizer lento para o classificador
	tokenizer = AutoTokenizer.from_pretrained(
	"joeddav/xlm-roberta-large-xnli",
	use_fast=False # Desativando o tokenizer rápido
	)

	# Carregando o pipeline de classificação zero-shot com o tokenizer lento
	classifier = pipeline(
	"zero-shot-classification",
	model="joeddav/xlm-roberta-large-xnli",
	tokenizer=tokenizer,
	device=device
	)

	def transcribe_and_analyze(audio_file):
	"""
	Recebe um arquivo de áudio, transcreve e analisa as emoções presentes.
	"""
	# Transcrevendo o áudio
	transcription = transcriber(audio_file)["text"]

	# Lista de emoções para a classificação
	emotions = ["medo", "rancor", "ódio", "raiva", "felicidade", "amor", "tristeza", "ansiedade", "inveja", "sarcasmo", "vergonha"]

	# Realizando a classificação zero-shot na transcrição
	classification = classifier(transcription, emotions, multi_label=True)

	# Formatando os resultados
	results = []
	for label, score in zip(classification["labels"], classification["scores"]):
	results.append(f"{label}: {score:.2f}")

	# Unindo os resultados em uma string
	emotion_output = "\n".join(results)

	return transcription, emotion_output

	# Criando a interface Gradio
	interface = gr.Interface(
	fn=transcribe_and_analyze,
	inputs=gr.Audio(type="filepath", label="Faça upload do seu áudio"),
	outputs=[
	gr.Textbox(label="Transcrição do Áudio"),
	gr.Textbox(label="Emoções Detectadas")
	],
	title="Voxsense 🗣️❣️",
	description="Envie um arquivo de áudio de até 1 hora para transcrição e análise de emoções.",
	theme="default"
	)

	if __name__ == "__main__":
	interface.launch()