Spaces:

marioluciofjr
/

voxsense

Sleeping

App Files Files Community

marioluciofjr commited on Sep 28, 2024

Commit

2a78fb3

verified ·

1 Parent(s): cd626f7

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -23

app.py CHANGED Viewed

@@ -8,7 +8,7 @@ device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
 # Carregando o modelo Whisper avançado para transcrição de áudio
 transcriber = pipeline(
     task="automatic-speech-recognition",
-    model="openai/whisper-medium",  # Modelo mais avançado
     device=device,
     chunk_length_s=20,
     stride_length_s=5,
@@ -18,7 +18,7 @@ transcriber = pipeline(
 # Carregando o tokenizer lento para o classificador
 tokenizer = AutoTokenizer.from_pretrained(
     "joeddav/xlm-roberta-large-xnli",
-    use_fast=False  # Desativando o tokenizer rápido
 )
 # Carregando o pipeline de classificação zero-shot com o tokenizer lento
@@ -30,34 +30,34 @@ classifier = pipeline(
 )
 def transcribe_and_analyze(audio_file):
-    with gr.Progress(track_tqdm=True) as progress:
-        progress(0, desc="Iniciando transcrição...")
-        # Transcrevendo o áudio
-        transcription_result = transcriber(audio_file)
-        transcription = transcription_result["text"]
-        progress(50, desc="Transcrição concluída. Analisando emoções...")
-        # Lista atualizada de emoções para a classificação
-        emotions = ["alegria", "tristeza", "raiva", "nojo", "medo", "ansiedade", "vergonha", "tédio", "inveja"]
-        # Realizando a classificação zero-shot na transcrição
-        classification = classifier(transcription, emotions, multi_label=True)
-        # Formatando os resultados
-        results = []
-        for label, score in zip(classification["labels"], classification["scores"]):
-            results.append(f"{label.capitalize()}: {score:.2f}")
-        # Ordenando os resultados por score decrescente
-        results.sort(key=lambda x: float(x.split(": ")[1]), reverse=True)
-        # Unindo os resultados em uma string
-        emotion_output = "\n".join(results)
-        progress(100, desc="Processamento concluído.")
-        return transcription, emotion_output
 # Criando a interface Gradio com barra de progresso
 interface = gr.Interface(
@@ -73,4 +73,4 @@ interface = gr.Interface(
 )
 if __name__ == "__main__":
-    interface.launch()

 # Carregando o modelo Whisper avançado para transcrição de áudio
 transcriber = pipeline(
     task="automatic-speech-recognition",
+    model="openai/whisper-medium",
     device=device,
     chunk_length_s=20,
     stride_length_s=5,
 # Carregando o tokenizer lento para o classificador
 tokenizer = AutoTokenizer.from_pretrained(
     "joeddav/xlm-roberta-large-xnli",
+    use_fast=False
 )
 # Carregando o pipeline de classificação zero-shot com o tokenizer lento
 )
 def transcribe_and_analyze(audio_file):
+    progress = gr.Progress(track_tqdm=True)
+    progress(0, desc="Iniciando transcrição...")
+    # Transcrevendo o áudio
+    transcription_result = transcriber(audio_file)
+    transcription = transcription_result["text"]
+    progress(50, desc="Transcrição concluída. Analisando emoções...")
+    # Lista de emoções para a classificação
+    emotions = ["alegria", "tristeza", "raiva", "nojo", "medo", "ansiedade", "vergonha", "tédio", "inveja"]
+    # Realizando a classificação zero-shot
+    classification = classifier(transcription, emotions, multi_label=True)
+    # Formatando os resultados
+    results = []
+    for label, score in zip(classification["labels"], classification["scores"]):
+        results.append(f"{label.capitalize()}: {score:.2f}")
+    # Ordenando os resultados por score decrescente
+    results.sort(key=lambda x: float(x.split(": ")[1]), reverse=True)
+    # Unindo os resultados em uma string
+    emotion_output = "\n".join(results)
+    progress(100, desc="Processamento concluído.")
+    return transcription, emotion_output
 # Criando a interface Gradio com barra de progresso
 interface = gr.Interface(
 )
 if __name__ == "__main__":
+    interface.queue().launch()