Spaces:

marioluciofjr
/

voxsense

Sleeping

App Files Files Community

marioluciofjr commited on Sep 28, 2024

Commit

cd73846

verified ·

1 Parent(s): a967527

Update app.py

Browse files

Files changed (1) hide show

app.py +35 -32

app.py CHANGED Viewed

@@ -5,11 +5,14 @@ import torch
 # Verificando se a GPU está disponível
 device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
-# Carregando o modelo Whisper para transcrição de áudio
 transcriber = pipeline(
     task="automatic-speech-recognition",
-    model="openai/whisper-small",
-    device=device
 )
 # Carregando o tokenizer lento para o classificador
@@ -27,36 +30,36 @@ classifier = pipeline(
 )
 def transcribe_and_analyze(audio_file):
-    """
-    Recebe um arquivo de áudio, transcreve e analisa as emoções presentes.
-    """
-    # Transcrevendo o áudio em chunks de 30 segundos com sobreposição de 5 segundos
-    transcription = transcriber(
-        audio_file,
-        chunk_length_s=30,
-        stride_length_s=5
-    )["text"]
-    # Lista atualizada de emoções para a classificação
-    emotions = ["alegria", "tristeza", "raiva", "nojo", "medo", "ansiedade", "vergonha", "tédio", "inveja"]
-    # Realizando a classificação zero-shot na transcrição
-    classification = classifier(transcription, emotions, multi_label=True)
-    # Formatando os resultados
-    results = []
-    for label, score in zip(classification["labels"], classification["scores"]):
-        results.append(f"{label.capitalize()}: {score:.2f}")
-    # Ordenando os resultados por score decrescente
-    results.sort(key=lambda x: float(x.split(": ")[1]), reverse=True)
-    # Unindo os resultados em uma string
-    emotion_output = "\n".join(results)
-    return transcription, emotion_output
-# Criando a interface Gradio
 interface = gr.Interface(
     fn=transcribe_and_analyze,
     inputs=gr.Audio(type="filepath", label="Faça upload do seu áudio"),

 # Verificando se a GPU está disponível
 device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
+# Carregando o modelo Whisper avançado para transcrição de áudio
 transcriber = pipeline(
     task="automatic-speech-recognition",
+    model="openai/whisper-large-v2",  # Modelo mais avançado
+    device=device,
+    chunk_length_s=30,
+    stride_length_s=5,
+    generate_kwargs={"language": "Portuguese", "task": "transcribe"}
 )
 # Carregando o tokenizer lento para o classificador
 )
 def transcribe_and_analyze(audio_file):
+    with gr.Progress(track_tqdm=True) as progress:
+        progress(0, desc="Iniciando transcrição...")
+        # Transcrevendo o áudio
+        transcription_result = transcriber(audio_file)
+        transcription = transcription_result["text"]
+        progress(50, desc="Transcrição concluída. Analisando emoções...")
+        # Lista atualizada de emoções para a classificação
+        emotions = ["alegria", "tristeza", "raiva", "nojo", "medo", "ansiedade", "vergonha", "tédio", "inveja"]
+        # Realizando a classificação zero-shot na transcrição
+        classification = classifier(transcription, emotions, multi_label=True)
+        # Formatando os resultados
+        results = []
+        for label, score in zip(classification["labels"], classification["scores"]):
+            results.append(f"{label.capitalize()}: {score:.2f}")
+        # Ordenando os resultados por score decrescente
+        results.sort(key=lambda x: float(x.split(": ")[1]), reverse=True)
+        # Unindo os resultados em uma string
+        emotion_output = "\n".join(results)
+        progress(100, desc="Processamento concluído.")
+        return transcription, emotion_output
+# Criando a interface Gradio com barra de progresso
 interface = gr.Interface(
     fn=transcribe_and_analyze,
     inputs=gr.Audio(type="filepath", label="Faça upload do seu áudio"),