Spaces:

marioluciofjr
/

voxsense

Sleeping

App Files Files Community

marioluciofjr commited on Sep 28, 2024

Commit

1e35c36

verified ·

1 Parent(s): 3e8d071

Update app.py

Browse files

Files changed (1) hide show

app.py +9 -14

app.py CHANGED Viewed

@@ -1,7 +1,6 @@
 import gradio as gr
 from transformers import pipeline, AutoTokenizer
 import torch
-from transformers.pipelines.audio_utils import ffmpeg_read
 # Verificando se a GPU está disponível
 device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
@@ -9,8 +8,10 @@ device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
 # Carregando o modelo Whisper para transcrição de áudio
 transcriber = pipeline(
     task="automatic-speech-recognition",
-    model="openai/whisper-medium",  # Você pode alterar para 'openai/whisper-small' para maior velocidade
     device=device,
     generate_kwargs={"language": "Portuguese", "task": "transcribe"}
 )
@@ -32,22 +33,15 @@ def transcribe_and_analyze(audio_file):
     progress = gr.Progress(track_tqdm=True)
     progress(0, desc="Iniciando transcrição...")
-    # Abrindo o arquivo de áudio em modo binário
-    with open(audio_file, 'rb') as f:
-        bpayload = f.read()
-    # Lendo os dados de áudio usando ffmpeg_read
-    audio_data = ffmpeg_read(bpayload, sampling_rate=16000)
-    # Transcrevendo o áudio
-    transcription_result = transcriber(audio_data)
     transcription = transcription_result["text"]
     progress(50, desc="Transcrição concluída. Analisando emoções...")
     # Lista de emoções para a classificação
     emotions = ["alegria", "tristeza", "raiva", "nojo", "medo", "ansiedade", "vergonha", "tédio", "inveja"]
-    # Realizando a classificação zero-shot na transcrição
     classification = classifier(transcription, emotions, multi_label=True)
     # Formatando os resultados
@@ -58,6 +52,7 @@ def transcribe_and_analyze(audio_file):
     # Ordenando os resultados por score decrescente
     results.sort(key=lambda x: float(x.split(": ")[1]), reverse=True)
     emotion_output = "\n".join(results)
     progress(100, desc="Processamento concluído.")
@@ -73,9 +68,9 @@ interface = gr.Interface(
         gr.Textbox(label="Emoções Detectadas")
     ],
     title="Voxsense 🗣️❣️",
-    description="Envie um arquivo de áudio para transcrição e análise de emoções.",
     theme="default"
 )
 if __name__ == "__main__":
-    interface.queue().launch()

 import gradio as gr
 from transformers import pipeline, AutoTokenizer
 import torch
 # Verificando se a GPU está disponível
 device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
 # Carregando o modelo Whisper para transcrição de áudio
 transcriber = pipeline(
     task="automatic-speech-recognition",
+    model="openai/whisper-medium",
     device=device,
+    chunk_length_s=30,  # Definindo chunk_length_s para 30 segundos
+    stride_length_s=5,
     generate_kwargs={"language": "Portuguese", "task": "transcribe"}
 )
     progress = gr.Progress(track_tqdm=True)
     progress(0, desc="Iniciando transcrição...")
+    # Transcrevendo o áudio com return_timestamps=True
+    transcription_result = transcriber(audio_file, return_timestamps=True)
     transcription = transcription_result["text"]
     progress(50, desc="Transcrição concluída. Analisando emoções...")
     # Lista de emoções para a classificação
     emotions = ["alegria", "tristeza", "raiva", "nojo", "medo", "ansiedade", "vergonha", "tédio", "inveja"]
+    # Realizando a classificação zero-shot
     classification = classifier(transcription, emotions, multi_label=True)
     # Formatando os resultados
     # Ordenando os resultados por score decrescente
     results.sort(key=lambda x: float(x.split(": ")[1]), reverse=True)
+    # Unindo os resultados em uma string
     emotion_output = "\n".join(results)
     progress(100, desc="Processamento concluído.")
         gr.Textbox(label="Emoções Detectadas")
     ],
     title="Voxsense 🗣️❣️",
+    description="Envie um arquivo de áudio de até 1 hora para transcrição e análise de emoções.",
     theme="default"
 )
 if __name__ == "__main__":
+    interface.queue().launch()