Spaces:

mirari
/

whisper

Runtime error

File size: 7,056 Bytes

import gradio as gr

from pytube import YouTube #Para descargar los videos
from pydub import AudioSegment
import pydub #Para trabajar con el audio

import os
import os.path as osp
from mlxtend.file_io import find_files
from mlxtend.utils import Counter

import re #Para la parte de normalizar
import string 
import nltk
nltk.download('punkt')
nltk.download('stopwords')
from nltk.tokenize import word_tokenize
from autocorrect import Speller #Para los errores ortográficos
spell = Speller(lang='es')
from jiwer import wer #Para la métrica

# Definimos las funciones necesarias

def cargarAudio(video, i):
    video.streams.filter(only_audio=True)
    audio = video.streams.get_by_itag(22)
    mp4 = audio.download()
    a = mp4.split('/')
    titulo = a[-1]
    os.rename(titulo, 'video_'+str(i)+'.mp4')
    cont = 'video_'+str(i)
    return cont
    
def transcribir(cont, model, device):
    audio_outdir = "./extracted_audio"
    subtitle_outdir = "./generated_subtitles"
    video = cont + '.mp4'
    base, ext = osp.splitext(video)
    aac_file_out = osp.join(audio_outdir, osp.basename(base)) + ".aac"
    os.system(f"ffmpeg -i {video} -vn -acodec copy {aac_file_out} ")
    os.system(f"whisper {aac_file_out} --model {model} --language Spanish --output_dir {subtitle_outdir} --verbose False --device cuda:{device}")
    f = open('./generated_subtitles/' + str(cont) + '.aac.txt','r')
    trans = f.read()
    transcripcion = (trans.split('\n'))[0]
    return transcripcion
    
    
def numero_to_letras(numero):
	indicador = [("",""),("mil","mil"),("millon","millones"),("mil","mil"),("billon","billones")]
	entero = int(numero)
	decimal = int(round((numero - entero)*100))
	#print 'decimal : ',decimal 
	contador = 0
	numero_letras = ""
	while entero >0:
		a = entero % 1000
		if contador == 0:
			en_letras = convierte_cifra(a,1).strip()
		else :
			en_letras = convierte_cifra(a,0).strip()
		if a==0:
			numero_letras = en_letras+" "+numero_letras
		elif a==1:
			if contador in (1,3):
				numero_letras = indicador[contador][0]+" "+numero_letras
			else:
				numero_letras = en_letras+" "+indicador[contador][0]+" "+numero_letras
		else:
			numero_letras = en_letras+" "+indicador[contador][1]+" "+numero_letras
		numero_letras = numero_letras.strip()
		contador = contador + 1
		entero = int(entero / 1000)
	
	if decimal == 0:
		numero_letras = numero_letras
	else:
		numero_letras = numero_letras+" con " + str(decimal) +"/100"
	#print('numero: ',numero)
	#print(numero_letras)
	return numero_letras
 
 
def convierte_cifra(numero,sw):
	lista_centana = ["",("cien","ciento"),"doscientos","trescientos","cuatrocientos","quinientos","seiscientos","setecientos","ochocientos","novecientos"]
	lista_decena = ["",("diez","once","doce","trece","catorce","quince","dieciseis","diecisiete","dieciocho","diecinueve"),
					("veinte","veinti"),("treinta","treinta y "),("cuarenta" , "cuarenta y "),
					("cincuenta" , "cincuenta y "),("sesenta" , "sesenta y "),
					("setenta" , "setenta y "),("ochenta" , "ochenta y "),
					("noventa" , "noventa y ")
				]
	lista_unidad = ["",("un" , "uno"),"dos","tres","cuatro","cinco","seis","siete","ocho","nueve"]
	centena = int (numero / 100)
	decena = int((numero -(centena * 100))/10)
	unidad = int(numero - (centena * 100 + decena * 10))
	#print "centena: ",centena, "decena: ",decena,'unidad: ',unidad
 
	texto_centena = ""
	texto_decena = ""
	texto_unidad = ""
 
	#Validad las centenas
	texto_centena = lista_centana[centena]
	if centena == 1:
		if (decena + unidad)!=0:
			texto_centena = texto_centena[1]
		else :
	 		texto_centena = texto_centena[0]
 
	#Valida las decenas
	texto_decena = lista_decena[decena]
	if decena == 1 :
		texto_decena = texto_decena[unidad]
	elif decena > 1 :
		if unidad != 0 :
			texto_decena = texto_decena[1]
		else:
			texto_decena = texto_decena[0]
 	#Validar las unidades
 	#print "texto_unidad: ",texto_unidad
	if decena != 1:
 		texto_unidad = lista_unidad[unidad]
 		if unidad == 1:
 			texto_unidad = texto_unidad[sw]
	return "%s %s %s" %(texto_centena,texto_decena,texto_unidad)
	
def normalizar(texto):
    #print(texto)
    tokens=word_tokenize(texto) #Separa el texto por palabras
    #print(tokens)
    texto = [w.lower() for w in tokens] #Pasamos las palabras a minúsculas
    #print(texto)
    texto = [texto[i].replace(' apdo.', ' apartado').replace(' art. ',' articulo ').replace(' atte.',' atentamente').replace(' avda.',' avenida').replace(' cap.',' capítulo').replace(' cía.',' compañía').replace(' coord.',' coordinador').replace(' d.',' don').replace(' dña.',' doña').replace(' dcho.',' derecho').replace(' dcha.',' derecha').replace(' depto.',' departamento').replace(' dr.',' doctor').replace(' dra.',' doctora').replace(' etc.',' etcétera').replace(' fdo.',' firmado').replace(' izqdo.',' izquierdo').replace(' izqda.',' izquierda').replace(' max.',' máximo').replace(' min.',' mínimo').replace(' núm.',' número').replace(' pág.',' página').replace(' ej.',' ejemplo').replace(' prov.',' provincia').replace(' sr.',' señor').replace(' sra.',' señora').replace(' srta.',' señorita').replace(' tfno.',' teléfono') for i in range(len(texto))] #quitamos las abreviaciones
    for i in range(len(texto)):
        if texto[i].isdigit() and (texto[i] not in string.punctuation):
            texto[i]=numero_to_letras(int(texto[i]))
            tokens2=word_tokenize(texto[i])
            for j in range(len(tokens2)-1):
                texto.append('a') #me añado esto simplemente para no tener problemas con el rango
            for j in range(i+1, len(texto)-3):
                texto[len(texto)-j+i]=texto[len(texto)-j+i-len(tokens2)+1]
            for j in range(i, i+len(tokens2)-1):
                texto[j+len(tokens2)-1] = texto[j]
            for j in range(i, i+len(tokens2)):
                texto[j]=tokens2[j-i]
    tokens=[w.lower() for w in texto] #Pasamos las palabras a minúsculas por si había números
    re_punc = re.compile('[%s]' % re.escape(string.punctuation))
    stripped = [re_punc.sub('',w) for w in tokens]
    stripped=[stripped[i].replace('¿', '').replace('¡','').replace("'",'') for i in range(len(tokens))] #quita los símbolos de puntuación que string.punctuation no tiene en cuenta
    words = [word for word in stripped if word.isalpha()] #Elimina los signos de puntuación
    return words
    
    
def ortografia(texto):
    for word in texto:
        word = spell(word)
    return texto
    
def unir(texto):
    texto_norm = ""
    for i in range(len(texto)):
        texto_norm = texto_norm + ' ' + texto[i]
    return texto_norm

# Definimos una función que se encarga de llevar a cabo las transcripciones

def transcripcion(video):
    model = 'medium'
    device = 0
    cont = cargarVideo(video, model)
    texto = transcribir(cont, model, device)
    norm = normalizar(texto)
    orto = ortografia(norm)
    trans = unir(orto)
    return trans
    
    

   
# Creamos la interfaz y la lanzamos. 
gr.Interface(fn=transcripcion, inputs="video", outputs="text").launch(share=False)