Spaces:

rmayormartins
/

inclusion-visually-impaired-image2speech

Runtime error

App Files Files Community

inclusion-visually-impaired-image2speech / app.py

rmayormartins

Subindo arquivos37733

d209a4c about 1 year ago

raw

history blame

3.41 kB

	import os
	import time
	import gradio as gr
	import torch
	from PIL import Image
	from gtts import gTTS
	import numpy as np
	import cv2
	from transformers import BlipProcessor, BlipForConditionalGeneration, AutoTokenizer, AutoModelForSeq2SeqLM
	from huggingface_hub import login

	# Ler o token da variável de ambiente
	hf_token = os.getenv("HUGGINGFACE_TOKEN")

	if hf_token:
	login(token=hf_token)

	# Carregar o modelo YOLOv5
	model = torch.hub.load('ultralytics/yolov5', 'yolov5s')

	# Função para calcular a GLCM e o contraste manualmente
	def calculate_glcm_contrast(image):
	gray_image = cv2.cvtColor(np.array(image), cv2.COLOR_BGR2GRAY)
	max_value = gray_image.max() + 1
	glcm = np.zeros((max_value, max_value), dtype=np.float64)

	for i in range(gray_image.shape[0] - 1):
	for j in range(gray_image.shape[1] - 1):
	x = gray_image[i, j]
	y = gray_image[i + 1, j + 1]
	glcm[x, y] += 1

	glcm = glcm / glcm.sum()

	contrast = 0.0
	for i in range(max_value):
	for j in range(max_value):
	contrast += (i - j) ** 2 * glcm[i, j]

	return contrast

	# Função para descrever imagem usando BLIP
	def describe_image(image):
	processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-base")
	model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-base")
	inputs = processor(image, return_tensors="pt")
	out = model.generate(**inputs)
	description = processor.decode(out[0], skip_special_tokens=True)
	return description

	# Função para traduzir descrição para português
	def translate_description(description):
	model_name = 'Helsinki-NLP/opus-mt-tc-big-en-pt'
	tokenizer = AutoTokenizer.from_pretrained(model_name)
	model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
	translated = model.generate(**tokenizer(description, return_tensors="pt", padding=True))
	translated_text = tokenizer.decode(translated[0], skip_special_tokens=True)
	return translated_text

	# Função principal para processar imagem e gerar saída de voz
	def process_image(image):
	# Detecção de objetos
	results = model(image)
	detected_image = results.render()[0]

	# Análise de cor (média RGB)
	mean_rgb = np.mean(np.array(image), axis=(0, 1))

	# Análise de textura
	texture_contrast = calculate_glcm_contrast(image)

	# Descrição da imagem
	description = describe_image(image)
	translated_description = translate_description(description)

	# Texto para voz
	tts = gTTS(text=translated_description, lang='pt')
	attempts = 0
	while attempts < 5:
	try:
	tts.save("output.mp3")
	break
	except gTTS.tts.gTTSError as e:
	if e.r.status_code == 429:
	print("Too many requests. Waiting before retrying...")
	time.sleep(5)
	attempts += 1
	else:
	raise e

	# Retornar imagem com detecções, descrição e áudio
	return Image.fromarray(detected_image), translated_description, "output.mp3"

	# Carregar imagem de exemplo diretamente do código
	example_image_path = "example1.JPG"

	# Interface Gradio
	iface = gr.Interface(
	fn=process_image,
	inputs=gr.Image(type="pil"),
	outputs=[gr.Image(type="pil"), gr.Textbox(), gr.Audio(type="filepath")],
	examples=[example_image_path]
	)

	iface.launch()