Spaces:

marcuscanhaco
/

weapon-detection-app

Runtime error

App Files Files Community

Marcus Vinicius Zerbini Canhaço commited on Feb 12

Commit

274148b

1 Parent(s): 534b64d

feat: atualização do detector com otimizações para GPU T4

Browse files

Files changed (2) hide show

src/domain/factories/detector_factory.py +39 -15
src/main.py +26 -16

src/domain/factories/detector_factory.py CHANGED Viewed

@@ -34,13 +34,19 @@ logger = logging.getLogger(__name__)
 def force_gpu_init():
     """Força a inicialização da GPU."""
     try:
-        # Forçar inicialização do CUDA
-        torch.cuda.init()
-        # Alocar e liberar um tensor pequeno para garantir que CUDA está funcionando
-        dummy = torch.cuda.FloatTensor(1)
-        del dummy
-        torch.cuda.empty_cache()
-        return True
     except Exception as e:
         logger.warning(f"Erro ao forçar inicialização da GPU: {str(e)}")
         return False
@@ -48,22 +54,38 @@ def force_gpu_init():
 def is_gpu_available():
     """Verifica se a GPU está disponível de forma mais robusta."""
     try:
         if not torch.cuda.is_available():
             return False
         # Tentar forçar inicialização
         if not force_gpu_init():
             return False
-        # Verificar se há memória disponível
-        gpu_memory = torch.cuda.get_device_properties(0).total_memory
-        if gpu_memory < 4 * (1024**3):  # Mínimo de 4GB
-            logger.warning("GPU encontrada mas com memória insuficiente")
             return False
-        return True
     except Exception as e:
-        logger.warning(f"Erro ao verificar GPU: {str(e)}")
         return False
 class BaseCache:
@@ -342,9 +364,11 @@ class DetectorFactory:
                 logger.info("GPU disponível e inicializada com sucesso")
                 return WeaponDetectorGPU()
             else:
-                logger.warning("GPU não disponível ou com problemas, usando CPU")
                 return WeaponDetectorCPU()
         except Exception as e:
             logger.error(f"Erro ao criar detector: {str(e)}")
-            logger.warning("Fallback para CPU devido a erro")
             return WeaponDetectorCPU()

 def force_gpu_init():
     """Força a inicialização da GPU."""
     try:
+        # Verificar se CUDA está disponível
+        if not torch.cuda.is_available():
+            return False
+        # Tentar alocar um tensor na GPU
+        try:
+            dummy = torch.cuda.FloatTensor(1)
+            del dummy
+            torch.cuda.empty_cache()
+            return True
+        except RuntimeError:
+            return False
     except Exception as e:
         logger.warning(f"Erro ao forçar inicialização da GPU: {str(e)}")
         return False
 def is_gpu_available():
     """Verifica se a GPU está disponível de forma mais robusta."""
     try:
+        # Verificar CUDA primeiro
         if not torch.cuda.is_available():
+            logger.warning("CUDA não está disponível")
             return False
         # Tentar forçar inicialização
         if not force_gpu_init():
+            logger.warning("Não foi possível inicializar a GPU")
             return False
+        # Tentar obter informações da GPU
+        try:
+            device_count = torch.cuda.device_count()
+            if device_count == 0:
+                logger.warning("Nenhuma GPU encontrada")
+                return False
+            # Verificar se podemos realmente usar a GPU
+            device = torch.device('cuda')
+            dummy_tensor = torch.zeros(1, device=device)
+            del dummy_tensor
+            torch.cuda.empty_cache()
+            logger.info(f"GPU disponível: {torch.cuda.get_device_name(0)}")
+            return True
+        except Exception as e:
+            logger.warning(f"Erro ao verificar GPU: {str(e)}")
             return False
     except Exception as e:
+        logger.warning(f"Erro ao verificar disponibilidade da GPU: {str(e)}")
         return False
 class BaseCache:
                 logger.info("GPU disponível e inicializada com sucesso")
                 return WeaponDetectorGPU()
             else:
+                logger.warning("GPU não disponível ou com problemas. ATENÇÃO: O sistema funcionará em modo CPU, " +
+                             "que é mais lento mas igualmente funcional. Performance será reduzida.")
                 return WeaponDetectorCPU()
         except Exception as e:
             logger.error(f"Erro ao criar detector: {str(e)}")
+            logger.warning("Fallback para CPU devido a erro. O sistema continuará funcionando, " +
+                         "mas com performance reduzida.")
             return WeaponDetectorCPU()

src/main.py CHANGED Viewed

@@ -15,21 +15,30 @@ logger = logging.getLogger(__name__)
 def setup_zero_gpu():
     """Configurações otimizadas para Zero-GPU."""
-    # Forçar inicialização da GPU
-    if is_gpu_available():
-        force_gpu_init()
-        # Limpar cache CUDA
-        torch.cuda.empty_cache()
-        gc.collect()
-        # Configurações para otimizar memória
-        os.environ['PYTORCH_CUDA_ALLOC_CONF'] = 'max_split_size_mb:128'
-        torch.backends.cuda.matmul.allow_tf32 = True
-        torch.backends.cudnn.benchmark = True
-        torch.backends.cudnn.allow_tf32 = True
-        logger.info("Configurações Zero-GPU aplicadas com sucesso")
-    else:
-        logger.warning("GPU não disponível para configuração Zero-GPU")
 def main():
     """Função principal que inicia a aplicação."""
@@ -58,7 +67,8 @@ def main():
                 logger.info(f"GPU Memory: {gpu_mem:.1f}GB, Max Concurrent: {max_concurrent}")
             else:
                 max_concurrent = 1
-                logger.warning("GPU não disponível, usando configuração mínima")
             # Primeiro configurar a fila
             demo = demo.queue(

 def setup_zero_gpu():
     """Configurações otimizadas para Zero-GPU."""
+    try:
+        # Forçar inicialização da GPU
+        if is_gpu_available():
+            force_gpu_init()
+            # Limpar cache CUDA
+            torch.cuda.empty_cache()
+            gc.collect()
+            # Configurações para otimizar memória
+            os.environ['PYTORCH_CUDA_ALLOC_CONF'] = 'max_split_size_mb:128'
+            torch.backends.cuda.matmul.allow_tf32 = True
+            torch.backends.cudnn.benchmark = True
+            torch.backends.cudnn.allow_tf32 = True
+            # Configurar device map para melhor utilização da memória
+            os.environ['CUDA_VISIBLE_DEVICES'] = '0'
+            torch.cuda.set_per_process_memory_fraction(0.9)  # Usar 90% da memória disponível
+            logger.info(f"Configurações Zero-GPU aplicadas com sucesso na GPU: {torch.cuda.get_device_name(0)}")
+        else:
+            logger.warning("GPU não disponível para configuração Zero-GPU. O sistema operará em modo CPU.")
+    except Exception as e:
+        logger.error(f"Erro ao configurar Zero-GPU: {str(e)}")
+        logger.warning("Fallback para modo CPU devido a erro na configuração da GPU.")
 def main():
     """Função principal que inicia a aplicação."""
                 logger.info(f"GPU Memory: {gpu_mem:.1f}GB, Max Concurrent: {max_concurrent}")
             else:
                 max_concurrent = 1
+                logger.warning("GPU não disponível. O sistema está operando em modo CPU. " +
+                             "Todas as funcionalidades estão disponíveis, mas o processamento será mais lento.")
             # Primeiro configurar a fila
             demo = demo.queue(