Spaces:

Segizu
/

Face_Recognition

Build error

App Files Files Community

Segizu commited on May 9

Commit

b6a67be

1 Parent(s): 288a128

no temp

Browse files

Files changed (1) hide show

app.py +56 -25

app.py CHANGED Viewed

@@ -5,16 +5,19 @@ from deepface import DeepFace
 from datasets import load_dataset
 import os
 import pickle
 from pathlib import Path
 import gc
 import requests
-from io import BytesIO
-# 📁 Carpeta para guardar cada embedding
-EMBEDDINGS_DIR = Path("embeddings")
-EMBEDDINGS_DIR.mkdir(exist_ok=True)
-# ✅ Cargar dataset CSV
 dataset = load_dataset(
     "csv",
     data_files="metadata.csv",
@@ -27,17 +30,13 @@ print("✅ Validación post-carga")
 print(dataset[0])
 print("Columnas:", dataset.column_names)
-# 🔄 Preprocesamiento para DeepFace
 def preprocess_image(img: Image.Image) -> np.ndarray:
     img_rgb = img.convert("RGB")
     img_resized = img_rgb.resize((160, 160), Image.Resampling.LANCZOS)
     return np.array(img_resized)
-# 🔐 Header si el dataset es privado
-HF_TOKEN = os.getenv("HF_TOKEN")
-headers = {"Authorization": f"Bearer {HF_TOKEN}"} if HF_TOKEN else {}
-# 📦 Construir base (embedding por archivo)
 def build_database():
     print("🔄 Generando embeddings...")
     batch_size = 10
@@ -50,15 +49,25 @@ def build_database():
             item = {"image": batch["image"][j]}
             image_url = item["image"]
-            # Validar
             if not isinstance(image_url, str) or not image_url.startswith("http") or image_url.strip().lower() == "image":
                 print(f"⚠️ Saltando {i + j} - URL inválida: {image_url}")
                 continue
             name = f"image_{i + j}"
-            emb_path = EMBEDDINGS_DIR / f"{name}.pkl"
-            if emb_path.exists():
-                continue  # Ya existe
             try:
                 response = requests.get(image_url, headers=headers, timeout=10)
@@ -72,11 +81,20 @@ def build_database():
                     enforce_detection=False
                 )[0]["embedding"]
-                # Guardar como archivo individual
-                with open(emb_path, "wb") as f:
                     pickle.dump({"name": name, "img": img, "embedding": embedding}, f)
-                print(f"✅ Guardado: {name}")
                 del img_processed
                 gc.collect()
@@ -84,7 +102,7 @@ def build_database():
                 print(f"❌ Error en {name}: {e}")
                 continue
-# 🔍 Buscar similitudes
 def find_similar_faces(uploaded_image: Image.Image):
     try:
         img_processed = preprocess_image(uploaded_image)
@@ -100,10 +118,24 @@ def find_similar_faces(uploaded_image: Image.Image):
     similarities = []
-    for emb_file in EMBEDDINGS_DIR.glob("*.pkl"):
         try:
-            with open(emb_file, "rb") as f:
-                record = pickle.load(f)
             name = record["name"]
             img = record["img"]
@@ -114,17 +146,16 @@ def find_similar_faces(uploaded_image: Image.Image):
             similarities.append((sim_score, name, np.array(img)))
         except Exception as e:
-            print(f"⚠ Error leyendo {emb_file}: {e}")
             continue
     similarities.sort(reverse=True)
     top = similarities[:5]
     gallery = [(img, f"{name} - Similitud: {sim:.2f}") for sim, name, img in top]
     summary = "\n".join([f"{name} - Similitud: {sim:.2f}" for sim, name, _ in top])
     return gallery, summary
-# 🚀 Ejecutar al inicio
 print("🚀 Iniciando app...")
 build_database()

 from datasets import load_dataset
 import os
 import pickle
+from io import BytesIO
+from huggingface_hub import upload_file, hf_hub_download
 from pathlib import Path
 import gc
 import requests
+# 📁 Parámetros
+DATASET_ID = "Segizu/facial-recognition"
+EMBEDDINGS_SUBFOLDER = "embeddings"
+HF_TOKEN = os.getenv("HF_TOKEN")
+headers = {"Authorization": f"Bearer {HF_TOKEN}"} if HF_TOKEN else {}
+# ✅ Cargar CSV desde el dataset
 dataset = load_dataset(
     "csv",
     data_files="metadata.csv",
 print(dataset[0])
 print("Columnas:", dataset.column_names)
+# 🔄 Preprocesamiento
 def preprocess_image(img: Image.Image) -> np.ndarray:
     img_rgb = img.convert("RGB")
     img_resized = img_rgb.resize((160, 160), Image.Resampling.LANCZOS)
     return np.array(img_resized)
+# 📦 Generar y subir embeddings
 def build_database():
     print("🔄 Generando embeddings...")
     batch_size = 10
             item = {"image": batch["image"][j]}
             image_url = item["image"]
             if not isinstance(image_url, str) or not image_url.startswith("http") or image_url.strip().lower() == "image":
                 print(f"⚠️ Saltando {i + j} - URL inválida: {image_url}")
                 continue
             name = f"image_{i + j}"
+            filename = f"{name}.pkl"
+            # Verificar si ya está subido
+            try:
+                hf_hub_download(
+                    repo_id=DATASET_ID,
+                    repo_type="dataset",
+                    filename=f"{EMBEDDINGS_SUBFOLDER}/{filename}",
+                    token=HF_TOKEN
+                )
+                print(f"⏩ Ya existe remoto: {filename}")
+                continue
+            except:
+                pass
             try:
                 response = requests.get(image_url, headers=headers, timeout=10)
                     enforce_detection=False
                 )[0]["embedding"]
+                # Guardar temporal y subir
+                with open(filename, "wb") as f:
                     pickle.dump({"name": name, "img": img, "embedding": embedding}, f)
+                upload_file(
+                    path_or_fileobj=filename,
+                    path_in_repo=f"{EMBEDDINGS_SUBFOLDER}/{filename}",
+                    repo_id=DATASET_ID,
+                    repo_type="dataset",
+                    token=HF_TOKEN
+                )
+                os.remove(filename)
+                print(f"✅ Subido: {filename}")
                 del img_processed
                 gc.collect()
                 print(f"❌ Error en {name}: {e}")
                 continue
+# 🔍 Buscar similitudes desde archivos remotos
 def find_similar_faces(uploaded_image: Image.Image):
     try:
         img_processed = preprocess_image(uploaded_image)
     similarities = []
+    try:
+        # Obtener lista de archivos remotos
+        from huggingface_hub import list_repo_files
+        embedding_files = [
+            f for f in list_repo_files(DATASET_ID, repo_type="dataset", token=HF_TOKEN)
+            if f.startswith(f"{EMBEDDINGS_SUBFOLDER}/") and f.endswith(".pkl")
+        ]
+    except Exception as e:
+        return [], f"⚠ Error obteniendo archivos del dataset: {str(e)}"
+    for file_path in embedding_files:
         try:
+            file_bytes = requests.get(
+                f"https://huggingface.co/datasets/{DATASET_ID}/resolve/main/{file_path}",
+                headers=headers,
+                timeout=10
+            ).content
+            record = pickle.loads(file_bytes)
             name = record["name"]
             img = record["img"]
             similarities.append((sim_score, name, np.array(img)))
         except Exception as e:
+            print(f"⚠ Error con {file_path}: {e}")
             continue
     similarities.sort(reverse=True)
     top = similarities[:5]
     gallery = [(img, f"{name} - Similitud: {sim:.2f}") for sim, name, img in top]
     summary = "\n".join([f"{name} - Similitud: {sim:.2f}" for sim, name, _ in top])
     return gallery, summary
+# 🚀 Inicializar
 print("🚀 Iniciando app...")
 build_database()