Spaces:

lik07
/

Spacy

Sleeping

App Files Files Community

lik07 commited on Oct 5, 2024

Commit

02010f9

verified ·

1 Parent(s): 710722a

Update app.py

Browse files

Files changed (1) hide show

app.py +44 -30

app.py CHANGED Viewed

@@ -5,77 +5,80 @@ from docx import Document
 from io import BytesIO
 import tempfile
 import os
-import multiprocessing as mp  # Importar multiprocessing para paralelismo
 # Cargar el modelo de SpaCy en español
 nlp = spacy.load('zh_core_web_trf')
-#nlp.max_length = 15000000  # Aumenta el límite a 3 millones de caracteres
-# Función para procesar bloques de texto y extraer nombres de personas
 def extract_names_from_text(text):
     print(f'{len(text)}/n/n')
     doc = nlp(text)
-    # Extraer las entidades de tipo PERSON
     persons = [ent.text for ent in doc.ents if ent.label_ == 'PERSON']
     return persons
-# Función para dividir el texto en fragmentos más pequeños
 def split_text(text, max_length=100000):
     result = []
     current_chunk = []
     current_length = 0
-    # Divide por salto de línea simple en lugar de doble
-    paragraphs = text.split('\n')  # Usamos '\n' ya que en chino no se usan saltos dobles
     for paragraph in paragraphs:
-        paragraph_length = len(paragraph) + 1  # Considera el '\n' añadido entre párrafos
         if current_length + paragraph_length <= max_length:
             current_chunk.append(paragraph)
             current_length += paragraph_length
         else:
-            # Guarda el fragmento actual y empieza uno nuevo
             result.append('\n'.join(current_chunk))
             current_chunk = [paragraph]
             current_length = paragraph_length
-    # Añadir el último fragmento si no está vacío
     if current_chunk:
         result.append('\n'.join(current_chunk))
     return result
-# Función para paralelizar la extracción de nombres
 def extract_names_from_fragments(fragments):
-    # Utiliza todos los núcleos disponibles de la CPU
     with mp.Pool(processes=4) as pool:
         results = pool.map(extract_names_from_text, fragments)
     return results
-# Función principal para extraer nombres de personas desde un archivo DOCX
-def extract_names_from_docx(docx_file):
     # Cargar el archivo DOCX
     document = Document(docx_file)
     full_text = []
     for para in document.paragraphs:
         full_text.append(para.text)
     # Unir todo el texto
     text = ' '.join(full_text)
-    # Dividir el texto en fragmentos si es necesario
     text_fragments = split_text(text)
     # Extraer los nombres de cada fragmento en paralelo
-    results = extract_names_from_fragments(text_fragments)
-    # Unir todos los resultados de nombres en una sola lista
     all_persons = []
-    for persons in results:
-        all_persons.extend(persons)
     # Eliminar duplicados
     all_persons = list(set(all_persons))
     # Crear un DataFrame
     df = pd.DataFrame(all_persons, columns=['Nombres'])
@@ -88,16 +91,27 @@ def extract_names_from_docx(docx_file):
     with pd.ExcelWriter(temp_file_path, engine='openpyxl') as writer:
         df.to_excel(writer, index=False)
-    return temp_file_path  # Devolver la ruta del archivo temporal
 # Interfaz de Gradio
-iface = gr.Interface(
-    fn=extract_names_from_docx,
-    inputs=gr.File(file_types=[".docx"]),
-    outputs=gr.File(),
-    title="Extractor de Nombres",
-    description="Sube un archivo .docx y extrae los nombres de las personas usando NLP con SpaCy. Descarga el resultado en un archivo Excel."
-)
 # Iniciar la aplicación
-iface.launch()

 from io import BytesIO
 import tempfile
 import os
+import multiprocessing as mp
+import psutil
+import time
+from datetime import datetime
 # Cargar el modelo de SpaCy en español
 nlp = spacy.load('zh_core_web_trf')
+def get_system_status():
+    cpu_usage = psutil.cpu_percent()
+    memory = psutil.virtual_memory()
+    return f"CPU: {cpu_usage}% | RAM: {memory.percent}% | Último update: {datetime.now().strftime('%H:%M:%S')}"
 def extract_names_from_text(text):
     print(f'{len(text)}/n/n')
     doc = nlp(text)
     persons = [ent.text for ent in doc.ents if ent.label_ == 'PERSON']
     return persons
 def split_text(text, max_length=100000):
     result = []
     current_chunk = []
     current_length = 0
+    paragraphs = text.split('\n')
     for paragraph in paragraphs:
+        paragraph_length = len(paragraph) + 1
         if current_length + paragraph_length <= max_length:
             current_chunk.append(paragraph)
             current_length += paragraph_length
         else:
             result.append('\n'.join(current_chunk))
             current_chunk = [paragraph]
             current_length = paragraph_length
     if current_chunk:
         result.append('\n'.join(current_chunk))
     return result
 def extract_names_from_fragments(fragments):
     with mp.Pool(processes=4) as pool:
         results = pool.map(extract_names_from_text, fragments)
     return results
+def extract_names_from_docx(docx_file, progress=gr.Progress()):
+    # Inicializar variables de progreso
+    progress(0, desc="Iniciando procesamiento...")
     # Cargar el archivo DOCX
     document = Document(docx_file)
     full_text = []
     for para in document.paragraphs:
         full_text.append(para.text)
+    progress(0.2, desc="Documento cargado, preparando texto...")
     # Unir todo el texto
     text = ' '.join(full_text)
+    # Dividir el texto en fragmentos
     text_fragments = split_text(text)
+    progress(0.3, desc=f"Texto dividido en {len(text_fragments)} fragmentos...")
     # Extraer los nombres de cada fragmento en paralelo
     all_persons = []
+    for i, fragment_results in enumerate(extract_names_from_fragments(text_fragments)):
+        all_persons.extend(fragment_results)
+        progress((0.3 + (0.5 * (i+1)/len(text_fragments))),
+                desc=f"Procesando fragmento {i+1} de {len(text_fragments)}...")
     # Eliminar duplicados
     all_persons = list(set(all_persons))
+    progress(0.9, desc="Preparando resultados...")
     # Crear un DataFrame
     df = pd.DataFrame(all_persons, columns=['Nombres'])
     with pd.ExcelWriter(temp_file_path, engine='openpyxl') as writer:
         df.to_excel(writer, index=False)
+    progress(1.0, desc="¡Procesamiento completado!")
+    return temp_file_path
 # Interfaz de Gradio
+with gr.Blocks() as demo:
+    gr.Markdown("# Extractor de Nombres")
+    gr.Markdown("Sube un archivo .docx y extrae los nombres de las personas usando NLP con SpaCy.")
+    # Componente de estado del sistema (keepalive)
+    system_status = gr.Textbox(label="Estado del Sistema", value="Inicializando...")
+    # Componentes principales
+    file_input = gr.File(file_types=[".docx"])
+    output_file = gr.File(label="Archivo de resultados")
+    # Botón de proceso
+    process_btn = gr.Button("Procesar Documento")
+    process_btn.click(fn=extract_names_from_docx, inputs=file_input, outputs=output_file)
+    # Actualización periódica del estado del sistema
+    demo.load(get_system_status, None, system_status, every=5)
 # Iniciar la aplicación
+demo.launch()