Spaces:

lik07
/

Spacy

Sleeping

lik07 commited on Oct 4, 2024

Commit

09a8de9

verified ·

1 Parent(s): 37944ec

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -8,8 +8,20 @@ import os
 # Cargar el modelo de SpaCy en español
 nlp = spacy.load('zh_core_web_trf')
-# Función para extraer nombres de personas
 def extract_names_from_docx(docx_file):
     # Cargar el archivo DOCX
     document = Document(docx_file)
@@ -20,17 +32,20 @@ def extract_names_from_docx(docx_file):
     # Unir todo el texto
     text = ' '.join(full_text)
-    # Procesar el texto con SpaCy
-    doc = nlp(text)
-    # Extraer los nombres de las personas (entidades PERSON)
-    persons = [ent.text for ent in doc.ents if ent.label_ == 'PERSON']
     # Eliminar duplicados
-    persons = list(set(persons))
     # Crear un DataFrame
-    df = pd.DataFrame(persons, columns=['Nombres'])
     # Crear un archivo temporal para guardar el Excel
     temp_dir = tempfile.mkdtemp()

 # Cargar el modelo de SpaCy en español
 nlp = spacy.load('zh_core_web_trf')
+nlp.max_length = 3000000  # Aumenta el límite a 3 millones de caracteres
+# Función para procesar bloques de texto y extraer nombres de personas
+def extract_names_from_text(text):
+    doc = nlp(text)
+    # Extraer las entidades de tipo PERSON
+    persons = [ent.text for ent in doc.ents if ent.label_ == 'PERSON']
+    return persons
+# Función para dividir el texto en fragmentos más pequeños
+def split_text(text, max_length=100000):
+    return [text[i:i+max_length] for i in range(0, len(text), max_length)]
+# Función principal para extraer nombres de personas desde un archivo DOCX
 def extract_names_from_docx(docx_file):
     # Cargar el archivo DOCX
     document = Document(docx_file)
     # Unir todo el texto
     text = ' '.join(full_text)
+    # Dividir el texto en fragmentos si es necesario
+    text_fragments = split_text(text)
+    # Extraer los nombres de cada fragmento y combinarlos
+    all_persons = []
+    for fragment in text_fragments:
+        persons = extract_names_from_text(fragment)
+        all_persons.extend(persons)
     # Eliminar duplicados
+    all_persons = list(set(all_persons))
     # Crear un DataFrame
+    df = pd.DataFrame(all_persons, columns=['Nombres'])
     # Crear un archivo temporal para guardar el Excel
     temp_dir = tempfile.mkdtemp()