Spaces:

GIZ
/

gender-strategy-chatbot-giz

Running

Update app.py

by VanessaHochwald - opened Dec 27, 2024

←

Files changed (1) hide show

app.py CHANGED Viewed

@@ -21,6 +21,42 @@ def preprocess_text(document_text):
     standardized_text = document_text.replace("\n", " ").replace("  ", "\n\n")
     return standardized_text
 def semantic_search(query, corpus, model):
     """Performs semantic search to find the most relevant text in the corpus."""
     query_embedding = model.encode(query, convert_to_tensor=True)

     standardized_text = document_text.replace("\n", " ").replace("  ", "\n\n")
     return standardized_text
+# ---- Testen mit dem Original-PDF-Dokument ----
+# Pfad zum PDF-Dokument (stellen Sie sicher, dass der Pfad korrekt ist)
+pdf_path = "giz-2019-en-gender-strategy-web-version-with-bookmarks.pdf"
+# Extrahieren des Texts aus dem PDF
+original_text = extract_text_from_pdf(pdf_path)
+# Vorverarbeiten des Texts
+processed_text = preprocess_text(original_text)
+# Streamlit-Interface zum Anzeigen des Ergebnisses
+st.title("Test der preprocess_text-Funktion mit der Gender Strategy")
+st.write("### Originaler Text (Aus dem PDF):")
+# Zeigen Sie die ersten 1000 Zeichen des Originaltextes an, um nicht zu viel Text auf einmal zu laden
+st.write(original_text[:1000])  # Zeigen Sie nur einen Teil des Textes, um die Performance zu optimieren
+st.write("### Verarbeiteter Text (Nach preprocess_text):")
+# Zeigen Sie die ersten 1000 Zeichen des verarbeiteten Textes an
+st.write(processed_text[:1000])  # Zeigen Sie nur einen Teil des Textes, um die Performance zu optimieren
+# Optional: Wenn der Text zu lang ist, können Sie weitere Textabschnitte anzeigen lassen
+st.write("**Hinweis**: Der vollständige Text kann sehr lang sein, daher zeigen wir nur einen Ausschnitt an.")
 def semantic_search(query, corpus, model):
     """Performs semantic search to find the most relevant text in the corpus."""
     query_embedding = model.encode(query, convert_to_tensor=True)