Update app.py
#1
by
VanessaHochwald
- opened
app.py
CHANGED
@@ -21,6 +21,42 @@ def preprocess_text(document_text):
|
|
21 |
standardized_text = document_text.replace("\n", " ").replace(" ", "\n\n")
|
22 |
return standardized_text
|
23 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
24 |
def semantic_search(query, corpus, model):
|
25 |
"""Performs semantic search to find the most relevant text in the corpus."""
|
26 |
query_embedding = model.encode(query, convert_to_tensor=True)
|
|
|
21 |
standardized_text = document_text.replace("\n", " ").replace(" ", "\n\n")
|
22 |
return standardized_text
|
23 |
|
24 |
+
|
25 |
+
|
26 |
+
|
27 |
+
|
28 |
+
|
29 |
+
# ---- Testen mit dem Original-PDF-Dokument ----
|
30 |
+
|
31 |
+
# Pfad zum PDF-Dokument (stellen Sie sicher, dass der Pfad korrekt ist)
|
32 |
+
pdf_path = "giz-2019-en-gender-strategy-web-version-with-bookmarks.pdf"
|
33 |
+
|
34 |
+
# Extrahieren des Texts aus dem PDF
|
35 |
+
original_text = extract_text_from_pdf(pdf_path)
|
36 |
+
|
37 |
+
# Vorverarbeiten des Texts
|
38 |
+
processed_text = preprocess_text(original_text)
|
39 |
+
|
40 |
+
# Streamlit-Interface zum Anzeigen des Ergebnisses
|
41 |
+
st.title("Test der preprocess_text-Funktion mit der Gender Strategy")
|
42 |
+
|
43 |
+
st.write("### Originaler Text (Aus dem PDF):")
|
44 |
+
# Zeigen Sie die ersten 1000 Zeichen des Originaltextes an, um nicht zu viel Text auf einmal zu laden
|
45 |
+
st.write(original_text[:1000]) # Zeigen Sie nur einen Teil des Textes, um die Performance zu optimieren
|
46 |
+
|
47 |
+
st.write("### Verarbeiteter Text (Nach preprocess_text):")
|
48 |
+
# Zeigen Sie die ersten 1000 Zeichen des verarbeiteten Textes an
|
49 |
+
st.write(processed_text[:1000]) # Zeigen Sie nur einen Teil des Textes, um die Performance zu optimieren
|
50 |
+
|
51 |
+
# Optional: Wenn der Text zu lang ist, können Sie weitere Textabschnitte anzeigen lassen
|
52 |
+
st.write("**Hinweis**: Der vollständige Text kann sehr lang sein, daher zeigen wir nur einen Ausschnitt an.")
|
53 |
+
|
54 |
+
|
55 |
+
|
56 |
+
|
57 |
+
|
58 |
+
|
59 |
+
|
60 |
def semantic_search(query, corpus, model):
|
61 |
"""Performs semantic search to find the most relevant text in the corpus."""
|
62 |
query_embedding = model.encode(query, convert_to_tensor=True)
|