Files changed (1) hide show
  1. app.py +36 -0
app.py CHANGED
@@ -21,6 +21,42 @@ def preprocess_text(document_text):
21
  standardized_text = document_text.replace("\n", " ").replace(" ", "\n\n")
22
  return standardized_text
23
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
24
  def semantic_search(query, corpus, model):
25
  """Performs semantic search to find the most relevant text in the corpus."""
26
  query_embedding = model.encode(query, convert_to_tensor=True)
 
21
  standardized_text = document_text.replace("\n", " ").replace(" ", "\n\n")
22
  return standardized_text
23
 
24
+
25
+
26
+
27
+
28
+
29
+ # ---- Testen mit dem Original-PDF-Dokument ----
30
+
31
+ # Pfad zum PDF-Dokument (stellen Sie sicher, dass der Pfad korrekt ist)
32
+ pdf_path = "giz-2019-en-gender-strategy-web-version-with-bookmarks.pdf"
33
+
34
+ # Extrahieren des Texts aus dem PDF
35
+ original_text = extract_text_from_pdf(pdf_path)
36
+
37
+ # Vorverarbeiten des Texts
38
+ processed_text = preprocess_text(original_text)
39
+
40
+ # Streamlit-Interface zum Anzeigen des Ergebnisses
41
+ st.title("Test der preprocess_text-Funktion mit der Gender Strategy")
42
+
43
+ st.write("### Originaler Text (Aus dem PDF):")
44
+ # Zeigen Sie die ersten 1000 Zeichen des Originaltextes an, um nicht zu viel Text auf einmal zu laden
45
+ st.write(original_text[:1000]) # Zeigen Sie nur einen Teil des Textes, um die Performance zu optimieren
46
+
47
+ st.write("### Verarbeiteter Text (Nach preprocess_text):")
48
+ # Zeigen Sie die ersten 1000 Zeichen des verarbeiteten Textes an
49
+ st.write(processed_text[:1000]) # Zeigen Sie nur einen Teil des Textes, um die Performance zu optimieren
50
+
51
+ # Optional: Wenn der Text zu lang ist, können Sie weitere Textabschnitte anzeigen lassen
52
+ st.write("**Hinweis**: Der vollständige Text kann sehr lang sein, daher zeigen wir nur einen Ausschnitt an.")
53
+
54
+
55
+
56
+
57
+
58
+
59
+
60
  def semantic_search(query, corpus, model):
61
  """Performs semantic search to find the most relevant text in the corpus."""
62
  query_embedding = model.encode(query, convert_to_tensor=True)