Spaces:

Rafa1986
/

Data-Analytics-Class

Sleeping

App Files Files Community

Rafa1986 commited on Mar 14

Commit

94f3898

verified ·

1 Parent(s): 8b5a642

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -3

app.py CHANGED Viewed

@@ -3,6 +3,7 @@ import os
 import PyPDF2
 import pandas as pd
 import openai
 from langchain_community.embeddings import OpenAIEmbeddings
 from langchain_community.vectorstores import FAISS
 from langchain_community.llms import OpenAI
@@ -59,7 +60,11 @@ def get_text_from_pdf(pdf_files):
         with open(pdf_path, "rb") as pdf_file:
             reader = PyPDF2.PdfReader(pdf_file)
             for page in reader.pages:
-                text += page.extract_text() + "\n"
     return text
 def get_text_from_csv(csv_files):
@@ -70,6 +75,15 @@ def get_text_from_csv(csv_files):
         text += df.to_string() + "\n"
     return text
 def create_vector_database(text):
     splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
     texts = splitter.split_text(text)
@@ -110,7 +124,7 @@ def chatbot_interface(question):
     folder_path = "/mnt/data/Data Analitics/"
     extracted_files = extract_files_from_folder(folder_path)
-    text = get_text_from_pdf(extracted_files["pdf"]) + read_text_from_files(extracted_files["txt"]) + get_text_from_csv(extracted_files["csv"])
     if not text:
         return "The folder does not contain valid PDF, TXT, CSV, or DOCX files. Please upload supported file types."
@@ -126,4 +140,4 @@ demo = gr.Interface(
     outputs=gr.Textbox(label="Answer")
 )
-demo.launch()

 import PyPDF2
 import pandas as pd
 import openai
+import docx
 from langchain_community.embeddings import OpenAIEmbeddings
 from langchain_community.vectorstores import FAISS
 from langchain_community.llms import OpenAI
         with open(pdf_path, "rb") as pdf_file:
             reader = PyPDF2.PdfReader(pdf_file)
             for page in reader.pages:
+                page_text = page.extract_text()
+                if page_text:
+                    text += page_text + "\n"
+                else:
+                    text += "[Could not extract text from this page]\n"
     return text
 def get_text_from_csv(csv_files):
         text += df.to_string() + "\n"
     return text
+def get_text_from_docx(docx_files):
+    text = ""
+    for docx_path in docx_files:
+        print(f"Reading DOCX file: {docx_path}")  # Debugging log
+        doc = docx.Document(docx_path)
+        for para in doc.paragraphs:
+            text += para.text + "\n"
+    return text
 def create_vector_database(text):
     splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
     texts = splitter.split_text(text)
     folder_path = "/mnt/data/Data Analitics/"
     extracted_files = extract_files_from_folder(folder_path)
+    text = get_text_from_pdf(extracted_files["pdf"]) + read_text_from_files(extracted_files["txt"]) + get_text_from_csv(extracted_files["csv"]) + get_text_from_docx(extracted_files["docx"])
     if not text:
         return "The folder does not contain valid PDF, TXT, CSV, or DOCX files. Please upload supported file types."
     outputs=gr.Textbox(label="Answer")
 )
+demo.launch()