SearchGPT

Running

App Files Files Community

Shreyas094 commited on Aug 1, 2024

Commit

1bf52e0

verified ·

1 Parent(s): d5ec470

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -15

app.py CHANGED Viewed

@@ -47,7 +47,7 @@ llama_parser = LlamaParse(
 )
 def load_document(file: NamedTemporaryFile, parser: str = "llamaparse") -> List[Document]:
-    file_path = os.path.join(UPLOAD_FOLDER, file.name)
     shutil.copy(file.name, file_path)
     if parser == "pypdf":
@@ -58,8 +58,8 @@ def load_document(file: NamedTemporaryFile, parser: str = "llamaparse") -> List[
             documents = llama_parser.load_data(file_path)
             return [Document(page_content=doc.text, metadata={"source": file_path}) for doc in documents]
         except Exception as e:
-            print(f"Error using Llama Parse: {str(e)}")
-            print("Falling back to PyPDF parser")
             loader = PyPDFLoader(file_path)
             return loader.load_and_split()
     else:
@@ -97,18 +97,21 @@ def update_vectors(files, parser):
     logging.info(f"Total chunks processed: {total_chunks}")
-    if os.path.exists("faiss_database"):
-        logging.info("Updating existing FAISS database")
-        database = FAISS.load_local("faiss_database", embed, allow_dangerous_deserialization=True)
-        database.add_documents(all_data)
     else:
-        logging.info("Creating new FAISS database")
-        database = FAISS.from_documents(all_data, embed)
-    database.save_local("faiss_database")
-    logging.info("FAISS database saved")
-    return f"Vector store updated successfully. Processed {total_chunks} chunks from {len(files)} files using {parser}.", gr.update(choices=[doc["name"] for doc in uploaded_documents], value=[doc["name"] for doc in uploaded_documents if doc["selected"]])
 UPLOAD_FOLDER = "uploaded_files"
 if not os.path.exists(UPLOAD_FOLDER):
@@ -143,8 +146,12 @@ def rebuild_faiss_database():
     for doc in uploaded_documents:
         try:
             file_path = os.path.join(UPLOAD_FOLDER, doc["name"])
-            data = load_document(NamedTemporaryFile(delete=False, suffix=".pdf", mode="wb", dir=UPLOAD_FOLDER, name=doc["name"]), "llamaparse")
             all_data.extend(data)
         except Exception as e:
             logging.error(f"Error processing file {doc['name']}: {str(e)}")

 )
 def load_document(file: NamedTemporaryFile, parser: str = "llamaparse") -> List[Document]:
+    file_path = os.path.join(UPLOAD_FOLDER, os.path.basename(file.name))
     shutil.copy(file.name, file_path)
     if parser == "pypdf":
             documents = llama_parser.load_data(file_path)
             return [Document(page_content=doc.text, metadata={"source": file_path}) for doc in documents]
         except Exception as e:
+            logging.error(f"Error using Llama Parse: {str(e)}")
+            logging.info("Falling back to PyPDF parser")
             loader = PyPDFLoader(file_path)
             return loader.load_and_split()
     else:
     logging.info(f"Total chunks processed: {total_chunks}")
+    if all_data:
+        if os.path.exists("faiss_database"):
+            logging.info("Updating existing FAISS database")
+            database = FAISS.load_local("faiss_database", embed, allow_dangerous_deserialization=True)
+            database.add_documents(all_data)
+        else:
+            logging.info("Creating new FAISS database")
+            database = FAISS.from_documents(all_data, embed)
+        database.save_local("faiss_database")
+        logging.info("FAISS database saved")
+        return f"Vector store updated successfully. Processed {total_chunks} chunks from {len(files)} files using {parser}.", gr.update(choices=[doc["name"] for doc in uploaded_documents], value=[doc["name"] for doc in uploaded_documents if doc["selected"]])
     else:
+        return "No data was processed. Please check your files and try again.", gr.update(choices=[doc["name"] for doc in uploaded_documents], value=[doc["name"] for doc in uploaded_documents if doc["selected"]])
 UPLOAD_FOLDER = "uploaded_files"
 if not os.path.exists(UPLOAD_FOLDER):
     for doc in uploaded_documents:
         try:
             file_path = os.path.join(UPLOAD_FOLDER, doc["name"])
+            temp_file = NamedTemporaryFile(delete=False, suffix=".pdf", dir=UPLOAD_FOLDER)
+            temp_file.write(open(file_path, 'rb').read())
+            temp_file.close()
+            data = load_document(temp_file, "llamaparse")
             all_data.extend(data)
+            os.unlink(temp_file.name)
         except Exception as e:
             logging.error(f"Error processing file {doc['name']}: {str(e)}")