Spaces:

ArturG9
/

Local_Lithuanian_Law_RAG_QA_ChatBot_Streamlit

Sleeping

ArturG9 commited on Jul 4, 2024

Commit

dfb65c1

verified ·

1 Parent(s): 8356c3c

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -15,6 +15,7 @@ from langchain.prompts import PromptTemplate
 from langchain.vectorstores import Chroma
 from utils import load_txt_documents, split_docs, load_uploaded_documents, retriever_from_chroma
 from langchain.text_splitter import TokenTextSplitter, RecursiveCharacterTextSplitter
 script_dir = os.path.dirname(os.path.abspath(__file__))
 data_path = os.path.join(script_dir, "data/")
@@ -45,12 +46,8 @@ def get_vectorstore(text_chunks):
     return vectorstore
 def get_pdf_text(pdf_docs):
-    text = ""
-    for pdf in pdf_docs:
-        pdf_reader = PdfReader(pdf)
-        for page in pdf_reader.pages:
-            text += page.extract_text()
-    return text
 def get_text_chunks(text):
     text_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(

 from langchain.vectorstores import Chroma
 from utils import load_txt_documents, split_docs, load_uploaded_documents, retriever_from_chroma
 from langchain.text_splitter import TokenTextSplitter, RecursiveCharacterTextSplitter
+from langchain_community.document_loaders.directory import DirectoryLoader
 script_dir = os.path.dirname(os.path.abspath(__file__))
 data_path = os.path.join(script_dir, "data/")
     return vectorstore
 def get_pdf_text(pdf_docs):
+    document_loader = DirectoryLoader(pdf_docs)
+    return document_loader.load()
 def get_text_chunks(text):
     text_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(