Spaces:

yashasgupta
/

rag_system

Sleeping

yashasgupta commited on Jul 20, 2024

Commit

4e4a24d

verified ·

1 Parent(s): cfb6e62

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -4,6 +4,7 @@ from langchain_core.prompts import ChatPromptTemplate, SystemMessagePromptTempla
 import os
 import nltk
 import io
 nltk.download("punkt")
 st.title(':blue[Langchain:] A Rag System on “Leave No Context Behind” Paper')
@@ -46,6 +47,13 @@ from langchain_google_genai import GoogleGenerativeAIEmbeddings
 from langchain_community.vectorstores import Chroma
 from langchain_core.runnables import RunnablePassthrough
 uploaded_file = st.file_uploader("Choose a pdf file",type = "pdf")
@@ -53,10 +61,11 @@ uploaded_file = st.file_uploader("Choose a pdf file",type = "pdf")
 if uploaded_file is not None:
     pdf_file = io.BytesIO(uploaded_file.read())
-    pdf_loader = PDFMinerLoader(pdf_file)
-    dat_nik = pdf_loader.load()
     text_splitter = NLTKTextSplitter(chunk_size = 500,chunk_overlap = 100)
-    chunks = test_splitter.split_documents(dat_nik)
     embedding_model = GoogleGenerativeAIEmbeddings(model="models/embedding-001")

 import os
 import nltk
 import io
+import fitz
 nltk.download("punkt")
 st.title(':blue[Langchain:] A Rag System on “Leave No Context Behind” Paper')
 from langchain_community.vectorstores import Chroma
 from langchain_core.runnables import RunnablePassthrough
+def extract_text_from_pdf(pdf_file):
+    document = fitz.open(stream=pdf_file, filetype="pdf")
+    text = ""
+    for page_num in range(len(document)):
+        page = document.load_page(page_num)
+        text += page.get_text()
+    return text
 uploaded_file = st.file_uploader("Choose a pdf file",type = "pdf")
 if uploaded_file is not None:
     pdf_file = io.BytesIO(uploaded_file.read())
+    text = extract_text_from_pdf(pdf_file)
+    #pdf_loader = PDFMinerLoader(pdf_file)
+    #dat_nik = pdf_loader.load()
     text_splitter = NLTKTextSplitter(chunk_size = 500,chunk_overlap = 100)
+    chunks = test_splitter.split_documents([text])
     embedding_model = GoogleGenerativeAIEmbeddings(model="models/embedding-001")