Spaces:

yashasgupta
/

rag_system

Sleeping

App Files Files Community

yashasgupta commited on Jul 20, 2024

Commit

281101c

verified ·

1 Parent(s): 4a2a968

Update app.py

Browse files

Files changed (1) hide show

app.py +18 -14

app.py CHANGED Viewed

@@ -41,16 +41,27 @@ chain = chat_template | chat_model | output_parser
 from langchain_community.document_loaders import PDFMinerLoader
 from langchain_text_splitters import NLTKTextSplitter
 uploaded_file = st.file_uploader("Choose a pdf file",type = "pdf")
 if uploaded_file is not None:
-    pdf_loader = PDFMinerLoader(uploaded_file)
     dat_nik = pdf_loader.load()
     text_splitter = NLTKTextSplitter(chunk_size = 500,chunk_overlap = 100)
     chunks = test_splitter.split_documents(dat_nik)
-else:
-    st.write("Please upload a pdf")
 # dat = PDFMinerLoader("2404.07143.pdf")
 # dat_nik =dat.load()
@@ -62,23 +73,16 @@ else:
 # chunks = text_splitter.split_documents(dat_nik)
 # Creating Chunks Embedding
 # We are just loading OpenAIEmbeddings
-from langchain_google_genai import GoogleGenerativeAIEmbeddings
-embedding_model = GoogleGenerativeAIEmbeddings(model="models/embedding-001")
 # vectors = embeddings.embed_documents(chunks)
 # Store the chunks in vector store
-from langchain_community.vectorstores import Chroma
 # Creating a New Chroma Database
-db = Chroma.from_documents(chunks, embedding_model, persist_directory="./chroma_db_1")
-# saving the database on drive
-db.persist()
-# Setting a Connection with the ChromaDB
-db_connection = Chroma(persist_directory="./chroma_db_", embedding_function=embedding_model)
-# Converting CHROMA db_connection to Retriever Object, which retrieves top 5 results
-retriever = db_connection.as_retriever(search_kwargs={"k": 5})
 from langchain_core.runnables import RunnablePassthrough #takes user's question.

 from langchain_community.document_loaders import PDFMinerLoader
 from langchain_text_splitters import NLTKTextSplitter
+from langchain_google_genai import GoogleGenerativeAIEmbeddings
+from langchain_community.vectorstores import Chroma
 uploaded_file = st.file_uploader("Choose a pdf file",type = "pdf")
 if uploaded_file is not None:
+    pdf_file = io.BytesIO(uploaded_file.read())
+    pdf_loader = PDFMinerLoader(pdf_file)
     dat_nik = pdf_loader.load()
     text_splitter = NLTKTextSplitter(chunk_size = 500,chunk_overlap = 100)
     chunks = test_splitter.split_documents(dat_nik)
+    embedding_model = GoogleGenerativeAIEmbeddings(model="models/embedding-001")
+    db = Chroma.from_documents(chunks, embedding_model, persist_directory="./chroma_db_1")
+    db.persist()
+    db_connection = Chroma(persist_directory="./chroma_db_", embedding_function=embedding_model)
+    retriever = db_connection.as_retriever(search_kwargs={"k": 5})
 # dat = PDFMinerLoader("2404.07143.pdf")
 # dat_nik =dat.load()
 # chunks = text_splitter.split_documents(dat_nik)
 # Creating Chunks Embedding
 # We are just loading OpenAIEmbeddings
 # vectors = embeddings.embed_documents(chunks)
 # Store the chunks in vector store
 # Creating a New Chroma Database
 from langchain_core.runnables import RunnablePassthrough #takes user's question.