Spaces:

rajesh1729
/

Streamlit-RAG-Chat-with-PDF

Sleeping

App Files Files Community

rajesh1729 commited on Nov 11, 2024

Commit

e5702bf

verified ·

1 Parent(s): 53d8e52

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -11

app.py CHANGED Viewed

@@ -2,7 +2,7 @@ import os
 import streamlit as st
 from langchain.embeddings.openai import OpenAIEmbeddings
 from langchain.vectorstores import Chroma
-from langchain.text_splitter import CharacterTextSplitter
 from langchain.chat_models import ChatOpenAI
 from langchain.chains import ConversationalRetrievalChain, ConversationChain
 from langchain.memory import ConversationBufferMemory
@@ -17,9 +17,9 @@ def create_sidebar():
         st.markdown("""
         ### Tools Used
-        • OpenAI
-        • LangChain
-        • ChromaDB
         ### Steps
         1. Add API key
@@ -40,13 +40,24 @@ def save_uploaded_file(uploaded_file, path='./uploads/'):
 def load_texts_from_papers(papers):
     all_texts = []
     for paper in papers:
-        file_path = save_uploaded_file(paper)
-        loader = PyPDFLoader(file_path)
-        documents = loader.load()
-        text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
-        texts = text_splitter.split_documents(documents)
-        all_texts.extend(texts)
-        os.remove(file_path)
     return all_texts
 @st.cache_resource
@@ -88,6 +99,7 @@ def main():
                     return_messages=True
                 )
             )
         else:
             memory = ConversationBufferMemory(memory_key="chat_history")
             qa_chain = ConversationChain(

 import streamlit as st
 from langchain.embeddings.openai import OpenAIEmbeddings
 from langchain.vectorstores import Chroma
+from langchain.text_splitter import RecursiveCharacterTextSplitter  # Changed to RecursiveCharacterTextSplitter
 from langchain.chat_models import ChatOpenAI
 from langchain.chains import ConversationalRetrievalChain, ConversationChain
 from langchain.memory import ConversationBufferMemory
         st.markdown("""
         ### Tools Used
+        - OpenAI
+        - LangChain
+        - ChromaDB
         ### Steps
         1. Add API key
 def load_texts_from_papers(papers):
     all_texts = []
     for paper in papers:
+        try:
+            file_path = save_uploaded_file(paper)
+            loader = PyPDFLoader(file_path)
+            documents = loader.load()
+            # Using RecursiveCharacterTextSplitter with proper encoding handling
+            text_splitter = RecursiveCharacterTextSplitter(
+                chunk_size=1000,
+                chunk_overlap=200,
+                length_function=len,
+                is_separator_regex=False,
+            )
+            texts = text_splitter.split_documents(documents)
+            all_texts.extend(texts)
+            os.remove(file_path)
+        except Exception as e:
+            st.error(f"Error processing {paper.name}: {str(e)}")
     return all_texts
 @st.cache_resource
                     return_messages=True
                 )
             )
+            st.success("PDF processed successfully!")
         else:
             memory = ConversationBufferMemory(memory_key="chat_history")
             qa_chain = ConversationChain(