Spaces:

joshuasundance
/

langchain-streamlit-demo

Runtime error

App Files Files Community

Joshua Sundance Bailey commited on Dec 11, 2023

Commit

c132355

1 Parent(s): d94be33

rm bm25 & fix docstore kwarg

Browse files

Files changed (3) hide show

langchain-streamlit-demo/app.py +2 -3
langchain-streamlit-demo/llm_resources.py +2 -44
requirements.txt +0 -1

langchain-streamlit-demo/app.py CHANGED Viewed

@@ -17,9 +17,8 @@ from streamlit_feedback import streamlit_feedback
 from defaults import default_values
 from llm_resources import (
-    get_runnable,
-    get_llm,
-    get_texts_and_retriever,
     get_texts_and_multiretriever,
     StreamHandler,
 )

 from defaults import default_values
 from llm_resources import (
+    get_runnable,
+    get_llm,
     get_texts_and_multiretriever,
     StreamHandler,
 )

langchain-streamlit-demo/llm_resources.py CHANGED Viewed

@@ -11,7 +11,7 @@ from langchain.chat_models import (
 )
 from langchain.document_loaders import PyPDFLoader
 from langchain.embeddings import AzureOpenAIEmbeddings, OpenAIEmbeddings
-from langchain.retrievers import BM25Retriever, EnsembleRetriever
 from langchain.schema import Document, BaseRetriever
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.vectorstores import FAISS
@@ -116,48 +116,6 @@ def get_llm(
     return None
-def get_texts_and_retriever(
-    uploaded_file_bytes: bytes,
-    openai_api_key: str,
-    chunk_size: int = DEFAULT_CHUNK_SIZE,
-    chunk_overlap: int = DEFAULT_CHUNK_OVERLAP,
-    k: int = DEFAULT_RETRIEVER_K,
-    azure_kwargs: Optional[Dict[str, str]] = None,
-    use_azure: bool = False,
-) -> Tuple[List[Document], BaseRetriever]:
-    with NamedTemporaryFile() as temp_file:
-        temp_file.write(uploaded_file_bytes)
-        temp_file.seek(0)
-        loader = PyPDFLoader(temp_file.name)
-        documents = loader.load()
-        text_splitter = RecursiveCharacterTextSplitter(
-            chunk_size=chunk_size,
-            chunk_overlap=chunk_overlap,
-        )
-        texts = text_splitter.split_documents(documents)
-        embeddings_kwargs = {"openai_api_key": openai_api_key}
-        if use_azure and azure_kwargs:
-            azure_kwargs["azure_endpoint"] = azure_kwargs.pop("openai_api_base")
-            embeddings_kwargs.update(azure_kwargs)
-            embeddings = AzureOpenAIEmbeddings(**embeddings_kwargs)
-        else:
-            embeddings = OpenAIEmbeddings(**embeddings_kwargs)
-        bm25_retriever = BM25Retriever.from_documents(texts)
-        bm25_retriever.k = k
-        faiss_vectorstore = FAISS.from_documents(texts, embeddings)
-        faiss_retriever = faiss_vectorstore.as_retriever(search_kwargs={"k": k})
-        ensemble_retriever = EnsembleRetriever(
-            retrievers=[bm25_retriever, faiss_retriever],
-            weights=[0.5, 0.5],
-        )
-        return texts, ensemble_retriever
 def get_texts_and_multiretriever(
     uploaded_file_bytes: bytes,
     openai_api_key: str,
@@ -204,7 +162,7 @@ def get_texts_and_multiretriever(
         multivectorstore = FAISS.from_documents(sub_texts, embeddings)
         multivector_retriever = MultiVectorRetriever(
             vectorstore=multivectorstore,
-            base_store=store,
             id_key=id_key,
         )
         multivector_retriever.docstore.mset(list(zip(text_ids, texts)))

 )
 from langchain.document_loaders import PyPDFLoader
 from langchain.embeddings import AzureOpenAIEmbeddings, OpenAIEmbeddings
+from langchain.retrievers import EnsembleRetriever
 from langchain.schema import Document, BaseRetriever
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.vectorstores import FAISS
     return None
 def get_texts_and_multiretriever(
     uploaded_file_bytes: bytes,
     openai_api_key: str,
         multivectorstore = FAISS.from_documents(sub_texts, embeddings)
         multivector_retriever = MultiVectorRetriever(
             vectorstore=multivectorstore,
+            docstore=store,
             id_key=id_key,
         )
         multivector_retriever.docstore.mset(list(zip(text_ids, texts)))

requirements.txt CHANGED Viewed

@@ -7,7 +7,6 @@ openai==1.3.8
 pillow>=10.0.1 # not directly required, pinned by Snyk to avoid a vulnerability
 pyarrow>=14.0.1 # not directly required, pinned by Snyk to avoid a vulnerability
 pypdf==3.17.2
-rank_bm25==0.2.2
 streamlit==1.29.0
 streamlit-feedback==0.1.3
 tiktoken==0.5.2

 pillow>=10.0.1 # not directly required, pinned by Snyk to avoid a vulnerability
 pyarrow>=14.0.1 # not directly required, pinned by Snyk to avoid a vulnerability
 pypdf==3.17.2
 streamlit==1.29.0
 streamlit-feedback==0.1.3
 tiktoken==0.5.2