Spaces:

anasmkh
/

Ensemble_retriever_with_memory

Runtime error

App Files Files Community

anasmkh commited on Oct 2, 2024

Commit

5a5b7c4

verified ·

1 Parent(s): 77e1a65

Update app.py

Browse files

Files changed (1) hide show

app.py +38 -59

app.py CHANGED Viewed

@@ -1,22 +1,19 @@
-from langchain.chains import RetrievalQA
 from langchain.chat_models import ChatOpenAI
 from langchain.llms import OpenAI
 from langchain.memory import ConversationBufferMemory
-from langchain.chains import ConversationalRetrievalChain
-from langchain.text_splitter import CharacterTextSplitter
-from langchain.indexes import VectorstoreIndexCreator
-from langchain.document_loaders import PyPDFLoader
-from langchain.embeddings import OpenAIEmbeddings
-from langchain_core.vectorstores import InMemoryVectorStore
-from langchain.vectorstores import FAISS
-from langchain.retrievers import BM25Retriever,EnsembleRetriever
-from langchain_core.prompts import ChatPromptTemplate
-from langchain_core.output_parsers import StrOutputParser
-from langchain.schema.runnable import RunnablePassthrough
-import gradio as gr
 import os
-pdf_folder_path = "files"
 documents = []
 for filename in os.listdir(pdf_folder_path):
@@ -25,69 +22,51 @@ for filename in os.listdir(pdf_folder_path):
         loader = PyPDFLoader(file_path)
         documents.extend(loader.load())
-text_splitter = CharacterTextSplitter()
-text_splits=text_splitter.split_documents(documents)
-openai_api_key = os.getenv('OPENAI_API_KEY')
-openai_api_key = openai_api_key
 embeddings = OpenAIEmbeddings()
-vector_store = FAISS.from_documents(documents, embeddings)
-retriever_vectordb = vector_store.as_retriever(search_kwargs={"k": 5})
-keyword_retriever = BM25Retriever.from_documents(text_splits)
-keyword_retriever.k =  5
-ensemble_retriever = EnsembleRetriever(retrievers=[retriever_vectordb,keyword_retriever],
-                                       weights=[0.5, 0.5])
-llm = ChatOpenAI(model="gpt-3.5-turbo", temperature=0.4, api_key=openai_api_key)
-memory = ConversationBufferMemory(
-    memory_key="chat_history",
-    input_key="question" ,
-    return_messages=True
 )
-conversation_chain = ConversationalRetrievalChain.from_llm(
-    retriever=ensemble_retriever,
     llm=llm,
-    memory=memory,
-    verbose=False
 )
-template = """
-<|system|>>
-You are an AI Assistant that follows instructions extremely well.
-Please be truthful and give direct answers. Please tell 'I don't know' if user query is not in CONTEXT
-CONTEXT: {context}
-</s>
-<|user|>
-{query}
-</s>
-<|assistant|>
-"""
-prompt = ChatPromptTemplate.from_template(template)
-output_parser = StrOutputParser()
-chain = (
-    {"context": conversation_chain, "query": RunnablePassthrough()}
-    | prompt
-    | llm
-    | output_parser
-)
 def chat_with_ai(user_input, chat_history):
-    response = chain.invoke(user_input)
     chat_history.append((user_input, str(response)))

 from langchain.chat_models import ChatOpenAI
+from langchain.embeddings.openai import OpenAIEmbeddings
+from langchain.vectorstores import Qdrant
+from langchain.text_splitter import CharacterTextSplitter
+from langchain.chains import ConversationalRetrievalChain
 from langchain.llms import OpenAI
 from langchain.memory import ConversationBufferMemory
+from qdrant_client import QdrantClient
+from qdrant_client.http import models as qdrant_models
 import os
+from langchain.document_loaders import PyPDFLoader
+openai_api_key = os.getenv('OPENAI_API_KEY')
+openai_api_key = openai_api_key
+pdf_folder_path = "/content/new_files"
 documents = []
 for filename in os.listdir(pdf_folder_path):
         loader = PyPDFLoader(file_path)
         documents.extend(loader.load())
+text_splitter = CharacterTextSplitter(chunk_size=512, chunk_overlap=25)
+docs = text_splitter.split_documents(documents)
 embeddings = OpenAIEmbeddings()
+qdrant_client = QdrantClient(":memory:")
+qdrant_client.recreate_collection(
+    collection_name="langchain_collection",
+    vectors_config=qdrant_models.VectorParams(size=1536, distance=qdrant_models.Distance.COSINE)
+)
+from langchain_qdrant import QdrantVectorStore,FastEmbedSparse,RetrievalMode
+sparse_embeddings = FastEmbedSparse(model_name="Qdrant/bm25")
+vector_store =  QdrantVectorStore.from_documents(
+    docs,
+    embedding=embeddings,
+    sparse_embedding=sparse_embeddings,
+    location=":memory:",
+    collection_name="langchain_collection",
+    retrieval_mode=RetrievalMode.HYBRID,
 )
+memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)
+retriever = vector_store.as_retriever()
+# llm = OpenAI(temperature=0.4)
+llm = ChatOpenAI(model="gpt-3.5-turbo", temperature=0.3)
+conversational_chain = ConversationalRetrievalChain.from_llm(
     llm=llm,
+    retriever=retriever,
+    memory=memory
 )
+query = "What is COMVIVA CDR"
+response = conversational_chain.invoke({"question": query})
+print(response['answer'])
 def chat_with_ai(user_input, chat_history):
+    response = conversational_chain.invoke({"question":user_input})
     chat_history.append((user_input, str(response)))