Spaces:

Mattral
/

RAG-bot

Sleeping

Mattral commited on May 10, 2024

Commit

8ef7048

verified ·

1 Parent(s): 3a411d7

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -64,13 +64,15 @@ def get_url_content(url):
 @st.cache_resource
 def get_retriever(urls):
     all_content = [get_url_content(url) for url in urls]
     documents = [Document(page_content=doc, metadata={'url': url}) for (url, doc) in all_content]
     text_splitter = RecursiveCharacterTextSplitter(chunk_size=1500, chunk_overlap=200)
     docs = text_splitter.split_documents(documents)
     embeddings = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")
     db = DocArrayInMemorySearch.from_documents(docs, embeddings)
     retriever = db.as_retriever(search_type="mmr", search_kwargs={"k": 5, "fetch_k": 10})
     return retriever

 @st.cache_resource
 def get_retriever(urls):
     all_content = [get_url_content(url) for url in urls]
+    print(all_content)  # See what is actually fetched
     documents = [Document(page_content=doc, metadata={'url': url}) for (url, doc) in all_content]
+    print(documents)  # Verify that documents are created correctly
     text_splitter = RecursiveCharacterTextSplitter(chunk_size=1500, chunk_overlap=200)
     docs = text_splitter.split_documents(documents)
+    print(docs)  # Check the final structure of split documents
     embeddings = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")
     db = DocArrayInMemorySearch.from_documents(docs, embeddings)
     retriever = db.as_retriever(search_type="mmr", search_kwargs={"k": 5, "fetch_k": 10})
     return retriever