Spaces:

DrishtiSharma
/

docqa-with-deepseek-r1

Build error

DrishtiSharma commited on Feb 14

Commit

c98699f

verified ·

1 Parent(s): aeca549

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -117,7 +117,7 @@ if not st.session_state.pdf_loaded and "pdf_path" in st.session_state:
         st.json(docs[0].metadata)
         # Extract metadata
-        title, author, email_str, affiliation_str = extract_metadata(st.session_state.pdf_path)
         # Display extracted metadata
         st.subheader("📄 Extracted Document Metadata")
@@ -131,8 +131,8 @@ if not st.session_state.pdf_loaded and "pdf_path" in st.session_state:
         embedding_model = HuggingFaceEmbeddings(model_name=model_name, model_kwargs={"device": "cpu"}, encode_kwargs={'normalize_embeddings': False})
         # Convert metadata into a retrievable chunk
-        metadata_text = f"Title: {title}\nAuthor: {author}\nEmails: {email_str}\nAffiliations: {affiliation_str}"
-        metadata_doc = {"page_content": metadata_text, "metadata": {"source": "metadata"}}
         # Prevent unnecessary re-chunking
         if not st.session_state.chunked:

         st.json(docs[0].metadata)
         # Extract metadata
+        metadata = extract_metadata_llm(st.session_state.pdf_path)
         # Display extracted metadata
         st.subheader("📄 Extracted Document Metadata")
         embedding_model = HuggingFaceEmbeddings(model_name=model_name, model_kwargs={"device": "cpu"}, encode_kwargs={'normalize_embeddings': False})
         # Convert metadata into a retrievable chunk
+        metadata_doc = {"page_content": metadata, "metadata": {"source": "metadata"}}
         # Prevent unnecessary re-chunking
         if not st.session_state.chunked: