Spaces:

Yozora721
/

pnp-chatbot-v1

Sleeping

FauziIsyrinApridal commited on Jun 14

Commit

82031c8

1 Parent(s): 498342f

perbaiki plaholsdr input dan hapus chunking

Files changed (2) hide show

app/chat.py CHANGED Viewed

@@ -50,7 +50,7 @@ def display_chat_history(chain):
     # Input teks biasa
     user_input_obj = st.chat_input(
-        "Masukkan pertanyaan atau Tekan tombol mic untuk berbicara!",
         key="chat_input_field"
     )

     # Input teks biasa
     user_input_obj = st.chat_input(
+        "Masukkan pertanyaan",
         key="chat_input_field"
     )

app/document_processor.py CHANGED Viewed

@@ -3,8 +3,9 @@ from langchain_huggingface import HuggingFaceEmbeddings
 from langchain_community.vectorstores import FAISS
 import os
 import tempfile
-import zipfile
 import streamlit as st
 def save_vector_store_to_supabase(vector_store, supabase, bucket_name, file_prefix="vector_store"):
     """Save vector store to Supabase storage as separate files."""
@@ -94,18 +95,25 @@ def load_vector_store_from_supabase(supabase, bucket_name, file_prefix="vector_s
         st.error(f"Error loading from Supabase: {e}")
         return None
 def process_documents(docs):
     embeddings = HuggingFaceEmbeddings(
         model_name="LazarusNLP/all-indo-e5-small-v4",
         model_kwargs={"device": "cpu"},
         encode_kwargs={"normalize_embeddings": True}
     )
-    text_splitter = RecursiveCharacterTextSplitter(
-        chunk_size=1500,
-        chunk_overlap=300
-    )
-    text_chunks = text_splitter.split_documents(docs)
-    vector_store = FAISS.from_documents(text_chunks, embeddings)
-    return vector_store

 from langchain_community.vectorstores import FAISS
 import os
 import tempfile
 import streamlit as st
+from langchain.schema import Document
 def save_vector_store_to_supabase(vector_store, supabase, bucket_name, file_prefix="vector_store"):
     """Save vector store to Supabase storage as separate files."""
         st.error(f"Error loading from Supabase: {e}")
         return None
 def process_documents(docs):
     embeddings = HuggingFaceEmbeddings(
         model_name="LazarusNLP/all-indo-e5-small-v4",
         model_kwargs={"device": "cpu"},
         encode_kwargs={"normalize_embeddings": True}
     )
+    combined_docs = []
+    for doc in docs:
+        # Gunakan page_content langsung tanpa split
+        text = doc.page_content if hasattr(doc, "page_content") else doc
+        metadata = doc.metadata if hasattr(doc, "metadata") else {}
+        combined_doc = Document(
+            page_content=text,
+            metadata=metadata
+        )
+        combined_docs.append(combined_doc)
+    vector_store = FAISS.from_documents(combined_docs, embeddings)
+    return vector_store