Spaces:

powerpuf-bot
/

dataxet-chatbot

Sleeping

Sirinoot commited on Feb 21, 2024

Commit

f6a46b7

verified ·

1 Parent(s): 5b11bcc

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -155,8 +155,17 @@ def predict_test(model, tokenizer, embedding_model, df, question, index):  # sen
     mostSimContext = mostSimContext.strip()
     mostSimContext = re.sub(r'\s+', ' ', mostSimContext)
     segments = sent_tokenize(mostSimContext, engine="crfcut")
     segments_index = set_index(get_embeddings(embedding_model,segments))
     _distances,_indices = faiss_search(segments_index, question_vector)
     mostSimSegment = segments[_indices[0][0]]
@@ -166,8 +175,10 @@ def predict_test(model, tokenizer, embedding_model, df, question, index):  # sen
     # Find the start and end indices of mostSimSegment within mostSimContext
     start_index = mostSimContext.find(Answer)
     end_index = start_index + len(Answer)
-    print(f"startIndex =>{ start_index} endIndex =>{ end_index}")
     print(f"mostSimContext{len(mostSimContext)}=>{mostSimContext}\nsegments{len(segments)}=>{segments}\nmostSimSegment{len(mostSimSegment)}=>{mostSimSegment}")
     _time = time.time() - t
     output = {
         "user_question": question,

     mostSimContext = mostSimContext.strip()
     mostSimContext = re.sub(r'\s+', ' ', mostSimContext)
     segments = sent_tokenize(mostSimContext, engine="crfcut")
+    #=====add
+    if (len(segments)==1):
+        segments = ' '.join(segments)
+        segments = segments.split('และ')
+        segments = [segment.split('หรือ') for segment in segments]
+        segments = [sentence for segment in segments for sentence in segment]
+    #=====end
     segments_index = set_index(get_embeddings(embedding_model,segments))
     _distances,_indices = faiss_search(segments_index, question_vector)
     mostSimSegment = segments[_indices[0][0]]
     # Find the start and end indices of mostSimSegment within mostSimContext
     start_index = mostSimContext.find(Answer)
     end_index = start_index + len(Answer)
+    print(f"answer {len(answer)} => {answer} || startIndex =>{start_index} || endIndex =>{end_index}")
     print(f"mostSimContext{len(mostSimContext)}=>{mostSimContext}\nsegments{len(segments)}=>{segments}\nmostSimSegment{len(mostSimSegment)}=>{mostSimSegment}")
     _time = time.time() - t
     output = {
         "user_question": question,