quran-finder-be

Running

App Files Files Community

Bofandra commited on Aug 24, 2024

Commit

549b455

verified ·

1 Parent(s): f286ff5

Update app.py

Browse files

Files changed (1) hide show

app.py +16 -5

app.py CHANGED Viewed

@@ -3,6 +3,7 @@ from sentence_transformers import SentenceTransformer
 import pandas as pd
 import pickle
 from pathlib import Path
 def make_clickable_both(val):
     name, url = val.split('#')
@@ -11,6 +12,8 @@ def make_clickable_both(val):
     return f'<a href="{url}">{name}</a>'
 def find(query):
     def get_detailed_instruct(task_description: str, query: str) -> str:
         return f'Instruct: {task_description}\nQuery: {query}'
@@ -19,14 +22,17 @@ def find(query):
     queries = [
         get_detailed_instruct(task, query)
     ]
-    print("cekpoin0\n")
     quran = pd.read_csv('quran-eng.csv', delimiter=",")
     file = open('quran-splitted.sav','rb')
     quran_splitted = pickle.load(file)
     model = SentenceTransformer('intfloat/multilingual-e5-large-instruct')
     documents = quran_splitted['text'].tolist()
     # document_embeddings = model.encode(documents, convert_to_tensor=True, normalize_embeddings=True)
@@ -34,18 +40,21 @@ def find(query):
     # pickle.dump(embeddings, open(filename, 'wb'))
     file = open('encoded_quran_text_split_multilingual-e5-large-instructs.sav','rb')
     document_embeddings = pickle.load(file)
-    print("cekpoin1\n")
     query_embeddings = model.encode(queries, convert_to_tensor=True, normalize_embeddings=True)
     scores = (query_embeddings @ document_embeddings.T) * 100
-    print("cekpoin2\n")
     # insert the similarity value to dataframe & sort it
     file = open('quran-splitted.sav','rb')
     quran_splitted = pickle.load(file)
     quran_splitted['similarity'] = scores.tolist()[0]
     sorted_quran = quran_splitted.sort_values(by='similarity', ascending=False)
-    print("cekpoin3\n")
     #results = ""
     results = pd.DataFrame()
@@ -56,7 +65,9 @@ def find(query):
         results = pd.concat([results, result_quran])
         #results = results + result_quran['text'].item()+" (Q.S "+str(result['sura']).rstrip('.0')+":"+str(result['aya']).rstrip('.0')+")\n"
         i=i+1
     url = 'https://quran.com/'+results['sura'].astype(str)+':'+results['aya'].astype(str)+'/tafsirs/en-tafisr-ibn-kathir'
     results['text'] = '<a href="'+url+'">'+results['text']+ '</a>' + ' (QS. ' + results['sura'].astype(str) + ':' + results['aya'].astype(str) + ')'
     results = results.drop(columns=['sura', 'aya'])

 import pandas as pd
 import pickle
 from pathlib import Path
+import time
 def make_clickable_both(val):
     name, url = val.split('#')
     return f'<a href="{url}">{name}</a>'
 def find(query):
+    print("start")
+    print(time.time())
     def get_detailed_instruct(task_description: str, query: str) -> str:
         return f'Instruct: {task_description}\nQuery: {query}'
     queries = [
         get_detailed_instruct(task, query)
     ]
     quran = pd.read_csv('quran-eng.csv', delimiter=",")
+    print(time.time())
     file = open('quran-splitted.sav','rb')
     quran_splitted = pickle.load(file)
+    print("load quran\n")
+    print(time.time())
     model = SentenceTransformer('intfloat/multilingual-e5-large-instruct')
+    print(time.time())
     documents = quran_splitted['text'].tolist()
     # document_embeddings = model.encode(documents, convert_to_tensor=True, normalize_embeddings=True)
     # pickle.dump(embeddings, open(filename, 'wb'))
     file = open('encoded_quran_text_split_multilingual-e5-large-instructs.sav','rb')
     document_embeddings = pickle.load(file)
+    print("load quran embedding\n")
+    print(time.time())
     query_embeddings = model.encode(queries, convert_to_tensor=True, normalize_embeddings=True)
     scores = (query_embeddings @ document_embeddings.T) * 100
+    print("count similarities\n")
+    print(time.time())
     # insert the similarity value to dataframe & sort it
     file = open('quran-splitted.sav','rb')
     quran_splitted = pickle.load(file)
     quran_splitted['similarity'] = scores.tolist()[0]
     sorted_quran = quran_splitted.sort_values(by='similarity', ascending=False)
+    print("sort by similarity\n")
+    print(time.time())
     #results = ""
     results = pd.DataFrame()
         results = pd.concat([results, result_quran])
         #results = results + result_quran['text'].item()+" (Q.S "+str(result['sura']).rstrip('.0')+":"+str(result['aya']).rstrip('.0')+")\n"
         i=i+1
+    print("collect results\n")
+    print(time.time())
     url = 'https://quran.com/'+results['sura'].astype(str)+':'+results['aya'].astype(str)+'/tafsirs/en-tafisr-ibn-kathir'
     results['text'] = '<a href="'+url+'">'+results['text']+ '</a>' + ' (QS. ' + results['sura'].astype(str) + ':' + results['aya'].astype(str) + ')'
     results = results.drop(columns=['sura', 'aya'])