Spaces:

vanderbilt-dsi
/

cgd-ui-panel

Running

App Files Files Community

myshirk commited on 7 days ago

Commit

b1d5a3b

verified ·

1 Parent(s): c59bc5d

enable showing top-k searches for semantic query

Browse files

Files changed (1) hide show

app.py +10 -1

app.py CHANGED Viewed

@@ -70,6 +70,7 @@ w_countries = pn.widgets.MultiSelect(name="Countries", options=country_opts)
 w_years = pn.widgets.MultiSelect(name="Years", options=year_opts)
 w_keyword = pn.widgets.TextInput(name="Keyword Search", placeholder="Search questions or answers with exact string matching")
 w_group = pn.widgets.Checkbox(name="Group by Question Text", value=False)
 w_semquery = pn.widgets.TextInput(name="Semantic Query", placeholder="LLM-powered semantic search")
 w_search_button = pn.widgets.Button(name="Search", button_type="primary")
@@ -133,10 +134,10 @@ def search(event=None):
         result_table.value = _group_by_question(filt.iloc[0:0]) if w_group.value else pd.DataFrame(columns=["Score", "country", "year", "question_text", "answer_text"])
         return
     filtered_embs = emb_tensor[filtered_indices]
     q_vec = model.encode(query, convert_to_tensor=True, device="cpu").cpu()
     sims = util.cos_sim(q_vec, filtered_embs)[0]
-    top_k = min(50, len(filtered_indices))
     top_vals, top_idx = torch.topk(sims, k=top_k)
     top_filtered_ids = [filtered_ids[i] for i in top_idx.tolist()]
@@ -148,11 +149,13 @@ def search(event=None):
     result_table.value = _group_by_question(sem_rows.drop(columns=["Score"])) if w_group.value else sem_rows[["Score", "country", "year", "question_text", "answer_text"]]
 def clear_filters(event=None):
     w_countries.value = []
     w_years.value = []
     w_keyword.value = ""
     w_semquery.value = ""
     result_table.value = df[["country", "year", "question_text", "answer_text"]].copy()
 w_search_button.on_click(search)
@@ -167,6 +170,12 @@ w_years.param.watch(lambda e: search(), 'value')
 w_semquery.param.watch(lambda e: search(), 'enter_pressed')
 w_keyword.param.watch(lambda e: search(), 'enter_pressed')
 # Show all data at startup
 result_table.value = df[["country", "year", "question_text", "answer_text"]].copy()

 w_years = pn.widgets.MultiSelect(name="Years", options=year_opts)
 w_keyword = pn.widgets.TextInput(name="Keyword Search", placeholder="Search questions or answers with exact string matching")
 w_group = pn.widgets.Checkbox(name="Group by Question Text", value=False)
+w_topk = pn.widgets.Select(name="Top-K (semantic)", options=[5, 10, 20, 50, 100], value=50, disabled=True)
 w_semquery = pn.widgets.TextInput(name="Semantic Query", placeholder="LLM-powered semantic search")
 w_search_button = pn.widgets.Button(name="Search", button_type="primary")
         result_table.value = _group_by_question(filt.iloc[0:0]) if w_group.value else pd.DataFrame(columns=["Score", "country", "year", "question_text", "answer_text"])
         return
+    top_k = min(int(w_topk.value), len(filtered_indices))
     filtered_embs = emb_tensor[filtered_indices]
     q_vec = model.encode(query, convert_to_tensor=True, device="cpu").cpu()
     sims = util.cos_sim(q_vec, filtered_embs)[0]
     top_vals, top_idx = torch.topk(sims, k=top_k)
     top_filtered_ids = [filtered_ids[i] for i in top_idx.tolist()]
     result_table.value = _group_by_question(sem_rows.drop(columns=["Score"])) if w_group.value else sem_rows[["Score", "country", "year", "question_text", "answer_text"]]
 def clear_filters(event=None):
     w_countries.value = []
     w_years.value = []
     w_keyword.value = ""
     w_semquery.value = ""
+    w_topk.disabled = True
     result_table.value = df[["country", "year", "question_text", "answer_text"]].copy()
 w_search_button.on_click(search)
 w_semquery.param.watch(lambda e: search(), 'enter_pressed')
 w_keyword.param.watch(lambda e: search(), 'enter_pressed')
+# Enable/disable Top-K based on semantic query presence
+def _toggle_topk_disabled(event=None):
+    w_topk.disabled = (w_semquery.value.strip() == '')
+_toggle_topk_disabled()
+w_semquery.param.watch(lambda e: _toggle_topk_disabled(), 'value')
 # Show all data at startup
 result_table.value = df[["country", "year", "question_text", "answer_text"]].copy()