Spaces:

vanderbilt-dsi
/

cgd-ui-panel

Running

App Files Files Community

myshirk commited on 8 days ago

Commit

5968656

verified ·

1 Parent(s): 1e66d1d

fix search logic error

Browse files

Files changed (1) hide show

app.py +33 -6

app.py CHANGED Viewed

@@ -119,17 +119,44 @@ def semantic_search(event=None):
     if not query:
         return
     model, ids_list, emb_tensor = get_semantic_resources()
     q_vec = model.encode(query, convert_to_tensor=True, device="cpu").cpu()
-    sims = util.cos_sim(q_vec, emb_tensor)[0]
     top_vals, top_idx = torch.topk(sims, k=50)
-    sem_ids = [ids_list[i] for i in top_idx.tolist()]
-    sem_rows = df.loc[df["id"].isin(sem_ids)].copy()
-    score_map = dict(zip(sem_ids, top_vals.tolist()))
     sem_rows["Score"] = sem_rows["id"].map(score_map)
     sem_rows = sem_rows.sort_values("Score", ascending=False)
     filt = df.copy()
     if w_countries.value:

     if not query:
         return
+        # Step 1: Filter the full dataframe
+    filt = df.copy()
+    if w_countries.value:
+        filt = filt[filt["country"].isin(w_countries.value)]
+    if w_years.value:
+        filt = filt[filt["year"].isin(w_years.value)]
+    if w_keyword.value:
+        filt = filt[
+            filt["question_text"].str.contains(w_keyword.value, case=False, na=False) |
+            filt["answer_text"].str.contains(w_keyword.value, case=False, na=False) |
+            filt["question_code"].astype(str).str.contains(w_keyword.value, case=False, na=False)
+        ]
+    # Step 2: Load only embeddings for the filtered rows
     model, ids_list, emb_tensor = get_semantic_resources()
+    # Create a mask for filtered IDs
+    filtered_ids = filt["id"].tolist()
+    id_to_index = {id_: i for i, id_ in enumerate(ids_list)}
+    filtered_indices = [id_to_index[id_] for id_ in filtered_ids if id_ in id_to_index]
+    # Subset the embedding tensor
+    filtered_embs = emb_tensor[filtered_indices]
+    # Step 3: Semantic search only within filtered subset
     q_vec = model.encode(query, convert_to_tensor=True, device="cpu").cpu()
+    sims = util.cos_sim(q_vec, filtered_embs)[0]
     top_vals, top_idx = torch.topk(sims, k=50)
+    top_filtered_ids = [filtered_ids[i] for i in top_idx.tolist()]
+    sem_rows = filt[filt["id"].isin(top_filtered_ids)].copy()
+    score_map = dict(zip(top_filtered_ids, top_vals.tolist()))
     sem_rows["Score"] = sem_rows["id"].map(score_map)
     sem_rows = sem_rows.sort_values("Score", ascending=False)
+    # Final output
+    result_table.value = sem_rows[["Score", "country", "year", "question_text", "answer_text"]]
     filt = df.copy()
     if w_countries.value: