Spaces:

iwashuman0405
/

rag_app

Sleeping

App Files Files Community

iwashuman0405 commited on Apr 6

Commit

1a1949a

verified ·

1 Parent(s): e4ca753

Upload 9 files

Browse files

Files changed (9) hide show

.gitattributes +2 -35
README.md +1 -12
api.py +22 -0
app.py +40 -0
data.csv +0 -0
embeddings.pth +3 -0
evaluate.py +51 -0
recommendation_engine.py +69 -0
requirements.txt +11 -0

.gitattributes CHANGED Viewed

@@ -1,35 +1,2 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text


1	+ nomic_model/* filter=lfs diff=lfs merge=lfs -text
2	+ embeddings.pth filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,12 +1 @@
----
-title: Rag App
-emoji: 🐨
-colorFrom: blue
-colorTo: indigo
-sdk: streamlit
-sdk_version: 1.44.1
-app_file: app.py
-pinned: false
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference


1	+ "# SHL Assessment Recommender"

api.py ADDED Viewed

	@@ -0,0 +1,22 @@

+from fastapi import FastAPI
+from pydantic import BaseModel
+from recommendation_engine import scrape_url, prepare_input, get_recommendations
+app = FastAPI()
+class QueryRequest(BaseModel):
+    query: str
+    duration: int
+    url: str = None
+@app.get("/")
+def root():
+    return {"message": "SHL Assessment Recommendation API is running."}
+@app.post("/recommend")
+def recommend(data: QueryRequest):
+    jd_text = scrape_url(data.url) if data.url else ""
+    input_text = prepare_input(data.query, data.duration, jd_text)
+    recommendations = get_recommendations(input_text, top_k=10, max_duration=data.duration)
+    return {"results": recommendations}

app.py ADDED Viewed

	@@ -0,0 +1,40 @@

+# app.py
+import streamlit as st
+from recommendation_engine import scrape_url, prepare_input, get_recommendations,traced_get_recommendations
+from evaluate import evaluate
+import json
+st.title("SHL Assessment Recommender")
+query = st.text_area("Enter job query")
+duration = st.number_input("Max assessment duration (minutes)", min_value=5, max_value=120, value=40)
+top_k = st.number_input("Number of result required", min_value=3, max_value=15, value=10)
+url = st.text_input("Optional Job Description URL")
+if st.button("Recommend Assessments"):
+    jd_text = scrape_url(url) if url else ""
+    query_text = prepare_input(query, duration, jd_text)
+    recommendations = traced_get_recommendations(query_text, top_k=10, max_duration=duration)
+    st.write("Query Input:", query_text)
+    st.subheader("Top Recommendations")
+    st.table(recommendations)
+st.header("🔍 Evaluation")
+eval_json = st.text_area("Enter test queries as JSON array", height=300, value="""[
+  {
+    "query": "I am hiring for Java developers who can also collaborate effectively with my business teams. Looking for an assessment(s) that can be completed in 40 minutes.",
+    "duration": 40,
+    "url": "",
+    "relevant_assessments": ["Java Programming Test", "Team Collaboration Test"]
+  }
+]""")
+if st.button("Run Evaluation"):
+    try:
+        test_queries = json.loads(eval_json)
+        evaluate(test_queries, k=3)
+    except Exception as e:
+        st.error(f"Error parsing input or running evaluation: {e}")

data.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

embeddings.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7b17237d1f2eb8b8fa8765c2dd87f8b18ed27ef4844067fb9898ce330bd8e5f5
+size 1732204

evaluate.py ADDED Viewed

	@@ -0,0 +1,51 @@

+from recommendation_engine import prepare_input, scrape_url, get_recommendations
+import numpy as np
+import streamlit as st
+def precision_at_k(preds, relevant, k):
+    preds_k = preds[:k]
+    return sum([1 for p in preds_k if p in relevant]) / k
+def recall_at_k(preds, relevant, k):
+    preds_k = preds[:k]
+    return sum([1 for p in preds_k if p in relevant]) / len(relevant)
+def average_precision(preds, relevant, k):
+    ap = 0
+    num_relevant = 0
+    for i in range(min(k, len(preds))):
+        if preds[i] in relevant:
+            num_relevant += 1
+            ap += num_relevant / (i + 1)
+    return ap / min(len(relevant), k) if relevant else 0
+def clean_names(name):
+    return name.replace("Java Script", "JavaScript")
+def evaluate(test_queries, k=3):
+    recalls, maps = [], []
+    for item in test_queries:
+        jd_text = scrape_url(item["url"]) if item["url"] else ""
+        input_text = prepare_input(item["query"], item["duration"], jd_text)
+        recommendations = get_recommendations(input_text, top_k=k)
+        pred_names = [clean_names(rec["name"]) for rec in recommendations]
+        gt = [clean_names(g) for g in item["relevant_assessments"]]
+        r = recall_at_k(pred_names, gt, k)
+        ap = average_precision(pred_names, gt, k)
+        recalls.append(r)
+        maps.append(ap)
+        st.markdown(f"""
+        **Query:** {item['query']}
+        **Recall@{k}:** {r:.3f}
+        **AP@{k}:** {ap:.3f}
+        ---
+        """)
+    st.success(f"📊 Mean Recall@{k}: {np.mean(recalls):.3f}")
+    st.success(f"📊 MAP@{k}: {np.mean(maps):.3f}")

recommendation_engine.py ADDED Viewed

	@@ -0,0 +1,69 @@

+# recommendation_engine.py
+import requests
+from bs4 import BeautifulSoup
+import pandas as pd
+from sentence_transformers import SentenceTransformer, util
+import torch
+import numpy as np
+from langchain.callbacks.tracers import ConsoleCallbackHandler
+from langsmith import traceable
+model = SentenceTransformer("nomic-ai/nomic-embed-text-v1",trust_remote_code=True)
+catalog = pd.read_csv("data.csv")
+embeddings = torch.load("embeddings.pth")
+handler = ConsoleCallbackHandler()
+def scrape_url(url):
+    try:
+        page = requests.get(url)
+        soup = BeautifulSoup(page.text, "html.parser")
+        return soup.get_text(separator=' ')
+    except Exception as e:
+        return ""
+def clean_query_text(text):
+    replacements = {
+        "Java Script": "JavaScript",
+        "java script": "JavaScript",
+        "Java script": "JavaScript"
+    }
+    for wrong, correct in replacements.items():
+        text = text.replace(wrong, correct)
+    return text
+def prepare_input(query, duration, jd_text=""):
+    cleaned_query = clean_query_text(query)
+    input_text = f"{cleaned_query}. Candidate should complete assessment in {duration} minutes. {jd_text}"
+    return input_text.strip()
+def get_recommendations(query_text, top_k=10,max_duration = None):
+    query_embedding = model.encode(query_text)
+    scores = util.cos_sim(query_embedding, embeddings)[0].numpy()
+    ranked_indices = np.argsort(-scores)
+    results = []
+    for idx in ranked_indices:
+        item = catalog.iloc[idx]
+        print(f"Matched: {item['name']} with duration {item['assessment_length']}")
+        result = {
+            "name": item["name"],
+            "url": item["url"],
+            "remote_testing": item["remote"],
+            "adaptive": item["adaptive"],
+            "duration": item['assessment_length'],
+            "test_type": item["test_types"],
+        }
+        results.append(result)
+        if len(results) >= top_k:
+            break
+    return results
+@traceable(name="SHL Recommendation Trace")
+def traced_get_recommendations(query_text, top_k=10, max_duration=None):
+    return get_recommendations(query_text, top_k, max_duration)

requirements.txt ADDED Viewed

	@@ -0,0 +1,11 @@

+streamlit
+pandas
+numpy
+sentence-transformers
+torch
+requests
+beautifulsoup
+json
+langchain
+langsmith
+pydantic