Spaces:

frankjosh
/

repo_recommender

Sleeping

frankjosh commited on Jan 21

Commit

62db363

verified ·

1 Parent(s): 1c4d662

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -52,10 +52,10 @@ def load_data():
     return data
 @st.cache_resource
-def precompute_embeddings(data: pd.DataFrame, _tokenizer, model, batch_size=BATCH_SIZE):
     """
     Precompute embeddings for repository metadata to optimize query performance.
-    The tokenizer is excluded from caching as it is unhashable.
     """
     class TextDataset(Dataset):
         def __init__(self, texts: List[str], tokenizer, max_length=512):
@@ -108,7 +108,7 @@ def precompute_embeddings(data: pd.DataFrame, _tokenizer, model, batch_size=BATC
     embeddings = []
     for batch in dataloader:
-        batch_embeddings = generate_embeddings_batch(model, batch, device)
         embeddings.extend(batch_embeddings)
     data['embedding'] = embeddings

     return data
 @st.cache_resource
+def precompute_embeddings(data: pd.DataFrame, _tokenizer, _model, batch_size=BATCH_SIZE):
     """
     Precompute embeddings for repository metadata to optimize query performance.
+    The tokenizer and model are excluded from caching as they are unhashable.
     """
     class TextDataset(Dataset):
         def __init__(self, texts: List[str], tokenizer, max_length=512):
     embeddings = []
     for batch in dataloader:
+        batch_embeddings = generate_embeddings_batch(_model, batch, device)
         embeddings.extend(batch_embeddings)
     data['embedding'] = embeddings