Spaces:

frankjosh
/

repo_recommender

Sleeping

frankjosh commited on Jan 21

Commit

73463ed

verified ·

1 Parent(s): 62db363

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -44,13 +44,19 @@ def load_model_and_tokenizer():
 def load_data():
     """
     Load and sample the dataset from Hugging Face.
-    Returns a DataFrame with a fixed subset of repositories.
     """
     dataset = load_dataset("frankjosh/filtered_dataset")
     data = pd.DataFrame(dataset['train'])
     data = data.sample(n=min(SUBSET_SIZE, len(data)), random_state=42).reset_index(drop=True)
     return data
 @st.cache_resource
 def precompute_embeddings(data: pd.DataFrame, _tokenizer, _model, batch_size=BATCH_SIZE):
     """

 def load_data():
     """
     Load and sample the dataset from Hugging Face.
+    Ensures the 'text' column is created for embedding precomputation.
     """
     dataset = load_dataset("frankjosh/filtered_dataset")
     data = pd.DataFrame(dataset['train'])
+    # Take a random subset of data
     data = data.sample(n=min(SUBSET_SIZE, len(data)), random_state=42).reset_index(drop=True)
+    # Create a 'text' column by combining relevant fields
+    data['text'] = data['docstring'].fillna('') + ' ' + data['summary'].fillna('')
     return data
 @st.cache_resource
 def precompute_embeddings(data: pd.DataFrame, _tokenizer, _model, batch_size=BATCH_SIZE):
     """