Spaces:

Tesneem
/

Netflix_Recommendation

Running

Tesneem commited on Nov 7, 2024

Commit

3d14986

verified ·

1 Parent(s): 713f32a

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -11,7 +11,10 @@ embedding_model = SentenceTransformer("thenlper/gte-large")
 # Example dataset with genres (replace with your actual data)
 dataset = load_dataset("hugginglearners/netflix-shows")
 # Combine description and genre for embedding
 def combine_description_title_and_genre(description, listed_in, title):
     return f"{description} Genre: {listed_in} Title: {title}"
@@ -25,19 +28,19 @@ def vector_search(query):
     query_embedding = get_embedding(query)
     # Generate embeddings for the combined description and genre
-    embeddings = np.array([get_embedding(combine_description_title_and_genre(item["description"], item["listed_in"],item["title"])) for item in dataset])
     # Calculate cosine similarity between the query and all embeddings
     similarities = cosine_similarity([query_embedding], embeddings)
     # Adjust similarity scores based on ratings
-    ratings = np.array([item["rating"] for item in dataset])
     adjusted_similarities = similarities * ratings.reshape(-1, 1)
     # Get top N most similar items (e.g., top 3)
     top_n = 3
     top_indices = adjusted_similarities[0].argsort()[-top_n:][::-1]  # Get indices of the top N results
-    top_items = [dataset[i] for i in top_indices]
     # Format the output for display
     search_result = ""

 # Example dataset with genres (replace with your actual data)
 dataset = load_dataset("hugginglearners/netflix-shows")
+data = dataset['train']  # Accessing the 'train' split of the dataset
+# Convert the dataset to a list of dictionaries for easier indexing
+data_list = data.to_dict()
 # Combine description and genre for embedding
 def combine_description_title_and_genre(description, listed_in, title):
     return f"{description} Genre: {listed_in} Title: {title}"
     query_embedding = get_embedding(query)
     # Generate embeddings for the combined description and genre
+    embeddings = np.array([get_embedding(combine_description_title_and_genre(item["description"], item["listed_in"],item["title"])) for item in data_list])
     # Calculate cosine similarity between the query and all embeddings
     similarities = cosine_similarity([query_embedding], embeddings)
     # Adjust similarity scores based on ratings
+    ratings = np.array([item["rating"] for item in data_list])
     adjusted_similarities = similarities * ratings.reshape(-1, 1)
     # Get top N most similar items (e.g., top 3)
     top_n = 3
     top_indices = adjusted_similarities[0].argsort()[-top_n:][::-1]  # Get indices of the top N results
+    top_items = [data_list[i] for i in top_indices]
     # Format the output for display
     search_result = ""