Spaces:

HaggiVaggi
/

movie_rec

Sleeping

HaggiVaggi commited on Dec 14, 2023

Commit

3bf5220

1 Parent(s): f4aee1b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -55,26 +55,26 @@ if page == "какая-то еще":
     # Загрузка предварительно обученной модели ruBERT
     tokenizer = AutoTokenizer.from_pretrained("DeepPavlov/rubert-base-cased-sentence")
     model = AutoModel.from_pretrained("DeepPavlov/rubert-base-cased-sentence")
     def encode_description(description):
-    tokens = tokenizer(description, return_tensors="pt")
-    with torch.no_grad():
-        outputs = model(**tokens)
-    embeddings = outputs.last_hidden_state.mean(dim=1)
-    return embeddings
     embeddings = pd.read_pickle('embeddings.pkl')
     user_input = st.text_area('Введите описание фильма')
     input_embedding = encode_description(user_input)
-    mbeddings_tensor = torch.stack(df['description_embedding'].tolist()).numpy()
-# Рассчитайте косинусное сходство
     similarity_scores = cosine_similarity(input_embedding.view(1, -1).detach().numpy(), embeddings_tensor.reshape(embeddings_tensor.shape[0], -1))[0]
-# Получение индексов отсортированных значений
     sorted_indices = similarity_scores.argsort()[::-1]
-# Используйте индексы для извлечения строк из DataFrame
     recs = df.iloc[sorted_indices[:10]].reset_index(drop=True)
     recs.index = recs.index + 1
-    st.write(recs[['movie_title', 'description']])

     # Загрузка предварительно обученной модели ruBERT
     tokenizer = AutoTokenizer.from_pretrained("DeepPavlov/rubert-base-cased-sentence")
     model = AutoModel.from_pretrained("DeepPavlov/rubert-base-cased-sentence")
     def encode_description(description):
+        tokens = tokenizer(description, return_tensors="pt")
+        with torch.no_grad():
+            outputs = model(**tokens)
+        embeddings = outputs.last_hidden_state.mean(dim=1)
+        return embeddings
     embeddings = pd.read_pickle('embeddings.pkl')
     user_input = st.text_area('Введите описание фильма')
     input_embedding = encode_description(user_input)
+    embeddings_tensor = torch.stack(df['description_embedding'].tolist()).numpy()
+    # Рассчитайте косинусное сходство
     similarity_scores = cosine_similarity(input_embedding.view(1, -1).detach().numpy(), embeddings_tensor.reshape(embeddings_tensor.shape[0], -1))[0]
+    # Получение индексов отсортированных значений
     sorted_indices = similarity_scores.argsort()[::-1]
+    # Используйте индексы для извлечения строк из DataFrame
     recs = df.iloc[sorted_indices[:10]].reset_index(drop=True)
     recs.index = recs.index + 1
+    st.write(recs[['movie_title', 'description']])