MoviesSemanticSearchTesting

Paused

App Files Files Community

opex792 commited on Jan 2

Commit

ee593bb

verified ·

1 Parent(s): 1c48fdd

Update app.py

Browse files

Files changed (1) hide show

app.py +5 -2

app.py CHANGED Viewed

@@ -300,20 +300,23 @@ def get_movie_embeddings(conn):
 def rerank_results(query, results):
     """Переранжирует результаты поиска с помощью реранкера."""
     pairs = []
     movie_ids = []
-    for movie_id, _ in results:
         movie = next((m for m in movies_data if m['id'] == movie_id), None)
         if movie:
             movie_info = f"Название: {movie['name']}\nГод: {movie['year']}\nЖанры: {movie['genreslist']}\nОписание: {movie['description']}"
             pairs.append([query, movie_info])
             movie_ids.append(movie_id)
     with torch.no_grad():
         inputs = reranker_tokenizer(pairs, padding=True, truncation=True, return_tensors='pt', max_length=512)
         scores = reranker_model(**inputs, return_dict=True).logits.view(-1, ).float()
     reranked_results = sorted(zip(movie_ids, scores.tolist()), key=lambda x: x[1], reverse=True)
     return reranked_results
 def search_movies(query, top_k=20):
@@ -359,7 +362,7 @@ def search_movies(query, top_k=20):
                     FROM {embeddings_table} m, query_embedding
                     ORDER BY similarity DESC
                     LIMIT %s
-                """, (query_crc32, top_k * 2))  # Увеличиваем лимит для последующего переранжирования
                 results = cur.fetchall()
             logging.info(f"Найдено {len(results)} предварительных результатов поиска.")

 def rerank_results(query, results):
     """Переранжирует результаты поиска с помощью реранкера."""
+    logging.info(f"Начало переранжирования для запроса: '{query}'")
     pairs = []
     movie_ids = []
+    for i, (movie_id, _) in enumerate(results):
         movie = next((m for m in movies_data if m['id'] == movie_id), None)
         if movie:
             movie_info = f"Название: {movie['name']}\nГод: {movie['year']}\nЖанры: {movie['genreslist']}\nОписание: {movie['description']}"
             pairs.append([query, movie_info])
             movie_ids.append(movie_id)
+            logging.info(f"Обработка фильма для реранка {i+1}/{len(results)}: {movie['name']}")
     with torch.no_grad():
         inputs = reranker_tokenizer(pairs, padding=True, truncation=True, return_tensors='pt', max_length=512)
         scores = reranker_model(**inputs, return_dict=True).logits.view(-1, ).float()
     reranked_results = sorted(zip(movie_ids, scores.tolist()), key=lambda x: x[1], reverse=True)
+    logging.info("Переранжирование завершено.")
     return reranked_results
 def search_movies(query, top_k=20):
                     FROM {embeddings_table} m, query_embedding
                     ORDER BY similarity DESC
                     LIMIT %s
+                """, (query_crc32, int(top_k * 1)))  # Уменьшаем лимит до * 1.1
                 results = cur.fetchall()
             logging.info(f"Найдено {len(results)} предварительных результатов поиска.")