Spaces:

Yerzhxn
/

test_space_new

Sleeping

App Files Files Community

Yerzhxn commited on Nov 21, 2024

Commit

c357db0

verified ·

1 Parent(s): a79be0b

Update app.py

Browse files

Files changed (1) hide show

app.py +16 -12

app.py CHANGED Viewed

@@ -18,7 +18,7 @@ if 'skills' not in df_vacancy.columns or 'skills' not in df_resume.columns or 'n
     raise ValueError("Файлы должны содержать колонки 'skills', 'name', 'NKZ' и 'id'")
 # Streamlit интерфейс
-st.title("Поиск совпадений по навыкам на основе корреляции")
 # Ввод текста для добавления в колонку 'name'
 new_name = st.text_input("Введите название")
@@ -42,25 +42,29 @@ file_option = st.selectbox("Выберите тип", ("Вакансия", "Ре
 # Определение DataFrame для поиска совпадений
 if file_option == "Вакансия":
-    ids_to_compare = df_vacancy['arr'].apply(lambda x: [int(i) for i in x.split(',')]).tolist()
     names_to_compare = df_vacancy['name'].tolist()
 else:
-    ids_to_compare = df_resume['arr'].apply(lambda x: [int(i) for i in x.split(',')]).tolist()
     names_to_compare = df_resume['name'].tolist()
-# Вычисление корреляции для поиска сходства
 matching_results = []
 if selected_ids:
     for i, ids_array in enumerate(ids_to_compare):
-        min_len = min(len(selected_ids), len(ids_array))
-        if min_len > 1:  # Для вычисления корреляции необходимо как минимум два элемента
-            correlation = np.corrcoef(selected_ids[:min_len], ids_array[:min_len])[0, 1]
-        else:
-            correlation = 0
-        if correlation > 0.5:
             matching_results.append({
                 'Name': names_to_compare[i],
-                'Correlation': correlation
             })
 # Вывод результатов
@@ -71,7 +75,7 @@ if matching_results:
             f"""
             <div style="border: 1px solid #ddd; padding: 10px; border-radius: 5px; margin-bottom: 10px;">
                 <h4 style="margin: 0;">{result['Name']}</h4>
-                <p><strong>Корреляция:</strong> {result['Correlation']:.2f}</p>
             </div>
             """,
             unsafe_allow_html=True

     raise ValueError("Файлы должны содержать колонки 'skills', 'name', 'NKZ' и 'id'")
 # Streamlit интерфейс
+st.title("Поиск совпадений по навыкам на основе косинусного сходства")
 # Ввод текста для добавления в колонку 'name'
 new_name = st.text_input("Введите название")
 # Определение DataFrame для поиска совпадений
 if file_option == "Вакансия":
+    ids_to_compare = df_vacancy['skills'].apply(lambda x: [int(i) for i in x.split(',')]).tolist()
     names_to_compare = df_vacancy['name'].tolist()
 else:
+    ids_to_compare = df_resume['skills'].apply(lambda x: [int(i) for i in x.split(',')]).tolist()
     names_to_compare = df_resume['name'].tolist()
+# Вычисление косинусного сходства для поиска сходства
+from sklearn.metrics.pairwise import cosine_similarity
 matching_results = []
 if selected_ids:
     for i, ids_array in enumerate(ids_to_compare):
+        # Дополнение меньшего массива нулями для одинаковой длины
+        max_len = max(len(selected_ids), len(ids_array))
+        selected_ids_padded = np.pad(selected_ids, (0, max_len - len(selected_ids)), 'constant')
+        ids_array_padded = np.pad(ids_array, (0, max_len - len(ids_array)), 'constant')
+        # Вычисление косинусного сходства
+        similarity = cosine_similarity([selected_ids_padded], [ids_array_padded])[0][0]
+        if similarity > 0.5:
             matching_results.append({
                 'Name': names_to_compare[i],
+                'Similarity': similarity
             })
 # Вывод результатов
             f"""
             <div style="border: 1px solid #ddd; padding: 10px; border-radius: 5px; margin-bottom: 10px;">
                 <h4 style="margin: 0;">{result['Name']}</h4>
+                <p><strong>Косинусное сходство:</strong> {result['Similarity']:.2f}</p>
             </div>
             """,
             unsafe_allow_html=True