Spaces:

Yerzhxn
/

test_space_new

Sleeping

App Files Files Community

Yerzhxn commited on Nov 21, 2024

Commit

e5b990e

verified ·

1 Parent(s): f2fbdea

Update app.py

Browse files

Files changed (1) hide show

app.py +12 -16

app.py CHANGED Viewed

@@ -18,7 +18,7 @@ if 'skills' not in df_vacancy.columns or 'skills' not in df_resume.columns or 'n
     raise ValueError("Файлы должны содержать колонки 'skills', 'name', 'NKZ' и 'id'")
 # Streamlit интерфейс
-st.title("Поиск совпадений по навыкам на основе косинусного сходства")
 # Ввод текста для добавления в колонку 'name'
 new_name = st.text_input("Введите название")
@@ -42,29 +42,25 @@ file_option = st.selectbox("Выберите тип", ("Вакансия", "Ре
 # Определение DataFrame для поиска совпадений
 if file_option == "Вакансия":
-    ids_to_compare = df_vacancy['arr'].apply(lambda x: [int(i) for i in x.split(',')]).tolist()
     names_to_compare = df_vacancy['name'].tolist()
 else:
-    ids_to_compare = df_resume['arr'].apply(lambda x: [int(i) for i in x.split(',')]).tolist()
     names_to_compare = df_resume['name'].tolist()
-# Вычисление косинусного сходства для поиска сходства
-from sklearn.metrics.pairwise import cosine_similarity
 matching_results = []
 if selected_ids:
     for i, ids_array in enumerate(ids_to_compare):
-        # Дополнение меньшего массива нулями для одинаковой длины
-        max_len = max(len(selected_ids), len(ids_array))
-        selected_ids_padded = np.pad(selected_ids, (0, max_len - len(selected_ids)), 'constant')
-        ids_array_padded = np.pad(ids_array, (0, max_len - len(ids_array)), 'constant')
-        # Вычисление косинусного сходства
-        similarity = cosine_similarity([selected_ids_padded], [ids_array_padded])[0][0]
-        if similarity > 0.5:
             matching_results.append({
                 'Name': names_to_compare[i],
-                'Similarity': similarity
             })
 # Вывод результатов
@@ -75,7 +71,7 @@ if matching_results:
             f"""
             <div style="border: 1px solid #ddd; padding: 10px; border-radius: 5px; margin-bottom: 10px;">
                 <h4 style="margin: 0;">{result['Name']}</h4>
-                <p><strong>Косинусное сходство:</strong> {result['Similarity']:.2f}</p>
             </div>
             """,
             unsafe_allow_html=True

     raise ValueError("Файлы должны содержать колонки 'skills', 'name', 'NKZ' и 'id'")
 # Streamlit интерфейс
+st.title("Поиск совпадений по навыкам на основе корреляции")
 # Ввод текста для добавления в колонку 'name'
 new_name = st.text_input("Введите название")
 # Определение DataFrame для поиска совпадений
 if file_option == "Вакансия":
+    ids_to_compare = df_vacancy['arr'].apply(lambda x: [int(i) for i in x.split(',') if i.strip().isdigit()]).tolist()
     names_to_compare = df_vacancy['name'].tolist()
 else:
+    ids_to_compare = df_resume['arr'].apply(lambda x: [int(i) for i in x.split(',') if i.strip().isdigit()]).tolist()
     names_to_compare = df_resume['name'].tolist()
+# Вычисление корреляции для поиска сходства
 matching_results = []
 if selected_ids:
     for i, ids_array in enumerate(ids_to_compare):
+        min_len = min(len(selected_ids), len(ids_array))
+        if min_len > 1:  # Для вычисления корреляции необходимо как минимум два элемента
+            correlation = np.corrcoef(selected_ids[:min_len], ids_array[:min_len])[0, 1]
+        else:
+            correlation = 0
+        if correlation > 0.5:
             matching_results.append({
                 'Name': names_to_compare[i],
+                'Correlation': correlation
             })
 # Вывод результатов
             f"""
             <div style="border: 1px solid #ddd; padding: 10px; border-radius: 5px; margin-bottom: 10px;">
                 <h4 style="margin: 0;">{result['Name']}</h4>
+                <p><strong>Корреляция:</strong> {result['Correlation']:.2f}</p>
             </div>
             """,
             unsafe_allow_html=True