import pandas as pd import streamlit as st import numpy as np # Загрузка данных из четырех Excel файлов vacancy = 'vacancy_new.xlsx' resume = 'resume_new.xlsx' file_nkz = 'label_NKZ.xlsx' file_skills = 'label_skills_new.xlsx' df_vacancy = pd.read_excel(vacancy) df_resume = pd.read_excel(resume) df_nkz = pd.read_excel(file_nkz) df_skills = pd.read_excel(file_skills) # Проверка, что в файлах есть нужные колонки if 'skills' not in df_vacancy.columns or 'skills' not in df_resume.columns or 'name' not in df_vacancy.columns or 'name' not in df_resume.columns or 'NKZ' not in df_nkz.columns or 'skills' not in df_skills.columns or 'id' not in df_skills.columns: raise ValueError("Файлы должны содержать колонки 'skills', 'name', 'NKZ' и 'id'") # Streamlit интерфейс st.title("Поиск совпадений по навыкам на основе корреляции") # Ввод текста для добавления в колонку 'name' new_name = st.text_input("Введите название") # Выбор из колонки 'NKZ' из файла label_NKZ nkz_options = df_nkz['name'].unique().tolist() selected_nkz = st.selectbox("Выберите профессию по НКЗ", nkz_options) # Множественный выбор из колонки 'skills' из файла label_skills skills_options = sorted(df_skills[df_skills['NKZ'] == df_nkz[df_nkz['name'] == selected_nkz]['NKZ'].values[0]]['skills'].unique().tolist()) selected_skills = st.multiselect("Выберите навыки", skills_options) # Преобразование выбранных навыков в массив числовых значений if selected_skills: selected_ids = df_skills[df_skills['skills'].isin(selected_skills)]['id'].tolist() else: selected_ids = [] # Выбор файла для поиска совпадений file_option = st.selectbox("Выберите тип", ("Вакансия", "Резюме")) # Определение DataFrame для поиска совпадений if file_option == "Вакансия": ids_to_compare = df_vacancy['skills'].apply(lambda x: [int(i) for i in x.split(',')]).tolist() names_to_compare = df_vacancy['name'].tolist() else: ids_to_compare = df_resume['skills'].apply(lambda x: [int(i) for i in x.split(',')]).tolist() names_to_compare = df_resume['name'].tolist() # Вычисление корреляции для поиска сходства matching_results = [] if selected_ids: for i, ids_array in enumerate(ids_to_compare): min_len = min(len(selected_ids), len(ids_array)) if min_len > 1: # Для вычисления корреляции необходимо как минимум два элемента correlation = np.corrcoef(selected_ids[:min_len], ids_array[:min_len])[0, 1] else: correlation = 0 if correlation > 0.5: matching_results.append({ 'Name': names_to_compare[i], 'Correlation': correlation }) # Вывод результатов st.write("Результаты поиска на основе корреляции:") if matching_results: for result in matching_results: st.markdown( f"""

{result['Name']}

Корреляция: {result['Correlation']:.2f}

""", unsafe_allow_html=True ) else: st.write("Нет совпадений на основе корреляции с выбранными навыками.")