import pandas as pd
import streamlit as st
import numpy as np

# Загрузка данных из четырех Excel файлов
vacancy = 'vacancy_new.xlsx'
resume = 'resume_new.xlsx'
file_nkz = 'label_NKZ.xlsx'
file_skills = 'label_skills_new.xlsx'

df_vacancy = pd.read_excel(vacancy)
df_resume = pd.read_excel(resume)
df_nkz = pd.read_excel(file_nkz)
df_skills = pd.read_excel(file_skills)

# Проверка, что в файлах есть нужные колонки
if 'skills' not in df_vacancy.columns or 'skills' not in df_resume.columns or 'name' not in df_vacancy.columns or 'name' not in df_resume.columns or 'NKZ' not in df_nkz.columns or 'skills' not in df_skills.columns or 'id' not in df_skills.columns:
    raise ValueError("Файлы должны содержать колонки 'skills', 'name', 'NKZ' и 'id'")

# Streamlit интерфейс
st.title("Поиск совпадений по навыкам на основе корреляции")

# Ввод текста для добавления в колонку 'name'
new_name = st.text_input("Введите название")

# Выбор из колонки 'NKZ' из файла label_NKZ
nkz_options = df_nkz['name'].unique().tolist()
selected_nkz = st.selectbox("Выберите профессию по НКЗ", nkz_options)

# Множественный выбор из колонки 'skills' из файла label_skills
skills_options = sorted(df_skills[df_skills['NKZ'] == df_nkz[df_nkz['name'] == selected_nkz]['NKZ'].values[0]]['skills'].unique().tolist())
selected_skills = st.multiselect("Выберите навыки", skills_options)

# Преобразование выбранных навыков в массив числовых значений
if selected_skills:
    selected_ids = df_skills[df_skills['skills'].isin(selected_skills)]['id'].tolist()
else:
    selected_ids = []

# Выбор файла для поиска совпадений
file_option = st.selectbox("Выберите тип", ("Вакансия", "Резюме"))

# Определение DataFrame для поиска совпадений
if file_option == "Вакансия":
    ids_to_compare = df_vacancy['skills'].apply(lambda x: [int(i) for i in x.split(',')]).tolist()
    names_to_compare = df_vacancy['name'].tolist()
else:
    ids_to_compare = df_resume['skills'].apply(lambda x: [int(i) for i in x.split(',')]).tolist()
    names_to_compare = df_resume['name'].tolist()

# Вычисление корреляции для поиска сходства
matching_results = []
if selected_ids:
    for i, ids_array in enumerate(ids_to_compare):
        min_len = min(len(selected_ids), len(ids_array))
        if min_len > 1:  # Для вычисления корреляции необходимо как минимум два элемента
            correlation = np.corrcoef(selected_ids[:min_len], ids_array[:min_len])[0, 1]
        else:
            correlation = 0
        if correlation > 0.5:
            matching_results.append({
                'Name': names_to_compare[i],
                'Correlation': correlation
            })

# Вывод результатов
st.write("Результаты поиска на основе корреляции:")
if matching_results:
    for result in matching_results:
        st.markdown(
            f"""
            <div style="border: 1px solid #ddd; padding: 10px; border-radius: 5px; margin-bottom: 10px;">
                <h4 style="margin: 0;">{result['Name']}</h4>
                <p><strong>Корреляция:</strong> {result['Correlation']:.2f}</p>
            </div>
            """,
            unsafe_allow_html=True
        )
else:
    st.write("Нет совпадений на основе корреляции с выбранными навыками.")