Stat_2025 / app.py
fruitpicker01's picture
Update app.py
53691dd verified
raw
history blame
8.72 kB
import gradio as gr
import pandas as pd
import plotly.express as px
# Для Prophet
from prophet import Prophet
# Ссылки на CSV-файлы
URL_DASHA = "https://raw.githubusercontent.com/fruitpicker01/Storage_Dasha_2025/main/messages.csv"
URL_LERA = "https://raw.githubusercontent.com/fruitpicker01/Storage_Lera_2025/main/messages.csv"
URL_SVETA = "https://raw.githubusercontent.com/fruitpicker01/Storage_Sveta_2025/main/messages.csv"
def read_and_process_data(url, user_name):
"""
Возвращает:
1) unique_count: количество уникальных SMS (по gender, generation, industry, opf)
2) df_daily: дата, пользователь, дневное кол-во уникальных SMS (НЕ накопленное),
но уже после удаления дубликатов по 4 столбцам.
"""
df = pd.read_csv(url, na_values=["Не выбрано"])
cols = ["gender", "generation", "industry", "opf", "timestamp"]
df = df[[c for c in cols if c in df.columns]].copy()
# Убираем дубликаты по 4 ключевым столбцам
df_unique = df.drop_duplicates(subset=["gender", "generation", "industry", "opf"])
# Количество уникальных SMS
unique_count = len(df_unique)
# Переводим timestamp -> date (UTC)
if "timestamp" in df_unique.columns:
df_unique["timestamp"] = pd.to_numeric(df_unique["timestamp"], errors='coerce')
df_unique["date"] = pd.to_datetime(df_unique["timestamp"], unit="s", origin="unix", errors='coerce').dt.date
else:
df_unique["date"] = pd.NaT
# Сгруппируем по дате, чтобы получить количество за каждый день
df_daily = df_unique.groupby("date").size().reset_index(name="count")
df_daily["user"] = user_name
return unique_count, df_daily
def process_data():
# Считываем и обрабатываем все репозитории
dasha_count, dasha_daily = read_and_process_data(URL_DASHA, "Даша")
lera_count, lera_daily = read_and_process_data(URL_LERA, "Лера")
sveta_count, sveta_daily = read_and_process_data(URL_SVETA, "Света")
# Суммарное количество
total_count = dasha_count + lera_count + sveta_count
# Проценты (округляем до целого)
dasha_percent = round((dasha_count / 234) * 100) if 234 else 0
lera_percent = round((lera_count / 234) * 100) if 234 else 0
sveta_percent = round((sveta_count / 234) * 100) if 234 else 0
total_percent = round((total_count / 702) * 100) if 702 else 0
# Генерируем HTML-прогресс-бары
def get_progress_bar(label, abs_val, pct):
return f"""
<div style='margin-bottom: 1em;'>
<div><strong>{label}</strong></div>
<div style='width: 100%; background-color: #ddd; text-align: left;'>
<div style='width: {pct}%; background-color: #4CAF50; padding: 5px 0;'>
&nbsp;{abs_val} SMS ({pct}%)
</div>
</div>
</div>
"""
bars_html = (
get_progress_bar("Даша", dasha_count, dasha_percent) +
get_progress_bar("Лера", lera_count, lera_percent) +
get_progress_bar("Света", sveta_count, sveta_percent) +
get_progress_bar("Всего", total_count, total_percent)
)
# Собираем единый DataFrame по дням
daily_all = pd.concat([dasha_daily, lera_daily, sveta_daily], ignore_index=True)
# Уберём NaT
daily_all = daily_all.dropna(subset=["date"])
# Считаем кумулятивное количество SMS отдельно для каждого пользователя
# Для этого сначала отсортируем по user + date
daily_all = daily_all.sort_values(by=["user", "date"])
# Группируем по user, считаем cumsum
daily_all["cumulative"] = daily_all.groupby("user")["count"].cumsum()
# Чтобы отразить "Всего", добавим user="Всего",
# суммируя по каждой дате. Потом возьмём кумулятивную сумму этой суммы
total_by_date = daily_all.groupby("date")["count"].sum().reset_index(name="count")
total_by_date = total_by_date.sort_values(by="date")
total_by_date["cumulative"] = total_by_date["count"].cumsum()
total_by_date["user"] = "Всего"
# Объединим с daily_all
daily_all_final = pd.concat([daily_all, total_by_date], ignore_index=True)
# Строим накопительный (кумулятивный) график (линии)
# Используем Plotly, делая line chart
fig = px.line(
daily_all_final,
x="date",
y="cumulative",
color="user",
title="Кумулятивное количество уникальных SMS по датам (с линией 'Всего')",
labels={
"date": "Дата",
"cumulative": "Накопительное количество SMS",
"user": "Пользователь"
}
)
# Прогноз с помощью Prophet (будем прогнозировать "Всего" до 28.02.2025)
# Берём total_by_date (уже есть 'date', 'cumulative')
forecast_fig = None
if len(total_by_date) > 1:
# Prophet требует колонки ds, y
df_prophet = total_by_date[["date", "cumulative"]].copy()
df_prophet.columns = ["ds", "y"]
df_prophet["ds"] = pd.to_datetime(df_prophet["ds"])
# Создаём и обучаем модель
model = Prophet()
model.fit(df_prophet)
# Создаём DataFrame для будущего (до 28.02.2025)
future = model.make_future_dataframe(periods=0) # сначала без будущего
last_date = df_prophet["ds"].max()
# Посчитаем, сколько дней до 28.02.2025
end_date = pd.to_datetime("2025-02-28")
additional_days = (end_date - last_date).days
if additional_days > 0:
future = model.make_future_dataframe(periods=additional_days)
# Прогноз
forecast = model.predict(future)
# Построим график: отобразим исторические данные + прогноз
# Можно с plotly, чтобы добавить пунктир.
# Для наглядности создадим merge таблицу:
# ds, y (история), yhat (прогноз) и т.д.
df_plot = pd.merge(
forecast[["ds", "yhat"]],
df_prophet[["ds", "y"]],
on="ds",
how="left"
)
# Чтобы отобразить пунктиром прогноз, разделим:
# - где y есть (история)
# - где y нет (будущее)
df_history = df_plot.dropna(subset=["y"])
df_future = df_plot[df_plot["y"].isna()]
forecast_fig = px.line(
df_history,
x="ds",
y="y",
title="Прогноз общего кумулятивного количества SMS до 28.02.2025",
labels={
"ds": "Дата",
"value": "Количество SMS"
}
)
forecast_fig.add_scatter(
x=df_future["ds"],
y=df_future["yhat"],
mode="lines",
name="Прогноз",
line=dict(dash="dash", color="red")
)
forecast_fig.update_layout(
showlegend=True,
legend=dict(x=0, y=1)
)
return (bars_html, fig, forecast_fig)
with gr.Blocks() as demo:
gr.Markdown("<h2>Подсчёт и прогноз уникальных SMS (Даша, Лера, Света)</h2>")
btn = gr.Button("Обновить данные и показать результат")
html_output = gr.HTML(label="Прогресс-бары: количество SMS и %")
plot_output = gr.Plot(label="Кумулятивный график по датам (Даша, Лера, Света, Всего)")
forecast_output = gr.Plot(label="Прогноз до 28.02.2025 (Всего)")
btn.click(fn=process_data, outputs=[html_output, plot_output, forecast_output])
if __name__ == "__main__":
demo.launch()