Spaces:

SerenaSK
/

Stat_2025

Running

App Files Files Community

fruitpicker01 commited on Jan 27

Commit

53691dd

verified ·

1 Parent(s): 709be4e

Update app.py

Browse files

Files changed (1) hide show

app.py +122 -40

app.py CHANGED Viewed

@@ -2,61 +2,60 @@ import gradio as gr
 import pandas as pd
 import plotly.express as px
 # Ссылки на CSV-файлы
 URL_DASHA = "https://raw.githubusercontent.com/fruitpicker01/Storage_Dasha_2025/main/messages.csv"
 URL_LERA = "https://raw.githubusercontent.com/fruitpicker01/Storage_Lera_2025/main/messages.csv"
 URL_SVETA = "https://raw.githubusercontent.com/fruitpicker01/Storage_Sveta_2025/main/messages.csv"
-# Функция для чтения данных, подсчёта уникальных SMS и подготовки данных для графиков
 def read_and_process_data(url, user_name):
     df = pd.read_csv(url, na_values=["Не выбрано"])
-    # Оставляем только нужные столбцы (если какие-то отсутствуют — пропускаем аккуратно)
     cols = ["gender", "generation", "industry", "opf", "timestamp"]
-    df = df[[col for col in cols if col in df.columns]].copy()
-    # Убираем дубликаты по gender, generation, industry, opf
     df_unique = df.drop_duplicates(subset=["gender", "generation", "industry", "opf"])
-    # Считаем абсолютное количество уникальных SMS
     unique_count = len(df_unique)
-    # Готовим столбец date
     if "timestamp" in df_unique.columns:
-        # Переводим timestamp в datetime
         df_unique["timestamp"] = pd.to_numeric(df_unique["timestamp"], errors='coerce')
         df_unique["date"] = pd.to_datetime(df_unique["timestamp"], unit="s", origin="unix", errors='coerce').dt.date
     else:
         df_unique["date"] = pd.NaT
-    # Группируем по дате, считаем, сколько уникальных SMS приходится на каждую дату
-    # (снова нужно учесть комбинацию gender, generation, industry, opf)
-    # Но т.к. мы уже отфильтровали уникальные, достаточно просто groupby date
     df_daily = df_unique.groupby("date").size().reset_index(name="count")
-    df_daily["user"] = user_name  # чтобы потом можно было объединить данные для всех
     return unique_count, df_daily
 def process_data():
-    # Считываем и обрабатываем все три репозитория
     dasha_count, dasha_daily = read_and_process_data(URL_DASHA, "Даша")
     lera_count, lera_daily = read_and_process_data(URL_LERA, "Лера")
     sveta_count, sveta_daily = read_and_process_data(URL_SVETA, "Света")
-    # Суммарные значения
     total_count = dasha_count + lera_count + sveta_count
-    # Считаем % (округлим до целого)
-    # Каждое хранилище: процент относительно 117
-    dasha_percent = round((dasha_count / 117) * 100) if 117 else 0
-    lera_percent = round((lera_count / 117) * 100) if 117 else 0
-    sveta_percent = round((sveta_count / 117) * 100) if 117 else 0
-    # Суммарный % от 702
     total_percent = round((total_count / 702) * 100) if 702 else 0
-    # Формируем HTML с "прогресс-барами"
-    # Простейшая полоска: ширина = процент, внутри пишем "X SMS (Y%)"
     def get_progress_bar(label, abs_val, pct):
         return f"""
         <div style='margin-bottom: 1em;'>
@@ -76,33 +75,116 @@ def process_data():
         get_progress_bar("Всего", total_count, total_percent)
     )
-    # Делаем один общий DataFrame для построения графика:
     daily_all = pd.concat([dasha_daily, lera_daily, sveta_daily], ignore_index=True)
-    # Уберём строки, где date может быть NaT (если timestamp некорректный)
     daily_all = daily_all.dropna(subset=["date"])
-    # Построим столбчатую диаграмму, показывающую, кто в какой день сколько сохранил SMS
-    # (уникальных по комбинации gender, generation, industry, opf)
-    fig = px.bar(
-        daily_all,
         x="date",
-        y="count",
         color="user",
-        title="Количество уникальных SMS по датам",
-        labels={"date": "Дата", "count": "Количество SMS", "user": "Пользователь"},
-        barmode="group"
     )
-    return bars_html, fig
-# Создаём интерфейс Gradio
 with gr.Blocks() as demo:
-    gr.Markdown("<h2>Подсчёт уникальных SMS для Даши, Леры и Светы</h2>")
     btn = gr.Button("Обновить данные и показать результат")
-    html_output = gr.HTML(label="Прогресс-бары (Количество SMS и %)")
-    plot_output = gr.Plot(label="График количества уникальных SMS по датам")
-    btn.click(fn=process_data, outputs=[html_output, plot_output])
 if __name__ == "__main__":
     demo.launch()

 import pandas as pd
 import plotly.express as px
+# Для Prophet
+from prophet import Prophet
 # Ссылки на CSV-файлы
 URL_DASHA = "https://raw.githubusercontent.com/fruitpicker01/Storage_Dasha_2025/main/messages.csv"
 URL_LERA = "https://raw.githubusercontent.com/fruitpicker01/Storage_Lera_2025/main/messages.csv"
 URL_SVETA = "https://raw.githubusercontent.com/fruitpicker01/Storage_Sveta_2025/main/messages.csv"
 def read_and_process_data(url, user_name):
+    """
+    Возвращает:
+    1) unique_count: количество уникальных SMS (по gender, generation, industry, opf)
+    2) df_daily: дата, пользователь, дневное кол-во уникальных SMS (НЕ накопленное),
+                 но уже после удаления дубликатов по 4 столбцам.
+    """
     df = pd.read_csv(url, na_values=["Не выбрано"])
     cols = ["gender", "generation", "industry", "opf", "timestamp"]
+    df = df[[c for c in cols if c in df.columns]].copy()
+    # Убираем дубликаты по 4 ключевым столбцам
     df_unique = df.drop_duplicates(subset=["gender", "generation", "industry", "opf"])
+    # Количество уникальных SMS
     unique_count = len(df_unique)
+    # Переводим timestamp -> date (UTC)
     if "timestamp" in df_unique.columns:
         df_unique["timestamp"] = pd.to_numeric(df_unique["timestamp"], errors='coerce')
         df_unique["date"] = pd.to_datetime(df_unique["timestamp"], unit="s", origin="unix", errors='coerce').dt.date
     else:
         df_unique["date"] = pd.NaT
+    # Сгруппируем по дате, чтобы получить количество за каждый день
     df_daily = df_unique.groupby("date").size().reset_index(name="count")
+    df_daily["user"] = user_name
     return unique_count, df_daily
 def process_data():
+    # Считываем и обрабатываем все репозитории
     dasha_count, dasha_daily = read_and_process_data(URL_DASHA, "Даша")
     lera_count, lera_daily = read_and_process_data(URL_LERA, "Лера")
     sveta_count, sveta_daily = read_and_process_data(URL_SVETA, "Света")
+    # Суммарное количество
     total_count = dasha_count + lera_count + sveta_count
+    # Проценты (округляем до целого)
+    dasha_percent = round((dasha_count / 234) * 100) if 234 else 0
+    lera_percent = round((lera_count / 234) * 100) if 234 else 0
+    sveta_percent = round((sveta_count / 234) * 100) if 234 else 0
     total_percent = round((total_count / 702) * 100) if 702 else 0
+    # Генерируем HTML-прогресс-бары
     def get_progress_bar(label, abs_val, pct):
         return f"""
         <div style='margin-bottom: 1em;'>
         get_progress_bar("Всего", total_count, total_percent)
     )
+    # Собираем единый DataFrame по дням
     daily_all = pd.concat([dasha_daily, lera_daily, sveta_daily], ignore_index=True)
+    # Уберём NaT
     daily_all = daily_all.dropna(subset=["date"])
+    # Считаем кумулятивное количество SMS отдельно для каждого пользователя
+    # Для этого сначала отсортируем по user + date
+    daily_all = daily_all.sort_values(by=["user", "date"])
+    # Группируем по user, считаем cumsum
+    daily_all["cumulative"] = daily_all.groupby("user")["count"].cumsum()
+    # Чтобы отразить "Всего", добавим user="Всего",
+    # суммируя по каждой дате. Потом возьмём кумулятивную сумму этой суммы
+    total_by_date = daily_all.groupby("date")["count"].sum().reset_index(name="count")
+    total_by_date = total_by_date.sort_values(by="date")
+    total_by_date["cumulative"] = total_by_date["count"].cumsum()
+    total_by_date["user"] = "Всего"
+    # Объединим с daily_all
+    daily_all_final = pd.concat([daily_all, total_by_date], ignore_index=True)
+    # Строим накопительный (кумулятивный) график (линии)
+    # Используем Plotly, делая line chart
+    fig = px.line(
+        daily_all_final,
         x="date",
+        y="cumulative",
         color="user",
+        title="Кумулятивное количество уникальных SMS по датам (с линией 'Всего')",
+        labels={
+            "date": "Дата",
+            "cumulative": "Накопительное количество SMS",
+            "user": "Пользователь"
+        }
     )
+    # Прогноз с помощью Prophet (будем прогнозировать "Всего" до 28.02.2025)
+    # Берём total_by_date (уже есть 'date', 'cumulative')
+    forecast_fig = None
+    if len(total_by_date) > 1:
+        # Prophet требует колонки ds, y
+        df_prophet = total_by_date[["date", "cumulative"]].copy()
+        df_prophet.columns = ["ds", "y"]
+        df_prophet["ds"] = pd.to_datetime(df_prophet["ds"])
+        # Создаём и обучаем модель
+        model = Prophet()
+        model.fit(df_prophet)
+        # Создаём DataFrame для будущего (до 28.02.2025)
+        future = model.make_future_dataframe(periods=0)  # сначала без будущего
+        last_date = df_prophet["ds"].max()
+        # Посчитаем, сколько дней до 28.02.2025
+        end_date = pd.to_datetime("2025-02-28")
+        additional_days = (end_date - last_date).days
+        if additional_days > 0:
+            future = model.make_future_dataframe(periods=additional_days)
+        # Прогноз
+        forecast = model.predict(future)
+        # Построим график: отобразим исторические данные + прогноз
+        # Можно с plotly, чтобы добавить пунктир.
+        # Для наглядности создадим merge таблицу:
+        # ds, y (история), yhat (прогноз) и т.д.
+        df_plot = pd.merge(
+            forecast[["ds", "yhat"]],
+            df_prophet[["ds", "y"]],
+            on="ds",
+            how="left"
+        )
+        # Чтобы отобразить пунктиром прогноз, разделим:
+        #  - где y есть (история)
+        #  - где y нет (будущее)
+        df_history = df_plot.dropna(subset=["y"])
+        df_future = df_plot[df_plot["y"].isna()]
+        forecast_fig = px.line(
+            df_history,
+            x="ds",
+            y="y",
+            title="Прогноз общего кумулятивного количества SMS до 28.02.2025",
+            labels={
+                "ds": "Дата",
+                "value": "Количество SMS"
+            }
+        )
+        forecast_fig.add_scatter(
+            x=df_future["ds"],
+            y=df_future["yhat"],
+            mode="lines",
+            name="Прогноз",
+            line=dict(dash="dash", color="red")
+        )
+        forecast_fig.update_layout(
+            showlegend=True,
+            legend=dict(x=0, y=1)
+        )
+    return (bars_html, fig, forecast_fig)
 with gr.Blocks() as demo:
+    gr.Markdown("<h2>Подсчёт и прогноз уникальных SMS (Даша, Лера, Света)</h2>")
     btn = gr.Button("Обновить данные и показать результат")
+    html_output = gr.HTML(label="Прогресс-бары: количество SMS и %")
+    plot_output = gr.Plot(label="Кумулятивный график по датам (Даша, Лера, Света, Всего)")
+    forecast_output = gr.Plot(label="Прогноз до 28.02.2025 (Всего)")
+    btn.click(fn=process_data, outputs=[html_output, plot_output, forecast_output])
 if __name__ == "__main__":
     demo.launch()