Spaces:

SerenaSK
/

Stat_2025

Running

App Files Files Community

fruitpicker01 commited on 10 days ago

Commit

263298d

verified ·

1 Parent(s): 4f21d31

Update app.py

Browse files

Files changed (1) hide show

app.py +83 -66

app.py CHANGED Viewed

@@ -6,16 +6,27 @@ from prophet import Prophet
 import io
 from PIL import Image
-# Первые наборы CSV-файлов
 URL_DASHA = "https://raw.githubusercontent.com/fruitpicker01/Storage_Dasha_2025/main/messages.csv"
 URL_LERA  = "https://raw.githubusercontent.com/fruitpicker01/Storage_Lera_2025/main/messages.csv"
 URL_SVETA = "https://raw.githubusercontent.com/fruitpicker01/Storage_Sveta_2025/main/messages.csv"
-# Вторые наборы CSV-файлов
 URL_DASHA_2 = "https://raw.githubusercontent.com/fruitpicker01/Storage_2_Dasha_2025/main/messages.csv"
 URL_LERA_2  = "https://raw.githubusercontent.com/fruitpicker01/Storage_2_Lera_2025/main/messages.csv"
 URL_SVETA_2 = "https://raw.githubusercontent.com/fruitpicker01/Storage_2_Sveta_2025/main/messages.csv"
 def read_and_process_data(url, user_name):
     """
     Считывает CSV, отбирает нужные столбцы,
@@ -29,41 +40,33 @@ def read_and_process_data(url, user_name):
     print(f"\n=== [{user_name}] чтение CSV ===")
-    # 1) Предположим, что в url указано что-то вроде
-    #    "https://github.com/username/repo/blob/main/messages.csv"
-    # или "https://raw.githubusercontent.com/..."
-    # Чтобы использовать API, нужно получить путь (owner, repo, path).
-    # Если у вас уже есть "https://raw.githubusercontent.com/<owner>/<repo>/main/messages.csv",
-    # то придётся вручную подставить значения owner/repo/file_path для Contents API.
-    # Пример разбора url (упрощённо):
-    # - Здесь у нас raw-ссылки, например:
-    #   "https://raw.githubusercontent.com/fruitpicker01/Storage_Lera_2025/main/messages.csv"
-    #   => owner = "fruitpicker01", repo = "Storage_Lera_2025", path = "messages.csv"
-    # В зависимости от структуры URL меняйте parse_* как нужно
-    # !!! ВАЖНО: Если у вас несколько веток/папок, подставьте их правильно ниже.
     import re
     pattern = re.compile(r"https://raw\.githubusercontent\.com/([^/]+)/([^/]+)/([^/]+)/(.+)")
     m = pattern.match(url)
     if not m:
-        # не узнали структуру: fallback - просто пробуем pd.read_csv напрямую
         print(f"[{user_name}] URL не совпадает с raw.githubusercontent.com, читаем напрямую...")
-        df = pd.read_csv(url, na_values=["Не выбрано"])
     else:
         owner = m.group(1)
         repo_name = m.group(2)
         branch = m.group(3)
-        file_path = m.group(4)  # например "messages.csv"
-        # 2) Обращаемся к GitHub Contents API
         api_url = f"https://api.github.com/repos/{owner}/{repo_name}/contents/{file_path}?ref={branch}"
         print(f"[{user_name}] Пытаемся Contents API: {api_url}")
         resp = requests.get(api_url)
         if resp.status_code != 200:
             print(f"[{user_name}] Не удалось получить JSON (статус={resp.status_code}), читаем напрямую...")
-            df = pd.read_csv(url, na_values=["Не выбрано"])
         else:
             data_json = resp.json()
             size = data_json.get("size", 0)
@@ -73,18 +76,25 @@ def read_and_process_data(url, user_name):
             if not file_content_encoded or size > 1_000_000:
                 # Большой файл или отсутствует content => используем download_url
                 print(f"[{user_name}] Файл крупнее 1 МБ или content отсутствует, скачиваем по download_url={download_url}")
-                resp2 = requests.get(download_url)
-                resp2.raise_for_status()
-                csv_text = resp2.text
-                df = pd.read_csv(io.StringIO(csv_text), na_values=["Не выбрано"])
             else:
                 # Получаем Base64 и декодируем
-                file_bytes = base64.b64decode(file_content_encoded)
-                df = pd.read_csv(io.StringIO(file_bytes.decode("utf-8")), na_values=["Не выбрано"])
     print(f"[{user_name}] Исходное кол-во строк: {len(df)}")
-    # Дальше та же логика, что у вас была
     cols = ["gender", "generation", "industry", "opf", "timestamp"]
     df = df[[c for c in cols if c in df.columns]].copy()
     print(f"[{user_name}] После отбора столбцов: {df.shape}")
@@ -106,7 +116,6 @@ def read_and_process_data(url, user_name):
     return unique_count, df_daily
 def make_average_forecast(total_by_date, end_date_str="2025-03-31"):
     """
     Делает «прогноз по среднему» до указанной даты (end_date_str).
@@ -142,16 +151,15 @@ def make_average_forecast(total_by_date, end_date_str="2025-03-31"):
     return pd.DataFrame(forecast_data)
 def process_data():
     print("\n=== Начинаем process_data (Seaborn + Prophet + средний) ===")
-    # Чтение основного файла
     dasha_count, dasha_daily = read_and_process_data(URL_DASHA, "Даша")
     lera_count,  lera_daily  = read_and_process_data(URL_LERA, "Лера")
     sveta_count, sveta_daily = read_and_process_data(URL_SVETA, "Света")
-    # Чтение второго набора данных (с обработкой ошибок)
     try:
         dasha_count2, dasha_daily2 = read_and_process_data(URL_DASHA_2, "Даша (2)")
         dasha_daily2["user"] = "Даша"
@@ -161,7 +169,6 @@ def process_data():
     try:
         lera_count2, lera_daily2 = read_and_process_data(URL_LERA_2, "Лера (2)")
-        # Переопределяем имя пользователя, чтобы объединить данные
         lera_daily2["user"] = "Лера"
     except Exception as e:
         print(f"[Лера (2)] Ошибка при чтении дополнительного CSV: {e}")
@@ -174,20 +181,42 @@ def process_data():
         print(f"[Света (2)] Ошибка при чтении дополнительного CSV: {e}")
         sveta_count2, sveta_daily2 = 0, pd.DataFrame(columns=["date", "count", "user"])
-    # Объединяем основные и дополнительные данные по каждому пользователю
-    dasha_count_total = dasha_count + dasha_count2
-    lera_count_total  = lera_count  + lera_count2
-    sveta_count_total = sveta_count + sveta_count2
-    dasha_daily_total = pd.concat([dasha_daily, dasha_daily2], ignore_index=True)
-    lera_daily_total  = pd.concat([lera_daily, lera_daily2], ignore_index=True)
-    sveta_daily_total = pd.concat([sveta_daily, sveta_daily2], ignore_index=True)
     total_count = dasha_count_total + lera_count_total + sveta_count_total
     print(f"Суммарное количество (Д+Л+С): {total_count}")
-    # Остальной код (прогресс-бары, объединение DataFrame, графики)
-    # замените исходные переменные на объединённые *_total
     dasha_percent = round((dasha_count_total / 234) * 100) if 234 else 0
     lera_percent  = round((lera_count_total  / 234) * 100) if 234 else 0
     sveta_percent = round((sveta_count_total / 234) * 100) if 234 else 0
@@ -212,28 +241,24 @@ def process_data():
         get_progress_bar("Всего", total_count, total_percent)
     )
-    # Объединение ежедневных данных для построения графика
     daily_all = pd.concat([dasha_daily_total, lera_daily_total, sveta_daily_total], ignore_index=True)
     daily_all = daily_all.dropna(subset=["date"])
     daily_all = daily_all.sort_values(["user", "date"])
-    # Приведение столбца "count" к числовому типу
     daily_all["count"] = pd.to_numeric(daily_all["count"], errors="coerce").fillna(0)
-    # Вычисление накопительной суммы
     daily_all["cumulative"] = daily_all.groupby("user")["count"].cumsum()
-    # «Всего»
     total_by_date = daily_all.groupby("date")["count"].sum().reset_index(name="count")
     total_by_date = total_by_date.sort_values("date")
     total_by_date["cumulative"] = total_by_date["count"].cumsum()
     total_by_date["user"] = "Всего"
-    # 4) Первый график: накопительное (все пользователи)
     daily_all_final = pd.concat([daily_all, total_by_date], ignore_index=True)
     daily_all_final["date_dt"] = pd.to_datetime(daily_all_final["date"])
-    # === ВАЖНО: сортируем легенду (user) по убыванию финального cumulative ===
     last_values = daily_all_final.groupby("user")["cumulative"].last().sort_values(ascending=False)
     sorted_users = last_values.index.tolist()
@@ -242,7 +267,7 @@ def process_data():
         data=daily_all_final,
         x="date_dt", y="cumulative",
         hue="user",
-        hue_order=sorted_users,  # <-- передаём порядок
         ax=ax1, marker="o"
     )
     ax1.set_title("Накопительное количество SMS")
@@ -255,23 +280,21 @@ def process_data():
     buf1.seek(0)
     image1_pil = Image.open(buf1)
-    # 5) Делаем «Всего» для Prophet + средний прогноз
     df_prophet = total_by_date[["date", "cumulative"]].copy()
     df_prophet.columns = ["ds", "y"]
     df_prophet["ds"] = pd.to_datetime(df_prophet["ds"])
-    # Prophet-модель
     model = Prophet()
     model.fit(df_prophet)
-    # Прогноз до 31 марта 2025
     end_date = pd.to_datetime("2025-03-31")
     last_date = df_prophet["ds"].max()
     additional_days = (end_date - last_date).days
     future = model.make_future_dataframe(periods=additional_days if additional_days>0 else 0)
     forecast = model.predict(future)
-    # Разделим историю и будущее
     df_plot = pd.merge(
         forecast[["ds", "yhat"]],
         df_prophet[["ds", "y"]],
@@ -284,26 +307,21 @@ def process_data():
     # Прогноз по среднему
     df_avg = make_average_forecast(total_by_date, "2025-03-31")
-    # Преобразуем для Seaborn
-    # История
     df_history["type"] = "История"
     df_history["value"] = df_history["y"]
-    # Prophet
     df_future["type"] = "Прогноз (Prophet)"
     df_future["value"] = df_future["yhat"]
-    # Средний
     df_avg["type"] = "Прогноз (среднее)"
     df_avg["value"] = df_avg["yhat"]
     df_avg.rename(columns={"ds":"ds"}, inplace=True)
-    # Сшиваем все в один DataFrame
     df_combined = pd.concat([df_history, df_future, df_avg], ignore_index=True)
-    # Для удобства
     df_combined["ds"] = pd.to_datetime(df_combined["ds"])
-    # 6) Второй график: «История», «Прогноз (Prophet)», «Прогноз (среднее)» — пунктир
     line_styles = {
         "История": "",
         "Прогноз (Prophet)": (2,2),
@@ -336,14 +354,13 @@ def process_data():
     buf2.seek(0)
     image2_pil = Image.open(buf2)
-    # 7) Возвращаем результат
     return bars_html, image1_pil, image2_pil
 # Gradio-интерфейс
 with gr.Blocks() as demo:
     gr.Markdown("<h2>Количество сохраненных SMS (Даша, Лера, Света, Всего) + Прогноз</h2>")
-#    gr.Markdown("<h2>Временно закрыто на ремонт")
     btn = gr.Button("Обновить данные и показать результат")
     html_output = gr.HTML(label="Прогресс-бары: количество SMS и %")

 import io
 from PIL import Image
+# =====================
+# Первый набор CSV-файлов
+# =====================
 URL_DASHA = "https://raw.githubusercontent.com/fruitpicker01/Storage_Dasha_2025/main/messages.csv"
 URL_LERA  = "https://raw.githubusercontent.com/fruitpicker01/Storage_Lera_2025/main/messages.csv"
 URL_SVETA = "https://raw.githubusercontent.com/fruitpicker01/Storage_Sveta_2025/main/messages.csv"
+# =====================
+# Второй набор CSV-файлов
+# =====================
 URL_DASHA_2 = "https://raw.githubusercontent.com/fruitpicker01/Storage_2_Dasha_2025/main/messages.csv"
 URL_LERA_2  = "https://raw.githubusercontent.com/fruitpicker01/Storage_2_Lera_2025/main/messages.csv"
 URL_SVETA_2 = "https://raw.githubusercontent.com/fruitpicker01/Storage_2_Sveta_2025/main/messages.csv"
+# =====================
+# Третий набор CSV-файлов (messages_2.csv)
+# =====================
+URL_DASHA_3 = "https://raw.githubusercontent.com/fruitpicker01/Storage_2_Dasha_2025/main/messages_2.csv"
+URL_LERA_3  = "https://raw.githubusercontent.com/fruitpicker01/Storage_2_Lera_2025/main/messages_2.csv"
+URL_SVETA_3 = "https://raw.githubusercontent.com/fruitpicker01/Storage_2_Sveta_2025/main/messages_2.csv"
 def read_and_process_data(url, user_name):
     """
     Считывает CSV, отбирает нужные столбцы,
     print(f"\n=== [{user_name}] чтение CSV ===")
     import re
     pattern = re.compile(r"https://raw\.githubusercontent\.com/([^/]+)/([^/]+)/([^/]+)/(.+)")
     m = pattern.match(url)
     if not m:
+        # Если URL не совпадает с raw.githubusercontent.com, пробуем напрямую
         print(f"[{user_name}] URL не совпадает с raw.githubusercontent.com, читаем напрямую...")
+        try:
+            df = pd.read_csv(url, na_values=["Не выбрано"])
+        except Exception as e:
+            print(f"[{user_name}] Ошибка при pd.read_csv напрямую: {e}")
+            return 0, pd.DataFrame(columns=["date", "count", "user"])
     else:
         owner = m.group(1)
         repo_name = m.group(2)
         branch = m.group(3)
+        file_path = m.group(4)
         api_url = f"https://api.github.com/repos/{owner}/{repo_name}/contents/{file_path}?ref={branch}"
         print(f"[{user_name}] Пытаемся Contents API: {api_url}")
         resp = requests.get(api_url)
         if resp.status_code != 200:
             print(f"[{user_name}] Не удалось получить JSON (статус={resp.status_code}), читаем напрямую...")
+            try:
+                df = pd.read_csv(url, na_values=["Не выбрано"])
+            except Exception as e:
+                print(f"[{user_name}] Ошибка при pd.read_csv напрямую: {e}")
+                return 0, pd.DataFrame(columns=["date", "count", "user"])
         else:
             data_json = resp.json()
             size = data_json.get("size", 0)
             if not file_content_encoded or size > 1_000_000:
                 # Большой файл или отсутствует content => используем download_url
                 print(f"[{user_name}] Файл крупнее 1 МБ или content отсутствует, скачиваем по download_url={download_url}")
+                try:
+                    resp2 = requests.get(download_url)
+                    resp2.raise_for_status()
+                    csv_text = resp2.text
+                    df = pd.read_csv(io.StringIO(csv_text), na_values=["Не выбрано"])
+                except Exception as e:
+                    print(f"[{user_name}] Ошибка при чтении по download_url: {e}")
+                    return 0, pd.DataFrame(columns=["date", "count", "user"])
             else:
                 # Получаем Base64 и декодируем
+                try:
+                    file_bytes = base64.b64decode(file_content_encoded)
+                    df = pd.read_csv(io.StringIO(file_bytes.decode("utf-8")), na_values=["Не выбрано"])
+                except Exception as e:
+                    print(f"[{user_name}] Ошибка декодирования Base64: {e}")
+                    return 0, pd.DataFrame(columns=["date", "count", "user"])
     print(f"[{user_name}] Исходное кол-во строк: {len(df)}")
     cols = ["gender", "generation", "industry", "opf", "timestamp"]
     df = df[[c for c in cols if c in df.columns]].copy()
     print(f"[{user_name}] После отбора столбцов: {df.shape}")
     return unique_count, df_daily
 def make_average_forecast(total_by_date, end_date_str="2025-03-31"):
     """
     Делает «прогноз по среднему» до указанной даты (end_date_str).
     return pd.DataFrame(forecast_data)
 def process_data():
     print("\n=== Начинаем process_data (Seaborn + Prophet + средний) ===")
+    # ====== Чтение данных (первый набор) ======
     dasha_count, dasha_daily = read_and_process_data(URL_DASHA, "Даша")
     lera_count,  lera_daily  = read_and_process_data(URL_LERA, "Лера")
     sveta_count, sveta_daily = read_and_process_data(URL_SVETA, "Света")
+    # ====== Чтение (второй набор) ======
     try:
         dasha_count2, dasha_daily2 = read_and_process_data(URL_DASHA_2, "Даша (2)")
         dasha_daily2["user"] = "Даша"
     try:
         lera_count2, lera_daily2 = read_and_process_data(URL_LERA_2, "Лера (2)")
         lera_daily2["user"] = "Лера"
     except Exception as e:
         print(f"[Лера (2)] Ошибка при чтении дополнительного CSV: {e}")
         print(f"[Света (2)] Ошибка при чтении дополнительного CSV: {e}")
         sveta_count2, sveta_daily2 = 0, pd.DataFrame(columns=["date", "count", "user"])
+    # ====== Чтение (третий набор: messages_2.csv) ======
+    try:
+        dasha_count3, dasha_daily3 = read_and_process_data(URL_DASHA_3, "Даша (3)")
+        # Объединяем с "Дашей"
+        dasha_daily3["user"] = "Даша"
+    except Exception as e:
+        print(f"[Даша (3)] Ошибка при чтении messages_2.csv: {e}")
+        dasha_count3, dasha_daily3 = 0, pd.DataFrame(columns=["date", "count", "user"])
+    try:
+        lera_count3, lera_daily3 = read_and_process_data(URL_LERA_3, "Лера (3)")
+        lera_daily3["user"] = "Лера"
+    except Exception as e:
+        print(f"[Лера (3)] Ошибка при чтении messages_2.csv: {e}")
+        lera_count3, lera_daily3 = 0, pd.DataFrame(columns=["date", "count", "user"])
+    try:
+        sveta_count3, sveta_daily3 = read_and_process_data(URL_SVETA_3, "Света (3)")
+        sveta_daily3["user"] = "Света"
+    except Exception as e:
+        print(f"[Света (3)] Ошибка при чтении messages_2.csv: {e}")
+        sveta_count3, sveta_daily3 = 0, pd.DataFrame(columns=["date", "count", "user"])
+    # ====== Итоговые суммы ======
+    dasha_count_total = dasha_count + dasha_count2 + dasha_count3
+    lera_count_total  = lera_count  + lera_count2  + lera_count3
+    sveta_count_total = sveta_count + sveta_count2 + sveta_count3
+    dasha_daily_total = pd.concat([dasha_daily, dasha_daily2, dasha_daily3], ignore_index=True)
+    lera_daily_total  = pd.concat([lera_daily,  lera_daily2,  lera_daily3 ], ignore_index=True)
+    sveta_daily_total = pd.concat([sveta_daily, sveta_daily2, sveta_daily3], ignore_index=True)
     total_count = dasha_count_total + lera_count_total + sveta_count_total
     print(f"Суммарное количество (Д+Л+С): {total_count}")
+    # ====== Проценты ======
     dasha_percent = round((dasha_count_total / 234) * 100) if 234 else 0
     lera_percent  = round((lera_count_total  / 234) * 100) if 234 else 0
     sveta_percent = round((sveta_count_total / 234) * 100) if 234 else 0
         get_progress_bar("Всего", total_count, total_percent)
     )
+    # ====== Ежедневные данные + накопительное ======
     daily_all = pd.concat([dasha_daily_total, lera_daily_total, sveta_daily_total], ignore_index=True)
     daily_all = daily_all.dropna(subset=["date"])
     daily_all = daily_all.sort_values(["user", "date"])
     daily_all["count"] = pd.to_numeric(daily_all["count"], errors="coerce").fillna(0)
     daily_all["cumulative"] = daily_all.groupby("user")["count"].cumsum()
+    # «Всего» по датам
     total_by_date = daily_all.groupby("date")["count"].sum().reset_index(name="count")
     total_by_date = total_by_date.sort_values("date")
     total_by_date["cumulative"] = total_by_date["count"].cumsum()
     total_by_date["user"] = "Всего"
+    # ====== Первый график (накопительные кривые) ======
     daily_all_final = pd.concat([daily_all, total_by_date], ignore_index=True)
     daily_all_final["date_dt"] = pd.to_datetime(daily_all_final["date"])
+    # Сортируем легенду по убыванию финальной точки
     last_values = daily_all_final.groupby("user")["cumulative"].last().sort_values(ascending=False)
     sorted_users = last_values.index.tolist()
         data=daily_all_final,
         x="date_dt", y="cumulative",
         hue="user",
+        hue_order=sorted_users,
         ax=ax1, marker="o"
     )
     ax1.set_title("Накопительное количество SMS")
     buf1.seek(0)
     image1_pil = Image.open(buf1)
+    # ====== Prophet + Прогноз по среднему (всего) ======
     df_prophet = total_by_date[["date", "cumulative"]].copy()
     df_prophet.columns = ["ds", "y"]
     df_prophet["ds"] = pd.to_datetime(df_prophet["ds"])
     model = Prophet()
     model.fit(df_prophet)
     end_date = pd.to_datetime("2025-03-31")
     last_date = df_prophet["ds"].max()
     additional_days = (end_date - last_date).days
     future = model.make_future_dataframe(periods=additional_days if additional_days>0 else 0)
     forecast = model.predict(future)
+    # Подготовка данных для графика
     df_plot = pd.merge(
         forecast[["ds", "yhat"]],
         df_prophet[["ds", "y"]],
     # Прогноз по среднему
     df_avg = make_average_forecast(total_by_date, "2025-03-31")
     df_history["type"] = "История"
     df_history["value"] = df_history["y"]
     df_future["type"] = "Прогноз (Prophet)"
     df_future["value"] = df_future["yhat"]
     df_avg["type"] = "Прогноз (среднее)"
     df_avg["value"] = df_avg["yhat"]
     df_avg.rename(columns={"ds":"ds"}, inplace=True)
+    # Сшиваем
     df_combined = pd.concat([df_history, df_future, df_avg], ignore_index=True)
     df_combined["ds"] = pd.to_datetime(df_combined["ds"])
+    # Второй график
     line_styles = {
         "История": "",
         "Прогноз (Prophet)": (2,2),
     buf2.seek(0)
     image2_pil = Image.open(buf2)
+    # Результат
     return bars_html, image1_pil, image2_pil
 # Gradio-интерфейс
 with gr.Blocks() as demo:
     gr.Markdown("<h2>Количество сохраненных SMS (Даша, Лера, Света, Всего) + Прогноз</h2>")
     btn = gr.Button("Обновить данные и показать результат")
     html_output = gr.HTML(label="Прогресс-бары: количество SMS и %")