Spaces:

SerenaSK
/

Stat_2025

Sleeping

App Files Files Community

fruitpicker01 commited on Feb 18

Commit

a1c0e0a

verified ·

1 Parent(s): 128e9a1

Update app.py

Browse files

Files changed (1) hide show

app.py +58 -3

app.py CHANGED Viewed

@@ -20,19 +20,73 @@ def read_and_process_data(url, user_name):
       - unique_count (кол-во уникальных записей)
       - df_daily: [date, count, user]
     """
     print(f"\n=== [{user_name}] чтение CSV ===")
-    df = pd.read_csv(url, na_values=["Не выбрано"])
     print(f"[{user_name}] Исходное кол-во строк: {len(df)}")
     cols = ["gender", "generation", "industry", "opf", "timestamp"]
     df = df[[c for c in cols if c in df.columns]].copy()
     print(f"[{user_name}] После отбора столбцов: {df.shape}")
-    # Удаляем дубликаты
     df_unique = df.drop_duplicates(subset=["gender", "generation", "industry", "opf"]).copy()
     print(f"[{user_name}] После drop_duplicates: {df_unique.shape}")
-    # Преобразуем timestamp -> date
     df_unique["timestamp"] = pd.to_numeric(df_unique["timestamp"], errors='coerce')
     df_unique["date"] = pd.to_datetime(df_unique["timestamp"], unit="s", origin="unix", errors='coerce').dt.date
@@ -44,6 +98,7 @@ def read_and_process_data(url, user_name):
     # Группировка по датам
     df_daily = df_unique.groupby("date").size().reset_index(name="count")
     df_daily["user"] = user_name
     return unique_count, df_daily

       - unique_count (кол-во уникальных записей)
       - df_daily: [date, count, user]
     """
+    import requests, base64, io
     print(f"\n=== [{user_name}] чтение CSV ===")
+    # 1) Предположим, что в url указано что-то вроде
+    #    "https://github.com/username/repo/blob/main/messages.csv"
+    # или "https://raw.githubusercontent.com/..."
+    # Чтобы использовать API, нужно получить путь (owner, repo, path).
+    # Если у вас уже есть "https://raw.githubusercontent.com/<owner>/<repo>/main/messages.csv",
+    # то придётся вручную подставить значения owner/repo/file_path для Contents API.
+    # Пример разбора url (упрощённо):
+    # - Здесь у нас raw-ссылки, например:
+    #   "https://raw.githubusercontent.com/fruitpicker01/Storage_Lera_2025/main/messages.csv"
+    #   => owner = "fruitpicker01", repo = "Storage_Lera_2025", path = "messages.csv"
+    # В зависимости от структуры URL меняйте parse_* как нужно
+    # !!! ВАЖНО: Если у вас несколько веток/папок, подставьте их правильно ниже.
+    import re
+    pattern = re.compile(r"https://raw\.githubusercontent\.com/([^/]+)/([^/]+)/([^/]+)/(.+)")
+    m = pattern.match(url)
+    if not m:
+        # не узнали структуру: fallback - просто пробуем pd.read_csv напрямую
+        print(f"[{user_name}] URL не совпадает с raw.githubusercontent.com, читаем напрямую...")
+        df = pd.read_csv(url, na_values=["Не выбрано"])
+    else:
+        owner = m.group(1)
+        repo_name = m.group(2)
+        branch = m.group(3)
+        file_path = m.group(4)  # например "messages.csv"
+        # 2) Обращаемся к GitHub Contents API
+        api_url = f"https://api.github.com/repos/{owner}/{repo_name}/contents/{file_path}?ref={branch}"
+        print(f"[{user_name}] Пытаемся Contents API: {api_url}")
+        resp = requests.get(api_url)
+        if resp.status_code != 200:
+            print(f"[{user_name}] Не удалось получить JSON (статус={resp.status_code}), читаем напрямую...")
+            df = pd.read_csv(url, na_values=["Не выбрано"])
+        else:
+            data_json = resp.json()
+            size = data_json.get("size", 0)
+            file_content_encoded = data_json.get("content")
+            download_url = data_json.get("download_url")
+            if not file_content_encoded or size > 1_000_000:
+                # Большой файл или отсутствует content => используем download_url
+                print(f"[{user_name}] Файл крупнее 1 МБ или content отсутствует, скачиваем по download_url={download_url}")
+                resp2 = requests.get(download_url)
+                resp2.raise_for_status()
+                csv_text = resp2.text
+                df = pd.read_csv(io.StringIO(csv_text), na_values=["Не выбрано"])
+            else:
+                # Получаем Base64 и декодируем
+                file_bytes = base64.b64decode(file_content_encoded)
+                df = pd.read_csv(io.StringIO(file_bytes.decode("utf-8")), na_values=["Не выбрано"])
     print(f"[{user_name}] Исходное кол-во строк: {len(df)}")
+    # Дальше та же логика, что у вас была
     cols = ["gender", "generation", "industry", "opf", "timestamp"]
     df = df[[c for c in cols if c in df.columns]].copy()
     print(f"[{user_name}] После отбора столбцов: {df.shape}")
     df_unique = df.drop_duplicates(subset=["gender", "generation", "industry", "opf"]).copy()
     print(f"[{user_name}] После drop_duplicates: {df_unique.shape}")
     df_unique["timestamp"] = pd.to_numeric(df_unique["timestamp"], errors='coerce')
     df_unique["date"] = pd.to_datetime(df_unique["timestamp"], unit="s", origin="unix", errors='coerce').dt.date
     # Группировка по датам
     df_daily = df_unique.groupby("date").size().reset_index(name="count")
     df_daily["user"] = user_name
     return unique_count, df_daily