import os from datasets import load_dataset import huggingface_hub def get_global_data_path(): """ Загружает путь к папке `legal_info_search_data` внутри датасета Hugging Face. Ожидает, что переменные окружения HF_TOKEN и HF_DATASET заданы. Если переменные не указаны, возвращает значение по умолчанию. Returns: str: Путь к папке `legal_info_search_data`. Raises: ValueError: Если переменные окружения не указаны. FileNotFoundError: Если папка `legal_info_search_data` не найдена. """ # Получение переменных окружения hf_token = os.environ.get("HF_TOKEN") hf_dataset = os.environ.get("HF_DATASET") default_path = os.environ.get("GLOBAL_DATA_PATH") # Проверяем, заданы ли переменные окружения if not hf_token or not hf_dataset: return default_path folder = huggingface_hub.snapshot_download(repo_id=hf_dataset, repo_type="dataset", token=hf_token, cache_dir="/data") return folder