nn-search-full / huggingface /dataset_utils.py
muryshev's picture
update
53ef13d
import os
from datasets import load_dataset
import huggingface_hub
def get_global_data_path():
"""
Загружает путь к папке `legal_info_search_data` внутри датасета Hugging Face.
Ожидает, что переменные окружения HF_TOKEN и HF_DATASET заданы.
Если переменные не указаны, возвращает значение по умолчанию.
Returns:
str: Путь к папке `legal_info_search_data`.
Raises:
ValueError: Если переменные окружения не указаны.
FileNotFoundError: Если папка `legal_info_search_data` не найдена.
"""
# Получение переменных окружения
hf_token = os.environ.get("HF_TOKEN")
hf_dataset = os.environ.get("HF_DATASET")
default_path = os.environ.get("GLOBAL_DATA_PATH")
# Проверяем, заданы ли переменные окружения
if not hf_token or not hf_dataset:
return default_path
folder = huggingface_hub.snapshot_download(repo_id=hf_dataset, repo_type="dataset", token=hf_token, cache_dir="/data")
return folder