muryshev commited on
Commit
81201dd
·
1 Parent(s): 1d40914
Files changed (1) hide show
  1. huggingface/dataset_utils.py +4 -15
huggingface/dataset_utils.py CHANGED
@@ -1,6 +1,7 @@
1
  import os
2
  from datasets import load_dataset
3
-
 
4
  def get_global_data_path():
5
  """
6
  Загружает путь к папке `legal_info_search_data` внутри датасета Hugging Face.
@@ -23,17 +24,5 @@ def get_global_data_path():
23
  if not hf_token or not hf_dataset:
24
  return default_path
25
 
26
- # Загружаем датасет
27
- try:
28
- dataset = load_dataset(hf_dataset, use_auth_token=hf_token)
29
- # Получаем путь к локальному кешу датасета
30
- dataset_cache_path = dataset.cache_files[0]['filename']
31
- global_data_path = os.path.join(os.path.dirname(dataset_cache_path), "legal_info_search_data")
32
-
33
- # Проверяем существование папки
34
- if not os.path.exists(global_data_path):
35
- raise FileNotFoundError(f"Папка {global_data_path} не найдена в датасете {hf_dataset}.")
36
-
37
- return global_data_path
38
- except Exception as e:
39
- raise RuntimeError(f"Ошибка при загрузке датасета: {str(e)}")
 
1
  import os
2
  from datasets import load_dataset
3
+ import huggingface_hub
4
+
5
  def get_global_data_path():
6
  """
7
  Загружает путь к папке `legal_info_search_data` внутри датасета Hugging Face.
 
24
  if not hf_token or not hf_dataset:
25
  return default_path
26
 
27
+ folder = huggingface_hub.snapshot_download(repo_id=hf_dataset, repo_type="dataset", token=hf_token)
28
+ return folder