Spaces:

hoduyquocbao
/

LLAMA3.2-GRop

Sleeping

App Files Files Community

hoduyquocbao commited on Sep 28, 2024

Commit

f643d55

1 Parent(s): b63ef0b

fix errors

Browse files

Files changed (1) hide show

app.py +8 -8

app.py CHANGED Viewed

@@ -106,7 +106,7 @@ def search(query: str) -> List[Dict[str, Any]]:
                 headers=headers,
                 params={"q": term, "num": 4},  # Tìm kiếm với 4 kết quả mỗi trang
                 timeout=5,
-                verify=False,  # Bỏ qua xác minh SSL
             )
             resp.raise_for_status()
             soup = BeautifulSoup(resp.text, "html.parser")
@@ -323,15 +323,15 @@ CHECKPOINT_DIR = "./checkpoints"
 if not os.path.exists(CHECKPOINT_DIR):
     os.makedirs(CHECKPOINT_DIR)
-# Tải Dataset (CPU)
 dataset = load_dataset('vntc/wiki-mini-corpus')
-# Chia Dataset thành train và validation (CPU)
 split_dataset = dataset['train'].train_test_split(test_size=0.1, seed=42)
 train_dataset = split_dataset['train']
 validation_dataset = split_dataset['test']
-# Tiền Xử Lý Văn Bản (CPU)
 def preprocess_function(examples):
     passages = [passage.lower().strip() for passage in examples['passage']]
     return {'passage': passages}
@@ -355,7 +355,7 @@ def tokenize_function(examples):
 tokenized_train = processed_train.map(tokenize_function, batched=True)
 tokenized_validation = processed_validation.map(tokenize_function, batched=True)
-# Thêm trường 'labels' (CPU)
 def add_labels(examples):
     examples['labels'] = examples['input_ids'].copy()
     return examples
@@ -363,15 +363,15 @@ def add_labels(examples):
 tokenized_train = tokenized_train.map(add_labels, batched=True)
 tokenized_validation = tokenized_validation.map(add_labels, batched=True)
-# Loại bỏ các cột không cần thiết (CPU)
 tokenized_train = tokenized_train.remove_columns(['passage'])
 tokenized_validation = tokenized_validation.remove_columns(['passage'])
-# Định dạng dữ liệu cho PyTorch (CPU)
 tokenized_train.set_format('torch')
 tokenized_validation.set_format('torch')
-# Tạo DatasetDict (CPU)
 final_dataset = {
     'train': tokenized_train,
     'validation': tokenized_validation

                 headers=headers,
                 params={"q": term, "num": 4},  # Tìm kiếm với 4 kết quả mỗi trang
                 timeout=5,
+                verify=True,  # Xác minh SSL
             )
             resp.raise_for_status()
             soup = BeautifulSoup(resp.text, "html.parser")
 if not os.path.exists(CHECKPOINT_DIR):
     os.makedirs(CHECKPOINT_DIR)
+# Tải Dataset
 dataset = load_dataset('vntc/wiki-mini-corpus')
+# Chia Dataset thành train và validation
 split_dataset = dataset['train'].train_test_split(test_size=0.1, seed=42)
 train_dataset = split_dataset['train']
 validation_dataset = split_dataset['test']
+# Tiền Xử Lý Văn Bản
 def preprocess_function(examples):
     passages = [passage.lower().strip() for passage in examples['passage']]
     return {'passage': passages}
 tokenized_train = processed_train.map(tokenize_function, batched=True)
 tokenized_validation = processed_validation.map(tokenize_function, batched=True)
+# Thêm trường 'labels'
 def add_labels(examples):
     examples['labels'] = examples['input_ids'].copy()
     return examples
 tokenized_train = tokenized_train.map(add_labels, batched=True)
 tokenized_validation = tokenized_validation.map(add_labels, batched=True)
+# Loại bỏ các cột không cần thiết
 tokenized_train = tokenized_train.remove_columns(['passage'])
 tokenized_validation = tokenized_validation.remove_columns(['passage'])
+# Định dạng dữ liệu cho PyTorch
 tokenized_train.set_format('torch')
 tokenized_validation.set_format('torch')
+# Tạo DatasetDict
 final_dataset = {
     'train': tokenized_train,
     'validation': tokenized_validation