frugal-ai-submission-template

Sleeping

App Files Files Community

Tonic commited on Feb 10

Commit

c339ecd

unverified ·

1 Parent(s): 2c8310a

use reference code

Browse files

Files changed (1) hide show

tasks/text.py +10 -15

tasks/text.py CHANGED Viewed

@@ -12,7 +12,7 @@ from .utils.emissions import tracker, clean_emissions_data, get_space_info
 router = APIRouter()
-DESCRIPTION = "ModernBERT for Climate Disinformation Detection"
 ROUTE = "/text"
 @router.post(ROUTE, tags=["Text Task"],
@@ -57,35 +57,30 @@ async def evaluate_text(request: TextEvaluationRequest):
         # Set device
         device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
         # Initialize tokenizer
-        tokenizer = AutoTokenizer.from_pretrained("answerdotai/ModernBERT-base")
-        # Initialize model with configuration that avoids bias parameter
-        model = AutoModelForSequenceClassification.from_pretrained(
-            "Tonic/climate-guard-toxic-agent",
-            trust_remote_code=True,
-            num_labels=8,
-            problem_type="single_label_classification",
-            ignore_mismatched_sizes=True,
-            torch_dtype=torch.float16  # Use float16 for efficiency
-        ).to(device)
         # Set model to evaluation mode
         model.eval()
-        # Tokenize function
         def preprocess_function(examples):
             return tokenizer(
                 examples["quote"],
                 truncation=True,
-                padding=True,
-                max_length=512,
                 return_tensors=None
             )
         # Tokenize dataset
         tokenized_test = test_dataset.map(
-            preprocess_function,
             batched=True,
             remove_columns=test_dataset.column_names
         )

 router = APIRouter()
+DESCRIPTION = "Climate Guard Toxic Agent is a ModernBERT for Climate Disinformation Detection"
 ROUTE = "/text"
 @router.post(ROUTE, tags=["Text Task"],
         # Set device
         device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+        # Model and tokenizer paths
+        path_model = 'Tonic/climate-guard-toxic-agent'
+        path_tokenizer = "answerdotai/ModernBERT-base"
         # Initialize tokenizer
+        tokenizer = AutoTokenizer.from_pretrained(path_tokenizer)
+        # Initialize model
+        model = AutoModelForSequenceClassification.from_pretrained(path_model).half().to(device)
         # Set model to evaluation mode
         model.eval()
+        # Preprocess function
         def preprocess_function(examples):
             return tokenizer(
                 examples["quote"],
                 truncation=True,
                 return_tensors=None
             )
         # Tokenize dataset
         tokenized_test = test_dataset.map(
+            preprocess_function,
             batched=True,
             remove_columns=test_dataset.column_names
         )