Spaces:

DiDustin
/

KazLLM

Running on Zero

DiDustin commited on Dec 16, 2024

Commit

f5a480d

verified ·

1 Parent(s): 15dcf22

Update app.py

update device use only cuda (gpu)
use additional gpu decorator for any function than loads, runs models to gpu

Files changed (1) hide show

app.py CHANGED Viewed

@@ -63,11 +63,11 @@ LANGUAGES = {
 loaded_models = {}
 loaded_tokenizers = {}
 def load_model_and_tokenizer(model_key):
     if model_key not in loaded_models:
         model_info = MODELS[model_key]
-        device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
         model = AutoModelForCausalLM.from_pretrained(
             model_info["model_name"],
             token=HF_TOKEN,
@@ -84,13 +84,13 @@ def load_model_and_tokenizer(model_key):
             tokenizer.pad_token = tokenizer.eos_token
         loaded_tokenizers[model_key] = tokenizer
 def generate_text(model_choice, prompt, max_length, temperature, top_p, do_sample):
     load_model_and_tokenizer(model_choice)
     model = loaded_models[model_choice]
     tokenizer = loaded_tokenizers[model_choice]
-    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
     inputs = tokenizer(prompt, return_tensors="pt", truncation=True, padding=True).to(device)
@@ -136,7 +136,7 @@ def update_language(selected_language):
     )
-@spaces.GPU(duration=180)
 def wrapped_generate_text(model_choice, prompt, max_length, temperature, top_p, do_sample):
     return generate_text(model_choice, prompt, max_length, temperature, top_p, do_sample)

 loaded_models = {}
 loaded_tokenizers = {}
+@spaces.GPU(duration=240)
 def load_model_and_tokenizer(model_key):
     if model_key not in loaded_models:
         model_info = MODELS[model_key]
+        device = "cuda"
         model = AutoModelForCausalLM.from_pretrained(
             model_info["model_name"],
             token=HF_TOKEN,
             tokenizer.pad_token = tokenizer.eos_token
         loaded_tokenizers[model_key] = tokenizer
+@spaces.GPU(duration=240)
 def generate_text(model_choice, prompt, max_length, temperature, top_p, do_sample):
     load_model_and_tokenizer(model_choice)
     model = loaded_models[model_choice]
     tokenizer = loaded_tokenizers[model_choice]
+    device = "cuda"
     inputs = tokenizer(prompt, return_tensors="pt", truncation=True, padding=True).to(device)
     )
+@spaces.GPU(duration=240)
 def wrapped_generate_text(model_choice, prompt, max_length, temperature, top_p, do_sample):
     return generate_text(model_choice, prompt, max_length, temperature, top_p, do_sample)