swapnice
/

swapnice-openorcaxopenchat-preview2-13b

@@ -3,17 +3,16 @@ from typing import Dict, List, Any
 from transformers import LlamaForCausalLM, LlamaTokenizer, pipeline
 # get dtype
-dtype = torch.float16
 class EndpointHandler:
     def __init__(self, path=""):
         # load the model
-        tokenizer = LlamaTokenizer.from_pretrained(".", local_files_only=True)
         model = LlamaForCausalLM.from_pretrained(
-            ".",
             device_map="auto",
             torch_dtype=dtype,
-            offload_folder="offload"
         )
         # create inference pipeline
         self.pipeline = pipeline("text-generation", model=model, tokenizer=tokenizer)

 from transformers import LlamaForCausalLM, LlamaTokenizer, pipeline
 # get dtype
+dtype = torch.bfloat16 if torch.cuda.get_device_capability()[0] == 8 else torch.float16
 class EndpointHandler:
     def __init__(self, path=""):
         # load the model
+        tokenizer = LlamaTokenizer.from_pretrained("/repository/tokenizer", local_files_only=True)
         model = LlamaForCausalLM.from_pretrained(
+            "/repository/pytorch_model",
             device_map="auto",
             torch_dtype=dtype,
         )
         # create inference pipeline
         self.pipeline = pipeline("text-generation", model=model, tokenizer=tokenizer)