bai-granite

Build error

Pratham Bhat commited on Apr 9

Commit

921b6d2

1 Parent(s): 611c4ac

Loads model before starting server

Files changed (2) hide show

main.py CHANGED Viewed

@@ -14,7 +14,8 @@ from pydantic import BaseModel
 from transformers import AutoModelForCausalLM, AutoTokenizer
 import uvicorn
 import torch
 app = FastAPI()
@@ -35,13 +36,29 @@ def format_prompt(system, message, history):
     prompt += {"role": "user", "content": message}
     return prompt
-def generate(item: Item):
     device = "cuda" if torch.cuda.is_available() else "cpu"
     model_path = "ibm-granite/granite-34b-code-instruct-8k"
     tokenizer = AutoTokenizer.from_pretrained(model_path)
     # drop device_map if running on CPU
     model = AutoModelForCausalLM.from_pretrained(model_path, device_map=device)
     model.eval()
     # change input text as desired
     chat = format_prompt(item.system_prompt, item.prompt, item.history)
     chat = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
@@ -56,9 +73,12 @@ def generate(item: Item):
     return output_text
 @app.post("/generate/")
 async def generate_text(item: Item):
-    return {"response": generate(item)}
 @app.get("/")
 async def generate_text_root(item: Item):

 from transformers import AutoModelForCausalLM, AutoTokenizer
 import uvicorn
 import torch
+import sys
+# torch.mps.empty_cache()
 app = FastAPI()
     prompt += {"role": "user", "content": message}
     return prompt
+def setup():
     device = "cuda" if torch.cuda.is_available() else "cpu"
+    # if torch.backends.mps.is_available():
+    #     device = torch.device("mps")
+    #     x = torch.ones(1, device=device)
+    #     print (x)
+    # else:
+    #     device="cpu"
+    #     print ("MPS device not found.")
+    # device = "auto"
+    # device=torch.device("cpu")
     model_path = "ibm-granite/granite-34b-code-instruct-8k"
     tokenizer = AutoTokenizer.from_pretrained(model_path)
     # drop device_map if running on CPU
     model = AutoModelForCausalLM.from_pretrained(model_path, device_map=device)
     model.eval()
+    return model, tokenizer, device
+def generate(item: Item, model, tokenizer, device):
     # change input text as desired
     chat = format_prompt(item.system_prompt, item.prompt, item.history)
     chat = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
     return output_text
+model, tokenizer, device = setup()
 @app.post("/generate/")
 async def generate_text(item: Item):
+    print(item, file=sys.stderr)
+    return {"response": generate(item, model, tokenizer, device)}
 @app.get("/")
 async def generate_text_root(item: Item):

requirements.txt CHANGED Viewed

@@ -1,5 +1,5 @@
 fastapi
-uvicorn
 huggingface_hub
 pydantic
 transformers

 fastapi
+uvicorn[standard]
 huggingface_hub
 pydantic
 transformers