phi3-mini-4k-instruct-demo

Paused

dwb2023 commited on May 31, 2024

Commit

0ff0123

verified ·

1 Parent(s): e778d3e

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -11,6 +11,13 @@ from transformers import (
     TextIteratorStreamer,
     LlamaTokenizer,
 )
 MAX_MAX_NEW_TOKENS = 1024
 DEFAULT_MAX_NEW_TOKENS = 50
@@ -28,8 +35,7 @@ model = AutoModelForCausalLM.from_pretrained(
     "microsoft/Phi-3-mini-4k-instruct",
     device_map="cuda",
     torch_dtype="auto",
-    trust_remote_code=True,
-    attn_implementation='eager',
 )
 tokenizer = AutoTokenizer.from_pretrained("microsoft/Phi-3-mini-4k-instruct")

     TextIteratorStreamer,
     LlamaTokenizer,
 )
+import subprocess
+subprocess.run(
+    "pip install flash-attn --no-build-isolation",
+    env={"FLASH_ATTENTION_SKIP_CUDA_BUILD": "TRUE"},
+    shell=True,
+)
 MAX_MAX_NEW_TOKENS = 1024
 DEFAULT_MAX_NEW_TOKENS = 50
     "microsoft/Phi-3-mini-4k-instruct",
     device_map="cuda",
     torch_dtype="auto",
+    trust_remote_code=True
 )
 tokenizer = AutoTokenizer.from_pretrained("microsoft/Phi-3-mini-4k-instruct")