moondream2-batch-processing

Running on Zero

Csplk commited on Jan 9

Commit

733bfde

verified ·

1 Parent(s): 2754d68

Update app.py

Testing new model and gpu hold on !

Files changed (1) hide show

app.py CHANGED Viewed

@@ -10,6 +10,15 @@ from torchvision.transforms.v2 import Resize
 import subprocess
 subprocess.run('pip install flash-attn --no-build-isolation', env={'FLASH_ATTENTION_SKIP_CUDA_BUILD': "TRUE"}, shell=True)
 model_id = "vikhyatk/moondream2"
 revision = "2024-08-26"
 tokenizer = AutoTokenizer.from_pretrained(model_id, revision=revision)
@@ -18,6 +27,8 @@ moondream = AutoModelForCausalLM.from_pretrained(
     torch_dtype=torch.bfloat16, device_map={"": "cuda"},
     attn_implementation="flash_attention_2"
 )
 moondream.eval()
 @spaces.GPU

 import subprocess
 subprocess.run('pip install flash-attn --no-build-isolation', env={'FLASH_ATTENTION_SKIP_CUDA_BUILD': "TRUE"}, shell=True)
+mooondream = AutoModelForCausalLM.from_pretrained(
+    "vikhyatk/moondream2",
+    revision="2025-01-09",
+    trust_remote_code=True,
+    device_map={"": "cuda"},
+    #attn_implementation="flash_attention_2"
+)
+'''
 model_id = "vikhyatk/moondream2"
 revision = "2024-08-26"
 tokenizer = AutoTokenizer.from_pretrained(model_id, revision=revision)
     torch_dtype=torch.bfloat16, device_map={"": "cuda"},
     attn_implementation="flash_attention_2"
 )
+'''
 moondream.eval()
 @spaces.GPU