Spaces:

ClemSummer
/

ai-lab

Running on CPU Upgrade

ClemSummer commited on 18 days ago

Commit

ac9c6c1

1 Parent(s): 7b2eca8

Moved pth file to HF dataset

Files changed (3) hide show

.dockerignore ADDED Viewed

+# Bytecode, cache, notebooks
+__pycache__/
+*.pyc
+*.pyo
+*.pyd
+*.ipynb
+*.ipynb_checkpoints
+# Virtual environments and editor files
+.env
+.venv/
+*.log
+.DS_Store
+.vscode/
+.idea/
+# Git and Hugging Face system files
+.git/
+*.gitignore
+# Local data/artifacts
+artifacts/
+data/
+datasets/
+checkpoints/
+clip-checkpoints/
+*.pt
+*.pth
+*.onnx
+# Docker or Space-specific
+docker-compose.yaml
+Caddyfile

Dockerfile CHANGED Viewed

@@ -4,6 +4,9 @@ FROM python:3.11-slim
 WORKDIR /app
 COPY . .
 RUN pip install --upgrade pip
 RUN pip install -r requirements.txt

 WORKDIR /app
 COPY . .
+RUN wget https://huggingface.co/datasets/ClemSummer/clip-checkpoints/resolve/main/CLIPEncoder_40epochs_unfreeze12.pth \
+    -O vit_captioning/artifacts/CLIPEncoder_40epochs_unfreeze12.pth
 RUN pip install --upgrade pip
 RUN pip install -r requirements.txt

vit_captioning/generate.py CHANGED Viewed

@@ -24,17 +24,23 @@ class CaptionGenerator:
             print("No GPU found, falling back to CPU.")
         # Load tokenizer
-        self.tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')
         # Select encoder, processor, output dim
         if model_type == "ViTEncoder":
             self.encoder = ViTEncoder().to(self.device)
             self.encoder_dim = 768
-            self.processor = ViTImageProcessor.from_pretrained("google/vit-base-patch16-224-in21k")
         elif model_type == "CLIPEncoder":
             self.encoder = CLIPEncoder().to(self.device)
             self.encoder_dim = 512
-            self.processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")
         else:
             raise ValueError("Unknown model type")

             print("No GPU found, falling back to CPU.")
         # Load tokenizer
+        #self.tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')
+        #HF needs all model downloads to a special read-write cache dir
+        self.tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased', cache_dir="/data")
         # Select encoder, processor, output dim
         if model_type == "ViTEncoder":
             self.encoder = ViTEncoder().to(self.device)
             self.encoder_dim = 768
+            #self.processor = ViTImageProcessor.from_pretrained("google/vit-base-patch16-224-in21k")
+            #HF needs all model downloads to a special read-write cache dir
+            self.processor = ViTImageProcessor.from_pretrained("google/vit-base-patch16-224-in21k", cache_dir="/data")
         elif model_type == "CLIPEncoder":
             self.encoder = CLIPEncoder().to(self.device)
             self.encoder_dim = 512
+            #self.processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")
+            #HF needs all model downloads to a special read-write cache dir
+            self.processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32", cache_dir="/data")
         else:
             raise ValueError("Unknown model type")