Spaces:

ClemSummer
/

ai-lab

Running on CPU Upgrade

ClemSummer commited on Jul 29

Commit

b48ecb9

1 Parent(s): e497915

fixing qwen model loading from HF dataset

Files changed (2) hide show

Dockerfile CHANGED Viewed

@@ -31,12 +31,18 @@ RUN mkdir -p /models/cbow && \
 # RUN mkdir -p /models/qwen && \
 #     python3 -c "from transformers import AutoTokenizer; AutoTokenizer.from_pretrained('Qwen/Qwen3-0.6B-Base').save_pretrained('/models/qwen')"
 # RUN python3 -c "from transformers import AutoModelForCausalLM; AutoModelForCausalLM.from_pretrained('Qwen/Qwen3-0.6B-Base').save_pretrained('/models/qwen')"
-RUN mkdir -p /models/qwen && \
-    python3 -c "from transformers import AutoTokenizer; \
-                AutoTokenizer.from_pretrained('ClemSummer/qwen-model-cache', trust_remote_code=True).save_pretrained('/models/qwen')"
-RUN python3 -c "from transformers import AutoModelForCausalLM; \
-                AutoModelForCausalLM.from_pretrained('ClemSummer/qwen-model-cache', trust_remote_code=True).save_pretrained('/models/qwen')"
 EXPOSE 7860
 # Install curl if it's not already installed

 # RUN mkdir -p /models/qwen && \
 #     python3 -c "from transformers import AutoTokenizer; AutoTokenizer.from_pretrained('Qwen/Qwen3-0.6B-Base').save_pretrained('/models/qwen')"
 # RUN python3 -c "from transformers import AutoModelForCausalLM; AutoModelForCausalLM.from_pretrained('Qwen/Qwen3-0.6B-Base').save_pretrained('/models/qwen')"
+# RUN mkdir -p /models/qwen && \
+#     python3 -c "from transformers import AutoTokenizer; \
+#                 AutoTokenizer.from_pretrained('ClemSummer/qwen-model-cache', trust_remote_code=True).save_pretrained('/models/qwen')"
+# RUN python3 -c "from transformers import AutoModelForCausalLM; \
+#                 AutoModelForCausalLM.from_pretrained('ClemSummer/qwen-model-cache', trust_remote_code=True).save_pretrained('/models/qwen')"
+# Install git & git-lfs, then clone your dataset repo into /models/qwen
+RUN apt-get update && apt-get install -y git git-lfs && \
+    git lfs install && \
+    git clone https://huggingface.co/datasets/ClemSummer/qwen-model-cache /models/qwen
 EXPOSE 7860
 # Install curl if it's not already installed

ppo_logic.py CHANGED Viewed

@@ -19,13 +19,14 @@ MAX_NEW_TOKENS = 256
 # Load tokenizer and model
 # -------------------------------
 print("🔄 Loading tokenizer and model...")
-tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
 tokenizer.pad_token = tokenizer.eos_token
 base_model = AutoModelForCausalLM.from_pretrained(
     MODEL_NAME,
     torch_dtype=torch.float16,
-    device_map="auto"
 )
 model = PeftModel.from_pretrained(base_model, CHECKPOINT_DIR)

 # Load tokenizer and model
 # -------------------------------
 print("🔄 Loading tokenizer and model...")
+tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True)
 tokenizer.pad_token = tokenizer.eos_token
 base_model = AutoModelForCausalLM.from_pretrained(
     MODEL_NAME,
     torch_dtype=torch.float16,
+    device_map="auto",
+    trust_remote_code=True
 )
 model = PeftModel.from_pretrained(base_model, CHECKPOINT_DIR)