api-smollm135m

Sleeping

App Files Files Community

khurrameycon commited on Jan 1

Commit

9196e30

verified ·

1 Parent(s): 0ef7e23

Update app.py

Browse files

Files changed (1) hide show

app.py +27 -22

app.py CHANGED Viewed

@@ -1,7 +1,6 @@
 from fastapi import FastAPI, HTTPException
 from pydantic import BaseModel
 from transformers import pipeline, AutoModelForCausalLM, AutoTokenizer
-from peft import PeftModel
 class ModelInput(BaseModel):
     prompt: str
@@ -9,33 +8,34 @@ class ModelInput(BaseModel):
 app = FastAPI()
-# Load base model and tokenizer
-base_model_path = "HuggingFaceTB/SmolLM2-135M-Instruct"
-adapter_path = "khurrameycon/SmolLM-135M-Instruct-qa_pairs_converted.json-25epochs"
-# Initialize tokenizer from base model
-tokenizer = AutoTokenizer.from_pretrained(base_model_path)
-# Load base model
-base_model = AutoModelForCausalLM.from_pretrained(
-    base_model_path,
-    device_map="auto",
-    trust_remote_code=True
-)
-# Load and merge adapter weights
-model = PeftModel.from_pretrained(base_model, adapter_path)
-model = model.merge_and_unload()
-# Initialize pipeline
-generator = pipeline("text-generation", model=model, tokenizer=tokenizer)
 def generate_response(model, tokenizer, instruction, max_new_tokens=128):
     try:
         messages = [{"role": "user", "content": instruction}]
         input_text = tokenizer.apply_chat_template(
             messages, tokenize=False, add_generation_prompt=True
         )
         inputs = tokenizer.encode(input_text, return_tensors="pt").to(model.device)
         outputs = model.generate(
             inputs,
@@ -44,13 +44,17 @@ def generate_response(model, tokenizer, instruction, max_new_tokens=128):
             top_p=0.9,
             do_sample=True,
         )
         response = tokenizer.decode(outputs[0], skip_special_tokens=True)
         return response
     except Exception as e:
         raise ValueError(f"Error generating response: {e}")
 @app.post("/generate")
-def generate_text(input: ModelInput):
     try:
         response = generate_response(
             model=model,
@@ -59,9 +63,10 @@ def generate_text(input: ModelInput):
             max_new_tokens=input.max_new_tokens
         )
         return {"generated_text": response}
     except Exception as e:
         raise HTTPException(status_code=500, detail=str(e))
 @app.get("/")
-def root():
-    return {"message": "Welcome to the Hugging Face Model API!"}

 from fastapi import FastAPI, HTTPException
 from pydantic import BaseModel
 from transformers import pipeline, AutoModelForCausalLM, AutoTokenizer
 class ModelInput(BaseModel):
     prompt: str
 app = FastAPI()
+# Since we're getting config errors with PEFT, let's load the fine-tuned model directly
+model_path = "khurrameycon/SmolLM-135M-Instruct-qa_pairs_converted.json-25epochs"
+try:
+    # Load the model and tokenizer directly from your fine-tuned version
+    model = AutoModelForCausalLM.from_pretrained(
+        model_path,
+        trust_remote_code=True,
+        device_map="auto"
+    )
+    tokenizer = AutoTokenizer.from_pretrained(model_path)
+    print("Model loaded successfully!")
+except Exception as e:
+    print(f"Error loading model: {e}")
+    raise
 def generate_response(model, tokenizer, instruction, max_new_tokens=128):
+    """Generate a response from the model based on an instruction."""
     try:
+        # Format the input
         messages = [{"role": "user", "content": instruction}]
         input_text = tokenizer.apply_chat_template(
             messages, tokenize=False, add_generation_prompt=True
         )
+        # Generate
         inputs = tokenizer.encode(input_text, return_tensors="pt").to(model.device)
         outputs = model.generate(
             inputs,
             top_p=0.9,
             do_sample=True,
         )
+        # Decode
         response = tokenizer.decode(outputs[0], skip_special_tokens=True)
         return response
     except Exception as e:
         raise ValueError(f"Error generating response: {e}")
 @app.post("/generate")
+async def generate_text(input: ModelInput):
+    """API endpoint to generate text."""
     try:
         response = generate_response(
             model=model,
             max_new_tokens=input.max_new_tokens
         )
         return {"generated_text": response}
     except Exception as e:
         raise HTTPException(status_code=500, detail=str(e))
 @app.get("/")
+async def root():
+    return {"message": "Welcome to the Model API!"}