Spaces:

Ais203
/

aigen

Sleeping

App Files Files Community

Ais commited on 11 days ago

Commit

730d86c

verified ·

1 Parent(s): 4ca2587

Update app/main.py

Browse files

Files changed (1) hide show

app/main.py +36 -10

app/main.py CHANGED Viewed

@@ -53,7 +53,7 @@ async def chat(request: Request):
     auth_header = request.headers.get("Authorization", "")
     if not auth_header.startswith("Bearer "):
         return JSONResponse(status_code=401, content={"error": "Missing Bearer token in Authorization header."})
     token = auth_header.replace("Bearer ", "").strip()
     if token != API_KEY:
         return JSONResponse(status_code=401, content={"error": "Invalid API key."})
@@ -64,31 +64,57 @@ async def chat(request: Request):
         messages = body.get("messages", [])
         if not messages or not isinstance(messages, list):
             raise ValueError("Invalid or missing 'messages' field.")
-        user_prompt = messages[-1]["content"]
     except Exception as e:
         return JSONResponse(status_code=400, content={"error": f"Bad request: {str(e)}"})
-    # ✅ Format Prompt for Qwen
-    formatted_prompt = (
-        "<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n"
-        f"<|im_start|>user\n{user_prompt}<|im_end|>\n"
-        "<|im_start|>assistant\n"
-    )
     inputs = tokenizer(formatted_prompt, return_tensors="pt").to("cpu")
     # ✅ Generate Response
     with torch.no_grad():
         outputs = model.generate(
             **inputs,
-            max_new_tokens=512,
-            temperature=0.7,
             top_p=0.9,
             do_sample=True,
             pad_token_id=tokenizer.eos_token_id
         )
     decoded = tokenizer.decode(outputs[0], skip_special_tokens=True)
     final_answer = decoded.split("<|im_start|>assistant\n")[-1].strip()
     # ✅ OpenAI-style Response
     return {

     auth_header = request.headers.get("Authorization", "")
     if not auth_header.startswith("Bearer "):
         return JSONResponse(status_code=401, content={"error": "Missing Bearer token in Authorization header."})
     token = auth_header.replace("Bearer ", "").strip()
     if token != API_KEY:
         return JSONResponse(status_code=401, content={"error": "Invalid API key."})
         messages = body.get("messages", [])
         if not messages or not isinstance(messages, list):
             raise ValueError("Invalid or missing 'messages' field.")
+        # ✅ FIXED: Process full conversation history, not just last message
+        temperature = body.get("temperature", 0.7)
+        max_tokens = body.get("max_tokens", 512)
     except Exception as e:
         return JSONResponse(status_code=400, content={"error": f"Bad request: {str(e)}"})
+    # ✅ FIXED: Build full conversation prompt with history
+    formatted_prompt = ""
+    for message in messages:
+        role = message.get("role", "")
+        content = message.get("content", "")
+        if role == "system":
+            formatted_prompt += f"<|im_start|>system\n{content}<|im_end|>\n"
+        elif role == "user":
+            formatted_prompt += f"<|im_start|>user\n{content}<|im_end|>\n"
+        elif role == "assistant":
+            formatted_prompt += f"<|im_start|>assistant\n{content}<|im_end|>\n"
+    # Add the assistant start token for generation
+    formatted_prompt += "<|im_start|>assistant\n"
+    print(f"🤖 Processing conversation with {len(messages)} messages")
+    print(f"📝 Full prompt preview: {formatted_prompt[:200]}...")
     inputs = tokenizer(formatted_prompt, return_tensors="pt").to("cpu")
     # ✅ Generate Response
     with torch.no_grad():
         outputs = model.generate(
             **inputs,
+            max_new_tokens=max_tokens,
+            temperature=temperature,
             top_p=0.9,
             do_sample=True,
             pad_token_id=tokenizer.eos_token_id
         )
     decoded = tokenizer.decode(outputs[0], skip_special_tokens=True)
+    # ✅ FIXED: Clean extraction of only the new assistant response
     final_answer = decoded.split("<|im_start|>assistant\n")[-1].strip()
+    # Remove any potential end tokens or artifacts
+    if "<|im_end|>" in final_answer:
+        final_answer = final_answer.split("<|im_end|>")[0].strip()
+    print(f"✅ Generated response: {final_answer[:100]}...")
     # ✅ OpenAI-style Response
     return {