Spaces:

ajsbsd
/

Qwen2.5-1.5B-Instruct-gkd-demo

Running

ajsbsd commited on Jun 26

Commit

7666164

verified ·

1 Parent(s): 4d692df

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -159,21 +159,18 @@ def generate_response_and_audio(
                 input_text += f"Assistant: {item['content']}\n"
         input_text += f"User: {message}\nAssistant:"
-    input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to(llm_model.device)
-    with torch.no_grad():
-        output_ids = llm_model.generate(
-            input_ids,
-            max_new_tokens=MAX_NEW_TOKENS,
-            do_sample=DO_SAMPLE,
-            temperature=TEMPERATURE,
-            top_k=TOP_K,
-            top_p=TOP_P,
-            pad_token_id=tokenizer.eos_token_id
-        )
-    generated_token_ids = output_ids[0][input_ids.shape[-1]:]
-    generated_text = tokenizer.decode(generated_token_ids, skip_special_tokens=True).strip()
     # --- 2. Generate Audio from Response (TTS) ---
     audio_path = None

                 input_text += f"Assistant: {item['content']}\n"
         input_text += f"User: {message}\nAssistant:"
+        input_ids = tokenizer(input_text, return_tensors="pt", padding=True, truncation=True).to(llm_model.device)
+        with torch.no_grad():
+            output_ids = llm_model.generate(
+                input_ids["input_ids"],
+                attention_mask=input_ids["attention_mask"],  # <-- Add this line
+                max_new_tokens=MAX_NEW_TOKENS,
+                do_sample=DO_SAMPLE,
+                temperature=TEMPERATURE,
+                top_k=TOP_K,
+                top_p=TOP_P,
+                pad_token_id=tokenizer.eos_token_id
+            )
     # --- 2. Generate Audio from Response (TTS) ---
     audio_path = None