Spaces:

gokaygokay
/

FLUX.1-dev-with-Captioner

Running on Zero

gokaygokay commited on Jul 2, 2024

Commit

01f7732

verified ·

1 Parent(s): 9e88c26

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -25,8 +25,8 @@ model_path = snapshot_download(
     )
 # VLM Captioner
-vlm_model = PaliGemmaForConditionalGeneration.from_pretrained("gokaygokay/sd3-long-captioner").to(device).eval()
-vlm_processor = PaliGemmaProcessor.from_pretrained("gokaygokay/sd3-long-captioner")
 # Prompt Enhancer
 enhancer_medium = pipeline("summarization", model="gokaygokay/Lamini-Prompt-Enchance", device=device)
@@ -45,7 +45,7 @@ def create_captions_rich(image):
     input_len = model_inputs["input_ids"].shape[-1]
     with torch.inference_mode():
-        generation = vlm_model.generate(**model_inputs, max_new_tokens=256, do_sample=False)
         generation = generation[0][input_len:]
         decoded = vlm_processor.decode(generation, skip_special_tokens=True)

     )
 # VLM Captioner
+vlm_model = PaliGemmaForConditionalGeneration.from_pretrained("gokaygokay/sd3-long-captioner-v2").to(device).eval()
+vlm_processor = PaliGemmaProcessor.from_pretrained("gokaygokay/sd3-long-captioner-v2")
 # Prompt Enhancer
 enhancer_medium = pipeline("summarization", model="gokaygokay/Lamini-Prompt-Enchance", device=device)
     input_len = model_inputs["input_ids"].shape[-1]
     with torch.inference_mode():
+        generation = vlm_model.generate(**model_inputs, repetition_penalty=1.10, max_new_tokens=256, do_sample=False)
         generation = generation[0][input_len:]
         decoded = vlm_processor.decode(generation, skip_special_tokens=True)