kandinsky-community
/

kandinsky-2-1-prior

Diffusers

Safetensors

KandinskyPriorPipeline

kandinsky

Model card Files Files and versions Community

YiYiXu commited on Jul 26, 2023

Commit

f8f34e3

1 Parent(s): 8fdb13d

Update README.md

Browse files

Files changed (1) hide show

README.md +38 -59

README.md CHANGED Viewed

@@ -22,21 +22,16 @@ pip install diffusers transformers
 ### Text to image
 ```python
-from diffusers import DiffusionPipeline
 import torch
-pipe_prior = DiffusionPipeline.from_pretrained("kandinsky-community/kandinsky-2-1-prior", torch_dtype=torch.float16)
-pipe_prior.to("cuda")
-t2i_pipe = DiffusionPipeline.from_pretrained("kandinsky-community/kandinsky-2-1", torch_dtype=torch.float16)
-t2i_pipe.to("cuda")
 prompt = "A alien cheeseburger creature eating itself, claymation, cinematic, moody lighting"
 negative_prompt = "low quality, bad quality"
-image_embeds, negative_image_embeds = pipe_prior(prompt, negative_prompt).to_tuple()
-image = t2i_pipe(prompt, image_embeds=image_embeds, negative_image_embeds=negative_image_embeds).images[0]
 image.save("cheeseburger_monster.png")
 ```
@@ -46,43 +41,27 @@ image.save("cheeseburger_monster.png")
 ### Text Guided Image-to-Image Generation
 ```python
-from diffusers import KandinskyImg2ImgPipeline, KandinskyPriorPipeline
 import torch
-from PIL import Image
 import requests
 from io import BytesIO
-url = "https://raw.githubusercontent.com/CompVis/stable-diffusion/main/assets/stable-samples/img2img/sketch-mountains-input.jpg"
-response = requests.get(url)
-original_image = Image.open(BytesIO(response.content)).convert("RGB")
-original_image = original_image.resize((768, 512))
-# create prior
-pipe_prior = KandinskyPriorPipeline.from_pretrained(
-    "kandinsky-community/kandinsky-2-1-prior", torch_dtype=torch.float16
-)
-pipe_prior.to("cuda")
-# create img2img pipeline
-pipe = KandinskyImg2ImgPipeline.from_pretrained("kandinsky-community/kandinsky-2-1", torch_dtype=torch.float16)
-pipe.to("cuda")
 prompt = "A fantasy landscape, Cinematic lighting"
 negative_prompt = "low quality, bad quality"
-image_embeds, negative_image_embeds = pipe_prior(prompt, negative_prompt).to_tuple()
-out = pipe(
-    prompt,
-    image=original_image,
-    image_embeds=image_embeds,
-    negative_image_embeds=negative_image_embeds,
-    height=768,
-    width=768,
-    strength=0.3,
-)
 out.images[0].save("fantasy_land.png")
 ```
@@ -92,41 +71,27 @@ out.images[0].save("fantasy_land.png")
 ### Text Guided Inpainting Generation
 ```python
-from diffusers import KandinskyInpaintPipeline, KandinskyPriorPipeline
 from diffusers.utils import load_image
 import torch
 import numpy as np
-pipe_prior = KandinskyPriorPipeline.from_pretrained(
-    "kandinsky-community/kandinsky-2-1-prior", torch_dtype=torch.float16
-)
-pipe_prior.to("cuda")
 prompt = "a hat"
-prior_output = pipe_prior(prompt)
-pipe = KandinskyInpaintPipeline.from_pretrained("kandinsky-community/kandinsky-2-1-inpaint", torch_dtype=torch.float16)
-pipe.to("cuda")
-init_image = load_image(
     "https://huggingface.co/datasets/hf-internal-testing/diffusers-images/resolve/main" "/kandinsky/cat.png"
 )
-mask = np.ones((768, 768), dtype=np.float32)
 # Let's mask out an area above the cat's head
-mask[:250, 250:-250] = 0
-out = pipe(
-    prompt,
-    image=init_image,
-    mask_image=mask,
-    **prior_output,
-    height=768,
-    width=768,
-    num_inference_steps=150,
-)
-image = out.images[0]
 image.save("cat_with_hat.png")
 ```
 ![img](https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/kandinsky-docs/inpaint_cat_hat.png)
@@ -173,6 +138,20 @@ image.save("starry_cat.png")
 ```
 ![img](https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/kandinsky-docs/starry_cat.png)
 ## Model Architecture

 ### Text to image
 ```python
+from diffusers import AutoPipelineForText2Image
 import torch
+pipe = AutoPipelineForText2Image.from_pretrained("kandinsky-community/kandinsky-2-1", torch_dtype=torch.float16)
+pipe.enable_model_cpu_offload()
 prompt = "A alien cheeseburger creature eating itself, claymation, cinematic, moody lighting"
 negative_prompt = "low quality, bad quality"
+image = pipe(prompt=prompt, negative_prompt=negative_prompt, prior_guidance_scale =1.0, height=768, width=768).images[0]
 image.save("cheeseburger_monster.png")
 ```
 ### Text Guided Image-to-Image Generation
 ```python
+from diffusers import AutoPipelineForImage2Image
 import torch
 import requests
 from io import BytesIO
+from PIL import Image
+import os
+pipe = AutoPipelineForImage2Image.from_pretrained("kandinsky-community/kandinsky-2-1", torch_dtype=torch.float16)
+pipe.enable_model_cpu_offload()
 prompt = "A fantasy landscape, Cinematic lighting"
 negative_prompt = "low quality, bad quality"
+url = "https://raw.githubusercontent.com/CompVis/stable-diffusion/main/assets/stable-samples/img2img/sketch-mountains-input.jpg"
+response = requests.get(url)
+original_image = Image.open(BytesIO(response.content)).convert("RGB")
+original_image.thumbnail((768, 768))
+image = pipe(prompt=prompt, image=original_image, strength=0.3).images[0]
 out.images[0].save("fantasy_land.png")
 ```
 ### Text Guided Inpainting Generation
 ```python
+from diffusers import AutoPipelineForInpainting
 from diffusers.utils import load_image
 import torch
 import numpy as np
+pipe = AutoPipelineForInpainting.from_pretrained("kandinsky-community/kandinsky-2-1-inpaint", torch_dtype=torch.float16)
+pipe.enable_model_cpu_offload()
 prompt = "a hat"
+negative_prompt = "low quality, bad quality"
+original_image = load_image(
     "https://huggingface.co/datasets/hf-internal-testing/diffusers-images/resolve/main" "/kandinsky/cat.png"
 )
+mask = np.zeros((768, 768), dtype=np.float32)
 # Let's mask out an area above the cat's head
+mask[:250, 250:-250] = 1
+image = pipe(prompt=prompt, image=original_image, mask_image=mask).images[0]
 image.save("cat_with_hat.png")
 ```
 ![img](https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/kandinsky-docs/inpaint_cat_hat.png)
 ```
 ![img](https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/kandinsky-docs/starry_cat.png)
+__<font color=red>Breaking change on the mask input:</font>__
+We introduced a breaking change for Kandinsky inpainting pipeline in the following pull request: https://github.com/huggingface/diffusers/pull/4207. Previously we accepted a mask format where black pixels represent the masked-out area. We have changed to use white pixels to represent masks instead in order to have a unified mask format across all our pipelines.
+Please upgrade your inpainting code to follow the above. If you are using Kandinsky Inpaint in production. You now need to change the mask to:
+```python
+# For PIL input
+import PIL.ImageOps
+mask = PIL.ImageOps.invert(mask)
+# For PyTorch and Numpy input
+mask = 1 - mask
+```
 ## Model Architecture