StableDesign2

Running

anbucur commited on Jan 19

Commit

5d8e518

1 Parent(s): 25e8e9c

Refactor generate_design method in ProductionDesignModel for improved image handling and variation generation

- Updated the method to accept various image types (PIL Image, numpy array, torch tensor) and ensure proper conversion to RGB format.
- Enhanced parameter handling by consolidating the retrieval of prompt, number of variations, and other settings from kwargs.
- Implemented distinct seed generation for each variation to ensure diversity in outputs.
- Improved error handling and logging for better traceability during the design generation process.
- Cleared CUDA cache after each variation generation to optimize memory usage.

Files changed (1) hide show

prod_model.py +54 -55

prod_model.py CHANGED Viewed

@@ -162,83 +162,82 @@ class ProductionDesignModel(DesignModel):
         if torch.cuda.is_available():
             torch.cuda.empty_cache()
-    def generate_design(self, image: Image.Image, prompt: str, **kwargs) -> List[Image.Image]:
-        """
-        Generate design variations based on input image and prompt
         """
         try:
-            # Set seed
-            seed_param = kwargs.get('seed')
-            base_seed = int(time.time()) if seed_param is None else int(seed_param)
-            self.generator = torch.Generator(device=self.device).manual_seed(base_seed)
             # Get parameters
-            num_variations = kwargs.get('num_variations', 1)
-            guidance_scale = float(kwargs.get('guidance_scale', 10.0))
             num_steps = int(kwargs.get('num_steps', 50))
             strength = float(kwargs.get('strength', 0.9))
-            img_size = int(kwargs.get('img_size', 768))
-            logging.info(f"Generating design with parameters: guidance_scale={guidance_scale}, "
-                        f"num_steps={num_steps}, strength={strength}, img_size={img_size}")
-            # Prepare prompt
-            pos_prompt = f"{prompt}, {self.additional_quality_suffix}"
-            # Process input image
-            orig_size = image.size
-            input_image = self._resize_image(image, img_size)
-            # Generate depth map
-            depth_map = self._get_depth_map(input_image)
-            # Generate segmentation
-            seg_map = self._segment_image(input_image)
-            # Generate IP-adapter reference image
-            self._flush()
-            ip_image = self.guide_pipe(
-                pos_prompt,
-                num_inference_steps=num_steps,
-                negative_prompt=self.neg_prompt,
-                generator=self.generator
-            ).images[0]
-            # Generate variations
             variations = []
             for i in range(num_variations):
                 try:
-                    self._flush()
-                    variation = self.pipe(
-                        prompt=pos_prompt,
-                        negative_prompt=self.neg_prompt,
                         num_inference_steps=num_steps,
-                        strength=strength,
                         guidance_scale=guidance_scale,
-                        generator=self.generator,
-                        image=input_image,
-                        ip_adapter_image=ip_image,
-                        control_image=[depth_map, seg_map],
-                        controlnet_conditioning_scale=[0.5, 0.5]
                     ).images[0]
-                    # Resize back to original size
-                    variation = variation.resize(orig_size, Image.LANCZOS)
-                    variations.append(variation)
                 except Exception as e:
-                    logging.error(f"Error generating variation {i}: {e}")
                     continue
             if not variations:
                 logging.warning("No variations were generated successfully")
-                return [image]  # Return original image if no variations were generated
             return variations
         except Exception as e:
-            logging.error(f"Error in generate_design: {e}")
-            return [image]  # Return original image in case of error
     def __del__(self):
         """Cleanup when the model is deleted"""

         if torch.cuda.is_available():
             torch.cuda.empty_cache()
+    def generate_design(self, image, num_variations=1, **kwargs):
+        """Generate design variations using the model.
+        Args:
+            image: Input image (PIL Image, numpy array, or torch tensor)
+            num_variations: Number of variations to generate
+            **kwargs: Additional parameters like prompt, num_steps, guidance_scale, strength
+        Returns:
+            List of generated images
         """
         try:
+            # Convert image to PIL Image if needed
+            if isinstance(image, np.ndarray):
+                image = Image.fromarray(image)
+            elif isinstance(image, torch.Tensor):
+                # Convert tensor to numpy then PIL
+                image = Image.fromarray((image.cpu().numpy() * 255).astype(np.uint8))
+            if not isinstance(image, Image.Image):
+                raise ValueError(f"Unsupported image type: {type(image)}")
+            # Ensure image is RGB
+            if image.mode != "RGB":
+                image = image.convert("RGB")
             # Get parameters
+            prompt = kwargs.get('prompt', '')
             num_steps = int(kwargs.get('num_steps', 50))
+            guidance_scale = float(kwargs.get('guidance_scale', 10.0))
             strength = float(kwargs.get('strength', 0.9))
+            seed_param = kwargs.get('seed')
+            # Handle seed
+            base_seed = int(time.time()) if seed_param is None else int(seed_param)
+            logging.info(f"Using base seed: {base_seed}")
             variations = []
             for i in range(num_variations):
                 try:
+                    # Generate distinct seed for each variation
+                    seed = base_seed + i
+                    generator = torch.Generator(device=self.device).manual_seed(seed)
+                    # Generate variation
+                    output = self.pipe(
+                        prompt=prompt,
+                        image=image,
                         num_inference_steps=num_steps,
                         guidance_scale=guidance_scale,
+                        strength=strength,
+                        generator=generator,
+                        negative_prompt=self.neg_prompt
                     ).images[0]
+                    variations.append(output)
+                    logging.info(f"Successfully generated variation {i} with seed {seed}")
                 except Exception as e:
+                    logging.error(f"Error generating variation {i}: {str(e)}")
                     continue
+                finally:
+                    # Clear CUDA cache after each variation
+                    if torch.cuda.is_available():
+                        torch.cuda.empty_cache()
             if not variations:
                 logging.warning("No variations were generated successfully")
+                return [image]  # Return original image if no variations generated
             return variations
         except Exception as e:
+            logging.error(f"Error in generate_design: {str(e)}")
+            return [image]  # Return original image on error
     def __del__(self):
         """Cleanup when the model is deleted"""