AIDC-AI
/

Ovis2-2B

@@ -480,75 +480,6 @@ class Ovis(OvisPreTrainedModel):
             pad_sequence = torch.nn.utils.rnn.pad_sequence([i.flip(dims=[0]) for i in sequences],batch_first=True, padding_value=padding_value).flip(dims=[1])
             return pad_sequence[:,-self.config.multimodal_max_length:]
-    def preprocess_inputs(
-        self,
-        text_or_conversations: Union[List[Dict], str],
-        images: Optional[List[PIL.Image.Image]],
-        max_partition=9,
-        generation_preface='',
-        return_labels=False,
-        propagate_exception=True,
-        frame_selector=None,
-        frame_selector_kwargs=None
-    ):
-        # convert text to conversations
-        if isinstance(text_or_conversations, str):
-            conversations = [{
-                "from": "human",
-                "value": text_or_conversations
-            }]
-        elif isinstance(text_or_conversations, list):
-            conversations = text_or_conversations
-        else:
-            raise ValueError(f'Invalid type of `text_or_conversations`, expected `List[Dict]` or `str`,'
-                             f' but got {type(text_or_conversations)}')
-        if frame_selector is not None:
-            frame_selector_kwargs = frame_selector_kwargs or {}
-            conversations, images = frame_selector(conversations=conversations, frames=images, **frame_selector_kwargs)
-        # format conversations
-        prompt, raw_input_ids, raw_labels = self.get_conversation_formatter().format(
-            conversations, generation_preface=generation_preface)
-        # place image placeholders
-        input_ids = []
-        labels = []
-        pixel_values = []
-        invalidate_label = False
-        image_token_indices = [i for i, v in enumerate(raw_input_ids) if v == IMAGE_TOKEN_ID]
-        last_image_token_index = -1
-        for i in range(len(image_token_indices)):
-            head = 0 if i == 0 else image_token_indices[i - 1] + 1
-            tail = image_token_indices[i]
-            last_image_token_index = tail
-            input_ids.extend(raw_input_ids[head:tail])
-            labels.extend(raw_labels[head:tail])
-            try:
-                image = images[i]
-                raw_pixel_values, image_placeholders = self.visual_tokenizer.preprocess_image(
-                    image, max_partition=max_partition)
-            except Exception as e:
-                if propagate_exception:
-                    raise e
-                logging.exception(e)
-                invalidate_label = True
-                raw_pixel_values, image_placeholders = self.visual_tokenizer.mock_input()
-            input_ids.extend(image_placeholders)
-            labels.extend([IGNORE_ID] * len(image_placeholders))
-            pixel_values.append(raw_pixel_values)
-        input_ids.extend(raw_input_ids[last_image_token_index + 1:])
-        labels.extend(raw_labels[last_image_token_index + 1:])
-        # return tensors
-        input_ids = torch.tensor(input_ids, dtype=torch.long)
-        labels = torch.tensor([IGNORE_ID] * len(labels) if invalidate_label else labels, dtype=torch.long)
-        pixel_values = torch.cat(pixel_values, dim=0) if len(pixel_values) > 0 else None
-        if return_labels:
-            return prompt, input_ids, pixel_values, labels
-        else:
-            return prompt, input_ids, pixel_values
     def save_pretrained(
         self,

             pad_sequence = torch.nn.utils.rnn.pad_sequence([i.flip(dims=[0]) for i in sequences],batch_first=True, padding_value=padding_value).flip(dims=[1])
             return pad_sequence[:,-self.config.multimodal_max_length:]
     def save_pretrained(
         self,