llamaindex
/

vdr-2b-multi-v1

sentence-transformers

text-generation-inference

Model card Files Files and versions

cheesyFishes commited on Jan 9

Commit

c43084e

·

verified ·

1 Parent(s): 0da786d

cpu default, fix args

Files changed (1) hide show

custom_st.py +8 -19

custom_st.py CHANGED Viewed

@@ -24,8 +24,10 @@ class Transformer(nn.Module):
         max_seq_length: Optional[int] = None,
         model_args: Optional[Dict[str, Any]] = None,
         processor_args: Optional[Dict[str, Any]] = None,
         cache_dir: Optional[str] = None,
-        device: str = 'cuda:0',
         backend: Literal['torch', 'onnx', 'openvino'] = 'torch',
         **kwargs,
     ) -> None:
@@ -54,24 +56,11 @@ class Transformer(nn.Module):
         })
         # Initialize model
-        try:
-            self.model = Qwen2VLForConditionalGeneration.from_pretrained(
-                model_name_or_path,
-                attn_implementation="flash_attention_2",
-                torch_dtype=torch.bfloat16,
-                device_map=device,
-                cache_dir=cache_dir,
-                **model_kwargs
-            ).eval()
-        except (ImportError, ValueError) as e:
-            print(f"Flash attention not available, falling back to default attention: {e}")
-            self.model = Qwen2VLForConditionalGeneration.from_pretrained(
-                model_name_or_path,
-                torch_dtype=torch.bfloat16,
-                device_map=device,
-                cache_dir=cache_dir,
-                **model_kwargs
-            ).eval()
         # Initialize processor
         self.processor = AutoProcessor.from_pretrained(

         max_seq_length: Optional[int] = None,
         model_args: Optional[Dict[str, Any]] = None,
         processor_args: Optional[Dict[str, Any]] = None,
+        tokenizer_args: Optional[Dict[str, Any]] = None,
+        config_args: Optional[Dict[str, Any]] = None,
         cache_dir: Optional[str] = None,
+        device: str = 'cpu',
         backend: Literal['torch', 'onnx', 'openvino'] = 'torch',
         **kwargs,
     ) -> None:
         })
         # Initialize model
+        self.model = Qwen2VLForConditionalGeneration.from_pretrained(
+            model_name_or_path,
+            cache_dir=cache_dir,
+            **model_kwargs
+        ).eval()
         # Initialize processor
         self.processor = AutoProcessor.from_pretrained(