SteveTran
/

T5-small-query-expansion-INT8

Text Generation

text2text-generation

query-expansion

Model card Files Files and versions Community

SteveTran commited on Nov 13, 2024

Commit

607cb64

·

1 Parent(s): 83f8ffa

feat: optimize max tokens

Files changed (1) hide show

handler.py +4 -2

handler.py CHANGED Viewed

@@ -7,7 +7,7 @@ from transformers import AutoTokenizer
 INSTRUCTION = "rewrite: "
 generation_config = {
     "max_new_tokens": 16,
-    "use_cache": False,
     "temperature": 0.6,
     "do_sample": True,
     "top_p": 0.95,
@@ -21,7 +21,7 @@ class EndpointHandler:
         self.model = OVModelForSeq2SeqLM.from_pretrained(
             path, use_cache=True, use_io_binding=False
         )
-        self.tokenizer = AutoTokenizer.from_pretrained(path)
     def __call__(self, data: Dict[str, Any]) -> List[Dict[str, Any]]:
         """
@@ -37,6 +37,8 @@ class EndpointHandler:
             ["{} {}".format(INSTRUCTION, inputs)],
             padding=False,
             return_tensors="pt",
         )
         outputs = self.model.generate(**inputs, **parameters)

 INSTRUCTION = "rewrite: "
 generation_config = {
     "max_new_tokens": 16,
+    "use_cache": True,
     "temperature": 0.6,
     "do_sample": True,
     "top_p": 0.95,
         self.model = OVModelForSeq2SeqLM.from_pretrained(
             path, use_cache=True, use_io_binding=False
         )
+        self.tokenizer = AutoTokenizer.from_pretrained(path, use_fast=True)
     def __call__(self, data: Dict[str, Any]) -> List[Dict[str, Any]]:
         """
             ["{} {}".format(INSTRUCTION, inputs)],
             padding=False,
             return_tensors="pt",
+            max_length=20,
+            truncation=True,
         )
         outputs = self.model.generate(**inputs, **parameters)