avemio
/

German-RAG-PHI-3.5-MINI-4B-SFT-HESSIAN-AI

@@ -50,38 +50,49 @@ Quickly get inference running with the following required installation:
 Now, proceed as usual with HuggingFace:
 ```python
 from transformers import AutoModelForCausalLM, AutoTokenizer
 model_name = "avemio/GRAG-PHI-3.5-MINI-4B-SFT-HESSIAN-AI"
 model = AutoModelForCausalLM.from_pretrained(
     model_name,
     torch_dtype="auto",
     device_map="auto"
 )
 tokenizer = AutoTokenizer.from_pretrained(model_name)
-prompt = "Folge den Anweisungen des Benutzers. Bevor du deine finale Antwort gibst, schildere deine Überlegungen zur Lösung des Problems."
 messages = [
-    {"role": "system", "content": ""},
-    {"role": "user", "content": prompt}
 ]
 text = tokenizer.apply_chat_template(
     messages,
     tokenize=False,
-    add_generation_prompt=True
 )
 model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
 generated_ids = model.generate(
     **model_inputs,
-    max_new_tokens=512
 )
 generated_ids = [
     output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
 ]
 response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
 ```
 ### [](https://huggingface.co/Qwen/Qwen2.5-Coder-32B-Instruct#processing-long-texts)

 Now, proceed as usual with HuggingFace:
 ```python
 from transformers import AutoModelForCausalLM, AutoTokenizer
 model_name = "avemio/GRAG-PHI-3.5-MINI-4B-SFT-HESSIAN-AI"
 model = AutoModelForCausalLM.from_pretrained(
     model_name,
     torch_dtype="auto",
     device_map="auto"
 )
 tokenizer = AutoTokenizer.from_pretrained(model_name)
+im_end_token_id = tokenizer.convert_tokens_to_ids('<|im_end|>')
+im_start_token_id = tokenizer.convert_tokens_to_ids('<|im_start|>')
 messages = [
+    {"role": "system", "content": "Folge den Anweisungen des Benutzers. Bevor du deine finale Antwort gibst, schildere deine Überlegungen zur Lösung des Problems."},
+    {"role": "user", "content": "Ferdinand steht vor der Herausforderung, eine faire Besuchsregelung für seine drei Kinder zu finden, die den Bedürfnissen jedes einzelnen Kindes gerecht wird. Jedes Kind hat unterschiedliche Vorlieben und Bedürfnisse, die in den Besuchsplan integriert werden müssen. Er muss sicherstellen, dass die Regelung sowohl den Interessen der Kinder als auch den rechtlichen Vorgaben entspricht. Ferdinand hat eine Woche Zeit, um einen Vorschlag zu erarbeiten, den er mit seinem Anwalt besprechen kann."}
 ]
 text = tokenizer.apply_chat_template(
     messages,
     tokenize=False,
+    add_generation_prompt=False
 )
 model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
 generated_ids = model.generate(
     **model_inputs,
+    #max_new_tokens=-1,
+    max_length=2024,
+    temperature=0.01,
+    do_sample=False,
+    #bos_token_id=im_start_token_id,
+    eos_token_id=im_end_token_id,
+    pad_token_id=tokenizer.eos_token_id,
+    repetition_penalty=1.1,
+    num_return_sequences=1,
+    top_k=40,
+    top_p=0.95,
 )
 generated_ids = [
     output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
 ]
 response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
 ```
 ### [](https://huggingface.co/Qwen/Qwen2.5-Coder-32B-Instruct#processing-long-texts)