chat-bctp

Runtime error

File size: 1,768 Bytes

1ef0e0a
464350c
1ef0e0a
8ef7e20
1ef0e0a
464350c
f874336
464350c
a9dfa8b
1ef0e0a
464350c
1ef0e0a
195ca67
8ef7e20
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
464350c
 
8ef7e20

import torch
from transformers import AutoModel,AutoModelForCausalLM, AutoTokenizer, StoppingCriteria, StoppingCriteriaList, TextIteratorStreamer
import gradio as gr
from threading import Thread

model = AutoModelForCausalLM.from_pretrained(
    "DuckyBlender/racist-phi3", 
  
    torch_dtype=torch.float16, 
    trust_remote_code=True,
  
)
tokenizer = AutoTokenizer.from_pretrained("DuckyBlender/racist-phi3")
device = torch.device("cpu")
model = model.to(device)

class StopOnTokens(StoppingCriteria):
    def __call__(self, input_ids: torch.LongTensor, scores: torch.FloatTensor, **kwargs) -> bool:
        stop_ids = [29, 0]
        for stop_id in stop_ids:
            if input_ids[0][-1] == stop_id:
                return True
        return False

def predict(message, history):
    history_transformer_format = history + [[message, ""]]
    stop = StopOnTokens()

    messages = "".join(["".join(["\n<human>:"+item[0], "\n<bot>:"+item[1]])
                for item in history_transformer_format])

    model_inputs = tokenizer([messages], return_tensors="pt").to(device)
    streamer = TextIteratorStreamer(tokenizer, timeout=10., skip_prompt=True, skip_special_tokens=True)
    generate_kwargs = dict(
        model_inputs,
        streamer=streamer,
        max_new_tokens=512,
        do_sample=True,
        top_p=0.90,
        top_k=1000,
        temperature=0.9,
        num_beams=1,
        stopping_criteria=StoppingCriteriaList([stop])
        )
    t = Thread(target=model.generate, kwargs=generate_kwargs)
    t.start()

    partial_message = ""
    for new_token in streamer:
        if new_token != '<':
            partial_message += new_token
            yield partial_message

gr.ChatInterface(predict,theme='HaleyCH/HaleyCH_Theme').launch()