Spaces:

AminFaraji
/

FirstSpace

Sleeping

AminFaraji commited on Oct 4, 2024

Commit

26319c8

verified ·

1 Parent(s): 33e1e9e

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -91,19 +91,8 @@ db = Chroma(persist_directory=CHROMA_PATH, embedding_function=embeddings)
-MODEL_NAME = "gpt2"
-model = AutoModelForCausalLM.from_pretrained(
-"gpt2",
-device_map="auto",
-low_cpu_mem_usage=True,
-torch_dtype=torch.float16  # Use float16 to reduce memory usage
-)
-model = model.eval()
-tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
-print(f"Model device: {model.device}")
 generation_config = model.generation_config
 generation_config.temperature = 0
@@ -228,18 +217,17 @@ def get_llama_response(message):
   input_text = query_text
 # Tokenize the input text
-  inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
-# Generate text
-  with torch.no_grad():
-   outputs = model.generate(inputs.input_ids, max_length=50)
-# Decode the generated text
-  generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
-  return(generated_text)
 import gradio as gr
 #gr.ChatInterface(get_llama_response).launch()
 iface = gr.Interface(fn=get_llama_response, inputs="text", outputs="text")
-iface.launch()

+tokenizer = AutoTokenizer.from_pretrained("gpt2")
+model = AutoModelForCausalLM.from_pretrained("gpt2")
 generation_config = model.generation_config
 generation_config.temperature = 0
   input_text = query_text
 # Tokenize the input text
+  inputs = tokenizer(input_text, return_tensors="pt")
+  outputs = model.generate(inputs.input_ids, max_length=50)
+  response = tokenizer.decode(outputs[0], skip_special_tokens=True)
+  return(response)
 import gradio as gr
 #gr.ChatInterface(get_llama_response).launch()
 iface = gr.Interface(fn=get_llama_response, inputs="text", outputs="text")
+iface.launch()