Spaces:

ganchengguang
/

OIELLM

Sleeping

ganchengguang commited on Jul 22, 2024

Commit

e2009a9

verified ·

1 Parent(s): f14d9a4

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,10 +1,19 @@
 import gradio as gr
 from transformers import AutoModelForCausalLM, AutoTokenizer
 # 加载本地模型和tokenizer
 model_name = "ganchengguang/OIELLM-8B-Instruction"  # 替换为你的模型名称
 tokenizer = AutoTokenizer.from_pretrained(model_name)
-model = AutoModelForCausalLM.from_pretrained(model_name)
 # 定义语言和选项的映射
 options = {
@@ -20,7 +29,7 @@ def respond(message, language, task, system_message, max_tokens, temperature, to
     messages.append({"role": "user", "content": message + " " + options[language][task]})
     # 编码输入
-    inputs = tokenizer(messages, return_tensors="pt", padding=True, truncation=True)
     # 生成回复
     outputs = model.generate(
         inputs["input_ids"],

 import gradio as gr
 from transformers import AutoModelForCausalLM, AutoTokenizer
+import bitsandbytes as bnb
 # 加载本地模型和tokenizer
 model_name = "ganchengguang/OIELLM-8B-Instruction"  # 替换为你的模型名称
 tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForCausalLM.from_pretrained(
+    model_name,
+    device_map="auto",
+    load_in_8bit=True,
+    quantization_config=bnb.configs.BitsAndBytesConfig(
+        load_in_8bit=True,
+        load_in_8bit_fp32_cpu_offload=True
+    )
+)
 # 定义语言和选项的映射
 options = {
     messages.append({"role": "user", "content": message + " " + options[language][task]})
     # 编码输入
+    inputs = tokenizer(message + " " + options[language][task], return_tensors="pt", padding=True, truncation=True)
     # 生成回复
     outputs = model.generate(
         inputs["input_ids"],