RuadaptQwen3

Running

RefalMachine commited on Nov 30, 2024

Commit

555ac42

verified ·

1 Parent(s): 37a3c87

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -9,15 +9,15 @@ import requests
 from openai import OpenAI, AsyncOpenAI
 clients = {
-    '32B (work in progress)': [AsyncOpenAI(api_key='123', base_url=os.getenv('MODEL_NAME_OR_PATH_32B')), os.getenv('MODEL_NAME_32B')],
-    '32B QWQ (experimental, without any additional tuning after LEP!)': [AsyncOpenAI(api_key='123', base_url=os.getenv('MODEL_NAME_OR_PATH_QWQ')), os.getenv('MODEL_NAME_QWQ')],
-    '7B (work in progress)': [AsyncOpenAI(api_key='123', base_url=os.getenv('MODEL_NAME_OR_PATH_7B')), 'RefalMachine/ruadapt_qwen2.5_7B_ext_u48_instruct'],
-    '3B': [AsyncOpenAI(api_key='123', base_url=os.getenv('MODEL_NAME_OR_PATH_3B')), 'RefalMachine/ruadapt_qwen2.5_3B_ext_u48_instruct_v4']
     }
 #client = InferenceClient(os.getenv('MODEL_NAME_OR_PATH'))
-async def respond(
     message,
     history: list[tuple[str, str]],
     model_name,
@@ -41,7 +41,7 @@ async def respond(
     response = ""
-    res = await clients[model_name][0].chat.completions.create(
         model=clients[model_name][1],
         messages=messages,
         temperature=temperature,
@@ -81,6 +81,7 @@ demo = gr.ChatInterface(
         ),
         gr.Slider(minimum=0.9, maximum=1.5, value=1.05, step=0.05, label="repetition_penalty"),
     ],
 )

 from openai import OpenAI, AsyncOpenAI
 clients = {
+    '32B (work in progress)': [OpenAI(api_key='123', base_url=os.getenv('MODEL_NAME_OR_PATH_32B')), os.getenv('MODEL_NAME_32B')],
+    '32B QWQ (experimental, without any additional tuning after LEP!)': [OpenAI(api_key='123', base_url=os.getenv('MODEL_NAME_OR_PATH_QWQ')), os.getenv('MODEL_NAME_QWQ')],
+    '7B (work in progress)': [OpenAI(api_key='123', base_url=os.getenv('MODEL_NAME_OR_PATH_7B')), 'RefalMachine/ruadapt_qwen2.5_7B_ext_u48_instruct'],
+    '3B': [OpenAI(api_key='123', base_url=os.getenv('MODEL_NAME_OR_PATH_3B')), 'RefalMachine/ruadapt_qwen2.5_3B_ext_u48_instruct_v4']
     }
 #client = InferenceClient(os.getenv('MODEL_NAME_OR_PATH'))
+def respond(
     message,
     history: list[tuple[str, str]],
     model_name,
     response = ""
+    res = clients[model_name][0].chat.completions.create(
         model=clients[model_name][1],
         messages=messages,
         temperature=temperature,
         ),
         gr.Slider(minimum=0.9, maximum=1.5, value=1.05, step=0.05, label="repetition_penalty"),
     ],
+    concurrency_limit=10
 )