Spaces:
Running
Running
Update app.py
Browse files
app.py
CHANGED
|
@@ -97,12 +97,18 @@ def gradio_interface(model_name, input, max_tokens, temperature, history):
|
|
| 97 |
global stop_flag
|
| 98 |
stop_flag = False
|
| 99 |
|
|
|
|
|
|
|
|
|
|
|
|
|
| 100 |
def worker():
|
| 101 |
llm = check_and_load_model(model_name)
|
|
|
|
| 102 |
for token in llm.stream(input, max_tokens=max_tokens, temperature=temperature):
|
| 103 |
if stop_flag:
|
| 104 |
break
|
| 105 |
-
|
|
|
|
| 106 |
yield history, history
|
| 107 |
|
| 108 |
# Utiliser un thread pour gérer le streaming
|
|
@@ -133,7 +139,6 @@ demo = gr.Interface(
|
|
| 133 |
Cette Démo permet aux utilisateurs de tester tous les modèles Ollama dont la taille est inférieure à 10 milliards de paramètres directement depuis cette interface.
|
| 134 |
|
| 135 |
L'Application tourne sur une machine Hugging Face Free Space : 2 CPU - 16Gb RAM
|
| 136 |
-
|
| 137 |
Soyez patient...
|
| 138 |
"""
|
| 139 |
)
|
|
|
|
| 97 |
global stop_flag
|
| 98 |
stop_flag = False
|
| 99 |
|
| 100 |
+
# Ajouter la requête de l'utilisateur à l'historique une seule fois
|
| 101 |
+
history.append((input, ""))
|
| 102 |
+
yield history, history
|
| 103 |
+
|
| 104 |
def worker():
|
| 105 |
llm = check_and_load_model(model_name)
|
| 106 |
+
response = ""
|
| 107 |
for token in llm.stream(input, max_tokens=max_tokens, temperature=temperature):
|
| 108 |
if stop_flag:
|
| 109 |
break
|
| 110 |
+
response += token
|
| 111 |
+
history[-1] = (input, response)
|
| 112 |
yield history, history
|
| 113 |
|
| 114 |
# Utiliser un thread pour gérer le streaming
|
|
|
|
| 139 |
Cette Démo permet aux utilisateurs de tester tous les modèles Ollama dont la taille est inférieure à 10 milliards de paramètres directement depuis cette interface.
|
| 140 |
|
| 141 |
L'Application tourne sur une machine Hugging Face Free Space : 2 CPU - 16Gb RAM
|
|
|
|
| 142 |
Soyez patient...
|
| 143 |
"""
|
| 144 |
)
|