Spaces:

gaia-mistral
/

gaia-chat

Sleeping

App Files Files Community

baptiste.bernard commited on Feb 7

Commit

370a2b2

1 Parent(s): a602253

add pdf

Browse files

Files changed (2) hide show

app.py +41 -22
requirements.txt +2 -0

app.py CHANGED Viewed

@@ -1,23 +1,42 @@
 import os
 import sys
 from dotenv import load_dotenv
 import gradio as gr
 from huggingface_hub import InferenceClient
-import chardet
 import re
 load_dotenv()
 hftoken = os.environ.get("HF_TOKEN")
 from huggingface_hub import login
 login(token=hftoken)
 client = InferenceClient("HuggingFaceH4/zephyr-7b-beta", token=hftoken)
 file_content = None
 def respond(message, history, system_message, max_tokens, temperature, top_p, file=None):
     global file_content
@@ -27,27 +46,24 @@ def respond(message, history, system_message, max_tokens, temperature, top_p, fi
             messages.append({"role": "user", "content": val[0]})
         if val[1]:
             messages.append({"role": "assistant", "content": val[1]})
     messages.append({"role": "user", "content": message})
     response = ""
     if file:
-        try:
-            if isinstance(file, bytes):
-                result = chardet.detect(file)
-                encoding = result['encoding']
-                file_content = file.decode(encoding, errors='ignore')
-            else:
-                file_content = file
-        except Exception as e:
-            file_content = f"Erreur de décodage du fichier : {e}"
-    if re.search(r"contenu du fichier|afficher le fichier|lire le fichier|voir le fichier| donnée du fichier", message.lower()) and file_content:
         response += f"Contenu du fichier :\n{file_content}"
         yield response
         return
     for message in client.chat_completion(
         messages,
         max_tokens=max_tokens,
@@ -59,6 +75,7 @@ def respond(message, history, system_message, max_tokens, temperature, top_p, fi
         response += token
         yield response
 with gr.Blocks(theme=gr.themes.Soft()) as demo:
     gr.Markdown("# Chatbot Interface")
     gr.Image(value="logo-gaia.png", label="Logo")
@@ -66,11 +83,13 @@ with gr.Blocks(theme=gr.themes.Soft()) as demo:
     with gr.Row():
         with gr.Column():
             gr.Markdown("## Paramètres")
-            system_message = gr.Textbox(value="You are a friendly Chatbot.", label="System message")
-            max_tokens = gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens")
-            temperature = gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature")
-            top_p = gr.Slider(minimum=0.1, maximum=1.0, value=0.95, step=0.05, label="Top-p (nucleus sampling)")
-            file_upload = gr.File(label="Télécharger un fichier", type="binary")
         with gr.Column():
             gr.Markdown("## Chat")

 import os
 import sys
+import fitz  # PyMuPDF
 from dotenv import load_dotenv
 import gradio as gr
 from huggingface_hub import InferenceClient
 import re
 load_dotenv()
 hftoken = os.environ.get("HF_TOKEN")
 from huggingface_hub import login
 login(token=hftoken)
 client = InferenceClient("HuggingFaceH4/zephyr-7b-beta", token=hftoken)
 file_content = None
+def extract_text_from_file(file_path):
+    """Extrait le texte d'un fichier PDF ou TXT."""
+    try:
+        file_extension = os.path.splitext(file_path)[1].lower()
+        if file_extension == ".pdf":
+            # PDF
+            with fitz.open(file_path) as doc:
+                text = "\n".join([page.get_text("text") for page in doc])
+        elif file_extension == ".txt":
+            # TXT
+            with open(file_path, "r", encoding="utf-8") as file:
+                text = file.read()
+        else:
+            return "Format de fichier non pris en charge. Veuillez télécharger un fichier PDF ou TXT."
+        return text.strip() if text.strip() else "Aucun texte extrait du fichier."
+    except Exception as e:
+        return f"Erreur lors de la lecture du fichier : {e}"
 def respond(message, history, system_message, max_tokens, temperature, top_p, file=None):
     global file_content
             messages.append({"role": "user", "content": val[0]})
         if val[1]:
             messages.append({"role": "assistant", "content": val[1]})
     messages.append({"role": "user", "content": message})
     response = ""
     if file:
+        file_path = file.name if hasattr(file, 'name') else file
+        if os.path.exists(file_path):
+            file_content = extract_text_from_file(file_path)
+        else:
+            file_content = "Aucun fichier valide n'a été trouvé."
+    if re.search(r"contenu du fichier|afficher le fichier|lire le fichier|voir le fichier|donnée du fichier", message.lower()) and file_content:
         response += f"Contenu du fichier :\n{file_content}"
         yield response
         return
     for message in client.chat_completion(
         messages,
         max_tokens=max_tokens,
         response += token
         yield response
+# interface
 with gr.Blocks(theme=gr.themes.Soft()) as demo:
     gr.Markdown("# Chatbot Interface")
     gr.Image(value="logo-gaia.png", label="Logo")
     with gr.Row():
         with gr.Column():
             gr.Markdown("## Paramètres")
+            with gr.Accordion("Réglages avancés", open=False):
+                system_message = gr.Textbox(value="You are a friendly Chatbot.", label="System message")
+                max_tokens = gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens")
+                temperature = gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature")
+                top_p = gr.Slider(minimum=0.1, maximum=1.0, value=0.95, step=0.05, label="Top-p (nucleus sampling)")
+            file_upload = gr.File(label="Télécharger un fichier PDF ou TXT", file_types=[".pdf", ".txt"], type="filepath")
         with gr.Column():
             gr.Markdown("## Chat")

requirements.txt CHANGED Viewed

@@ -1,3 +1,5 @@
 chardet
 huggingface_hub==0.25.2
 python-dotenv

 chardet
 huggingface_hub==0.25.2
 python-dotenv
+fitz==1.0.3
+gradio==3.0.0