Spaces:

gaia-mistral
/

gaia-chat

Sleeping

App Files Files Community

baptiste.bernard commited on Feb 14

Commit

d79eb5f

1 Parent(s): b374d39

add RAG and update README

Browse files

Files changed (2) hide show

README.md +22 -18
app.py +77 -106

README.md CHANGED Viewed

@@ -23,9 +23,6 @@ Gaia Chat est un exemple de chatbot utilisant [Gradio](https://gradio.app), [`hu
 ## Prérequis
 - Python 3.6 ou supérieur
-- Gradio
-- Chardet
 ## Installation
@@ -33,10 +30,6 @@ Gaia Chat est un exemple de chatbot utilisant [Gradio](https://gradio.app), [`hu
 Assurez-vous que Python est installé.
-```sh
-python --version
-```
 1. Rendez-vous sur le site officiel de Python : [https://www.python.org/downloads/](https://www.python.org/downloads/)
 2. Vérifiez l’installation avec la commande :
    ```sh
@@ -56,11 +49,20 @@ source .venv/bin/activate
 pip install -r requirements.txt
 ```
-### 5. Gener un Access token sur Hugging Face
 Rendez-vous sur votre profil Hugging Face pour genenez votre Access Token : [https://huggingface.co/settings/tokens](https://huggingface.co/settings/tokens)
-### 4. Lancer l'application
 Exécutez la commande suivante pour démarrer Gaia Chat :
@@ -84,11 +86,9 @@ Une fois l'application lancée, ouvrez votre navigateur et accédez à l'URL ind
 Gaia Chat is an example chatbot using [Gradio](https://gradio.app), [`huggingface_hub`](https://huggingface.co/docs/huggingface_hub/v0.22.2/en/index), and l '[Hugging Face Inference API](https://huggingface.co/docs/api-inference/index). This project shows how to create an interactive chatbot using these tools.
-## prerequisites
 - Python 3.6
-- Gradio
-- Chardet
 ## Facilities
@@ -96,10 +96,6 @@ Gaia Chat is an example chatbot using [Gradio](https://gradio.app), [`huggingfac
 Make sure Python is installed.
-```sh
-python --version
-```
 1. Go to the official Python website: [https://www.python.org/downloads/](https://www.python.org/downloads/)
 2. Verify the installation with the command:
 ```sh
@@ -118,11 +114,19 @@ source .venv/bin/activate
 pip install -r requirements.txt
 ```
-### 5. Generate Access Token on Hugging Face
 Go to your Hugging Face profile to generate your access token: [https://huggingface.co/settings/tokens](https://huggingface.co/settings/tokens)
-### 4. Launch the application
 Run the following command to start Gaia Chat:

 ## Prérequis
 - Python 3.6 ou supérieur
 ## Installation
 Assurez-vous que Python est installé.
 1. Rendez-vous sur le site officiel de Python : [https://www.python.org/downloads/](https://www.python.org/downloads/)
 2. Vérifiez l’installation avec la commande :
    ```sh
 pip install -r requirements.txt
 ```
+### 4. Gener un Access token sur Hugging Face
 Rendez-vous sur votre profil Hugging Face pour genenez votre Access Token : [https://huggingface.co/settings/tokens](https://huggingface.co/settings/tokens)
+### 5. Créer et configurer le fichier `.env`
+1. Créer le fichier `.env` :
+   ```sh
+   echo HFTOKEN="votre_token_ici" > .env
+   ```
+2. Ajouter le token que vous avez créé précédemment dans votre fichier `.env`.
+### 6. Lancer l'application
 Exécutez la commande suivante pour démarrer Gaia Chat :
 Gaia Chat is an example chatbot using [Gradio](https://gradio.app), [`huggingface_hub`](https://huggingface.co/docs/huggingface_hub/v0.22.2/en/index), and l '[Hugging Face Inference API](https://huggingface.co/docs/api-inference/index). This project shows how to create an interactive chatbot using these tools.
+## Prerequisites
 - Python 3.6
 ## Facilities
 Make sure Python is installed.
 1. Go to the official Python website: [https://www.python.org/downloads/](https://www.python.org/downloads/)
 2. Verify the installation with the command:
 ```sh
 pip install -r requirements.txt
 ```
+### 4. Generate Access Token on Hugging Face
 Go to your Hugging Face profile to generate your access token: [https://huggingface.co/settings/tokens](https://huggingface.co/settings/tokens)
+### 5. Create and configure the `.env` File
+1. Create the `.env` file:
+   ```sh
+   echo HFTOKEN="your_token_here" > .env
+   ```
+2. Add the token you created earlier to your `.env` file.
+### 6. Launch the application
 Run the following command to start Gaia Chat:

app.py CHANGED Viewed

@@ -1,8 +1,7 @@
 import os
-import sys
 from dotenv import load_dotenv
 import gradio as gr
-from huggingface_hub import InferenceClient
 from langchain_huggingface import HuggingFaceEmbeddings
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain_community.vectorstores import FAISS
@@ -10,159 +9,131 @@ from langchain_community.document_loaders import PyPDFLoader
 from langchain.schema import Document
 load_dotenv()
-hftoken = os.environ.get("HFTOKEN")
-from huggingface_hub import login
 login(token=hftoken)
 client = InferenceClient("HuggingFaceH4/zephyr-7b-beta", token=hftoken)
-vector_store = None
-# model_kwargs = {'device': 'cpu'}
-# encode_kwargs = {'normalize_embeddings': False}
-model_name="sentence-transformers/all-MiniLM-L6-v2"
-embeddings = HuggingFaceEmbeddings(
-    model_name=model_name
-    # model_kwargs=model_kwargs,
-    # encode_kwargs=encode_kwargs
-)
 def extract_text_from_file(file_path):
     """Extrait le texte d'un fichier PDF ou TXT."""
     try:
-        file_extension = os.path.splitext(file_path)[1].lower()
-        if file_extension == ".pdf":
             loader = PyPDFLoader(file_path)
             pages = loader.load()
-            docs = [Document(page_content=page.page_content) for page in pages]
-        elif file_extension == ".txt":
             with open(file_path, "r", encoding="utf-8") as file:
-                text = file.read()
-            docs = [Document(page_content=text)]
         else:
-            return None, "Format non pris en charge. Téléchargez un PDF ou TXT."
-        return docs, None
     except Exception as e:
-        return None, f"Erreur lors de la lecture du fichier : {e}"
 def embed_documents(file):
-    """Convertit un document en vecteurs FAISS et génère un résumé."""
     global vector_store
-    docs, error = extract_text_from_file(file.name)
-    if error:
-        return error
     text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100)
     documents = text_splitter.split_documents(docs)
     if documents:
         vector_store = FAISS.from_documents(documents, embeddings)
-        full_text = "\n".join([doc.page_content for doc in documents])
-        summary = summarize_text(full_text)
-        return f"✅ Document indexé avec succès !\n\n📌 **Résumé du fichier** :\n{summary}"
     else:
-        return "❌ Aucun texte trouvable dans le fichier."
-def summarize_text(text):
-    """Utilise le modèle HF pour générer un résumé du document."""
-    messages = [{"role": "system", "content": "Résume ce texte en quelques phrases :"}, {"role": "user", "content": text}]
-    response = client.chat_completion(messages, max_tokens=200, temperature=0.5)
-    return response.choices[0].message["content"]
 def query_faiss(query):
-    """Recherche les documents pertinents dans FAISS et retourne une réponse reformulée."""
     if vector_store is None:
-        return "❌ Aucun document indexé. Téléchargez un fichier."
     retriever = vector_store.as_retriever(search_kwargs={"k": 3})
     results = retriever.get_relevant_documents(query)
-    if not results:
-        return "Je n'ai pas trouvé d'informations pertinentes dans les documents."
-    context = "\n".join([doc.page_content for doc in results])
-    messages = [
-        {"role": "system", "content": "Réponds à la question en utilisant les informations suivantes sans les copier mot pour mot."},
-        {"role": "user", "content": f"Contexte : {context}\nQuestion : {query}"}
-    ]
-    response = client.chat_completion(messages, max_tokens=200, temperature=0.5)
-    return response.choices[0].message["content"]
-def respond(message, history, system_message, max_tokens, temperature, top_p, file=None):
-    """Gère la réponse du chatbot avec FAISS et Hugging Face."""
     global vector_store
-    messages = [{"role": "system", "content": system_message}]
     for val in history:
-        if val[0]:
-            messages.append({"role": "user", "content": val[0]})
-        if val[1]:
-            messages.append({"role": "assistant", "content": val[1]})
-    if file:
-        response = embed_documents(file)
-        yield response
-        return
-    context = query_faiss(message)
-    if "❌" not in context:
         messages.append({"role": "user", "content": f"Contexte : {context}\nQuestion : {message}"})
     else:
         messages.append({"role": "user", "content": message})
     response = ""
-    for msg in client.chat_completion(
-        messages,
-        max_tokens=max_tokens,
-        stream=True,
-        temperature=temperature,
-        top_p=top_p,
-    ):
-        token = msg.choices[0].delta.content
-        response += token
-        yield response
 with gr.Blocks(theme=gr.themes.Soft()) as demo:
-    gr.Markdown("# 📚 Chatbot avec intégration de documents")
-    gr.Image(value="logo-gaia.png", label="Logo")
     with gr.Row():
         with gr.Column():
             gr.Markdown("## ⚙️ Paramètres")
-            with gr.Accordion("Réglages avancés", open=False):
-                system_message = gr.Textbox(value="You are a friendly Chatbot.", label="System message")
-                max_tokens = gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens")
-                temperature = gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature")
-                top_p = gr.Slider(minimum=0.1, maximum=1.0, value=0.95, step=0.05, label="Top-p (nucleus sampling)")
-            file_upload = gr.File(label="📂 Télécharger un fichier PDF ou TXT", file_types=[".pdf", ".txt"], type="filepath")
-            file_output = gr.Textbox()
-            file_upload.change(embed_documents, inputs=file_upload, outputs=file_output)
         with gr.Column():
             gr.Markdown("## 💬 Chat")
             chatbot = gr.ChatInterface(
-                respond,
                 additional_inputs=[system_message, max_tokens, temperature, top_p, file_upload],
             )

 import os
 from dotenv import load_dotenv
 import gradio as gr
+from huggingface_hub import InferenceClient, login
 from langchain_huggingface import HuggingFaceEmbeddings
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain_community.vectorstores import FAISS
 from langchain.schema import Document
 load_dotenv()
+hftoken = os.getenv("HFTOKEN")
 login(token=hftoken)
 client = InferenceClient("HuggingFaceH4/zephyr-7b-beta", token=hftoken)
+embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
+vector_store = None
 def extract_text_from_file(file_path):
     """Extrait le texte d'un fichier PDF ou TXT."""
     try:
+        ext = os.path.splitext(file_path)[1].lower()
+        if ext == ".pdf":
             loader = PyPDFLoader(file_path)
             pages = loader.load()
+            return [Document(page_content=page.page_content) for page in pages]
+        elif ext == ".txt":
             with open(file_path, "r", encoding="utf-8") as file:
+                return [Document(page_content=file.read())]
         else:
+            return None
     except Exception as e:
+        print(f"Erreur extraction : {e}")
+        return None
 def embed_documents(file):
+    """Charge un document dans FAISS pour la recherche vectorielle."""
     global vector_store
+    docs = extract_text_from_file(file.name)
+    if not docs:
+        return "❌ Erreur lors du chargement du fichier."
     text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100)
     documents = text_splitter.split_documents(docs)
     if documents:
         vector_store = FAISS.from_documents(documents, embeddings)
+        return "📁 Document chargé et indexé ! Posez-moi une question."
     else:
+        return "❌ Aucun texte valide extrait du fichier."
 def query_faiss(query):
+    """Effectue une recherche dans FAISS et génère une réponse."""
+    global vector_store
     if vector_store is None:
+        return None
     retriever = vector_store.as_retriever(search_kwargs={"k": 3})
     results = retriever.get_relevant_documents(query)
+    if results:
+        context = "\n".join([doc.page_content for doc in results])
+        return context
+    return None
+def chatbot_response(message, history, system_message, max_tokens, temperature, top_p, file=None):
+    """Gère les réponses du chatbot avec ou sans document."""
     global vector_store
+    if file:
+        status = embed_documents(file)
+        if "❌" in status:
+            yield status
+            return
+        yield status
+    context = query_faiss(message) if vector_store else None
+    messages = [{"role": "system", "content": system_message + " Réponds uniquement en français."}]
     for val in history:
+        if val[0]: messages.append({"role": "user", "content": val[0]})
+        if val[1]: messages.append({"role": "assistant", "content": val[1]})
+    if context:
         messages.append({"role": "user", "content": f"Contexte : {context}\nQuestion : {message}"})
     else:
         messages.append({"role": "user", "content": message})
     response = ""
+    try:
+        response_stream = client.chat_completion(
+            messages,
+            max_tokens=max_tokens,
+            stream=True,
+            temperature=temperature,
+            top_p=top_p,
+        )
+        for msg in response_stream:
+            if msg.choices and msg.choices[0].delta and msg.choices[0].delta.content:
+                token = msg.choices[0].delta.content
+                response += token
+                yield response
+        if not response.strip():
+            yield "Je ne sais pas. Peux-tu reformuler ?"
+    except Exception as e:
+        print(f"Erreur réponse : {e}")
+        yield "❌ Une erreur est survenue lors de la génération de la réponse."
 with gr.Blocks(theme=gr.themes.Soft()) as demo:
+    with gr.Row():
+        gr.Image("logo-gaia.png", width=300, height=300, show_label=False, show_download_button=False)
+    with gr.Row():
+        gr.Markdown("<h1 style='text-align: center;'>📚 Chatbot GAIA</h1>")
     with gr.Row():
         with gr.Column():
             gr.Markdown("## ⚙️ Paramètres")
+            with gr.Accordion(" Paramètres avancés", open=False):
+                system_message = gr.Textbox(value="Réponds de façon simple et claire.", label="Message système")
+                max_tokens = gr.Slider(1, 2048, value=800, step=1, label="Max tokens")
+                temperature = gr.Slider(0.1, 4.0, value=0.3, step=0.1, label="Température")
+                top_p = gr.Slider(0.1, 1.0, value=0.95, step=0.05, label="Top-p")
+            gr.Markdown("## 📂 Télécharger un fichier")
+            file_upload = gr.File(label="Téléchargez un PDF ou TXT", file_types=[".pdf", ".txt"], type="filepath")
+            file_upload.change(embed_documents, inputs=file_upload, outputs=[])
         with gr.Column():
             gr.Markdown("## 💬 Chat")
             chatbot = gr.ChatInterface(
+                chatbot_response,
                 additional_inputs=[system_message, max_tokens, temperature, top_p, file_upload],
             )