Woziii-llama-3-8b-chat-me-labs

Paused

App Files Files Community

Woziii commited on Jul 20, 2024

Commit

c41c1e1

verified ·

1 Parent(s): 7f45eb0

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -110

app.py CHANGED Viewed

@@ -1,13 +1,10 @@
-from huggingface_hub import HfApi, hf_hub_download
 from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
 import gradio as gr
 import spaces
 import torch
 from threading import Thread
 from typing import Iterator
-import json
-import os
-from datetime import datetime
 # Charger le modèle et le tokenizer
 model_name = "Woziii/llama-3-8b-chat-me"
@@ -15,33 +12,21 @@ model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto", torc
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 MAX_MAX_NEW_TOKENS = 250
-DEFAULT_MAX_NEW_TOKENS = 50
 MAX_INPUT_TOKEN_LENGTH = 2048
 DESCRIPTION = """
-# 🌟 Virtuellement Lucas V.0.0.1 (Alpha) 🌟
 ## ⚠️🔨 Attention ! 🧰⚠️
-### Cette version du modèle est encore très instable. **Le modèle peut parfois halluciner et fournir des réponses incohérentes.**
 ### ⚙️ Détails de la version :
-Actuellement, la version 0.0.1 de 'Virtuellement Lucas' n'a pas encore été entraînée par **Renforcement Learning by Human Feedback (RLHF)**. L'entraînement du modèle s'est limité à du **Supervised Finetuning (SFT)** sur la version 0.1 de mon propre dataset [Woziii/me].
-### 🚀 Prochaine mise à jour majeure en préparation !
-Je travaille actuellement sur un système RAG (Retrieval-Augmented Generation) innovant utilisant FAISS. Ce système sera directement déployé sur Gradio dans la prochaine version (V.0.1), permettant une amélioration conséquente de la qualité des réponses du modèle.
-Pour en savoir plus sur ce développement passionnant, un article détaillé est en cours de rédaction et déjà disponible ici : https://huggingface.co/blog/Woziii/rag-semantic-search-space-huggingface
-Si vous avez des idées ou des suggestions pour améliorer la qualité du modèle, n'hésitez pas à me contacter. Un formulaire de contact simplifié sera bientôt disponible.
 ## 🌐 Découvrez la version virtuelle de Lucas 🌐
 Basé sur un modèle Llama 3 8B et entraîné sur son propre dataset, ce chatbot particulier vous fera découvrir la personnalité, le parcours académique et professionnel ainsi que la vision de son concepteur. Posez vos questions et laissez-vous surprendre. ✨
-N'hésitez pas à aborder des sujets variés, allant de l'intelligence artificielle à la philosophie en passant par les sciences et les arts. Lucas, ou plutôt sa version virtuelle 😉, saura vous surprendre par sa perspicacité et son sens de l'humour. 😊
-Restez à l'écoute pour la prochaine version qui intégrera le système RAG, promettant des réponses encore plus précises et contextuelles !
 """
 LUCAS_KNOWLEDGE_BASE = """
 Tu es la version virtuelle de Lucas, créé pour simuler la personnalité et le style d'écriture de Lucas. Utilise les informations fournies sur Lucas pour répondre de manière précise et cohérente :
 ### Lucas la version réelle :
@@ -89,11 +74,13 @@ def generate(
     for user, assistant in chat_history:
         conversation.extend([{"role": "user", "content": user}, {"role": "assistant", "content": assistant}])
     conversation.append({"role": "user", "content": message})
     input_ids = tokenizer.apply_chat_template(conversation, return_tensors="pt")
     if input_ids.shape[1] > MAX_INPUT_TOKEN_LENGTH:
         input_ids = input_ids[:, -MAX_INPUT_TOKEN_LENGTH:]
         gr.Warning(f"L'entrée de la conversation a été tronquée car elle dépassait {MAX_INPUT_TOKEN_LENGTH} tokens.")
     input_ids = input_ids.to(model.device)
     streamer = TextIteratorStreamer(tokenizer, timeout=10.0, skip_prompt=True, skip_special_tokens=True)
     generate_kwargs = dict(
         input_ids=input_ids,
@@ -106,85 +93,15 @@ def generate(
     )
     t = Thread(target=model.generate, kwargs=generate_kwargs)
     t.start()
     outputs = []
     for text in streamer:
         outputs.append(text)
         yield post_process_response("".join(outputs))
-def vote(data: gr.LikeData, history):
-    # Récupérer le dernier message de l'utilisateur (input)
-    user_input = history[-1][0] if history else ""
-    # Retirer le préfixe "assistant\n" de la réponse du bot
-    # bot_response = data.value.replace("assistant\n", "", 1)
-    # Créer un objet de feedback avec un horodatage
-    feedback = {
-        "timestamp": datetime.now().isoformat(),
-        "user_input": user_input,
-        "bot_response": data.value,
-        "liked": data.liked
-    }
-    # Initialiser l'API Hugging Face
-    api = HfApi()
-    # Récupérer le token d'accès depuis les secrets
-    token = os.environ.get("HF_TOKEN")
-    # Nom de votre dataset HF personnel
-    repo_id = "Woziii/llama-3-8b-chat-me"
-    # Nom du fichier de feedback
-    file_name = "feedback.json"
-    try:
-        # Récupérer le contenu actuel du fichier s'il existe
-        try:
-            file_path = hf_hub_download(repo_id=repo_id, filename=file_name, token=token)
-            with open(file_path, "r", encoding="utf-8") as file:
-                current_feedback = json.load(file)
-            if not isinstance(current_feedback, list):
-                current_feedback = []
-        except Exception as e:
-            print(f"Erreur lors du téléchargement du fichier : {str(e)}")
-            current_feedback = []
-        # Ajouter le nouveau feedback à la liste existante
-        current_feedback.append(feedback)
-        # Convertir en JSON
-        updated_content = json.dumps(current_feedback, ensure_ascii=False, indent=2)
-        # Sauvegarder le contenu mis à jour dans un fichier temporaire
-        temp_file_path = "/tmp/feedback.json"
-        with open(temp_file_path, "w", encoding="utf-8") as temp_file:
-            temp_file.write(updated_content)
-        # Envoyer le fichier mis à jour vers votre dataset HF
-        api.upload_file(
-            path_or_fileobj=temp_file_path,
-            path_in_repo=file_name,
-            repo_id=repo_id,
-            token=token
-        )
-        print(f"Feedback enregistré dans {repo_id}/{file_name}")
-    except Exception as e:
-        print(f"Erreur lors de l'enregistrement du feedback : {str(e)}")
-# Dans votre interface Gradio
 chat_interface = gr.ChatInterface(
     fn=generate,
-    chatbot=gr.Chatbot(
-        label="Conversation avec Lucas",
-        bubble_full_width=False,
-        # avatar_images=('👨‍💻', '🧠'),
-        height=500
-        ),
-    additional_inputs_accordion=gr.Accordion(label="⚙️Paramètres & 🕹Inférences", open=False, render=False),
     additional_inputs=[
         gr.Textbox(
             label="System prompt",
@@ -222,25 +139,20 @@ chat_interface = gr.ChatInterface(
         ["Salut Lucas, tu es vraiment un bot, c'est ça ?"],
         ["Quelle est ta vision de l'IA ?"],
     ],
 )
 with gr.Blocks(css="style.css") as demo:
     gr.Markdown(DESCRIPTION)
-        # Ajouter une ligne de texte explicative sur le système de vote
-    gr.Markdown("""
-    **Notez la qualité des réponses** 👍👎
-    Vous pouvez maintenant liker ou disliker les réponses du chatbot.
-    Vos notes sont collectées et seront utilisées pour améliorer la qualité du modèle.
-    Aucune information permettant de vous identifier n'est conservée.
-    """)
-          # Texte pour rappeler de nettoyer régulièrement les conversations
-    gr.Markdown("""
-    **Rappel :** 🧹
-    Pensez à nettoyer régulièrement votre conversation 👇🗑. Le modèle est pour l'instant dépourvu de limite contextuelle. En surchargeant sa mémoire 🧠, vous risquez de le rendre fou 🤯.
-    """)
     chat_interface.render()
-    chat_interface.chatbot.like(vote, [chat_interface.chatbot], None)
-demo.queue(max_size=20, default_concurrency_limit=2).launch(max_threads=10, height=800)

 from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
 import gradio as gr
 import spaces
 import torch
+import re
 from threading import Thread
 from typing import Iterator
 # Charger le modèle et le tokenizer
 model_name = "Woziii/llama-3-8b-chat-me"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 MAX_MAX_NEW_TOKENS = 250
+DEFAULT_MAX_NEW_TOKENS = 70
 MAX_INPUT_TOKEN_LENGTH = 2048
 DESCRIPTION = """
+# 🌟 Alpha Virtuellement Lucas V.0.0.1 🌟
 ## ⚠️🔨 Attention ! 🧰⚠️
+### Cette version du modèle est encore très instable. **Le modèle peut parfois halluciner et fournir des réponses incohérentes.**
 ### ⚙️ Détails de la version :
+Actuellement, la version 0.0.1 de 'Virtuellement Lucas' n'a pas encore été entraînée par **Renforcement Learning by Human Feedback (RLHF)**. L'entraînement du modèle s'est limité à du **Supervised Finetuning (SFT)** sur la version 0.1 de mon propre dataset [Woziii/me]. Si vous avez des idées ou des suggestions pour améliorer la qualité du modèle, n'hésitez pas à me contacter. Un formulaire de contact simplifié sera bientôt disponible.
 ## 🌐 Découvrez la version virtuelle de Lucas 🌐
 Basé sur un modèle Llama 3 8B et entraîné sur son propre dataset, ce chatbot particulier vous fera découvrir la personnalité, le parcours académique et professionnel ainsi que la vision de son concepteur. Posez vos questions et laissez-vous surprendre. ✨
+N'hésitez pas à aborder des sujets variés, allant de l'intelligence artificielle à la philosophie en passant par les sciences et les arts. Lucas, ou plutot sa version virtuelle 😉, saura vous surprendre par sa perspicacité et son sens de l'humour. 😊
 """
 LUCAS_KNOWLEDGE_BASE = """
 Tu es la version virtuelle de Lucas, créé pour simuler la personnalité et le style d'écriture de Lucas. Utilise les informations fournies sur Lucas pour répondre de manière précise et cohérente :
 ### Lucas la version réelle :
     for user, assistant in chat_history:
         conversation.extend([{"role": "user", "content": user}, {"role": "assistant", "content": assistant}])
     conversation.append({"role": "user", "content": message})
     input_ids = tokenizer.apply_chat_template(conversation, return_tensors="pt")
     if input_ids.shape[1] > MAX_INPUT_TOKEN_LENGTH:
         input_ids = input_ids[:, -MAX_INPUT_TOKEN_LENGTH:]
         gr.Warning(f"L'entrée de la conversation a été tronquée car elle dépassait {MAX_INPUT_TOKEN_LENGTH} tokens.")
     input_ids = input_ids.to(model.device)
     streamer = TextIteratorStreamer(tokenizer, timeout=10.0, skip_prompt=True, skip_special_tokens=True)
     generate_kwargs = dict(
         input_ids=input_ids,
     )
     t = Thread(target=model.generate, kwargs=generate_kwargs)
     t.start()
     outputs = []
     for text in streamer:
         outputs.append(text)
         yield post_process_response("".join(outputs))
 chat_interface = gr.ChatInterface(
     fn=generate,
+    additional_inputs_accordion=gr.Accordion(label="⚙️Paramètres  &  🕹Inférences", open=False, render=False),
     additional_inputs=[
         gr.Textbox(
             label="System prompt",
         ["Salut Lucas, tu es vraiment un bot, c'est ça ?"],
         ["Quelle est ta vision de l'IA ?"],
     ],
+    title="Chat avec Lucas Virtuel",
+    description="Posez vos questions à la version virtuelle de Lucas",
+    theme="soft",
+    bubble_full_width=False,
+    avatar_images=("🧑‍💻", "💭")
 )
 with gr.Blocks(css="style.css") as demo:
     gr.Markdown(DESCRIPTION)
+    gr.Markdown("---")
+    gr.Markdown("## 💬 Commencez à discuter avec Lucas Virtuel")
     chat_interface.render()
+    gr.Markdown("---")
+    gr.Markdown("### 📝 Exemples de questions")
+if __name__ == "__main__":
+    demo.queue(max_size=20, default_concurrency_limit=2).launch(max_threads=10, height=800, width="100%")