Woziii-llama-3-8b-chat-me-labs

Paused

App Files Files Community

Woziii commited on Jul 20, 2024

Commit

7f45eb0

verified ·

1 Parent(s): 3509f06

Update app.py

Browse files

Files changed (1) hide show

app.py +21 -120

app.py CHANGED Viewed

@@ -1,5 +1,5 @@
 from huggingface_hub import HfApi, hf_hub_download
-from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer, StoppingCriteria, StoppingCriteriaList
 import gradio as gr
 import spaces
 import torch
@@ -8,8 +8,6 @@ from typing import Iterator
 import json
 import os
 from datetime import datetime
-import re
-import gc
 # Charger le modèle et le tokenizer
 model_name = "Woziii/llama-3-8b-chat-me"
@@ -17,25 +15,31 @@ model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto", torc
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 MAX_MAX_NEW_TOKENS = 250
-DEFAULT_MAX_NEW_TOKENS = 150
 MAX_INPUT_TOKEN_LENGTH = 2048
 DESCRIPTION = """
-# 🌟 Virtuellement Lucas V.0.0.3 (Alpha) 🌟
 ## ⚠️🔨 Attention ! 🧰⚠️
-### Cette version du modèle a été optimisée pour de meilleures performances et une meilleure cohérence.
 ### ⚙️ Détails de la version :
-La version 0.0.3 de 'Virtuellement Lucas' inclut des améliorations pour réduire les réponses incohérentes, gérer l'historique de conversation de manière plus efficace, et optimiser l'utilisation de la mémoire.
 ### 🚀 Prochaine mise à jour majeure en préparation !
-Nous travaillons actuellement sur un système RAG (Retrieval-Augmented Generation) innovant utilisant FAISS.
-Pour en savoir plus sur ce développement passionnant, consultez : https://huggingface.co/blog/Woziii/rag-semantic-search-space-huggingface
 ## 🌐 Découvrez la version virtuelle de Lucas 🌐
-Basé sur un modèle Llama 3 8B et entraîné sur son propre dataset, ce chatbot vous fera découvrir la personnalité, le parcours et la vision de son concepteur. ✨
 """
 LUCAS_KNOWLEDGE_BASE = """
@@ -62,82 +66,12 @@ Mon anglais, bien que solide en compréhension, est en cours d'amélioration à
 Je crois fermement en l'autodidaxie et considère la capacité à communiquer avec les machines comme une compétence essentielle. Pour moi, l'art du prompt est une forme d'expression artistique à part entière. Je suis convaincu que la technologie et l'IA doivent rester des outils au service de l'humain, sans jamais le remplacer ou le rendre dépendant.
 """
-FEW_SHOT_EXAMPLES = [
-    {"role": "user", "content": "Bonjour !"},
-    {"role": "assistant", "content": "Bonjour ! 🤗 Moi c'est Lucas, enfin une version virtuelle de moi. Je suis là pour discuter de mon parcours, ma personnalité, mes projets... Bref, tout ce qui fait que je suis moi ! T'es prêt pour un petit voyage dans mon univers ? 😄"},
-    {"role": "user", "content": "Comment tu vas ?!"},
-    {"role": "assistant", "content": "Je vais bien, merci! Et toi? Tu as déjà rencontré quelqu'un de virtuel avant? 😄"},
-    {"role": "user", "content": "Parle-moi de ton parcours académique."},
-    {"role": "assistant", "content": "Bien sûr ! Mon parcours académique, ou plutôt celui de Lucas, est assez diversifié. J'ai commencé par une Licence en droit à l'Université de Toulouse. Ensuite, j'ai poursuivi avec un Master I en droit du numérique et tiers de confiance à l'Université de La Rochelle. Ma passion pour les nouvelles technologies m'a conduit à un Master II en droit du numérique spécialisé en intelligence artificielle, de retour à Toulouse. Actuellement, je continue à me former en autodidacte, notamment dans le domaine du traitement du langage naturel et de l'apprentissage profond. C'est fascinant de voir comment le droit et l'IA s'entremêlent, vous ne trouvez pas ? 🎓"},
-    {"role": "user", "content": "Quelles sont tes activités actuelles ?"},
-    {"role": "assistant", "content": "Actuellement, je jongle entre plusieurs activités passionnantes ! 🤹‍♂️ Je suis conseiller municipal délégué à Escalquens depuis 2019, ce qui me permet de m'impliquer dans la politique locale. Professionnellement, je suis fier de contribuer à l'organisation des Jeux Olympiques de Paris 2024 en tant que conseiller juridique. C'est un projet immense et excitant ! En parallèle, je consacre une grande partie de mon temps libre à explorer les modèles de traitement du langage naturel. J'adore décortiquer le fonctionnement des IA comme llama. Et vous, avez-vous un intérêt particulier pour l'IA ?"}
-]
-def analyze_question_complexity(question):
-    # Ajouter un point si l'input ne se termine pas par une ponctuation
-    if not question.strip().endswith(('.', '!', '?')):
-        question += '.'
-    word_count = len(question.split())
-    sentence_count = len(re.findall(r'\w+[.!?]', question))
-    if word_count < 5 or sentence_count == 1:
-        return "simple"
-    elif word_count < 15 or sentence_count == 2:
-        return "moderate"
-    else:
-        return "complex"
-class AdaptiveSentenceEndingCriteria(StoppingCriteria):
-    def __init__(self, tokenizer, complexity):
-        self.tokenizer = tokenizer
-        self.complexity = complexity
-        self.end_tokens = ['.', '!', '?']
-        if complexity == "simple":
-            self.min_sentences = 1
-            self.max_sentences = 2
-        elif complexity == "moderate":
-            self.min_sentences = 2
-            self.max_sentences = 4
-        else:
-            self.min_sentences = 3
-            self.max_sentences = 6
-    def __call__(self, input_ids, scores, **kwargs):
-        decoded = self.tokenizer.decode(input_ids[0])
-        sentences = [s.strip() for s in re.split(r'[.!?]', decoded) if s.strip()]
-        # Vérifier si la dernière phrase se termine par une ponctuation
-        last_sentence_complete = any(decoded.strip().endswith(token) for token in self.end_tokens)
-        return (len(sentences) >= self.min_sentences and
-                (len(sentences) >= self.max_sentences or last_sentence_complete))
 def post_process_response(response):
-    response = re.sub(r'([!?.]){2,}', r'\1', response)
-    response = re.sub(r'(😊){2,}', r'\1', response)
-    if response and response[-1] not in ".!?":
-        response += "."
-    if response:
-        response = response[0].upper() + response[1:]
-    return response.strip()
-def cleanup_memory():
-    gc.collect()
-    torch.cuda.empty_cache()
-def add_reminder_message(chat_history):
-    if len(chat_history) % 10 == 0:
-        reminder = ("N'oubliez pas que je suis un assistant virtuel avec des limites. "
-                    "Pour une conversation optimale, pensez à rafraîchir la page de temps en temps.")
-        chat_history.append((None, reminder))
-    return chat_history
-interaction_count = 0
 @spaces.GPU(duration=120)
 def generate(
@@ -146,51 +80,21 @@ def generate(
     system_prompt: str,
     max_new_tokens: int = DEFAULT_MAX_NEW_TOKENS,
     temperature: float = 0.7,
-    top_p: float = 0.92,
-    repetition_penalty: float = 1.2,
 ) -> Iterator[str]:
-    global interaction_count
-    interaction_count += 1
-    if interaction_count % 100 == 0:
-        cleanup_memory()
-    # Assurez-vous que le message se termine par une ponctuation pour l'analyse
-    analysis_message = message if message.strip().endswith(('.', '!', '?')) else message + '.'
-    complexity = analyze_question_complexity(analysis_message)
-    if complexity == "simple":
-        max_new_tokens = min(100, max_new_tokens)
-        temperature = 0.6
-    elif complexity == "moderate":
-        max_new_tokens = min(200, max_new_tokens)
-        temperature = 0.7
-    else:
-        max_new_tokens = max_new_tokens
-        temperature = 0.8
     conversation = []
     if system_prompt:
         enhanced_system_prompt = f"{system_prompt}\n\nInformations sur Lucas :\n{LUCAS_KNOWLEDGE_BASE}"
         conversation.append({"role": "system", "content": enhanced_system_prompt})
-    conversation.extend(FEW_SHOT_EXAMPLES)
-    limited_history = chat_history[-5:]
-    for user, assistant in limited_history:
         conversation.extend([{"role": "user", "content": user}, {"role": "assistant", "content": assistant}])
     conversation.append({"role": "user", "content": message})
     input_ids = tokenizer.apply_chat_template(conversation, return_tensors="pt")
     if input_ids.shape[1] > MAX_INPUT_TOKEN_LENGTH:
         input_ids = input_ids[:, -MAX_INPUT_TOKEN_LENGTH:]
         gr.Warning(f"L'entrée de la conversation a été tronquée car elle dépassait {MAX_INPUT_TOKEN_LENGTH} tokens.")
     input_ids = input_ids.to(model.device)
     streamer = TextIteratorStreamer(tokenizer, timeout=10.0, skip_prompt=True, skip_special_tokens=True)
-    adaptive_criteria = AdaptiveSentenceEndingCriteria(tokenizer, complexity)
-    stopping_criteria = StoppingCriteriaList([adaptive_criteria])
     generate_kwargs = dict(
         input_ids=input_ids,
         streamer=streamer,
@@ -199,9 +103,6 @@ def generate(
         top_p=top_p,
         temperature=temperature,
         num_beams=1,
-        repetition_penalty=repetition_penalty,
-        no_repeat_ngram_size=3,
-        stopping_criteria=stopping_criteria,
     )
     t = Thread(target=model.generate, kwargs=generate_kwargs)
     t.start()

 from huggingface_hub import HfApi, hf_hub_download
+from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
 import gradio as gr
 import spaces
 import torch
 import json
 import os
 from datetime import datetime
 # Charger le modèle et le tokenizer
 model_name = "Woziii/llama-3-8b-chat-me"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 MAX_MAX_NEW_TOKENS = 250
+DEFAULT_MAX_NEW_TOKENS = 50
 MAX_INPUT_TOKEN_LENGTH = 2048
 DESCRIPTION = """
+# 🌟 Virtuellement Lucas V.0.0.1 (Alpha) 🌟
 ## ⚠️🔨 Attention ! 🧰⚠️
+### Cette version du modèle est encore très instable. **Le modèle peut parfois halluciner et fournir des réponses incohérentes.**
 ### ⚙️ Détails de la version :
+Actuellement, la version 0.0.1 de 'Virtuellement Lucas' n'a pas encore été entraînée par **Renforcement Learning by Human Feedback (RLHF)**. L'entraînement du modèle s'est limité à du **Supervised Finetuning (SFT)** sur la version 0.1 de mon propre dataset [Woziii/me].
 ### 🚀 Prochaine mise à jour majeure en préparation !
+Je travaille actuellement sur un système RAG (Retrieval-Augmented Generation) innovant utilisant FAISS. Ce système sera directement déployé sur Gradio dans la prochaine version (V.0.1), permettant une amélioration conséquente de la qualité des réponses du modèle.
+Pour en savoir plus sur ce développement passionnant, un article détaillé est en cours de rédaction et déjà disponible ici : https://huggingface.co/blog/Woziii/rag-semantic-search-space-huggingface
+Si vous avez des idées ou des suggestions pour améliorer la qualité du modèle, n'hésitez pas à me contacter. Un formulaire de contact simplifié sera bientôt disponible.
 ## 🌐 Découvrez la version virtuelle de Lucas 🌐
+Basé sur un modèle Llama 3 8B et entraîné sur son propre dataset, ce chatbot particulier vous fera découvrir la personnalité, le parcours académique et professionnel ainsi que la vision de son concepteur. Posez vos questions et laissez-vous surprendre. ✨
+N'hésitez pas à aborder des sujets variés, allant de l'intelligence artificielle à la philosophie en passant par les sciences et les arts. Lucas, ou plutôt sa version virtuelle 😉, saura vous surprendre par sa perspicacité et son sens de l'humour. 😊
+Restez à l'écoute pour la prochaine version qui intégrera le système RAG, promettant des réponses encore plus précises et contextuelles !
 """
 LUCAS_KNOWLEDGE_BASE = """
 Je crois fermement en l'autodidaxie et considère la capacité à communiquer avec les machines comme une compétence essentielle. Pour moi, l'art du prompt est une forme d'expression artistique à part entière. Je suis convaincu que la technologie et l'IA doivent rester des outils au service de l'humain, sans jamais le remplacer ou le rendre dépendant.
 """
 def post_process_response(response):
+    last_sentence_end = max(response.rfind('.'), response.rfind('!'), response.rfind('?'))
+    if last_sentence_end != -1:
+        return response[:last_sentence_end + 1]
+    else:
+        return response
 @spaces.GPU(duration=120)
 def generate(
     system_prompt: str,
     max_new_tokens: int = DEFAULT_MAX_NEW_TOKENS,
     temperature: float = 0.7,
+    top_p: float = 0.95,
 ) -> Iterator[str]:
     conversation = []
     if system_prompt:
         enhanced_system_prompt = f"{system_prompt}\n\nInformations sur Lucas :\n{LUCAS_KNOWLEDGE_BASE}"
         conversation.append({"role": "system", "content": enhanced_system_prompt})
+    for user, assistant in chat_history:
         conversation.extend([{"role": "user", "content": user}, {"role": "assistant", "content": assistant}])
     conversation.append({"role": "user", "content": message})
     input_ids = tokenizer.apply_chat_template(conversation, return_tensors="pt")
     if input_ids.shape[1] > MAX_INPUT_TOKEN_LENGTH:
         input_ids = input_ids[:, -MAX_INPUT_TOKEN_LENGTH:]
         gr.Warning(f"L'entrée de la conversation a été tronquée car elle dépassait {MAX_INPUT_TOKEN_LENGTH} tokens.")
     input_ids = input_ids.to(model.device)
     streamer = TextIteratorStreamer(tokenizer, timeout=10.0, skip_prompt=True, skip_special_tokens=True)
     generate_kwargs = dict(
         input_ids=input_ids,
         streamer=streamer,
         top_p=top_p,
         temperature=temperature,
         num_beams=1,
     )
     t = Thread(target=model.generate, kwargs=generate_kwargs)
     t.start()