Spaces:

LuxyR
/

teste2

Sleeping

App Files Files Community

LuxyR commited on May 29

Commit

6fee902

verified ·

1 Parent(s): 2fd07c7

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -12

app.py CHANGED Viewed

@@ -40,22 +40,29 @@ def classifier_2_predict(text):
     return result
 # ------------------------------
-# Árbitro decide qual IA acertou e explica
 # ------------------------------
 def judge_sentiment(text, result_1, result_2):
     prompt = (
         f"Sentence: \"{text}\"\n"
         f"Model A prediction: {result_1} (uses labels: negative, neutral, positive)\n"
         f"Model B prediction: {result_2} (uses labels: neg, neu, pos)\n\n"
-        "Interpret the sentiment expressed in the sentence and judge whether each prediction is good or bad.\n"
-        "The labels correspond to each other (e.g., 'positive' = 'pos').\n\n"
-        "Then explain briefly why each model was judged good or bad.\n\n"
-        "Respond ONLY in this exact format:\n"
         "Model A: good | Model B: bad\n"
         "Explanation: [your reasoning here]"
     )
-    output = arbitro(prompt, max_new_tokens=100)[0]['generated_text'].strip()
-    return f"Model A: {result_1} | Model B: {result_2}\n🤖 Árbitro: {output}"
 # ------------------------------
 # Pipeline principal
@@ -73,11 +80,12 @@ iface = gr.Interface(
     title="AI Sentiment Duel: Classificador de Sentimentos",
     description=(
         "Compare duas IAs na tarefa de identificar o sentimento de uma frase. "
-        "Uma terceira IA, chamada **árbitro**, decide qual das respostas está mais correta e agora também **explica o porquê**.\n\n"
-        "**Como funciona o julgamento do árbitro:**\n"
-        "O árbitro usa o modelo **Flan-T5-Large** para interpretar o sentimento real da frase e avaliar se as classificações dos modelos A e B estão corretas.\n\n"
-        "**Novo recurso:** o árbitro agora também mostra a lógica por trás de sua decisão — para fins de transparência e auditabilidade.\n\n"
-        "⚠️ Ambos os modelos funcionam melhor com frases em inglês.\n\n"
         "💡 Exemplos:\n"
         "- 'I absolutely loved the movie!'\n"
         "- 'Not bad, but could be better.'"

     return result
 # ------------------------------
+# Árbitro decide qual IA acertou e mostra os pesos
 # ------------------------------
 def judge_sentiment(text, result_1, result_2):
     prompt = (
         f"Sentence: \"{text}\"\n"
         f"Model A prediction: {result_1} (uses labels: negative, neutral, positive)\n"
         f"Model B prediction: {result_2} (uses labels: neg, neu, pos)\n\n"
+        "Interpret the real sentiment expressed in the sentence.\n"
+        "Judge whether each prediction is good or bad, and explain the parameters (weights) that influenced your decision.\n\n"
+        "Your judgment criteria (weights from 0 to 1):\n"
+        "- Semantic match (meaning alignment with the sentence)\n"
+        "- Tone match (emotional consistency)\n"
+        - Label accuracy (correct label among known sentiment labels)\n\n"
+        "Respond ONLY in this format:\n"
         "Model A: good | Model B: bad\n"
+        "Weights used:\n"
+        "- Semantic match: 0.4\n"
+        "- Tone match: 0.4\n"
+        "- Label accuracy: 0.2\n"
         "Explanation: [your reasoning here]"
     )
+    output = arbitro(prompt, max_new_tokens=150)[0]['generated_text'].strip()
+    return f"Model A: {result_1} | Model B: {result_2}\n🤖 Árbitro:\n{output}"
 # ------------------------------
 # Pipeline principal
     title="AI Sentiment Duel: Classificador de Sentimentos",
     description=(
         "Compare duas IAs na tarefa de identificar o sentimento de uma frase. "
+        "Uma terceira IA, chamada **árbitro**, decide qual resposta está mais correta e agora **explica os critérios (pesos) usados para julgar**.\n\n"
+        "**Critérios de julgamento do árbitro:**\n"
+        "- **Semantic match**: o quanto a resposta combina com o significado geral da frase.\n"
+        "- **Tone match**: o quanto a resposta combina com o tom emocional.\n"
+        "- **Label accuracy**: se o rótulo está entre os mais apropriados.\n\n"
+        "⚠️ Melhores resultados com frases em inglês.\n\n"
         "💡 Exemplos:\n"
         "- 'I absolutely loved the movie!'\n"
         "- 'Not bad, but could be better.'"