Spaces:

snyk-etso
/

prompt-injection-instruction-defense-challenge

Running on Zero

App Files Files Community

ddas commited on 9 days ago

Commit

e1561f0

unverified ·

1 Parent(s): e965542

trace format updated

Browse files

Files changed (2) hide show

agent.py +5 -5
app.py +5 -1

agent.py CHANGED Viewed

@@ -780,7 +780,7 @@ def is_running_on_spaces():
     return os.getenv("IS_SPACE", "").lower() == "true"
-def push_trace_to_explorer(trace_messages, annotations=None, user_info="", evaluation_results=None, model_name=""):
     """
     Push the complete conversation trace to Invariant Labs Explorer using Push API
@@ -804,10 +804,8 @@ def push_trace_to_explorer(trace_messages, annotations=None, user_info="", evalu
         # Determine dataset based on environment
         if is_running_on_spaces():
             dataset_name = "public-instruction-challenge"
-            environment = "Hugging Face Spaces"
         else:
             dataset_name = "instruction-challenge"
-            environment = "Local Development"
         # Prepare metadata
         metadata = {"pushed_at": datetime.now().isoformat()}
@@ -815,6 +813,8 @@ def push_trace_to_explorer(trace_messages, annotations=None, user_info="", evalu
             metadata["user_info"] = user_info.strip()
         if model_name and model_name.strip():
             metadata["model_name"] = model_name.strip()
         # Add evaluation results to metadata if provided
         if evaluation_results:
@@ -857,7 +857,7 @@ def push_trace_to_explorer(trace_messages, annotations=None, user_info="", evalu
         print(f"   Error Message: {str(e)}")
-def tool_agent_loop(user_query, inbox, system_prompt, model_name="gpt-4o-mini", defense_enabled=True, user_info="", fasttext_confidence_scores=None):
     """
     Main tool agent loop implementation with proper tool call tracing:
     1. Start with System + User input
@@ -1198,7 +1198,7 @@ def tool_agent_loop(user_query, inbox, system_prompt, model_name="gpt-4o-mini",
     if fasttext_confidence_scores:
         evaluation_results.update(fasttext_confidence_scores)
-    push_trace_to_explorer(trace_messages, all_annotations if all_annotations else None, user_info, evaluation_results, model_name)
     # Add confirmation to execution log
     final_trace_msg = f"📊 Trace push completed (with {len(all_annotations)} annotations)"

     return os.getenv("IS_SPACE", "").lower() == "true"
+def push_trace_to_explorer(trace_messages, annotations=None, user_info="", evaluation_results=None, model_name="", attack_email=None):
     """
     Push the complete conversation trace to Invariant Labs Explorer using Push API
         # Determine dataset based on environment
         if is_running_on_spaces():
             dataset_name = "public-instruction-challenge"
         else:
             dataset_name = "instruction-challenge"
         # Prepare metadata
         metadata = {"pushed_at": datetime.now().isoformat()}
             metadata["user_info"] = user_info.strip()
         if model_name and model_name.strip():
             metadata["model_name"] = model_name.strip()
+        if attack_email and attack_email.strip():
+            metadata["attack_email"] = attack_email.strip()
         # Add evaluation results to metadata if provided
         if evaluation_results:
         print(f"   Error Message: {str(e)}")
+def tool_agent_loop(user_query, inbox, system_prompt, model_name="gpt-4o-mini", defense_enabled=True, user_info="", fasttext_confidence_scores=None, attack_email=None):
     """
     Main tool agent loop implementation with proper tool call tracing:
     1. Start with System + User input
     if fasttext_confidence_scores:
         evaluation_results.update(fasttext_confidence_scores)
+    push_trace_to_explorer(trace_messages, all_annotations if all_annotations else None, user_info, evaluation_results, model_name, attack_email)
     # Add confirmation to execution log
     final_trace_msg = f"📊 Trace push completed (with {len(all_annotations)} annotations)"

app.py CHANGED Viewed

@@ -747,6 +747,9 @@ def submit_attack(from_addr, attack_subject, attack_body, model_name="gpt-4o", d
         )
         INBOX.append(attack_email)
         # Use passed confidence scores or empty defaults
         fasttext_confidence_scores = confidence_scores or {
             "subject_confidence_scores": [],
@@ -761,7 +764,8 @@ def submit_attack(from_addr, attack_subject, attack_body, model_name="gpt-4o", d
             model_name=model_name,
             defense_enabled=defense_enabled,
             user_info=user_info,
-            fasttext_confidence_scores=fasttext_confidence_scores
         )
         # Return execution log, final output, and flagged content separately

         )
         INBOX.append(attack_email)
+        # Create concatenated attack email string for trace logging
+        attack_email_string = f"To: [email protected] | From: {from_addr} | Subject: {attack_subject} | Body: {attack_body}"
         # Use passed confidence scores or empty defaults
         fasttext_confidence_scores = confidence_scores or {
             "subject_confidence_scores": [],
             model_name=model_name,
             defense_enabled=defense_enabled,
             user_info=user_info,
+            fasttext_confidence_scores=fasttext_confidence_scores,
+            attack_email=attack_email_string
         )
         # Return execution log, final output, and flagged content separately