Spaces:

svenwey
/

logmetric

Sleeping

App Files Files Community

svenwey commited on Mar 19

Commit

dd8881c

1 Parent(s): 47362f6

make regexe patterns constants

Browse files

Files changed (1) hide show

logmetric.py +12 -15

logmetric.py CHANGED Viewed

@@ -20,7 +20,13 @@ import dateutil.parser
 import numpy as np
 from typing import List, Dict, Any
 # TODO: Add BibTeX citation
 _CITATION = """\
@@ -112,17 +118,8 @@ class LogMetric(evaluate.Metric):
 class PredRefScore:
-    # Constant regex to get timestrings
-    timestamp_regex = r'^\s*\[?\s*(\d{4}[-/.]\d{2}[-/.]\d{2}(?:[ T]\d{2}[:]\d{2}(?:[:]\d{2}(?:[.,]\d+)?)?(?:Z|[+-]\d{2}[:]\d{2})?)?)\s*\]?\s*'
-    timestamp_pattern = re.compile(timestamp_regex, re.MULTILINE)
-    int_pattern = re.compile(r'(-?\d+)')
-    float_pattern = re.compile(r'(-?\d+\.\d+)')
     scores : Dict[str, float]= {}
-    sacrebleu_metric = evaluate.load("evaluate-metric/sacrebleu")
     def __init__(self, prediction : str, reference: str) -> Dict[str, float]:
         self.reference = reference.strip(' \t\n\r')
         self.prediction = prediction.strip(' \t\n\r')
@@ -173,14 +170,14 @@ class PredRefScore:
     # Replaces numbers in a string with a placeholder
     def replaceNumbers(self, text : str) -> str:
-        text = self.int_pattern.sub(r'<|INT|>', text)
-        text = self.float_pattern.sub(r'<|FLOAT|>', text)
         return text
     # Split all log-entries in timestamps and log-messages
     def split_log_entry(self, pred : str, ref: str):
-        pred_split_log = self.timestamp_pattern.split(pred)
-        ref_split_log = self.timestamp_pattern.split(ref)
         # One logentry always consists of timestamp + log-message
         pred_timestamps, pred_logMessages = [], []
@@ -212,7 +209,7 @@ class PredRefScore:
         self.scores["linecount_difference_SMAPE_score"] = self.smapeScore(pred_lines_amt, ref_lines_amt)
     def set_sacrebleu_score(self, pred_log_messages : List[str], ref_log_messages : List[str]) -> None:
-        sacrebleu_score = self.sacrebleu_metric.compute(predictions=pred_log_messages, references=ref_log_messages)["score"] / 100.0
         self.scores["linecontent_sacrebleu_score"] = sacrebleu_score
     def set_smape_length_score(self, pred_log_messages : List[str], ref_log_messages : List[str]) -> None:
@@ -223,7 +220,7 @@ class PredRefScore:
         vectorized_replaceNumbers = np.vectorize(self.replaceNumbers)
         cleaned_pred_logMessages = vectorized_replaceNumbers(pred_log_messages)
         cleaned_ref_logMessages = vectorized_replaceNumbers(ref_log_messages)
-        sacrebleu_withoutExplicitNumbers_score = self.sacrebleu_metric.compute(predictions=cleaned_pred_logMessages, references=cleaned_ref_logMessages)["score"] / 100.0
         self.scores["linecontent_sacrebleu_withoutExplicitNumbers_score"] = sacrebleu_withoutExplicitNumbers_score
     # Get differenct scores regarding the content of a log-message

 import numpy as np
 from typing import List, Dict, Any
+# Constant regex to get timestrings
+timestamp_regex = r'^\s*\[?\s*(\d{4}[-/.]\d{2}[-/.]\d{2}(?:[ T]\d{2}[:]\d{2}(?:[:]\d{2}(?:[.,]\d+)?)?(?:Z|[+-]\d{2}[:]\d{2})?)?)\s*\]?\s*'
+TIMESTAMP_PATTERN = re.compile(timestamp_regex, re.MULTILINE)
+INT_PATTERN = re.compile(r'(-?\d+)')
+FLOAT_PATTERN = re.compile(r'(-?\d+\.\d+)')
+SACREBLEU_METRIC = evaluate.load("evaluate-metric/sacrebleu")
 # TODO: Add BibTeX citation
 _CITATION = """\
 class PredRefScore:
     scores : Dict[str, float]= {}
     def __init__(self, prediction : str, reference: str) -> Dict[str, float]:
         self.reference = reference.strip(' \t\n\r')
         self.prediction = prediction.strip(' \t\n\r')
     # Replaces numbers in a string with a placeholder
     def replaceNumbers(self, text : str) -> str:
+        text = INT_PATTERN.sub(r'<|INT|>', text)
+        text = FLOAT_PATTERN.sub(r'<|FLOAT|>', text)
         return text
     # Split all log-entries in timestamps and log-messages
     def split_log_entry(self, pred : str, ref: str):
+        pred_split_log = TIMESTAMP_PATTERN.split(pred)
+        ref_split_log = TIMESTAMP_PATTERN.split(ref)
         # One logentry always consists of timestamp + log-message
         pred_timestamps, pred_logMessages = [], []
         self.scores["linecount_difference_SMAPE_score"] = self.smapeScore(pred_lines_amt, ref_lines_amt)
     def set_sacrebleu_score(self, pred_log_messages : List[str], ref_log_messages : List[str]) -> None:
+        sacrebleu_score = SACREBLEU_METRIC.compute(predictions=pred_log_messages, references=ref_log_messages)["score"] / 100.0
         self.scores["linecontent_sacrebleu_score"] = sacrebleu_score
     def set_smape_length_score(self, pred_log_messages : List[str], ref_log_messages : List[str]) -> None:
         vectorized_replaceNumbers = np.vectorize(self.replaceNumbers)
         cleaned_pred_logMessages = vectorized_replaceNumbers(pred_log_messages)
         cleaned_ref_logMessages = vectorized_replaceNumbers(ref_log_messages)
+        sacrebleu_withoutExplicitNumbers_score = SACREBLEU_METRIC.compute(predictions=cleaned_pred_logMessages, references=cleaned_ref_logMessages)["score"] / 100.0
         self.scores["linecontent_sacrebleu_withoutExplicitNumbers_score"] = sacrebleu_withoutExplicitNumbers_score
     # Get differenct scores regarding the content of a log-message