Spaces:

ncoop57
/

levenshtein_distance

Runtime error

App Files Files Community

ncoop57 commited on Aug 19, 2022

Commit

5b3f71a

1 Parent(s): 7307644

Updating module

Browse files

Files changed (1) hide show

levenshtein_distance.py +35 -4

levenshtein_distance.py CHANGED Viewed

@@ -16,6 +16,7 @@
 import evaluate
 import datasets
 # TODO: Add BibTeX citation
 _CITATION = """\
@@ -56,6 +57,29 @@ Examples:
 # TODO: Define external resources urls if needed
 BAD_WORDS_URL = "http://url/to/external/resource/bad_words.txt"
 @evaluate.utils.file_utils.add_start_docstrings(_DESCRIPTION, _KWARGS_DESCRIPTION)
 class LevenshteinDistance(evaluate.Comparison):
@@ -86,10 +110,17 @@ class LevenshteinDistance(evaluate.Comparison):
         # TODO: Download external resources if needed
         pass
-    def _compute(self, predictions, references):
         """Returns the scores"""
-        # TODO: Compute the different scores of the module
-        accuracy = sum(i == j for i, j in zip(predictions, references)) / len(predictions)
         return {
-            "accuracy": accuracy,
         }

 import evaluate
 import datasets
+import numpy as np
 # TODO: Add BibTeX citation
 _CITATION = """\
 # TODO: Define external resources urls if needed
 BAD_WORDS_URL = "http://url/to/external/resource/bad_words.txt"
+# This code was taken from https://gist.github.com/kylebgorman/1081951/bce3de986e4b05fc0b63d4d9e0cfa4bde6664365
+def _dist(A, B, insertion, deletion, substitution):
+    D = np.zeros((len(A) + 1, len(B) + 1))
+    for i in range(len(A)):
+        D[i + 1][0] = D[i][0] + deletion
+    for j in range(len(B)):
+        D[0][j + 1] = D[0][j] + insertion
+    for i in range(len(A)): # fill out middle of matrix
+        for j in range(len(B)):
+            if A[i] == B[j]:
+                D[i + 1][j + 1] = D[i][j] # aka, it's free.
+            else:
+                D[i + 1][j + 1] = min(D[i + 1][j] + insertion,
+                                      D[i][j + 1] + deletion,
+                                      D[i][j]     + substitution)
+    return D
+def levenshtein_distance(l1, l2, normalize=False):
+    dist = _dist(l1, l2, 1, 1, 1)[-1][-1]
+    if normalize:
+        return 1. - dist / max(len(l1), len(l2))
+    else:
+        return dist
 @evaluate.utils.file_utils.add_start_docstrings(_DESCRIPTION, _KWARGS_DESCRIPTION)
 class LevenshteinDistance(evaluate.Comparison):
         # TODO: Download external resources if needed
         pass
+    def _compute(self, predictions, references, tokenizer=None, normalize=False):
         """Returns the scores"""
+        dists = []
+        for prediction, reference in zip(predictions, references):
+            tokenized_prediction = tokenizer(prediction)
+            tokenized_reference = tokenizer(reference)
+            dists.append(levenshtein_distance(tokenized_prediction, tokenized_reference, normalize=normalize))
+        avg_dist = np.mean(dists)
         return {
+            "levenshtein_distance": avg_dist,
         }