Spaces:

Mattral
/

Excel-Match-Analysis

Sleeping

Mattral commited on Apr 26, 2024

Commit

42ac9eb

verified ·

1 Parent(s): 2ead8af

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,6 +3,8 @@ import streamlit as st
 from difflib import SequenceMatcher
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.metrics.pairwise import cosine_similarity
 ms = st.session_state
 if "themes" not in ms:
@@ -81,7 +83,12 @@ def find_similar_texts(df1, df2, column_name, exact_matches, threshold=0.5):
             if i not in exact_match_indices and j not in exact_match_indices:
                 similarity = similarity_matrix[i, len(df1) + j]
                 if similarity >= threshold and similarity < 1:  # Exclude exact matches
-                    similar_texts.append((i, j, row1[column_name], row2[column_name]))
     return similar_texts

 from difflib import SequenceMatcher
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.metrics.pairwise import cosine_similarity
+from Levenshtein import distance as levenshtein_distance
 ms = st.session_state
 if "themes" not in ms:
             if i not in exact_match_indices and j not in exact_match_indices:
                 similarity = similarity_matrix[i, len(df1) + j]
                 if similarity >= threshold and similarity < 1:  # Exclude exact matches
+                    # Calculate Levenshtein distance between strings
+                    distance = levenshtein_distance(row1[column_name], row2[column_name])
+                    max_length = max(len(row1[column_name]), len(row2[column_name]))
+                    similarity_score = 1 - (distance / max_length)
+                    if similarity_score >= threshold:
+                        similar_texts.append((i, j, row1[column_name], row2[column_name]))
     return similar_texts