SMS-spam-English-sklearn

Runtime error

App Files Files Community

akuysal commited on Mar 18, 2023

Commit

8678eea

1 Parent(s): 1247363

Update app.py

Browse files

Files changed (1) hide show

app.py +8 -8

app.py CHANGED Viewed

@@ -1,22 +1,21 @@
 from sklearn.feature_extraction.text import TfidfVectorizer
-from TurkishStemmer import TurkishStemmer
 import string
 # import for loading python objects (scikit-learn models)
 import pickle
 import nltk
 from nltk.data import load
 import streamlit as st
 import sklearn
 nltk.download('punkt')
-trans_table = {ord(c): None for c in string.punctuation + string.digits}
 def custom_tokenizer_with_Turkish_stemmer(text):
     # tokenize text
     # tokens = text.split(" ")
-    tokens = [word for word in nltk.word_tokenize(text.translate(trans_table))]
     print(tokens)
-    stems = [stemmerTR.stem(item.lower()) for item in tokens]
     return stems
 def predictSMSdata(test_text):
@@ -24,13 +23,13 @@ def predictSMSdata(test_text):
     categories.sort()
     # load model
-    filename1 = "LinearSVC_SMS_spam_TR.pickle"
     file_handle1 = open(filename1, "rb")
     classifier = pickle.load(file_handle1)
     file_handle1.close()
     # load tfidf_vectorizer for transforming test text data
-    filename2 = "tfidf_vectorizer_TR.pickle"
     file_handle2 = open(filename2, "rb")
     tfidf_vectorizer = pickle.load(file_handle2)
     file_handle2.close()
@@ -41,10 +40,11 @@ def predictSMSdata(test_text):
     print(categories[predicted[0]])
     return categories[predicted[0]]
-stemmerTR = TurkishStemmer()
 # adding the text that will show in the text box
-default_value = "Aveadan SUPER bir Muzik Paketi! MAXI yaz, 5555e gonder"
 text = st.text_area("enter some text!", default_value)
 if text:
     out = predictSMSdata(text)

 from sklearn.feature_extraction.text import TfidfVectorizer
 import string
 # import for loading python objects (scikit-learn models)
 import pickle
 import nltk
 from nltk.data import load
+from nltk.stem import PorterStemmer
 import streamlit as st
 import sklearn
 nltk.download('punkt')
 def custom_tokenizer_with_Turkish_stemmer(text):
     # tokenize text
     # tokens = text.split(" ")
+    tokens = [word for word in nltk.word_tokenize(text)]
     print(tokens)
+    stems = [stemmerEN.stem(item.lower()) for item in tokens]
     return stems
 def predictSMSdata(test_text):
     categories.sort()
     # load model
+    filename1 = "LinearSVC_SMS_spam_EN.pickle"
     file_handle1 = open(filename1, "rb")
     classifier = pickle.load(file_handle1)
     file_handle1.close()
     # load tfidf_vectorizer for transforming test text data
+    filename2 = "tfidf_vectorizer_EN.pickle"
     file_handle2 = open(filename2, "rb")
     tfidf_vectorizer = pickle.load(file_handle2)
     file_handle2.close()
     print(categories[predicted[0]])
     return categories[predicted[0]]
+# Porter Stemmer for English
+stemmerEN = PorterStemmer()
 # adding the text that will show in the text box
+default_value = "ASKED 3MOBILE IF 0870 CHATLINES INCLU IN FREE MINS. INDIA CUST SERVs SED YES. L8ER GOT MEGA BILL. 3 DONT GIV A SHIT. BAILIFF DUE IN DAYS. I O £250 3 WANT £800"
 text = st.text_area("enter some text!", default_value)
 if text:
     out = predictSMSdata(text)