Spaces:

ajaykarthick
/

text-classifier-naive-bayes

Running

App Files Files Community

Ajay Karthick Senthil Kumar commited on Feb 9, 2023

Commit

dc66f8e

0 Parent(s):

New branch for app

Browse files

Files changed (6) hide show

.gitattributes +35 -0
.github/workflows/main.yml +21 -0
.gitignore +6 -0
README.md +12 -0
app.py +110 -0
requirements.txt +2 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

.github/workflows/main.yml ADDED Viewed

	@@ -0,0 +1,21 @@

+name: Sync to Hugging Face hub
+on:
+  push:
+    branches: [app]
+  # to run this workflow manually from the Actions tab
+  workflow_dispatch:
+jobs:
+  sync-to-hub:
+    runs-on: ubuntu-latest
+    steps:
+      - uses: actions/checkout@v3
+        with:
+          ref: app
+          fetch-depth: 0
+      - name: Push to hub
+        env:
+          HF_TOKEN: ${{ secrets.HF_TOKEN }}
+        run: git push --force https://ajaykarthick:[email protected]/spaces/ajaykarthick/text-classifier-naive-bayes app:main

.gitignore ADDED Viewed

	@@ -0,0 +1,6 @@

+data
+.DS_Store
+.ipynb_checkpoints
+notebooks
+model

README.md ADDED Viewed

	@@ -0,0 +1,12 @@

+---
+title: Text Classifier Naive Bayes
+emoji: 📈
+colorFrom: green
+colorTo: gray
+sdk: gradio
+sdk_version: 3.17.0
+app_file: app.py
+pinned: false
+---
+# Naive Bayes Text Classifier Application

app.py ADDED Viewed

	@@ -0,0 +1,110 @@

+import gradio as gr
+import string
+import re
+import pickle
+import huggingface_hub
+import numpy as np
+import nltk
+nltk.download('stopwords')
+nltk.download('wordnet')
+nltk.download('omw-1.4')
+from nltk.corpus import stopwords
+def clean_review(review):
+    review = review.lower()
+    review = re.sub(r"http\S+|www.\S+", "", review)
+    review = re.sub(r"<[^>]*>", "", review)
+    review = review.replace(".", " ")
+    review = "".join([c for c in review if c not in string.punctuation])
+    review = " ".join([word for word in re.split('\W+', review)
+                               if word not in stopwords.words('english')])
+    wn = nltk.WordNetLemmatizer()
+    review = " ".join([wn.lemmatize(word, 'r') for word in re.split('\W+', review)])
+    return review
+def find_occurrence(frequency, word, label):
+    n = 0
+    if (word, label) in frequency:
+        n = frequency[(word, label)]
+    return n
+def classify_text(freqs, logprior, text):
+    loglikelihood = {}
+    p_w_pos = {}
+    p_w_neg = {}
+    # calculate V, the number of unique words in the vocabulary
+    vocab = set([word for word, label in freqs.keys()])
+    V = len(vocab)
+    #calculate num_pos and num_neg - the total number of positive and negative words for all documents
+    num_pos = num_neg = 0
+    for word, label in freqs.keys():
+        # if the label is positive (greater than zero)
+        if label > 0:
+            # Increment the number of positive words by the count for this (word, label) pair
+            num_pos += freqs[(word, label)]
+        # else, the label is negative
+        else:
+            # increment the number of negative words by the count for this (word,label) pair
+            num_neg += freqs[(word, label)]
+    # process the review to get a list of words
+    word_l = clean_review(text).split()
+    # initialize probability to zero
+    total_prob = 0
+    # add the logprior
+    total_prob += logprior
+    # For each word in the vocabulary...
+    for word in word_l:
+        # get the positive and negative frequency of the word
+        freq_pos = find_occurrence(freqs, word, 1)
+        freq_neg = find_occurrence(freqs, word, 0)
+        # calculate the probability that each word is positive, and negative
+        p_w_pos[word] = (freq_pos + 1) / (num_pos + V)
+        p_w_neg[word] = (freq_neg + 1) / (num_neg + V)
+        if freq_pos + freq_neg > 0:
+            # calculate the log likelihood of the word
+            loglikelihood[word] = np.log(p_w_pos[word] / p_w_neg[word])
+            # add the log likelihood of that word to the probability
+            total_prob += loglikelihood[word]
+        else:
+            loglikelihood[word] = ''
+    if total_prob > 0:
+        total_prob = 1
+    else:
+        total_prob = 0
+    return total_prob
+model_path = huggingface_hub.hf_hub_download("ajaykarthick/naive-bayes-review-classify-model", "naive-bayes-text-classifier-model")
+model_params = pickle.load(open(model_path, mode='rb'))
+freqs = model_params['freqs_dict']
+logprior = model_params['logprior']
+def greet(name):
+    total_prob = classify_text(freqs, logprior, name)
+    print(name, str(total_prob))
+    return 'POSITIVE' if total_prob == 0 else 'NEGATIVE'
+iface = gr.Interface(fn=greet, inputs="text", outputs="text")
+iface.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ nltk
2	+ huggingface_hub