huamnifierWithSimpleGrammer

Running

App Files Files

sashtech commited on Sep 2, 2024

Commit

17f790c

verified ·

1 Parent(s): 7e4465c

Update app.py

Browse files

Files changed (1) hide show

app.py +15 -10

app.py CHANGED Viewed

@@ -1,12 +1,11 @@
 import gradio as gr
-from transformers import AutoTokenizer, AutoModelForSequenceClassification, pipeline
 import torch
 import spacy
 import subprocess
 import nltk
 from nltk.corpus import wordnet
 from gensim import downloader as api
-from gingerit.gingerit import GingerIt  # Import GingerIt for grammar correction
 # Ensure necessary NLTK data is downloaded
 nltk.download('wordnet')
@@ -26,14 +25,18 @@ word_vectors = api.load("glove-wiki-gigaword-50")
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 # Load AI Detector model and tokenizer from Hugging Face (DistilBERT)
-tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased-finetuned-sst-2-english")
-model = AutoModelForSequenceClassification.from_pretrained("distilbert-base-uncased-finetuned-sst-2-english").to(device)
 # AI detection function using DistilBERT
 def detect_ai_generated(text):
-    inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=512).to(device)
     with torch.no_grad():
-        outputs = model(**inputs)
         probabilities = torch.softmax(outputs.logits, dim=1)
     ai_probability = probabilities[0][1].item()  # Probability of being AI-generated
     return f"AI-Generated Content Probability: {ai_probability:.2f}%"
@@ -76,11 +79,13 @@ def paraphrase_with_spacy_nltk(text):
     return paraphrased_sentence
-# Grammar correction function using GingerIt
 def correct_grammar(text):
-    parser = GingerIt()
-    result = parser.parse(text)
-    return result['result']  # Return the corrected text
 # Combined function: Paraphrase -> Grammar Check
 def paraphrase_and_correct(text):

 import gradio as gr
+from transformers import AutoTokenizer, AutoModelForSequenceClassification, AutoModelForSeq2SeqLM
 import torch
 import spacy
 import subprocess
 import nltk
 from nltk.corpus import wordnet
 from gensim import downloader as api
 # Ensure necessary NLTK data is downloaded
 nltk.download('wordnet')
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 # Load AI Detector model and tokenizer from Hugging Face (DistilBERT)
+tokenizer_ai = AutoTokenizer.from_pretrained("distilbert-base-uncased-finetuned-sst-2-english")
+model_ai = AutoModelForSequenceClassification.from_pretrained("distilbert-base-uncased-finetuned-sst-2-english").to(device)
+# Load the grammar correction model
+tokenizer_gc = AutoTokenizer.from_pretrained("pszemraj/flan-t5-large-grammar-synthesis")
+model_gc = AutoModelForSeq2SeqLM.from_pretrained("pszemraj/flan-t5-large-grammar-synthesis").to(device)
 # AI detection function using DistilBERT
 def detect_ai_generated(text):
+    inputs = tokenizer_ai(text, return_tensors="pt", truncation=True, max_length=512).to(device)
     with torch.no_grad():
+        outputs = model_ai(**inputs)
         probabilities = torch.softmax(outputs.logits, dim=1)
     ai_probability = probabilities[0][1].item()  # Probability of being AI-generated
     return f"AI-Generated Content Probability: {ai_probability:.2f}%"
     return paraphrased_sentence
+# Grammar correction function using the T5 model
 def correct_grammar(text):
+    inputs = tokenizer_gc(text, return_tensors="pt", truncation=True, max_length=512).to(device)
+    with torch.no_grad():
+        outputs = model_gc.generate(inputs['input_ids'], max_length=512, num_beams=5, early_stopping=True)
+    corrected_text = tokenizer_gc.decode(outputs[0], skip_special_tokens=True)
+    return corrected_text
 # Combined function: Paraphrase -> Grammar Check
 def paraphrase_and_correct(text):