Spaces:

d0r1h
/

Hindi_News_Summarizer

Sleeping

d0r1h commited on Apr 30, 2022

Commit

9eb4d18

1 Parent(s): c798528

Update summarizer.py

updated with wordcloud and input option for both link and text

Files changed (1) hide show

summarizer.py CHANGED Viewed

@@ -1,7 +1,13 @@
 import re
 from transformers import  AutoModelForSeq2SeqLM, AutoTokenizer
-def summarize(text, model):
   if model == "T5":
     checkpoint = "csebuetnlp/mT5_multilingual_XLSum"
@@ -10,7 +16,6 @@ def summarize(text, model):
   WHITESPACE_HANDLER = lambda k: re.sub('\s+', ' ', re.sub('\n+', ' ', k.strip()))
   tokenizer = AutoTokenizer.from_pretrained(checkpoint)
   model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint)
@@ -33,6 +38,8 @@ def summarize(text, model):
   summary = tokenizer.decode(
                       output_ids,
                       skip_special_tokens=True,
-                      clean_up_tokenization_spaces=False )
-  return summary

 import re
+from extractdata import extract_text
+from wordcloud import plot_wordcloud
 from transformers import  AutoModelForSeq2SeqLM, AutoTokenizer
+def summarize(input_, model):
+  if input_.split("/")[0] == "https:":
+    text = extract_text(input)
+  else:
+    text = input_
   if model == "T5":
     checkpoint = "csebuetnlp/mT5_multilingual_XLSum"
   WHITESPACE_HANDLER = lambda k: re.sub('\s+', ' ', re.sub('\n+', ' ', k.strip()))
   tokenizer = AutoTokenizer.from_pretrained(checkpoint)
   model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint)
   summary = tokenizer.decode(
                       output_ids,
                       skip_special_tokens=True,
+                      clean_up_tokenization_spaces=False)
+  figure = plot_wordcloud(text)
+  return summary, figure