Spaces:

varl42
/

_demo42

Runtime error

varl42 commited on Dec 4, 2023

Commit

9447b9b

1 Parent(s): dddbd88

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -6,28 +6,38 @@ import numpy
 import scipy
 from gtts import gTTS
 from io import BytesIO
-from transformers import BartTokenizer
 def extract_text(pdf_file):
     pdfReader = PyPDF2.PdfReader(pdf_file)
     pageObj = pdfReader.pages[0]
     return pageObj.extract_text()
 def summarize_text(text):
     sentences = text.split(". ")
     for i, sentence in enumerate(sentences):
         if "Abstract" in sentence:
             start = i + 1
             end = start + 3
             break
-    abstract = ". ".join(sentences[start:end+1])
     tokenizer = BartTokenizer.from_pretrained("facebook/bart-large-cnn")
-    summarizer = pipeline("summarization", model="facebook/bart-large-cnn", tokenizer=tokenizer)
-    summary = summarizer(abstract, max_length=30, min_length=30,
-                         do_sample=False)
-    return summary[0]['summary_text']
 def text_to_audio(text):
     tts = gTTS(text, lang='en')

 import scipy
 from gtts import gTTS
 from io import BytesIO
+from transformers import BartTokenizer, BartForConditionalGeneration
 def extract_text(pdf_file):
     pdfReader = PyPDF2.PdfReader(pdf_file)
     pageObj = pdfReader.pages[0]
     return pageObj.extract_text()
 def summarize_text(text):
     sentences = text.split(". ")
+    # Find abstract section
     for i, sentence in enumerate(sentences):
         if "Abstract" in sentence:
             start = i + 1
             end = start + 3
             break
+    # Extract abstract
+    abstract = ". ".join(sentences[start:end+1])
+    # Load BART model & tokenizer
     tokenizer = BartTokenizer.from_pretrained("facebook/bart-large-cnn")
+    model = BartForConditionalGeneration.from_pretrained("facebook/bart-large-cnn")
+    # Tokenize abstract
+    inputs = tokenizer(abstract, return_tensors="pt", truncation=True)
+    # Generate summary
+    summary_ids = model.generate(inputs['input_ids'], num_beams=4, max_length=50, min_length=50, early_stopping=True)
+    summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
+    return summary
 def text_to_audio(text):
     tts = gTTS(text, lang='en')