Spaces:

mrsk1883
/

testingspace

Sleeping

App Files Files Community

mrsk1883 commited on Dec 9, 2023

Commit

f8b4423

1 Parent(s): 7f5b90e

Update app.py

Browse files

Files changed (1) hide show

app.py +37 -59

app.py CHANGED Viewed

@@ -1,72 +1,50 @@
 import gradio as gr
-from PyPDF2 import PdfReader
 from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
 from gtts import gTTS
 from io import BytesIO
-# Check if running in IPython environment
-try:
-  from IPython.display import Audio
-  ipython_available = True
-except ImportError:
-  ipython_available = False
-# Define model and tokenizer
-model_name = "ArtifactAI/led_large_16384_arxiv_summarization"
 model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 def summarize_pdf_abstract(pdf_bytes):
-  """
-  Reads a PDF file, extracts the abstract, and summarizes it in one sentence.
-  Args:
-    pdf_bytes: The raw bytes of the uploaded PDF file.
-  Returns:
-    A dictionary containing the one-sentence summary of the abstract and the generated audio.
-  """
-  try:
-    reader = PdfReader.from_buffer(pdf_bytes)
-    abstract_text = ""
-    for page in reader.pages:
-      if "Abstract" in page.extract_text() or "Introduction" in page.extract_text():
-        abstract_text = page.extract_text()
-        break
-    # Generate summary using the model
-    inputs = tokenizer(abstract_text, return_tensors="pt")
-    outputs = model.generate(**inputs)
-    summary = tokenizer.decode(outputs[0], skip_special_tokens=True)
-    # Generate audio if IPython is available
-    if ipython_available:
-      speech = gTTS(summary, lang="en")
-      speech_bytes = speech.get_wav_data()
-    else:
-      speech_bytes = None
-    return {"summary": summary, "audio": speech_bytes}
-  except Exception as e:
-    raise Exception(str(e))
-# Modify the Gradio interface based on IPython availability
 if ipython_available:
-  # If running in IPython, include the Audio component
-  interface = gr.Interface(
-    fn=summarize_pdf_abstract,
-    inputs=[gr.File(label="Upload PDF", type="binary")],
-    outputs=[gr.Text(label="One-sentence summary"), gr.Audio(label="Summary audio")],
-  )
 else:
-  # If not running in IPython, exclude the Audio component
-  interface = gr.Interface(
-    fn=summarize_pdf_abstract,
-    inputs=[gr.File(label="Upload PDF", type="binary")],
-    outputs=[gr.Text(label="One-sentence summary")],
-  )
-# Launch the Gradio interface
-interface.launch()

 import gradio as gr
+from PyPDF2 import PdfReader
 from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
 from gtts import gTTS
 from io import BytesIO
+# IPython check
+try:
+    from IPython.display import Audio
+    ipython_available = True
+except ImportError:
+    ipython_available = False
+# Model
+model_name = "ArtifactAI/led_large_16384_arxiv_summarization"
 model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 def summarize_pdf_abstract(pdf_bytes):
+    try:
+        reader = PdfReader(pdf_bytes)
+        abstract_text = ""
+        for page in reader.pages:
+            if "Abstract" in page.extract_text() or "Introduction" in page.extract_text():
+                abstract_text = page.extract_text()
+                break
+        inputs = tokenizer(abstract_text, return_tensors="pt")
+        outputs = model.generate(**inputs)
+        summary = tokenizer.decode(outputs[0])
+        if ipython_available:
+            speech = gTTS(text=summary, lang="en")
+            speech_bytes = speech.get_wav_data()
+        else:
+            speech_bytes = None
+        return {"summary": summary, "audio": speech_bytes}
+    except Exception as e:
+        raise Exception(str(e))
 if ipython_available:
+    interface = gr.Interface(...)
 else:
+    interface = gr.Interface(...)
+interface.launch()