Spaces:

EE21
/

ToS-Summarization

Sleeping

App Files Files Community

EmreYY20 commited on Dec 13, 2023

Commit

46193fd

1 Parent(s): 7aa7a44

integrate extracive model in streamlit

Browse files

Files changed (2) hide show

app.py +18 -57
extractive_model.py +50 -0

app.py CHANGED Viewed

@@ -1,58 +1,19 @@
 import streamlit as st
-import pandas as pd
-import PyPDF2
-import base64
-from summarizer import bert_summarizer, simple_summarizer
-summarizer = bert_summarizer
-# Set page to wide mode
-st.set_page_config(layout="wide")
-# Function to handle file upload and return its content
-def load_pdf(file):
-    pdf_reader = PyPDF2.PdfReader(file)
-    pdf_text = ""
-    for page_num in range(len(pdf_reader.pages)):
-        pdf_text += pdf_reader.pages[page_num].extract_text()
-    return pdf_text
-# Main app
-def main():
-    st.title("Streamlit App")
-    # Layout: 3 columns
-    col1, col2, col3 = st.columns([1, 3, 2], gap="large")
-    # Left column: Dropdown menu
-    with col1:
-        dropdown_options = ['Abstractive', 'Extractive']
-        dropdown_selection = st.selectbox("Choose type of summerizer:", dropdown_options)
-    # Middle column: Text input and File uploader
-    with col2:
-        user_input = st.text_input("Enter your text here:")
-        uploaded_file = st.file_uploader("Upload a PDF", type="pdf")
-        if st.button("Summarize"):
-            # Handling file upload
-            if uploaded_file is not None:
-                file_content = load_pdf(uploaded_file)
-                st.write("PDF uploaded successfully.")
-                # summary = summarizer(file_content)
-                summary = file_content
-            elif user_input is not None:
-                # summary = summarizer(user_input)
-                summary = user_input
-            else:
-                st.wirte("Upload a PDF or put in your text!")
-            st.session_state.summary = summary
-    # Right column: Displaying text after pressing 'Summarize'
-    with col3:
-        st.write("Output:")
-        if 'summary' in st.session_state:
-            st.write(st.session_state.summary)
-if __name__ == "__main__":
-    main()

 import streamlit as st
+from extractive_model import summarize_pdf_with_textrank
+st.title("PDF Summarization App")
+pdf_file = st.file_uploader("Upload a PDF file", type=["pdf"])
+summary_length = st.slider("Select the number of sentences for the summary", 1, 20, 10)
+if pdf_file is not None and st.button("Summarize"):
+    # Save uploaded PDF to a temporary file
+    with open("temp_pdf.pdf", "wb") as f:
+        f.write(pdf_file.getbuffer())
+    # Generate summary
+    summary = summarize_pdf_with_textrank("temp_pdf.pdf")
+    # Display summary
+    st.write("Summary:")
+    st.write(summary)

extractive_model.py CHANGED Viewed

	@@ -0,0 +1,50 @@

+"""from sumy.parsers.plaintext import PlaintextParser
+from sumy.nlp.tokenizers import Tokenizer
+from sumy.summarizers.lsa import LsaSummarizer
+from sumy.summarizers.lex_rank import LexRankSummarizer
+from sumy.summarizers.text_rank import TextRankSummarizer
+from pysummarization.nlpbase.auto_abstractor import AutoAbstractor
+from pysummarization.tokenizabledoc.simple_tokenizer import SimpleTokenizer
+from pysummarization.abstractabledoc.top_n_rank_abstractor import TopNRankAbstractor
+from sumy.nlp.stemmers import Stemmer
+from sumy.utils import get_stop_words"""
+import PyPDF2
+from sumy.parsers.plaintext import PlaintextParser
+from sumy.nlp.tokenizers import Tokenizer
+from sumy.summarizers.text_rank import TextRankSummarizer
+def summarize_pdf_with_textrank(pdf_path, sentences_count=10):
+    """
+    Summarizes the content of a PDF file using TextRank algorithm.
+    Args:
+    pdf_path (str): Path to the PDF file.
+    sentences_count (int): Number of sentences for the summary.
+    Returns:
+    str: Summarized text.
+    """
+    # Extract text from the PDF
+    pdf_text = ""
+    with open(pdf_path, "rb") as pdf_file:
+        pdf_reader = PyPDF2.PdfReader(pdf_file)
+        for page in pdf_reader.pages:
+            pdf_text += page.extract_text() or ""
+    # Check if text extraction was successful
+    if not pdf_text.strip():
+        return "Text extraction from PDF failed or PDF is empty."
+    # Create a parser for the extracted text
+    parser = PlaintextParser.from_string(pdf_text, Tokenizer("english"))
+    # Use TextRank for summarization
+    text_rank_summarizer = TextRankSummarizer()
+    text_rank_summary = text_rank_summarizer(parser.document, sentences_count=sentences_count)
+    # Compile summary into a single string
+    summary_text = "\n".join(str(sentence) for sentence in text_rank_summary)
+    return summary_text