Spaces:

nnpy
/

TableOCR

Running

nnpy commited on Mar 10, 2024

Commit

c775630

verified ·

1 Parent(s): 9735920

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,38 +1,25 @@
-import tabula
-import pandas as pd
-import streamlit as st
 import os
-os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-17-openjdk-amd64/bin/java"
-st.title("TableOCR")
-st.markdown(
-    """
-    <style>
-    .css-1jc7ptx, .e1ewe7hr3, .viewerBadge_container__1QSob,
-    .styles_viewerBadge__1yB5_, .viewerBadge_link__1S137,
-    .viewerBadge_text__1JaDK {
-        display: none;
-    }
-    </style>
-    """,
-    unsafe_allow_html=True
-)
-with st.form(key='my_form'):
-    file = st.file_uploader("Upload a file", type="pdf", accept_multiple_files=False)
-    page_no = st.number_input("Enter page number", min_value=1, value=1)
-    submit_button = st.form_submit_button(label='Submit')
-    if submit_button and file is not None and page_no is not None:
-        with st.spinner("Converting PDF page to image..."):
-            tables = tabula.read_pdf(file, pages=page_no, multiple_tables=True)
-            table_df = tables[0] if tables else pd.DataFrame()
-            st.write("Scroll down to download the output file.")
-            st.table(table_df)
-            table_df.to_excel("output.xlsx", index=False)
-            st.markdown(
-                f'<a href="output.xlsx" download="output.xlsx">Click here to download the output file</a>',
-                unsafe_allow_html=True
-            )

 import os
+import streamlit as st
+from img2table.document import PDF
+from img2table.ocr import TesseractOCR
+st.title("Image to Table")
+uploaded_file = st.file_uploader("Choose a file")
+page_number = st.number_input("Page number", value=1, min_value=1)
+submit = st.button("Submit")
+if submit and uploaded_file is not None and page_number is not None:
+    pdf = PDF(uploaded_file, pages=[page_number-1])
+    ocr = TesseractOCR(lang="eng")
+    pdf_tables = pdf.extract_tables(ocr)
+    st.write(pdf_tables)
+    pdf.to_xlsx("output.xlsx", ocr=ocr)
+    with open("output.xlsx", "rb") as file:
+        btn = st.download_button(
+                label="Download Excel",
+                data=file,
+                file_name="output.xlsx",
+                mime="application/vnd.openxmlformats-officedocument.spreadsheetml.sheet"
+            )
+    os.remove("output.xlsx")