Spaces:

dammy
/

chatPDF

Runtime error

dammy commited on Nov 10, 2023

Commit

b12ea1f

1 Parent(s): f05dba6

update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,13 +1,19 @@
 import gradio as gr
-import fitz  # PyMuPDF
 def extract_text(pdf_file):
-    doc = fitz.open(pdf_file.name)
-    text = ""
-    for page_num in range(doc.page_count):
-        page = doc[page_num]
-        text += page.get_text()
-    return text
 iface = gr.Interface(
     fn=extract_text,

 import gradio as gr
+from langchain.document_loaders import PDFMinerLoader, PyMuPDFLoader
+from langchain.text_splitter import CharacterTextSplitter
 def extract_text(pdf_file):
+    # Load a document
+    loader = PDFMinerLoader("cereal.pdf")
+    doc = loader.load()
+    text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
+    texts = text_splitter.split_documents(doc)
+    texts = [i.page_content for i in texts]
+    return texts[0]
 iface = gr.Interface(
     fn=extract_text,