Spaces:

AdrienB134
/

matriv-rag-demo

Sleeping

AdrienB134 commited on Dec 6, 2024

Commit

3133ca1

verified ·

1 Parent(s): 9d1233a

Update rag_demo/preprocessing/pdf_conversion.py

Files changed (1) hide show

rag_demo/preprocessing/pdf_conversion.py CHANGED Viewed

@@ -3,7 +3,7 @@ from llama_index.core import SimpleDirectoryReader
 from uuid import uuid4
 from .base import Document
 from loguru import logger
 from dotenv import load_dotenv
 load_dotenv()
@@ -11,23 +11,27 @@ load_dotenv()
 # set up parser
 parser = LlamaParse(
-    api_key="llx-TN6YSXvZdpG0qhJ7rVx9QFg5Zq298RXr7Id7XzXb5Wr4Rnpt",
     result_type="markdown",  # "markdown" and "text" are available
 )
 def convert_pdf_to_text(filepaths: list[str]) -> Document:
-    file_extractor = {".pdf": parser}
-    # use SimpleDirectoryReader to parse our file
-    documents = SimpleDirectoryReader(
-        input_files=filepaths, file_extractor=file_extractor
-    ).load_data()
-    logger.info("Converted 1 documents")
-    return Document(
-        document_id=uuid4(),
-        text=" ".join(document.text for document in documents),
-        metadata={"filename": filepaths[0].split("/")[-1]},
-    )

 from uuid import uuid4
 from .base import Document
 from loguru import logger
+import os
 from dotenv import load_dotenv
 load_dotenv()
 # set up parser
 parser = LlamaParse(
+    api_key=os.getenv("LLAMA_PARSE_API_KEY"),
     result_type="markdown",  # "markdown" and "text" are available
 )
 def convert_pdf_to_text(filepaths: list[str]) -> Document:
+    try:
+        file_extractor = {".pdf": parser}
+        # use SimpleDirectoryReader to parse our file
+        documents = SimpleDirectoryReader(
+            input_files=filepaths, file_extractor=file_extractor
+        ).load_data()
+        logger.info("Converted 1 documents")
+        return Document(
+            document_id=uuid4(),
+            text=" ".join(document.text for document in documents),
+            metadata={"filename": filepaths[0].split("/")[-1]},
+        )
+    except Exception as e:
+        logger.error(f"Error converting PDF to text: {e}")
+        raise e