Spaces:

luanpoppe
/

vella-backend

Running

luanpoppe commited on 8 days ago

Commit

01a4e83

1 Parent(s): 9cd1a8d

fix: ocr através da bubble

Files changed (1) hide show

_utils/langchain_utils/Splitter_class.py CHANGED Viewed

@@ -1,6 +1,9 @@
 import os
 import time
-from _utils.bubble_integrations.obter_arquivo import get_pdf_from_bubble
 from _utils.handle_files import return_document_list_with_llama_parser
 from _utils.langchain_utils.splitter_util import (
     Splitter_Simple,
@@ -30,6 +33,7 @@ from _utils.google_integration.google_cloud import (
 )
 from google.cloud import documentai
 from google.cloud import storage
 class Splitter:
@@ -160,6 +164,8 @@ class Splitter:
         print("TERMINOU DE ORGANIZAR PDFS EM CHUNKS")
         if len(pages) == 0 or len(chunks) == 0:
             text = await self.getOCRFromGoogleDocumentAPI(pdf_path)
             chunks = self.load_and_split_text(text)  # type: ignore
             chunks_of_string_only = [chunk.content for chunk in chunks]

 import os
 import time
+from _utils.bubble_integrations.obter_arquivo import (
+    download_file_from_bubble,
+    get_pdf_from_bubble,
+)
 from _utils.handle_files import return_document_list_with_llama_parser
 from _utils.langchain_utils.splitter_util import (
     Splitter_Simple,
 )
 from google.cloud import documentai
 from google.cloud import storage
+from _utils.bubble_integrations.obter_arquivo import headers
 class Splitter:
         print("TERMINOU DE ORGANIZAR PDFS EM CHUNKS")
         if len(pages) == 0 or len(chunks) == 0:
+            if isBubble:
+                pdf_path = download_file_from_bubble(pdf_path, headers, "pdf")
             text = await self.getOCRFromGoogleDocumentAPI(pdf_path)
             chunks = self.load_and_split_text(text)  # type: ignore
             chunks_of_string_only = [chunk.content for chunk in chunks]