Spaces:

luanpoppe
/

vella-backend

Running

App Files Files Community

luanpoppe commited on Mar 26

Commit

6e09bf4

1 Parent(s): d8410b4

feat: adicionando suporte a arquivos do word

Browse files

Files changed (6) hide show

_utils/bubble_integrations/obter_arquivo.py +21 -2
_utils/handle_files.py +4 -1
_utils/splitters/Splitter_class.py +20 -4
_utils/splitters/splitter_util.py +14 -0
requirements.txt +0 -0
setup/easy_imports.py +1 -1

_utils/bubble_integrations/obter_arquivo.py CHANGED Viewed

@@ -1,11 +1,13 @@
 # from setup.easy_imports import PyPDFLoader
 import os
-from langchain_community.document_loaders import PyPDFLoader
 import tempfile
 import requests
 from _utils.handle_files import return_document_list_with_llama_parser
 headers = {"Authorization": f"Bearer {os.environ.get("BUBBLE_TOKEN")}"}
@@ -32,6 +34,23 @@ async def get_pdf_from_bubble(
                 tmp_file.name
             )  # por enquanto este arquivo não está sendo excluído
     else:
-        result = PyPDFLoader(file_url, headers=headers)
         return result.load()

 # from setup.easy_imports import PyPDFLoader
 import os
+from langchain_community.document_loaders import PyPDFLoader, Docx2txtLoader
 import tempfile
 import requests
 from _utils.handle_files import return_document_list_with_llama_parser
+from _utils.splitters.splitter_util import SplitterUtils
+splitter_utils = SplitterUtils()
 headers = {"Authorization": f"Bearer {os.environ.get("BUBBLE_TOKEN")}"}
                 tmp_file.name
             )  # por enquanto este arquivo não está sendo excluído
     else:
+        extension = file_url.split(".")[-1]
+        if extension.lower() == "pdf":
+            result = PyPDFLoader(file_url, headers=headers)
+        else:
+            temp_path = download_docx(file_url, headers)
+            result = Docx2txtLoader(temp_path)
         return result.load()
+def download_docx(url, headers):
+    response = requests.get(url, headers=headers)
+    response.raise_for_status()  # Raise an exception for bad responses (status codes 4xx or 5xx)
+    # Save the downloaded file into a temporary file
+    temp_file = tempfile.NamedTemporaryFile(delete=False, suffix=".docx")
+    with open(temp_file.name, "wb") as f:
+        f.write(response.content)  # por enquanto este arquivo não está sendo excluído
+    return temp_file.name

_utils/handle_files.py CHANGED Viewed

@@ -4,6 +4,8 @@ from langchain_core.documents import Document as LangchainDocument
 from llama_index import Document
 from llama_parse import LlamaParse, ResultType
 llama_parser_keys = [
     os.getenv("LLAMA_CLOUD_API_KEY_POPS"),
     os.getenv("LLAMA_CLOUD_API_KEY_PEIXE"),
@@ -13,9 +15,10 @@ llama_parser_keys = [
 def handle_pdf_files_from_serializer(files):
     listaPDFs = []
     for file in files:
         file.seek(0)
         with tempfile.NamedTemporaryFile(
-            delete=False, suffix=".pdf"
         ) as temp_file:  # Create a temporary file to save the uploaded PDF
             for (
                 chunk

 from llama_index import Document
 from llama_parse import LlamaParse, ResultType
+from _utils.splitters.splitter_util import SplitterUtils
 llama_parser_keys = [
     os.getenv("LLAMA_CLOUD_API_KEY_POPS"),
     os.getenv("LLAMA_CLOUD_API_KEY_PEIXE"),
 def handle_pdf_files_from_serializer(files):
     listaPDFs = []
     for file in files:
+        file_extension = file.name.split(".")[-1]
         file.seek(0)
         with tempfile.NamedTemporaryFile(
+            delete=False, suffix=f".{file_extension}"
         ) as temp_file:  # Create a temporary file to save the uploaded PDF
             for (
                 chunk

_utils/splitters/Splitter_class.py CHANGED Viewed

@@ -1,13 +1,23 @@
 from _utils.bubble_integrations.obter_arquivo import get_pdf_from_bubble
 from _utils.handle_files import return_document_list_with_llama_parser
-from _utils.splitters.splitter_util import combine_documents_without_losing_pagination
-from setup.easy_imports import PyPDFLoader, RecursiveCharacterTextSplitter, Document
 from typing import Any, List, Dict, Tuple, Optional, cast
 from _utils.models.gerar_relatorio import (
     DocumentChunk,
 )
 import uuid
 class Splitter:
     def __init__(
@@ -34,7 +44,7 @@ class Splitter:
         if isBubble:
             print("\nPEGANDO PDF DO BUBBLE")
-            pages = await get_pdf_from_bubble(pdf_path, should_use_llama_parse)
             page_boundaries, combined_text = (
                 combine_documents_without_losing_pagination(pages)
             )
@@ -53,8 +63,14 @@ class Splitter:
                 )
             else:
                 print("\nCOMEÇANDO LEITURA DO PDF")
-                pages = PyPDFLoader(pdf_path).load()
                 print("TERMINOU LEITURA DO PDF")
                 page_boundaries, combined_text = (
                     combine_documents_without_losing_pagination(pages)
                 )

 from _utils.bubble_integrations.obter_arquivo import get_pdf_from_bubble
 from _utils.handle_files import return_document_list_with_llama_parser
+from _utils.splitters.splitter_util import (
+    SplitterUtils,
+    combine_documents_without_losing_pagination,
+)
+from setup.easy_imports import (
+    PyPDFLoader,
+    RecursiveCharacterTextSplitter,
+    Document,
+    Docx2txtLoader,
+)
 from typing import Any, List, Dict, Tuple, Optional, cast
 from _utils.models.gerar_relatorio import (
     DocumentChunk,
 )
 import uuid
+splitter_utils = SplitterUtils()
 class Splitter:
     def __init__(
         if isBubble:
             print("\nPEGANDO PDF DO BUBBLE")
+            pages = await get_pdf_from_bubble(pdf_path, should_use_llama_parse)  # type: ignore
             page_boundaries, combined_text = (
                 combine_documents_without_losing_pagination(pages)
             )
                 )
             else:
                 print("\nCOMEÇANDO LEITURA DO PDF")
+                file_extension = splitter_utils.get_file_type(pdf_path)
+                print("file_extension: ", file_extension)
+                if file_extension == "pdf":
+                    pages = PyPDFLoader(pdf_path).load()
+                else:
+                    pages = Docx2txtLoader(pdf_path).load()
                 print("TERMINOU LEITURA DO PDF")
+                print("pages: ", pages)
                 page_boundaries, combined_text = (
                     combine_documents_without_losing_pagination(pages)
                 )

_utils/splitters/splitter_util.py CHANGED Viewed

@@ -1,7 +1,21 @@
 from typing import List, Tuple
 from langchain_core.documents import Document
 def combine_documents_without_losing_pagination(documents: list[Document]):
     combined_text = ""
     page_boundaries: List[Tuple[int, int, int]] = (

+import os
 from typing import List, Tuple
 from langchain_core.documents import Document
+class SplitterUtils:
+    def get_file_type(self, file_path):
+        _, ext = os.path.splitext(file_path)
+        ext = ext.lower()  # Normalize to lowercase
+        if ext == ".pdf":
+            return "pdf"
+        elif ext == ".docx":
+            return "word"
+        else:
+            print("\next", ext)
+            return "unknown"
 def combine_documents_without_losing_pagination(documents: list[Document]):
     combined_text = ""
     page_boundaries: List[Tuple[int, int, int]] = (

requirements.txt CHANGED Viewed

Binary files a/requirements.txt and b/requirements.txt differ

setup/easy_imports.py CHANGED Viewed

@@ -12,7 +12,7 @@ from langchain_huggingface import HuggingFaceEmbeddings
 # from langchain_community.embeddings import HuggingFaceEmbeddings
 from langchain.prompts import PromptTemplate
 from langchain_core.prompts import ChatPromptTemplate
-from langchain_community.document_loaders import PyPDFLoader
 from langchain_community.vectorstores import Chroma
 from langchain_google_genai import ChatGoogleGenerativeAI

 # from langchain_community.embeddings import HuggingFaceEmbeddings
 from langchain.prompts import PromptTemplate
 from langchain_core.prompts import ChatPromptTemplate
+from langchain_community.document_loaders import PyPDFLoader, Docx2txtLoader
 from langchain_community.vectorstores import Chroma
 from langchain_google_genai import ChatGoogleGenerativeAI