Spaces:

InkeyDevelopment
/

Exelsys_Assistant

Sleeping

App Files Files Community

InkeyDevelopment commited on Feb 8

Commit

c85bec4

verified ·

1 Parent(s): 98e278f

Update app.py

Browse files

Files changed (1) hide show

app.py +2 -67

app.py CHANGED Viewed

@@ -17,78 +17,13 @@ import json
 import os
 load_dotenv()
-def extract_text_images(pdf_path, output_dir="static/output_images"):
-    doc = fitz.open(pdf_path)
-    data = []
-    if not os.path.exists(output_dir):
-        os.makedirs(output_dir)
-    for page_num in range(len(doc)):
-        page = doc[page_num]
-        text = page.get_text("text")
-        images = page.get_images(full=True)
-        image_paths = []
-        for img_index, img in enumerate(images):
-            xref = img[0]
-            base_image = doc.extract_image(xref)
-            image_bytes = base_image["image"]
-            image_ext = base_image["ext"]
-            image_filename = f"{output_dir}/page_{page_num+1}_img_{img_index+1}.{image_ext}"
-            with open(image_filename, "wb") as img_file:
-                img_file.write(image_bytes)
-            image_paths.append(image_filename)
-        data.append({"page": page_num + 1, "text": text, "images": image_paths})
-    with open("pdf_data.json", "w") as f:
-        json.dump(data, f, indent=4)
-    return "Extraction completed!"
-pdf_path = "./Exelsys easyHR v10 User Guide.pdf"
-extract_text_images(pdf_path)
-# Load Hugging Face model
-model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")
-def get_embedding(text):
-    return model.encode(text, convert_to_numpy=True)
-def store_embeddings():
-    with open("pdf_data.json") as f:
-        data = json.load(f)
-    dimension = 384
-    index = faiss.IndexFlatL2(dimension)
-    metadata = []
-    for i, entry in enumerate(data):
-        embedding = np.array(get_embedding(entry["text"])).astype("float32")
-        index.add(np.array([embedding]))
-        metadata.append({"page": entry["page"], "text": entry["text"], "images": entry["images"]})
-    faiss.write_index(index, "faiss_index.bin")
-    with open("metadata.json", "w") as f:
-        json.dump(metadata, f, indent=4)
-    return "Embeddings stored successfully!"
-store_embeddings()
 app = Flask(__name__)
 # Load Model and FAISS Index
 model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")
-index = faiss.read_index("faiss_index.bin")
 groq_api_key = os.getenv('GROQ_API_KEY')
 model_name = "llama-3.3-70b-versatile"
@@ -99,7 +34,7 @@ llm = ChatGroq(
             model_name=model_name
         )
-with open("metadata.json") as f:
     metadata = json.load(f)

 import os
 load_dotenv()
 app = Flask(__name__)
 # Load Model and FAISS Index
 model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")
+index = faiss.read_index("./faiss_index.bin")
 groq_api_key = os.getenv('GROQ_API_KEY')
 model_name = "llama-3.3-70b-versatile"
             model_name=model_name
         )
+with open("./metadata.json") as f:
     metadata = json.load(f)