Spaces:

VeganSquirrel
/

HuggingFaceH4-zephyr-7b-alpha

Sleeping

VeganSquirrel commited on Nov 10, 2024

Commit

873e3a7

verified ·

1 Parent(s): 96f49a8

update

Files changed (1) hide show

app.py CHANGED Viewed

@@ -10,26 +10,29 @@ import faiss
 # Step 1: Load Precomputed Embeddings and Metadata
 def load_embeddings(embeddings_folder='embeddings'):
-    embeddings = []
     metadata = []
     for file in os.listdir(embeddings_folder):
         if file.endswith('.npy'):
             embedding_path = os.path.join(embeddings_folder, file)
-            embedding = np.load(embedding_path)
-            embeddings.append(embedding)
-            # Extract metadata from the filename or set a default value
             meta_info = file.replace('.npy', '')  # Example: 'course_1'
-            metadata.append(meta_info)
-    return np.array(embeddings), metadata
-embeddings, metadata = load_embeddings()
-# Step 2: Set Up FAISS Index
-dimension = embeddings.shape[1]
 index = faiss.IndexFlatL2(dimension)
 index.add(embeddings)
 # Step 3: Load the Language Model
 model_name = "HuggingFaceH4/zephyr-7b-alpha"
 tokenizer = AutoTokenizer.from_pretrained(model_name)

 # Step 1: Load Precomputed Embeddings and Metadata
 def load_embeddings(embeddings_folder='embeddings'):
+    all_embeddings = []
     metadata = []
     for file in os.listdir(embeddings_folder):
         if file.endswith('.npy'):
             embedding_path = os.path.join(embeddings_folder, file)
+            embedding = np.load(embedding_path)  # Shape: (27, 384)
+            all_embeddings.append(embedding)
+            # Metadata corresponds to each .npy file
             meta_info = file.replace('.npy', '')  # Example: 'course_1'
+            metadata.extend([meta_info] * embedding.shape[0])  # Repeat metadata for each sub-embedding
+    # Flatten list of embeddings to shape (n * 27, 384)
+    all_embeddings = np.vstack(all_embeddings)
+    return all_embeddings, metadata
+embeddings, metadata = load_embeddings()
+# Step 2: Set Up FAISS Index with Flattened Embeddings
+dimension = embeddings.shape[1]  # Should be 384 after flattening
 index = faiss.IndexFlatL2(dimension)
 index.add(embeddings)
 # Step 3: Load the Language Model
 model_name = "HuggingFaceH4/zephyr-7b-alpha"
 tokenizer = AutoTokenizer.from_pretrained(model_name)