Spaces:

Hidayatmahar
/

legalfriend

Runtime error

Hidayatmahar commited on Feb 2, 2025

Commit

c6b82b8

verified ·

1 Parent(s): ee612b6

Update create_faiss.py

Files changed (1) hide show

create_faiss.py CHANGED Viewed

@@ -3,11 +3,11 @@ import faiss
 from sentence_transformers import SentenceTransformer
 import numpy as np
-# Load the Pile dataset (legal text)
-dataset = load_dataset("EleutherAI/the_pile", split="train")
-# Extract legal-related documents
-law_data = [item['text'] for item in dataset if item['meta']['pile_set_name'] == 'Pile-CC']
 # Load embedding model
 model = SentenceTransformer("all-MiniLM-L6-v2")
@@ -16,10 +16,11 @@ model = SentenceTransformer("all-MiniLM-L6-v2")
 embeddings = model.encode(law_data, convert_to_numpy=True)
 # Create FAISS index
-index = faiss.IndexFlatL2(embeddings.shape[1])
-index.add(embeddings)
 # Save FAISS index
 faiss.write_index(index, "faiss_index.bin")
-print("✅ FAISS index saved successfully!")

 from sentence_transformers import SentenceTransformer
 import numpy as np
+# Load the US-LegalKit dataset
+dataset = load_dataset("macadeliccc/US-LegalKit", split="train")
+# Extract legal text documents
+law_data = [item['text'] for item in dataset if 'text' in item]
 # Load embedding model
 model = SentenceTransformer("all-MiniLM-L6-v2")
 embeddings = model.encode(law_data, convert_to_numpy=True)
 # Create FAISS index
+dimension = embeddings.shape[1]
+index = faiss.IndexFlatL2(dimension)  # L2 Distance Index
+index.add(embeddings)  # Add vectors to FAISS index
 # Save FAISS index
 faiss.write_index(index, "faiss_index.bin")
+print("✅ FAISS index saved successfully as 'faiss_index.bin'!")