Spaces:

JohnKouf
/

transformer_api

Runtime error

JohnKouf commited on Jun 26

Commit

a20a987

verified ·

1 Parent(s): ebe6af8

Update Similarity.py

Files changed (1) hide show

Similarity.py CHANGED Viewed

@@ -1,11 +1,21 @@
 import nltk
 nltk.data.path.append("./nltk_data")
 from sentence_transformers import SentenceTransformer, util
 class Similarity:
     def __init__(self):
-        self.model = SentenceTransformer("lighteternal/stsb-xlm-r-greek-transfer")
-        # Make sure nltk punkt tokenizer is downloaded
-        #nltk.download('punkt')
     def chunk_text(self, text, chunk_size=1400, overlap_size=200):
         sentences = nltk.sent_tokenize(text)
@@ -23,6 +33,8 @@ class Similarity:
         return chunks
     def get_sim_text(self, text, claim_embedding, min_threshold=0.4, chunk_size=1500):
         if not text:
             return []

 import nltk
 nltk.data.path.append("./nltk_data")
 from sentence_transformers import SentenceTransformer, util
 class Similarity:
     def __init__(self):
+        self.model = None
+        # Download punkt tokenizer once, suppress if already present
+        try:
+            nltk.data.find('tokenizers/punkt')
+        except LookupError:
+            nltk.download('punkt', download_dir='./nltk_data')
+    def load_model(self):
+        if self.model is None:
+            print("Loading SentenceTransformer model...")
+            self.model = SentenceTransformer("lighteternal/stsb-xlm-r-greek-transfer")
+            print("Model loaded.")
     def chunk_text(self, text, chunk_size=1400, overlap_size=200):
         sentences = nltk.sent_tokenize(text)
         return chunks
     def get_sim_text(self, text, claim_embedding, min_threshold=0.4, chunk_size=1500):
+        self.load_model()
         if not text:
             return []