Spaces:

mostafa202025
/

Docx-FAISS

Sleeping

mostafa202025 commited on 14 days ago

Commit

3dcf45f

verified ·

1 Parent(s): 1804c28

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,29 +1,25 @@
-import torch
-from transformers import AutoTokenizer, AutoModel
-# تنظیمات مدل
-model_name = "HooshvareLab/bert-fa-zwnj-base"
-model_dir = "./models/HooshvareLab/bert-fa-zwnj-base"
-# بارگذاری مدل و توکنایزر
-tokenizer = AutoTokenizer.from_pretrained(model_name)
-model = AutoModel.from_pretrained(model_name)
-# جمله مورد نظر برای تست
-text = "این یک جمله تستی برای مدل embedding فارسی است."
-# توکنایز کردن جمله و ایجاد تنسور ورودی
-inputs = tokenizer(text, return_tensors="pt")
-# دریافت خروجی مدل (embedding)
-with torch.no_grad():
-    outputs = model(**inputs)
-# استخراج embedding از خروجی مدل
-last_hidden_states = outputs.last_hidden_states
-# نمایش ابعاد (shape) تنسور خروجی
-print("Shape of the embedding tensor:", last_hidden_states.shape)
-# نمایش بخشی از تنسور خروجی
-print("Sample embedding values:", last_hidden_states[0, 0, :10])

+from transformers import AutoConfig, AutoTokenizer, TFAutoModel
+# بارگذاری تنظیمات، توکنایزر و مدل
+config = AutoConfig.from_pretrained("HooshvareLab/bert-fa-zwnj-base")
+tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-fa-zwnj-base")
+model = TFAutoModel.from_pretrained("HooshvareLab/bert-fa-zwnj-base")
+# متن فارسی
+text = "ما در هوشواره معتقدیم با انتقال صحیح دانش و آگاهی، همه افراد میتوانند از ابزارهای هوشمند استفاده کنند. شعار ما هوش مصنوعی برای همه است."
+# توکنایز کردن متن
+tokens = tokenizer.tokenize(text)
+print("Tokens:", tokens)
+# تبدیل متن به ورودی مدل
+inputs = tokenizer(text, return_tensors="tf", padding=True, truncation=True)
+# عبور داده‌ها از مدل
+outputs = model(**inputs)
+# استخراج بردارهای embedding
+embeddings = outputs.last_hidden_state
+# نمایش اطلاعات
+print("Shape of embeddings:", embeddings.shape)