import torch
from transformers import AutoTokenizer, AutoModel

# تنظیمات مدل
model_name = "HooshvareLab/bert-fa-zwnj-base"
model_dir = "./models/HooshvareLab/bert-fa-zwnj-base"

# بارگذاری مدل و توکنایزر
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

# جمله مورد نظر برای تست
text = "این یک جمله تستی برای مدل embedding فارسی است."

# توکنایز کردن جمله و ایجاد تنسور ورودی
inputs = tokenizer(text, return_tensors="pt")

# دریافت خروجی مدل (embedding)
with torch.no_grad():
    outputs = model(**inputs)

# استخراج embedding از خروجی مدل
last_hidden_states = outputs.last_hidden_states

# نمایش ابعاد (shape) تنسور خروجی
print("Shape of the embedding tensor:", last_hidden_states.shape)

# نمایش بخشی از تنسور خروجی
print("Sample embedding values:", last_hidden_states[0, 0, :10])