Docx-FAISS / app.py
mostafa202025's picture
Update app.py
3dcf45f verified
raw
history blame
1.06 kB
from transformers import AutoConfig, AutoTokenizer, TFAutoModel
# بارگذاری تنظیمات، توکنایزر و مدل
config = AutoConfig.from_pretrained("HooshvareLab/bert-fa-zwnj-base")
tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-fa-zwnj-base")
model = TFAutoModel.from_pretrained("HooshvareLab/bert-fa-zwnj-base")
# متن فارسی
text = "ما در هوشواره معتقدیم با انتقال صحیح دانش و آگاهی، همه افراد میتوانند از ابزارهای هوشمند استفاده کنند. شعار ما هوش مصنوعی برای همه است."
# توکنایز کردن متن
tokens = tokenizer.tokenize(text)
print("Tokens:", tokens)
# تبدیل متن به ورودی مدل
inputs = tokenizer(text, return_tensors="tf", padding=True, truncation=True)
# عبور داده‌ها از مدل
outputs = model(**inputs)
# استخراج بردارهای embedding
embeddings = outputs.last_hidden_state
# نمایش اطلاعات
print("Shape of embeddings:", embeddings.shape)