mostafa202025 commited on
Commit
3dcf45f
·
verified ·
1 Parent(s): 1804c28

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +18 -22
app.py CHANGED
@@ -1,29 +1,25 @@
1
- import torch
2
- from transformers import AutoTokenizer, AutoModel
3
 
4
- # تنظیمات مدل
5
- model_name = "HooshvareLab/bert-fa-zwnj-base"
6
- model_dir = "./models/HooshvareLab/bert-fa-zwnj-base"
 
7
 
8
- # بارگذاری مدل و توکنایزر
9
- tokenizer = AutoTokenizer.from_pretrained(model_name)
10
- model = AutoModel.from_pretrained(model_name)
11
 
12
- # جمله مورد نظر برای تست
13
- text = "این یک جمله تستی برای مدل embedding فارسی است."
 
14
 
15
- # توکنایز کردن جمله و ایجاد تنسور ورودی
16
- inputs = tokenizer(text, return_tensors="pt")
17
 
18
- # دریافت خروجی مدل (embedding)
19
- with torch.no_grad():
20
- outputs = model(**inputs)
21
 
22
- # استخراج embedding از خروجی مدل
23
- last_hidden_states = outputs.last_hidden_states
24
 
25
- # نمایش ابعاد (shape) تنسور خروجی
26
- print("Shape of the embedding tensor:", last_hidden_states.shape)
27
-
28
- # نمایش بخشی از تنسور خروجی
29
- print("Sample embedding values:", last_hidden_states[0, 0, :10])
 
1
+ from transformers import AutoConfig, AutoTokenizer, TFAutoModel
 
2
 
3
+ # بارگذاری تنظیمات، توکنایزر و مدل
4
+ config = AutoConfig.from_pretrained("HooshvareLab/bert-fa-zwnj-base")
5
+ tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-fa-zwnj-base")
6
+ model = TFAutoModel.from_pretrained("HooshvareLab/bert-fa-zwnj-base")
7
 
8
+ # متن فارسی
9
+ text = "ما در هوشواره معتقدیم با انتقال صحیح دانش و آگاهی، همه افراد میتوانند از ابزارهای هوشمند استفاده کنند. شعار ما هوش مصنوعی برای همه است."
 
10
 
11
+ # توکنایز کردن متن
12
+ tokens = tokenizer.tokenize(text)
13
+ print("Tokens:", tokens)
14
 
15
+ # تبدیل متن به ورودی مدل
16
+ inputs = tokenizer(text, return_tensors="tf", padding=True, truncation=True)
17
 
18
+ # عبور داده‌ها از مدل
19
+ outputs = model(**inputs)
 
20
 
21
+ # استخراج بردارهای embedding
22
+ embeddings = outputs.last_hidden_state
23
 
24
+ # نمایش اطلاعات
25
+ print("Shape of embeddings:", embeddings.shape)