mostafa202025 commited on
Commit
3155e02
·
verified ·
1 Parent(s): 4f2a10b

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +29 -21
app.py CHANGED
@@ -1,25 +1,33 @@
1
- from transformers import AutoConfig, AutoTokenizer, TFAutoModel
 
2
 
3
- # بارگذاری تنظیمات، توکنایزر و مدل
4
- config = AutoConfig.from_pretrained("HooshvareLab/bert-fa-zwnj-base")
5
- tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-fa-zwnj-base")
6
- model = TFAutoModel.from_pretrained("HooshvareLab/bert-fa-zwnj-base")
7
 
8
- # متن فارسی
9
- text = "ما در هوشواره معتقدیم با انتقال صحیح دانش و آگاهی، همه افراد میتوانند از ابزارهای هوشمند استفاده کنند. شعار ما هوش مصنوعی برای همه است."
 
 
 
 
 
 
 
 
 
 
 
10
 
11
- # توکنایز کردن متن
12
- tokens = tokenizer.tokenize(text)
13
- print("Tokens:", tokens)
 
 
 
 
 
14
 
15
- # تبدیل متن به ورودی مدل
16
- inputs = tokenizer(text, return_tensors="tf", padding=True, truncation=True)
17
-
18
- # عبور داده‌ها از مدل
19
- outputs = model(**inputs)
20
-
21
- # استخراج بردارهای embedding
22
- embeddings = outputs.last_hidden_state
23
-
24
- # نمایش اطلاعات
25
- print("Shape of embeddings:", embeddings.shape)
 
1
+ import gradio as gr
2
+ from transformers import AutoTokenizer, AutoModel
3
 
4
+ # Load the tokenizer and model for Persian
5
+ tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-fa-base-uncased")
6
+ model = AutoModel.from_pretrained("HooshvareLab/bert-fa-base-uncased")
 
7
 
8
+ def get_embedding(text):
9
+ # Tokenize the input text
10
+ tokens = tokenizer.tokenize(text)
11
+
12
+ # Encode the input text to get embeddings
13
+ inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True)
14
+ outputs = model(**inputs)
15
+
16
+ # Extract the [CLS] token embedding (first token in output)
17
+ cls_embedding = outputs.last_hidden_state[:, 0, :].detach().numpy().tolist()
18
+
19
+ # Return embeddings and tokenized text
20
+ return {"embedding": cls_embedding, "tokens": tokens}
21
 
22
+ # Create Gradio interface
23
+ iface = gr.Interface(
24
+ fn=get_embedding,
25
+ inputs=gr.Textbox(lines=2, placeholder="متن خود را وارد کنید..."),
26
+ outputs="json",
27
+ title="مدل فارسی با Transformers",
28
+ description="متن فارسی را وارد کنید تا توکن‌ها و بردار embedding آن را دریافت کنید."
29
+ )
30
 
31
+ # Launch app
32
+ if __name__ == "__main__":
33
+ iface.launch()