Commit
·
95ebc00
1
Parent(s):
17d2017
update README
Browse files
README.md
CHANGED
@@ -4,9 +4,13 @@ language:
|
|
4 |
metrics:
|
5 |
- f1
|
6 |
pipeline_tag: token-classification
|
|
|
|
|
|
|
7 |
tags:
|
8 |
- transformer
|
9 |
- vietnamese
|
|
|
10 |
- nlp
|
11 |
- bert
|
12 |
- deberta
|
@@ -14,3 +18,70 @@ tags:
|
|
14 |
---
|
15 |
|
16 |
# ViPubMedDeBERTa: A Vietnamese pretrained biomedical language representation model
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
4 |
metrics:
|
5 |
- f1
|
6 |
pipeline_tag: token-classification
|
7 |
+
license: mit
|
8 |
+
datasets:
|
9 |
+
- VietAI/vi_pubmed
|
10 |
tags:
|
11 |
- transformer
|
12 |
- vietnamese
|
13 |
+
-
|
14 |
- nlp
|
15 |
- bert
|
16 |
- deberta
|
|
|
18 |
---
|
19 |
|
20 |
# ViPubMedDeBERTa: A Vietnamese pretrained biomedical language representation model
|
21 |
+
|
22 |
+
|
23 |
+
## Model description
|
24 |
+
|
25 |
+
## Model variations
|
26 |
+
|
27 |
+
## How to use
|
28 |
+
You can use this model directly with a pipeline for masked language modeling:
|
29 |
+
```python
|
30 |
+
>>> from transformers import pipeline
|
31 |
+
>>> model = pipeline('fill-mask', model='manhtt-079/vipubmed-deberta-xsmall')
|
32 |
+
>>> text_with_mask = """Chúng_tôi mô_tả một trường_hợp bệnh_nhân nữ 44 tuổi được chẩn_đoán sarcoma tế_bào tua nang ( FDCS ) . FDCS là bệnh rất hiếm ảnh_hưởng đến tế_bào trình_diện kháng_nguyên đuôi gai và thường bị chẩn_đoán nhầm . Phẫu_thuật được coi là phương_thức điều_trị tốt nhất , tiếp_theo là hóa_trị . Trong trường_hợp của chúng_tôi , [phẫu_thuật] cắt bỏ không_thể thực_hiện được , do đó bệnh_nhân được hóa_trị hai dòng , sau đó là cấy_ghép tủy xương , sau đó là hóa_trị ba với đáp_ứng trao_đổi chất hoàn_toàn được thấy trên"""
|
33 |
+
>>> model(text_with_mask)
|
34 |
+
|
35 |
+
[{'score': 0.7800273299217224,
|
36 |
+
'token': 1621,
|
37 |
+
'token_str': 'phẫu_thuật',
|
38 |
+
'sequence': 'Chúng_tôi mô_tả một trường_hợp bệnh_nhân nữ 44 tuổi được chẩn_đoán sarcoma tế_bào tua nang ( FDCS ). FDCS là bệnh rất hiếm ảnh_hưởng đến tế_bào trình_diện kháng_nguyên đuôi gai và thường bị chẩn_đoán nhầm. Phẫu_thuật được coi là phương_thức điều_trị tốt nhất, tiếp_theo là hóa_trị. Trong trường_hợp của chúng_tôi, phẫu_thuật cắt bỏ không_thể thực_hiện được, do đó bệnh_nhân được hóa_trị hai dòng, sau đó là cấy_ghép tủy xương, sau đó là hóa_trị ba với đáp_ứng trao_đổi chất hoàn_toàn được thấy trên'},
|
39 |
+
{'score': 0.13326583802700043,
|
40 |
+
'token': 83,
|
41 |
+
'token_str': 'việc',
|
42 |
+
'sequence': 'Chúng_tôi mô_tả một trường_hợp bệnh_nhân nữ 44 tuổi được chẩn_đoán sarcoma tế_bào tua nang ( FDCS ). FDCS là bệnh rất hiếm ảnh_hưởng đến tế_bào trình_diện kháng_nguyên đuôi gai và thường bị chẩn_đoán nhầm. Phẫu_thuật được coi là phương_thức điều_trị tốt nhất, tiếp_theo là hóa_trị. Trong trường_hợp của chúng_tôi, việc cắt bỏ không_thể thực_hiện được, do đó bệnh_nhân được hóa_trị hai dòng, sau đó là cấy_ghép tủy xương, sau đó là hóa_trị ba với đáp_ứng trao_đổi chất hoàn_toàn được thấy trên'},
|
43 |
+
{'score': 0.014797757379710674,
|
44 |
+
'token': 589,
|
45 |
+
'token_str': 'phương_pháp',
|
46 |
+
'sequence': 'Chúng_tôi mô_tả một trường_hợp bệnh_nhân nữ 44 tuổi được chẩn_đoán sarcoma tế_bào tua nang ( FDCS ). FDCS là bệnh rất hiếm ảnh_hưởng đến tế_bào trình_diện kháng_nguyên đuôi gai và thường bị chẩn_đoán nhầm. Phẫu_thuật được coi là phương_thức điều_trị tốt nhất, tiếp_theo là hóa_trị. Trong trường_hợp của chúng_tôi, phương_pháp cắt bỏ không_thể thực_hiện được, do đó bệnh_nhân được hóa_trị hai dòng, sau đó là cấy_ghép tủy xương, sau đó là hóa_trị ba với đáp_ứng trao_đổi chất hoàn_toàn được thấy trên'},
|
47 |
+
{'score': 0.011190224438905716,
|
48 |
+
'token': 23339,
|
49 |
+
'token_str': 'sinh_thiết',
|
50 |
+
'sequence': 'Chúng_tôi mô_tả một trường_hợp bệnh_nhân nữ 44 tuổi được chẩn_đoán sarcoma tế_bào tua nang ( FDCS ). FDCS là bệnh rất hiếm ảnh_hưởng đến tế_bào trình_diện kháng_nguyên đuôi gai và thường bị chẩn_đoán nhầm. Phẫu_thuật được coi là phương_thức điều_trị tốt nhất, tiếp_theo là hóa_trị. Trong trường_hợp của chúng_tôi, sinh_thiết cắt bỏ không_thể thực_hiện được, do đó bệnh_nhân được hóa_trị hai dòng, sau đó là cấy_ghép tủy xương, sau đó là hóa_trị ba với đáp_ứng trao_đổi chất hoàn_toàn được thấy trên'},
|
51 |
+
{'score': 0.006846326868981123,
|
52 |
+
'token': 454,
|
53 |
+
'token_str': 'điều_trị',
|
54 |
+
'sequence': 'Chúng_tôi mô_tả một trường_hợp bệnh_nhân nữ 44 tuổi được chẩn_đoán sarcoma tế_bào tua nang ( FDCS ). FDCS là bệnh rất hiếm ảnh_hưởng đến tế_bào trình_diện kháng_nguyên đuôi gai và thường bị chẩn_đoán nhầm. Phẫu_thuật được coi là phương_thức điều_trị tốt nhất, tiếp_theo là hóa_trị. Trong trường_hợp của chúng_tôi, điều_trị cắt bỏ không_thể thực_hiện được, do đó bệnh_nhân được hóa_trị hai dòng, sau đó là cấy_ghép tủy xương, sau đó là hóa_trị ba với đáp_ứng trao_đổi chất hoàn_toàn được thấy trên'}]
|
55 |
+
```
|
56 |
+
|
57 |
+
#### Get features:
|
58 |
+
- With PyTorch:
|
59 |
+
```python
|
60 |
+
from transformers import AutoTokenizer, AutoModel
|
61 |
+
tokenizer = AutoTokenizer.from_pretrained('manhtt-079/vipubmed-deberta-xsmall')
|
62 |
+
model = AutoModel.from_pretrained("manhtt-079/vipubmed-deberta-xsmall")
|
63 |
+
text = "Chúng_tôi mô_tả một trường_hợp bệnh_nhân nữ 44 tuổi được chẩn_đoán sarcoma tế_bào tua nang ( FDCS )."
|
64 |
+
model_inputs = tokenizer(text, return_tensors='pt')
|
65 |
+
outputs = model(**model_inputs)
|
66 |
+
```
|
67 |
+
|
68 |
+
- With TensorFlow
|
69 |
+
```python
|
70 |
+
from transformers import AutoTokenizer, TFAutoModel
|
71 |
+
tokenizer = AutoTokenizer.from_pretrained('manhtt-079/vipubmed-deberta-xsmall')
|
72 |
+
model = TFAutoModel.from_pretrained("manhtt-079/vipubmed-deberta-xsmall")
|
73 |
+
text = "Chúng_tôi mô_tả một trường_hợp bệnh_nhân nữ 44 tuổi được chẩn_đoán sarcoma tế_bào tua nang ( FDCS )"
|
74 |
+
model_inputs = tokenizer(text, return_tensors='tf')
|
75 |
+
outputs = model(**model_inputs)
|
76 |
+
```
|
77 |
+
|
78 |
+
## Training data
|
79 |
+
The ViPubMedDeBERTa model was pretrained on [ViPubmed](https://github.com/vietai/ViPubmed), a dataset consisting of 20M Vietnamese Biomedical abstracts generated by large scale translation.
|
80 |
+
|
81 |
+
## Training procedure
|
82 |
+
### Preprocessing
|
83 |
+
|
84 |
+
### Pretraining
|
85 |
+
We employ our model based on the [ViDeBERTa](https://github.com/HySonLab/ViDeBERTa) and leverage its checkpoint to continue pretraining. Our model was trained on a A100 GPU (40GB) for 220 thousand steps with `batch_size` of 24 and `gradient_accumulation_steps` is 4 (total of 96). The sequence length was limited to 512 tokens. The model peak learning rate of 1e-4.
|
86 |
+
|
87 |
+
## Evaluation results
|