manhtt-079 commited on
Commit
95ebc00
·
1 Parent(s): 17d2017

update README

Browse files
Files changed (1) hide show
  1. README.md +71 -0
README.md CHANGED
@@ -4,9 +4,13 @@ language:
4
  metrics:
5
  - f1
6
  pipeline_tag: token-classification
 
 
 
7
  tags:
8
  - transformer
9
  - vietnamese
 
10
  - nlp
11
  - bert
12
  - deberta
@@ -14,3 +18,70 @@ tags:
14
  ---
15
 
16
  # ViPubMedDeBERTa: A Vietnamese pretrained biomedical language representation model
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4
  metrics:
5
  - f1
6
  pipeline_tag: token-classification
7
+ license: mit
8
+ datasets:
9
+ - VietAI/vi_pubmed
10
  tags:
11
  - transformer
12
  - vietnamese
13
+ -
14
  - nlp
15
  - bert
16
  - deberta
 
18
  ---
19
 
20
  # ViPubMedDeBERTa: A Vietnamese pretrained biomedical language representation model
21
+
22
+
23
+ ## Model description
24
+
25
+ ## Model variations
26
+
27
+ ## How to use
28
+ You can use this model directly with a pipeline for masked language modeling:
29
+ ```python
30
+ >>> from transformers import pipeline
31
+ >>> model = pipeline('fill-mask', model='manhtt-079/vipubmed-deberta-xsmall')
32
+ >>> text_with_mask = """Chúng_tôi mô_tả một trường_hợp bệnh_nhân nữ 44 tuổi được chẩn_đoán sarcoma tế_bào tua nang ( FDCS ) . FDCS là bệnh rất hiếm ảnh_hưởng đến tế_bào trình_diện kháng_nguyên đuôi gai và thường bị chẩn_đoán nhầm . Phẫu_thuật được coi là phương_thức điều_trị tốt nhất , tiếp_theo là hóa_trị . Trong trường_hợp của chúng_tôi , [phẫu_thuật] cắt bỏ không_thể thực_hiện được , do đó bệnh_nhân được hóa_trị hai dòng , sau đó là cấy_ghép tủy xương , sau đó là hóa_trị ba với đáp_ứng trao_đổi chất hoàn_toàn được thấy trên"""
33
+ >>> model(text_with_mask)
34
+
35
+ [{'score': 0.7800273299217224,
36
+ 'token': 1621,
37
+ 'token_str': 'phẫu_thuật',
38
+ 'sequence': 'Chúng_tôi mô_tả một trường_hợp bệnh_nhân nữ 44 tuổi được chẩn_đoán sarcoma tế_bào tua nang ( FDCS ). FDCS là bệnh rất hiếm ảnh_hưởng đến tế_bào trình_diện kháng_nguyên đuôi gai và thường bị chẩn_đoán nhầm. Phẫu_thuật được coi là phương_thức điều_trị tốt nhất, tiếp_theo là hóa_trị. Trong trường_hợp của chúng_tôi, phẫu_thuật cắt bỏ không_thể thực_hiện được, do đó bệnh_nhân được hóa_trị hai dòng, sau đó là cấy_ghép tủy xương, sau đó là hóa_trị ba với đáp_ứng trao_đổi chất hoàn_toàn được thấy trên'},
39
+ {'score': 0.13326583802700043,
40
+ 'token': 83,
41
+ 'token_str': 'việc',
42
+ 'sequence': 'Chúng_tôi mô_tả một trường_hợp bệnh_nhân nữ 44 tuổi được chẩn_đoán sarcoma tế_bào tua nang ( FDCS ). FDCS là bệnh rất hiếm ảnh_hưởng đến tế_bào trình_diện kháng_nguyên đuôi gai và thường bị chẩn_đoán nhầm. Phẫu_thuật được coi là phương_thức điều_trị tốt nhất, tiếp_theo là hóa_trị. Trong trường_hợp của chúng_tôi, việc cắt bỏ không_thể thực_hiện được, do đó bệnh_nhân được hóa_trị hai dòng, sau đó là cấy_ghép tủy xương, sau đó là hóa_trị ba với đáp_ứng trao_đổi chất hoàn_toàn được thấy trên'},
43
+ {'score': 0.014797757379710674,
44
+ 'token': 589,
45
+ 'token_str': 'phương_pháp',
46
+ 'sequence': 'Chúng_tôi mô_tả một trường_hợp bệnh_nhân nữ 44 tuổi được chẩn_đoán sarcoma tế_bào tua nang ( FDCS ). FDCS là bệnh rất hiếm ảnh_hưởng đến tế_bào trình_diện kháng_nguyên đuôi gai và thường bị chẩn_đoán nhầm. Phẫu_thuật được coi là phương_thức điều_trị tốt nhất, tiếp_theo là hóa_trị. Trong trường_hợp của chúng_tôi, phương_pháp cắt bỏ không_thể thực_hiện được, do đó bệnh_nhân được hóa_trị hai dòng, sau đó là cấy_ghép tủy xương, sau đó là hóa_trị ba với đáp_ứng trao_đổi chất hoàn_toàn được thấy trên'},
47
+ {'score': 0.011190224438905716,
48
+ 'token': 23339,
49
+ 'token_str': 'sinh_thiết',
50
+ 'sequence': 'Chúng_tôi mô_tả một trường_hợp bệnh_nhân nữ 44 tuổi được chẩn_đoán sarcoma tế_bào tua nang ( FDCS ). FDCS là bệnh rất hiếm ảnh_hưởng đến tế_bào trình_diện kháng_nguyên đuôi gai và thường bị chẩn_đoán nhầm. Phẫu_thuật được coi là phương_thức điều_trị tốt nhất, tiếp_theo là hóa_trị. Trong trường_hợp của chúng_tôi, sinh_thiết cắt bỏ không_thể thực_hiện được, do đó bệnh_nhân được hóa_trị hai dòng, sau đó là cấy_ghép tủy xương, sau đó là hóa_trị ba với đáp_ứng trao_đổi chất hoàn_toàn được thấy trên'},
51
+ {'score': 0.006846326868981123,
52
+ 'token': 454,
53
+ 'token_str': 'điều_trị',
54
+ 'sequence': 'Chúng_tôi mô_tả một trường_hợp bệnh_nhân nữ 44 tuổi được chẩn_đoán sarcoma tế_bào tua nang ( FDCS ). FDCS là bệnh rất hiếm ảnh_hưởng đến tế_bào trình_diện kháng_nguyên đuôi gai và thường bị chẩn_đoán nhầm. Phẫu_thuật được coi là phương_thức điều_trị tốt nhất, tiếp_theo là hóa_trị. Trong trường_hợp của chúng_tôi, điều_trị cắt bỏ không_thể thực_hiện được, do đó bệnh_nhân được hóa_trị hai dòng, sau đó là cấy_ghép tủy xương, sau đó là hóa_trị ba với đáp_ứng trao_đổi chất hoàn_toàn được thấy trên'}]
55
+ ```
56
+
57
+ #### Get features:
58
+ - With PyTorch:
59
+ ```python
60
+ from transformers import AutoTokenizer, AutoModel
61
+ tokenizer = AutoTokenizer.from_pretrained('manhtt-079/vipubmed-deberta-xsmall')
62
+ model = AutoModel.from_pretrained("manhtt-079/vipubmed-deberta-xsmall")
63
+ text = "Chúng_tôi mô_tả một trường_hợp bệnh_nhân nữ 44 tuổi được chẩn_đoán sarcoma tế_bào tua nang ( FDCS )."
64
+ model_inputs = tokenizer(text, return_tensors='pt')
65
+ outputs = model(**model_inputs)
66
+ ```
67
+
68
+ - With TensorFlow
69
+ ```python
70
+ from transformers import AutoTokenizer, TFAutoModel
71
+ tokenizer = AutoTokenizer.from_pretrained('manhtt-079/vipubmed-deberta-xsmall')
72
+ model = TFAutoModel.from_pretrained("manhtt-079/vipubmed-deberta-xsmall")
73
+ text = "Chúng_tôi mô_tả một trường_hợp bệnh_nhân nữ 44 tuổi được chẩn_đoán sarcoma tế_bào tua nang ( FDCS )"
74
+ model_inputs = tokenizer(text, return_tensors='tf')
75
+ outputs = model(**model_inputs)
76
+ ```
77
+
78
+ ## Training data
79
+ The ViPubMedDeBERTa model was pretrained on [ViPubmed](https://github.com/vietai/ViPubmed), a dataset consisting of 20M Vietnamese Biomedical abstracts generated by large scale translation.
80
+
81
+ ## Training procedure
82
+ ### Preprocessing
83
+
84
+ ### Pretraining
85
+ We employ our model based on the [ViDeBERTa](https://github.com/HySonLab/ViDeBERTa) and leverage its checkpoint to continue pretraining. Our model was trained on a A100 GPU (40GB) for 220 thousand steps with `batch_size` of 24 and `gradient_accumulation_steps` is 4 (total of 96). The sequence length was limited to 512 tokens. The model peak learning rate of 1e-4.
86
+
87
+ ## Evaluation results