|
--- |
|
language: |
|
- vi |
|
- en |
|
library_name: transformers |
|
pipeline_tag: text-classification |
|
tags: |
|
- Vietnamese |
|
- Vietnamese (without accents) |
|
- English |
|
- Muong |
|
- Muong (without accents) |
|
- Language detection |
|
- Analysis |
|
--- |
|
|
|
# Language detection - Nhận diện ngôn ngữ |
|
## Nhận diện ngôn ngữ hỗ trợ các ngôn ngữ: |
|
- Tiếng Việt |
|
- Tiếng Mường |
|
- Tiếng Anh |
|
- Tiếng Việt (không dấu) |
|
- Tiếng Mường (không dấu) |
|
|
|
|
|
## Model description |
|
|
|
Mô hình có tác dụng nhận diện ngôn ngữ hỗ trợ các ngôn ngữ: |
|
- Tiếng Việt |
|
- Tiếng Mường |
|
- Tiếng Anh |
|
- Tiếng Việt (không dấu) |
|
- Tiếng Mường (không dấu) |
|
|
|
Ví dụ: |
|
|
|
Xin chào, bạn hôm nay thế nào? |
|
```text |
|
**Tiếng Việt phổ thông: 99.99054670333862** |
|
Tiếng Mường: 0.003272495450801216 |
|
Tiếng Anh: 0.0015341358448495157 |
|
Tiếng Việt phổ thông (không dấu): 0.0029244738470879383 |
|
Tiếng Mường (không dấu): 0.001718075327516999 |
|
``` |
|
|
|
Xin chao, ban hom nay the nao? |
|
```text |
|
Tiếng Việt phổ thông: 0.002801197115331888 |
|
Tiếng Mường: 0.002109220076818019 |
|
Tiếng Anh: 0.0010244550139759667 |
|
**Tiếng Việt phổ thông (không dấu): 99.98856782913208** |
|
Tiếng Mường (không dấu): 0.005498817336047068 |
|
``` |
|
|
|
Hi, how do you do? |
|
```text |
|
Tiếng Việt phổ thông: 6.934634910749082e-06 |
|
Tiếng Mường: 7.518105604731318e-06 |
|
**Tiếng Anh: 99.99995231628418** |
|
Tiếng Việt phổ thông (không dấu): 1.4838792594673578e-05 |
|
Tiếng Mường (không dấu): 1.1849249403894646e-05 |
|
``` |
|
|
|
Ủn cha̒w tưở da̭. |
|
```text |
|
Tiếng Việt phổ thông: 0.054886669386178255 |
|
**Tiếng Mường: 99.93938207626343** |
|
Tiếng Anh: 0.0010535893125052098 |
|
Tiếng Việt phổ thông (không dấu): 0.0021749850930063985 |
|
Tiếng Mường (không dấu): 0.002491030318196863 |
|
``` |
|
|
|
Un chaw tuo da. |
|
```text |
|
Tiếng Việt phổ thông: 0.0016880025214049965 |
|
Tiếng Mường: 0.003152283898089081 |
|
Tiếng Anh: 0.001133861587732099 |
|
Tiếng Việt phổ thông (không dấu): 0.004193674249108881 |
|
**Tiếng Mường (không dấu): 99.98983144760132** |
|
``` |
|
|
|
## Base model |
|
|
|
Mô hình được đạo tạo dựa trên cơ sở của model google-bert/bert-base-multilingual-cased |
|
|
|
## Training data |
|
|
|
Chưa thể công khai dữ liệu training |
|
|
|
## Model variations |
|
|
|
Chưa xác định |
|
|
|
## Intended uses & limitations |
|
|
|
Chưa xác định |
|
|
|
## License |
|
|
|
Đây là một open-source library, bạn có thể sử dụng nó với bất kì mục đích nào. |
|
Rất cảm ơn nếu bạn ghi nguồn khi sử dụng mô hình này (nếu không ghi cũng không sao). |
|
|
|
### How to use |
|
|
|
```python |
|
import torch |
|
from transformers import AutoTokenizer, AutoModelForSequenceClassification |
|
|
|
tokenizer = AutoTokenizer.from_pretrained("mr4/language_classification") |
|
model = AutoModelForSequenceClassification.from_pretrained("mr4/language_classification") |
|
|
|
text = "Xin chào, tôi tên là Đặng Việt Dũng." |
|
inputs = tokenizer(text, return_tensors="pt") |
|
|
|
with torch.no_grad(): |
|
logits = model(**inputs).logits |
|
|
|
predictions = torch.nn.functional.softmax(logits, dim=-1) |
|
print(predictions) |
|
print(">>>>>>>>>>>>>>>>>>>>>>>>>>") |
|
for i, prediction in enumerate(predictions): |
|
print(text) |
|
for j, value in enumerate(prediction): |
|
print(f" {id2label[j]}: {value.item() * 100}") |
|
print("<<<<<<<<<<<<<<<<<<<<<<<<<<") |
|
``` |
|
|
|
## Liên hệ |
|
|
|
Mọi thông tin liên quan có thể liên hệ qua email: [email protected]. |