language-detection / README.md
mr4's picture
Update README.md
3393702 verified
---
language:
- vi
- en
library_name: transformers
pipeline_tag: text-classification
tags:
- Vietnamese
- Vietnamese (without accents)
- English
- Muong
- Muong (without accents)
- Language detection
- Analysis
---
# Language detection - Nhận diện ngôn ngữ
## Nhận diện ngôn ngữ hỗ trợ các ngôn ngữ:
- Tiếng Việt
- Tiếng Mường
- Tiếng Anh
- Tiếng Việt (không dấu)
- Tiếng Mường (không dấu)
## Model description
Mô hình có tác dụng nhận diện ngôn ngữ hỗ trợ các ngôn ngữ:
- Tiếng Việt
- Tiếng Mường
- Tiếng Anh
- Tiếng Việt (không dấu)
- Tiếng Mường (không dấu)
Ví dụ:
Xin chào, bạn hôm nay thế nào?
```text
**Tiếng Việt phổ thông: 99.99054670333862**
Tiếng Mường: 0.003272495450801216
Tiếng Anh: 0.0015341358448495157
Tiếng Việt phổ thông (không dấu): 0.0029244738470879383
Tiếng Mường (không dấu): 0.001718075327516999
```
Xin chao, ban hom nay the nao?
```text
Tiếng Việt phổ thông: 0.002801197115331888
Tiếng Mường: 0.002109220076818019
Tiếng Anh: 0.0010244550139759667
**Tiếng Việt phổ thông (không dấu): 99.98856782913208**
Tiếng Mường (không dấu): 0.005498817336047068
```
Hi, how do you do?
```text
Tiếng Việt phổ thông: 6.934634910749082e-06
Tiếng Mường: 7.518105604731318e-06
**Tiếng Anh: 99.99995231628418**
Tiếng Việt phổ thông (không dấu): 1.4838792594673578e-05
Tiếng Mường (không dấu): 1.1849249403894646e-05
```
Ủn cha̒w tưở da̭.
```text
Tiếng Việt phổ thông: 0.054886669386178255
**Tiếng Mường: 99.93938207626343**
Tiếng Anh: 0.0010535893125052098
Tiếng Việt phổ thông (không dấu): 0.0021749850930063985
Tiếng Mường (không dấu): 0.002491030318196863
```
Un chaw tuo da.
```text
Tiếng Việt phổ thông: 0.0016880025214049965
Tiếng Mường: 0.003152283898089081
Tiếng Anh: 0.001133861587732099
Tiếng Việt phổ thông (không dấu): 0.004193674249108881
**Tiếng Mường (không dấu): 99.98983144760132**
```
## Base model
Mô hình được đạo tạo dựa trên cơ sở của model google-bert/bert-base-multilingual-cased
## Training data
Chưa thể công khai dữ liệu training
## Model variations
Chưa xác định
## Intended uses & limitations
Chưa xác định
## License
Đây là một open-source library, bạn có thể sử dụng nó với bất kì mục đích nào.
Rất cảm ơn nếu bạn ghi nguồn khi sử dụng mô hình này (nếu không ghi cũng không sao).
### How to use
```python
import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("mr4/language_classification")
model = AutoModelForSequenceClassification.from_pretrained("mr4/language_classification")
text = "Xin chào, tôi tên là Đặng Việt Dũng."
inputs = tokenizer(text, return_tensors="pt")
with torch.no_grad():
logits = model(**inputs).logits
predictions = torch.nn.functional.softmax(logits, dim=-1)
print(predictions)
print(">>>>>>>>>>>>>>>>>>>>>>>>>>")
for i, prediction in enumerate(predictions):
print(text)
for j, value in enumerate(prediction):
print(f" {id2label[j]}: {value.item() * 100}")
print("<<<<<<<<<<<<<<<<<<<<<<<<<<")
```
## Liên hệ
Mọi thông tin liên quan có thể liên hệ qua email: [email protected].