|
--- |
|
license: mit |
|
datasets: |
|
- TTA-DQA/hate_sentence |
|
language: |
|
- ko |
|
metrics: |
|
- accuracy |
|
base_model: |
|
- beomi/KcELECTRA-base-v2022 |
|
tags: |
|
- Text-Classification |
|
- Hate-Detection |
|
- Hate-Senetence-Detection |
|
--- |
|
|
|
# ๋ชจ๋ธ ์์ธ ์ ๋ณด ([readme.md - English version](https://huggingface.co/TTA-DQA/HateDetection-KcElectra-FineTuning/blob/main/readme-eng.md)) |
|
|
|
### 1. ๊ฐ์ |
|
|
|
์ด ๋ชจ๋ธ์ ํ๊ตญ์ด ๋ฌธ์ฅ ๋ด ์ ํดํํ์ ์ ๋ฌด๋ฅผ ๊ฒ์ถํ๊ธฐ ์ํด ํ์ต๋ ๋ชจ๋ธ์
๋๋ค. <br> |
|
binary classification์ ์ํํ๋ฉฐ, ์ ํดํํ์ด ํฌํจ๋์๊ฑฐ๋ ์ผ๋ฐ์ ์ธ ๋ฌธ์ฅ์ธ์ง ํ๋จ(๋ถ๋ฅ)ํ๋ ๋ชจ๋ธ์
๋๋ค. <br> |
|
AI-Task๋ก๋ text-classification์ ํด๋นํฉ๋๋ค. ์ฌ์ฉํ๋ ๋ฐ์ดํฐ์
์ TTA-DQA/hate_sentence ์
๋๋ค. <br> |
|
|
|
ํด๋์ค ๊ตฌ์ฑ์ ์๋์ ๊ฐ์ต๋๋ค. |
|
- "0": "no_hate" |
|
- "1": "hate" |
|
|
|
### 2. ํ์ต์ ๋ณด |
|
|
|
- Base Model: KcElectra (a pre-trained Korean language model based on Electra) |
|
- Source: beomi/KcELECTRA-base-v2022(https://huggingface.co/beomi/KcELECTRA-base-v2022) |
|
- Model Type: Casual Language Model |
|
- Pre-training (Korean): ์ฝ 17GB (over 180 million sentences) |
|
- Fine-tuning (hate dataset): ์ฝ 22.3MB(TTA-DQA/hate_sentence) |
|
- Learning Rate: 5e-6 |
|
- Weight Decay: 0.01 |
|
- Epochs: 20 |
|
- Batch Size: 16 |
|
- Data Loader Workers: 2 |
|
- Tokenizer: BertWordPieceTokenizer |
|
- Model Size: Approximately 512MB |
|
|
|
### 3. ์๊ตฌ์ฌํญ |
|
|
|
- pytorch ~= 1.8.0 |
|
- transformers ~= 4.11.3 |
|
- emoji ~= 0.6.0 |
|
- soynlp ~= 0.0.493 |
|
|
|
### 4. Quick Start |
|
|
|
- python |
|
```python |
|
from transformers import AutoTokenizer, AutoModel |
|
|
|
tokenizer = AutoTokenizer.from_pretrained("TTA-DQA/HateDetection-KcElectra-FineTuning") |
|
model = AutoModel.from_pretrained("TTA-DQA/HateDetection-KcElectra-FineTuning") |
|
|
|
``` |
|
|
|
### 5. Citation |
|
|
|
- ์ด ๋ชจ๋ธ์ ์ด๊ฑฐ๋AI ํ์ต์ฉ ๋ฐ์ดํฐ ํ์ง๊ฒ์ฆ ์ฌ์
(2024๋
๋ ์ด๊ฑฐ๋AI ํ์ต์ฉ ํ์ง๊ฒ์ฆ)์ ์ํด์ ๊ตฌ์ถ๋์์ต๋๋ค |
|
|
|
### 6. ํ๊ณ์ฑ, ์ํ์ฑ, ํธ์ฑ ๋ฑ ๋ช
์ |
|
|
|
- ๋ณธ ๋ชจ๋ธ์ ๊ฐ ํด๋์ค์ ๋ฐ์ดํฐ๋ฅผ ํธํฅ๋๊ฒ ํ์ตํ์ง๋ ์์์ผ๋ ์ธ์ด์ , ์ธ์ดํด์์ ํน์ฑ์ ์ํด ๋ ์ด๋ธ์ ๋ํ ์ด๊ฒฌ์ด ์์ ์ ์์ต๋๋ค. |
|
- ์ ํดํํ์ ๊ฒฝ์ฐ ์ธ์ด, ๋ฌธํ, ์ ์ฉ ๋ถ์ผ, ๊ฐ์ธ์ ๊ฒฌํด์ ๋ฐ๋ผ ์ฃผ๊ด์ ์ธ ๋ถ๋ถ์ด ์์ด ๊ฒฐ๊ณผ์ ๋ํ ํธํฅ ๋๋ ๋
ผ๋์ด ์์ ์ ์์ต๋๋ค. |
|
- ๋ฐ๋ผ์, ๊ฒฐ๊ณผ๊ฐ ํ๊ตญ์ด์ ๋ํ ์ ๋์ ์ธ ์ ํดํํ์ ๊ธฐ์ค์ด ๋ ์ ๋ ์์ต๋๋ค. |
|
|
|
# ๋ชจ๋ธ ์ฑ๋ฅ ๊ฒฐ๊ณผ |
|
- ๋ถ๋ฅ ์ ํ : binary classification(text-classification) |
|
- f1-score : 0.9928 |
|
- accuracy : 0.9928 |
|
|