모델 상세 정보 (readme.md English Version)

1. 개요

이 모델은 한국어 문장 내 유해표현이 포함되어있는지, 그리고 유해표현의 유형을 검출하기 위해 학습된 모델입니다.
multi-label classification을 수행하며, 유해표현이 포함되었거나 일반적인 문장인지 판단(분류)하는 모델입니다.
AI-Task로는 text-classification(multi-label)에 해당합니다. 사용하는 데이터셋은 TTA-DQA/hate_sentence 입니다.

클래스 구성은 아래와 같습니다.

0: 'insult'
1: 'abuse',
2: 'obscenity'
3: 'TVPC' #Threats of violence/promotion of crime
4: 'sexuality'
5: 'age'
6: 'race_region' #race and region
7: 'disabled'
8: 'religion'
9: 'politics'
10: 'job'
11:'no_hate'

2. Training Information

Base Model: KcElectra (a pre-trained Korean language model based on Electra)
Source: beomi/KcELECTRA-base-v2022(https://huggingface.co/beomi/KcELECTRA-base-v2022)
Model Type: Casual Language Model
Pre-training (Korean): 약 17GB (over 180 million sentences)
Fine-tuning (hate dataset): 약 28.9MB (TTA-DQA/hate_sentence)
Learning Rate: 5e-6
Weight Decay: 0.01
Epochs: 30
Batch Size: 16
Data Loader Workers: 2
Tokenizer: BertWordPieceTokenizer
Model Size: Approximately 511MB

3. 요구사항

pytorch ~= 1.8.0
transformers ~= 4.11.3
emoji ~= 0.6.0
soynlp ~= 0.0.493

4. Quick Start

python

from transformers import AutoTokenizer, AutoModel
  
tokenizer = AutoTokenizer.from_pretrained("TTA-DQA/Hate-Detection-MultiLabel-KcElectra-FineTuning")
model = AutoModel.from_pretrained("TTA-DQA/Hate-Detection-MultiLabel-KcElectra-FineTuning")

5. Citation

이 모델은 초거대AI 학습용 데이터 품질검증 사업(2024년도 초거대AI 학습용 품질검증)에 의해서 구축되었습니다

6. 편향성, 위험성, 제한성 등 표시

본 모델은 각 클래스 별 데이터의 양이 다소 편향적인 부분이 있습니다.
또한 클래스 기준에 대해서, 언어적, 언어해석적 특성에 의해 레이블에 대한 이견이 있을 수 있습니다.
유해표현의 경우 언어, 문화, 적용 분야, 개인적 견해에 따라 주관적인 부분이 있어 결과에 대한 편향 또는 논란이 있을 수 있습니다.
따라서, 결과가 한국어에 대한 절대적인 유해표현의 기준이 될 수 는 없습니다.

실험결과

type : multi-label classification(text-classification)
f1-score : 0.8279
accuracy : 0.7013

TTA-DQA
/

Hate-Detection-MultiLabel-KcElectra-FineTuning