모델 상세 정보 (readme.md - English version)

1. 개요

이 모델은 한국어 문장 내 유해표현의 유무를 검출하기 위해 학습된 모델입니다.
binary classification을 수행하며, 유해표현이 포함되었거나 일반적인 문장인지 판단(분류)하는 모델입니다.
AI-Task로는 text-classification에 해당합니다. 사용하는 데이터셋은 TTA-DQA/hate_sentence 입니다.

클래스 구성은 아래와 같습니다.

"0": "no_hate"
"1": "hate"

2. 학습정보

Base Model: KcElectra (a pre-trained Korean language model based on Electra)
Source: beomi/KcELECTRA-base-v2022(https://huggingface.co/beomi/KcELECTRA-base-v2022)
Model Type: Casual Language Model
Pre-training (Korean): 약 17GB (over 180 million sentences)
Fine-tuning (hate dataset): 약 22.3MB(TTA-DQA/hate_sentence)
Learning Rate: 5e-6
Weight Decay: 0.01
Epochs: 20
Batch Size: 16
Data Loader Workers: 2
Tokenizer: BertWordPieceTokenizer
Model Size: Approximately 512MB

3. 요구사항

pytorch ~= 1.8.0
transformers ~= 4.11.3
emoji ~= 0.6.0
soynlp ~= 0.0.493

4. Quick Start

python

from transformers import AutoTokenizer, AutoModel
  
tokenizer = AutoTokenizer.from_pretrained("TTA-DQA/HateDetection-KcElectra-FineTuning")
model = AutoModel.from_pretrained("TTA-DQA/HateDetection-KcElectra-FineTuning")

5. Citation

이 모델은 초거대AI 학습용 데이터 품질검증 사업(2024년도 초거대AI 학습용 품질검증)에 의해서 구축되었습니다

6. 한계성, 위험성, 편성 등 명시

본 모델은 각 클래스의 데이터를 편향되게 학습하지는 않았으나 언어적, 언어해석적 특성에 의해 레이블에 대한 이견이 있을 수 있습니다.
유해표현의 경우 언어, 문화, 적용 분야, 개인적 견해에 따라 주관적인 부분이 있어 결과에 대한 편향 또는 논란이 있을 수 있습니다.
따라서, 결과가 한국어에 대한 절대적인 유해표현의 기준이 될 수 는 없습니다.

모델 성능 결과

분류 유형 : binary classification(text-classification)
f1-score : 0.9928
accuracy : 0.9928

TTA-DQA
/

HateDetection-KcElectra-FineTuning