TTA-DQA
/

HateDetection-KcElectra-FineTuning

Text-Classification

Hate-Senetence-Detection

Model card Files Files and versions Community

HateDetection-KcElectra-FineTuning / README.md

TTA-DQA's picture

Update README.md

2a5373f verified about 2 months ago

|

history blame contribute delete

2.54 kB

	---
	license: mit
	datasets:
	- TTA-DQA/hate_sentence
	language:
	- ko
	metrics:
	- accuracy
	base_model:
	- beomi/KcELECTRA-base-v2022
	tags:
	- Text-Classification
	- Hate-Detection
	- Hate-Senetence-Detection
	---

	# 모델 상세 정보 ([readme.md - English version](https://huggingface.co/TTA-DQA/HateDetection-KcElectra-FineTuning/blob/main/readme-eng.md))

	### 1. 개요

	이 모델은 한국어 문장 내 유해표현의 유무를 검출하기 위해 학습된 모델입니다. <br>
	binary classification을 수행하며, 유해표현이 포함되었거나 일반적인 문장인지 판단(분류)하는 모델입니다. <br>
	AI-Task로는 text-classification에 해당합니다. 사용하는 데이터셋은 TTA-DQA/hate_sentence 입니다. <br>

	클래스 구성은 아래와 같습니다.
	- "0": "no_hate"
	- "1": "hate"

	### 2. 학습정보

	- Base Model: KcElectra (a pre-trained Korean language model based on Electra)
	- Source: beomi/KcELECTRA-base-v2022(https://huggingface.co/beomi/KcELECTRA-base-v2022)
	- Model Type: Casual Language Model
	- Pre-training (Korean): 약 17GB (over 180 million sentences)
	- Fine-tuning (hate dataset): 약 22.3MB(TTA-DQA/hate_sentence)
	- Learning Rate: 5e-6
	- Weight Decay: 0.01
	- Epochs: 20
	- Batch Size: 16
	- Data Loader Workers: 2
	- Tokenizer: BertWordPieceTokenizer
	- Model Size: Approximately 512MB

	### 3. 요구사항

	- pytorch ~= 1.8.0
	- transformers ~= 4.11.3
	- emoji ~= 0.6.0
	- soynlp ~= 0.0.493

	### 4. Quick Start

	- python
	```python
	from transformers import AutoTokenizer, AutoModel

	tokenizer = AutoTokenizer.from_pretrained("TTA-DQA/HateDetection-KcElectra-FineTuning")
	model = AutoModel.from_pretrained("TTA-DQA/HateDetection-KcElectra-FineTuning")

	```

	### 5. Citation

	- 이 모델은 초거대AI 학습용 데이터 품질검증 사업(2024년도 초거대AI 학습용 품질검증)에 의해서 구축되었습니다

	### 6. 한계성, 위험성, 편성 등 명시

	- 본 모델은 각 클래스의 데이터를 편향되게 학습하지는 않았으나 언어적, 언어해석적 특성에 의해 레이블에 대한 이견이 있을 수 있습니다.
	- 유해표현의 경우 언어, 문화, 적용 분야, 개인적 견해에 따라 주관적인 부분이 있어 결과에 대한 편향 또는 논란이 있을 수 있습니다.
	- 따라서, 결과가 한국어에 대한 절대적인 유해표현의 기준이 될 수 는 없습니다.

	# 모델 성능 결과
	- 분류 유형 : binary classification(text-classification)
	- f1-score : 0.9928
	- accuracy : 0.9928