---
library_name: transformers
tags:
- toxicity-detection
- NLP
- classification
- fine-tuning
license: mit
language:
- pt
metrics:
- accuracy
base_model:
- google-bert/bert-base-uncased
pipeline_tag: text-classification
---

# Model Card for BERT Uncased Fine-Tuned on Toxicity Detection

## Model Details

### Model Description

Este modelo é um BERT base uncased fine-tuned para a detecção de toxicidade em tweets. Ele foi treinado em um dataset anotado com classificação binária: 0 para tweets não tóxicos e 1 para tweets tóxicos.

- **Desenvolvido por:** Carlos André Dos Santos Lima
- **Tipo de modelo:** BERT (base-uncased)
- **Idiomas:** Portugês
- **Licença:** MIT
- **Fine-tuned a partir de:** bert-base-uncased


## Uses

### Uso Direto

Este modelo pode ser usado para identificar tweets tóxicos em Português. Pode ser aplicado diretamente em moderação de conteúdo, análise de sentimentos e detecção de discurso de ódio.


### Uso Fora do Escopo

O modelo pode apresentar viés ao classificar tweets fora do contexto do dataset de treinamento. Ele não é adequado para tomada de decisões críticas sem revisão humana.

## Bias, Risks, and Limitations

- O modelo pode apresentar viés em suas predições devido à distribuição do dataset de treinamento.
- Pode não generalizar bem para contextos diferentes daqueles presentes no dataset.
- Recomenda-se revisão humana para evitar classificações injustas.

## How to Get Started with the Model

```python
from transformers import pipeline

toxicity_classifier = pipeline("text-classification", model="[modelo no Hugging Face]")

text = "This is an example tweet."
result = toxicity_classifier(text)
print(result)
```

## Training Details

### Training Data

O modelo foi treinado em um dataset contendo tweets anotados manualmente como tóxicos ou não tóxicos.

Arquivos do dataset:
- `train.csv` - Dados de treino
- `test.csv` - Dados de teste
- `sample_submission.csv` - Exemplo de submissão

Colunas:
- `id` - Identificador do tweet
- `text` - Conteúdo do tweet
- `label` - 0: não tóxico, 1: tóxico

### Training Procedure

- **Hardware:** GPU T4
- **Hiperparâmetros:**
  - Batch size: 64
  - Learning rate: 2e-5
  - Epochs: 5
  - Otimizador: AdamW

## Evaluation

### Dados e Métricas

- Dataset de teste utilizado para avaliação.
- Principais métricas:
  - Acurácia
  - Precisão
  - Recall
  - F1-score


## Citation

Se usar este modelo, cite da seguinte forma:

```bibtex
@article{Carlos2025,
  title={Fine-Tuning BERT for Toxicity Detection},
  author={Carlos André Dos Santos Lima},
  journal={Hugging Face Model Hub},
  year={2025}
}
```

## Contato

Caso tenha dúvidas ou sugestões, entre em contato pelo e-mail: casl@aluno.ifal.edu.br ou abra uma issue no repositório do modelo no Hugging Face.