--- library_name: transformers tags: - toxicity-detection - NLP - classification - fine-tuning license: mit language: - pt metrics: - accuracy base_model: - google-bert/bert-base-uncased pipeline_tag: text-classification --- # Model Card for BERT Uncased Fine-Tuned on Toxicity Detection ## Model Details ### Model Description Este modelo é um BERT base uncased fine-tuned para a detecção de toxicidade em tweets. Ele foi treinado em um dataset anotado com classificação binária: 0 para tweets não tóxicos e 1 para tweets tóxicos. - **Desenvolvido por:** Carlos André Dos Santos Lima - **Tipo de modelo:** BERT (base-uncased) - **Idiomas:** Portugês - **Licença:** MIT - **Fine-tuned a partir de:** bert-base-uncased ## Uses ### Uso Direto Este modelo pode ser usado para identificar tweets tóxicos em Português. Pode ser aplicado diretamente em moderação de conteúdo, análise de sentimentos e detecção de discurso de ódio. ### Uso Fora do Escopo O modelo pode apresentar viés ao classificar tweets fora do contexto do dataset de treinamento. Ele não é adequado para tomada de decisões críticas sem revisão humana. ## Bias, Risks, and Limitations - O modelo pode apresentar viés em suas predições devido à distribuição do dataset de treinamento. - Pode não generalizar bem para contextos diferentes daqueles presentes no dataset. - Recomenda-se revisão humana para evitar classificações injustas. ## How to Get Started with the Model ```python from transformers import pipeline toxicity_classifier = pipeline("text-classification", model="[modelo no Hugging Face]") text = "This is an example tweet." result = toxicity_classifier(text) print(result) ``` ## Training Details ### Training Data O modelo foi treinado em um dataset contendo tweets anotados manualmente como tóxicos ou não tóxicos. Arquivos do dataset: - `train.csv` - Dados de treino - `test.csv` - Dados de teste - `sample_submission.csv` - Exemplo de submissão Colunas: - `id` - Identificador do tweet - `text` - Conteúdo do tweet - `label` - 0: não tóxico, 1: tóxico ### Training Procedure - **Hardware:** GPU T4 - **Hiperparâmetros:** - Batch size: 64 - Learning rate: 2e-5 - Epochs: 5 - Otimizador: AdamW ## Evaluation ### Dados e Métricas - Dataset de teste utilizado para avaliação. - Principais métricas: - Acurácia - Precisão - Recall - F1-score ## Citation Se usar este modelo, cite da seguinte forma: ```bibtex @article{Carlos2025, title={Fine-Tuning BERT for Toxicity Detection}, author={Carlos André Dos Santos Lima}, journal={Hugging Face Model Hub}, year={2025} } ``` ## Contato Caso tenha dúvidas ou sugestões, entre em contato pelo e-mail: casl@aluno.ifal.edu.br ou abra uma issue no repositório do modelo no Hugging Face.