File size: 2,377 Bytes
601b2f1
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
---
license: ecl-2.0
datasets:
- mozilla-foundation/common_voice_11_0
language:
- es
- en
metrics:
- accuracy
library_name: transformers
tags:
- code
---

# Clasificador de Sotaques de Español

🎙️🤖🇪🇸

Este proyecto es un clasificador de acentos que distingue entre el español y otros acentos.

## Resumen del Proyecto

Esta aplicación utiliza un modelo entrenado para clasificar acentos de habla en dos categorías:
1. Español
2. Otro

El modelo se basa en el trabajo del autor [resultados] y utiliza la porción en español del conjunto de datos Common Voice (versión 11.0) de la Fundación Mozilla.

## Conjunto de Datos

El proyecto utiliza el subconjunto en español del conjunto de datos Common Voice:
- Conjunto de datos: "mozilla-foundation/common_voice_11_0", "es"

Acentos en español incluidos en el conjunto de datos:
- Español de España
- Español de México
- Español de Argentina
- Español de Colombia
- Y varias mezclas regionales

## Modelo y Procesador

El proyecto utiliza el siguiente modelo y procesador:
- Modelo Base: "facebook/wav2vec2-base-960h"
- Procesador: Wav2Vec2Processor.from_pretrained

## Versiones del Modelo

Se entrenaron tres versiones del modelo con diferentes configuraciones:

1. **(NUEVO) v 1.0**:
   - Épocas: 20
   - Muestras de entrenamiento: 5000
   - Muestras de validación: 1000

Todos los modelos se entrenaron utilizando GPU de alta RAM en Google Colab Pro.

## Estructura del Modelo (archivos)

Cada versión del modelo incluye los siguientes archivos:
- config.json
- preprocessor_config.json
- model.safetensors
- special_tokens_map.json
- tokenizer_config.json
- vocab.json 

## Cómo Usar

Prueba grabando o subiendo un archivo de audio. Para probar, recomiendo frases cortas.

## Licencia

Este proyecto está licenciado bajo la Licencia Pública de Eclipse 2.0 (ECL-2.0).

## Información del Desarrollador

Desarrollado por Ramon Mayor Martins (2024)
- Email: [email protected]
- Página web: https://rmayormartins.github.io/
- Twitter: @rmayormartins
- GitHub: https://github.com/rmayormartins

## Agradecimientos

Agradecimientos especiales al Instituto Federal de Santa Catarina (Instituto Federal de Santa Catarina) IFSC-São José-Brasil.

## Contacto

Para cualquier consulta o sugerencia, por favor contacte al desarrollador utilizando la información proporcionada anteriormente.