Hibernates
/

Hiber-Voice-Unmasking-CUDA-V1

Audio Classification

audio-authentication

Model card Files Files and versions Community

Hiber-Voice-Unmasking-CUDA-V1 / wav2vec2.py

hibernatesai's picture

Upload 11 files

45e1a77 verified 28 days ago

history blame contribute delete

1.99 kB

	from dataclasses import dataclass
	from typing import Optional, Tuple
	import torch
	import torch.nn as nn
	from transformers.models.wav2vec2.modeling_wav2vec2 import (
	Wav2Vec2PreTrainedModel,
	Wav2Vec2Model
	)

	@dataclass
	class AudioClassifierOutput:
	loss: Optional[torch.FloatTensor] = None
	logits: torch.FloatTensor = None
	hidden_states: Optional[Tuple[torch.FloatTensor]] = None
	attentions: Optional[Tuple[torch.FloatTensor]] = None

	class Wav2Vec2ForAudioClassification(Wav2Vec2PreTrainedModel):
	def __init__(self, config):
	super().__init__(config)
	self.wav2vec2 = Wav2Vec2Model(config)
	self.classifier = nn.Sequential(
	nn.Linear(config.hidden_size, config.classifier_proj_size),
	nn.GELU(),
	nn.Dropout(config.final_dropout),
	nn.Linear(config.classifier_proj_size, config.num_labels)
	)
	self.init_weights()

	def freeze_feature_encoder(self):
	self.wav2vec2.feature_extractor._freeze_parameters()

	def forward(
	self,
	input_values,
	attention_mask=None,
	labels=None,
	output_attentions=None,
	output_hidden_states=None,
	return_dict=None,
	):
	outputs = self.wav2vec2(
	input_values,
	attention_mask=attention_mask,
	output_attentions=output_attentions,
	output_hidden_states=output_hidden_states,
	return_dict=return_dict,
	)
	hidden_states = outputs[0]
	pooled_output = torch.mean(hidden_states, dim=1)
	logits = self.classifier(pooled_output)

	loss = None
	if labels is not None:
	loss_fct = nn.CrossEntropyLoss()
	loss = loss_fct(logits.view(-1, self.config.num_labels), labels.view(-1))

	return AudioClassifierOutput(
	loss=loss,
	logits=logits,
	hidden_states=outputs.hidden_states,
	attentions=outputs.attentions,
	)