Spaces:

jdalfonso
/

SISE-ULTIMATE-CHALLENGE

Sleeping

App Files Files

xet

Community

Falonne Kpamegan commited on Mar 12

Commit

732a8f8

1 Parent(s): 75bcde3

base code

Browse files

Files changed (3) hide show

requirements.txt +3 -0
src/model/test.py +51 -0
src/model/train.py +62 -0

requirements.txt ADDED Viewed

	@@ -0,0 +1,3 @@

+transformers
+torch
+librosa

src/model/test.py ADDED Viewed

	@@ -0,0 +1,51 @@

+import torchaudio
+from datasets import load_dataset
+from evaluate import load as load_metric
+from transformers import (
+    Wav2Vec2ForCTC,
+    Wav2Vec2Processor,
+)
+import torch
+import re
+import sys
+model_name = "facebook/wav2vec2-large-xlsr-53-french"
+device = "cpu"
+chars_to_ignore_regex = '[\,\?\.\!\-\;\:\"]'
+model = Wav2Vec2ForCTC.from_pretrained(model_name).to(device)
+processor = Wav2Vec2Processor.from_pretrained(model_name)
+ds = load_dataset("facebook/voxpopuli", "fr", trust_remote_code=True)
+resampler = torchaudio.transforms.Resample(orig_freq=48_000, new_freq=16_000)
+def map_to_array(batch):
+    speech, _ = torchaudio.load(batch["path"])
+    batch["speech"] = resampler.forward(speech.squeeze(0)).numpy()
+    batch["sampling_rate"] = resampler.new_freq
+    batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"]).lower().replace("’", "'")
+    return batch
+ds = ds.map(map_to_array)
+def map_to_pred(batch):
+    features = processor(batch["speech"], sampling_rate=batch["sampling_rate"][0], padding=True, return_tensors="pt")
+    input_values = features.input_values.to(device)
+    attention_mask = features.attention_mask.to(device)
+    with torch.no_grad():
+        logits = model(input_values, attention_mask=attention_mask).logits
+    pred_ids = torch.argmax(logits, dim=-1)
+    batch["predicted"] = processor.batch_decode(pred_ids)
+    batch["target"] = batch["sentence"]
+    return batch
+result = ds.map(map_to_pred, batched=True, batch_size=16, remove_columns=list(ds.features.keys()))
+wer = load_metric("wer")
+wer_score = wer.compute(predictions=result["predicted"], references=result["target"])
+print(f"WER: {wer_score}")
+# print(wer.compute(predictions=result["predicted"], references=result["target"]))

src/model/train.py ADDED Viewed

	@@ -0,0 +1,62 @@

+from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
+import torch
+import librosa
+import numpy as np
+import matplotlib.pyplot as plt
+# Charger le modèle et le processeur Wav2Vec 2.0
+model_name = "facebook/wav2vec2-large-960h"
+processor = Wav2Vec2Processor.from_pretrained(model_name)
+model = Wav2Vec2ForCTC.from_pretrained(model_name)
+# Charger l'audio
+audio_file = "path_to_audio_file.wav"
+y, sr = librosa.load(audio_file, sr=16000)  # Assurez-vous que le sample rate est 16kHz
+# Prétraiter l'audio avec le processeur Wav2Vec 2.0
+input_values = processor(y, return_tensors="pt").input_values
+# Obtenir la prédiction (logits)
+with torch.no_grad():
+    logits = model(input_values).logits
+# Obtenir les IDs des tokens prédits (transcription)
+predicted_ids = torch.argmax(logits, dim=-1)
+# Décoder les IDs pour obtenir le texte transcrit
+transcription = processor.decode(predicted_ids[0])
+print("Transcription:", transcription)
+# Extraire le pitch (hauteur tonale) et l'intensité
+pitch, magnitudes = librosa.core.piptrack(y=y, sr=sr)
+intensity = librosa.feature.rms(y=y)  # Intensité (volume)
+# Calculer le tempo (vitesse de parole)
+tempo, _ = librosa.beat.beat_track(y=y, sr=sr)
+# Affichage du pitch
+plt.figure(figsize=(10, 6))
+librosa.display.specshow(pitch, x_axis='time', y_axis='log')
+plt.colorbar()
+plt.title("Pitch (Hauteur Tonale)")
+plt.show()
+# Affichage de l'intensité
+plt.figure(figsize=(10, 6))
+librosa.display.specshow(intensity, x_axis='time')
+plt.colorbar()
+plt.title("Intensité")
+plt.show()
+# Fusionner la transcription avec les caractéristiques prosodiques (pitch, intensité, tempo)
+features = np.hstack([
+    np.mean(intensity, axis=1),  # Moyenne de l'intensité
+    np.mean(pitch, axis=1),  # Moyenne du pitch
+    tempo  # Tempo
+])
+# Afficher les caractéristiques extraites
+print("Caractéristiques combinées :")
+print(features)