Spaces:

JabriA
/

MyIVR

Sleeping

JabriA commited on Jan 17

Commit

c3c6112

1 Parent(s): 8663026

Add Darija transcription and topic extraction app

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,6 +2,7 @@ import gradio as gr
 import torch
 from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC, pipeline
 import soundfile as sf
 # Load models
 # Transcription model for Moroccan Darija
@@ -11,10 +12,17 @@ transcription_model = Wav2Vec2ForCTC.from_pretrained("boumehdi/wav2vec2-large-xl
 # Summarization model
 summarizer = pipeline("summarization", model="t5-small")
 # Function to transcribe audio using Wav2Vec2
 def transcribe_audio(audio_path):
     # Load and preprocess audio
-    audio_input, sample_rate = sf.read(audio_path)
     inputs = processor(audio_input, sampling_rate=sample_rate, return_tensors="pt", padding=True)
     # Get predictions
@@ -31,8 +39,13 @@ def transcribe_and_summarize(audio_file):
     # Transcription
     transcription = transcribe_audio(audio_file)
-    # Summarization
-    summary = summarizer(transcription, max_length=50, min_length=10, do_sample=False)[0]["summary_text"]
     return transcription, summary
 # Gradio Interface

 import torch
 from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC, pipeline
 import soundfile as sf
+import librosa
 # Load models
 # Transcription model for Moroccan Darija
 # Summarization model
 summarizer = pipeline("summarization", model="t5-small")
+# Function to resample audio to 16kHz if necessary
+def resample_audio(audio_path, target_sr=16000):
+    audio_input, original_sr = librosa.load(audio_path, sr=None)  # Load audio with original sampling rate
+    if original_sr != target_sr:
+        audio_input = librosa.resample(audio_input, orig_sr=original_sr, target_sr=target_sr)  # Resample to 16kHz
+    return audio_input, target_sr
 # Function to transcribe audio using Wav2Vec2
 def transcribe_audio(audio_path):
     # Load and preprocess audio
+    audio_input, sample_rate = resample_audio(audio_path)
     inputs = processor(audio_input, sampling_rate=sample_rate, return_tensors="pt", padding=True)
     # Get predictions
     # Transcription
     transcription = transcribe_audio(audio_file)
+    # Check if transcription is long enough for summarization
+    if len(transcription.split()) < 10:  # Check if the transcription is too short for summarization
+        summary = "Transcription is too short for summarization."
+    else:
+        # Summarization
+        summary = summarizer(transcription, max_length=50, min_length=10, do_sample=False)[0]["summary_text"]
     return transcription, summary
 # Gradio Interface