Spaces:

davidmeikle
/

phoneme-recorder

Running on Zero

App Files Files Community

davidmeikle commited on Dec 11, 2024

Commit

614dc5d

verified ·

1 Parent(s): 851cec6

Update app.py

Browse files

Files changed (1) hide show

app.py +18 -18

app.py CHANGED Viewed

@@ -125,7 +125,9 @@ class PhonemeTranscriber:
         self.device = self._get_optimal_device()
         print(f"Using device: {self.device}")
-        self.model_config = self._initialize_model()
         self.target_sample_rate = 16_000
         self.enhancer = PhoneticEnhancer()
@@ -135,18 +137,6 @@ class PhonemeTranscriber:
         elif torch.backends.mps.is_available() and platform.system() == 'Darwin':
             return "mps"
         return "cpu"
-    def _initialize_model(self) -> ModelConfig:
-        model_name = "facebook/wav2vec2-lv-60-espeak-cv-ft"
-        processor = Wav2Vec2Processor.from_pretrained(model_name)
-        model = Wav2Vec2ForCTC.from_pretrained(model_name)
-        return ModelConfig(
-            name=model_name,
-            processor=processor,
-            model=model,
-            description="LV-60 + CommonVoice (26 langs) + eSpeak"
-        )
     def preprocess_audio(self, audio):
         """Preprocess audio data for model input."""
@@ -180,8 +170,13 @@ class PhonemeTranscriber:
             audio_data = self.preprocess_audio(audio)
             if audio_data is None:
                 return "Please provide valid audio input"
             selected_enhancements = enhancements.split(',') if enhancements else []
-            inputs = self.model_config.processor(
                 audio_data,
                 sampling_rate=self.target_sample_rate,
                 return_tensors="pt",
@@ -189,19 +184,24 @@ class PhonemeTranscriber:
             ).input_values.to(self.device)
             with torch.no_grad():
-                logits = self.model_config.model(inputs).logits
             predicted_ids = torch.argmax(logits, dim=-1)
-            transcription = self.model_config.processor.batch_decode(predicted_ids)[0]
             enhanced = self.enhancer.enhance_transcription(
                 transcription,
                 selected_enhancements
             )
             return f"""Raw IPA: {transcription}
-                    Enhanced IPA: {enhanced}
-                    Applied enhancements: {', '.join(selected_enhancements) or 'none'}"""
         except Exception as e:
             import traceback

         self.device = self._get_optimal_device()
         print(f"Using device: {self.device}")
+        # Store model name and initialize processor only
+        self.model_name = "facebook/wav2vec2-lv-60-espeak-cv-ft"
+        self.processor = Wav2Vec2Processor.from_pretrained(self.model_name)
         self.target_sample_rate = 16_000
         self.enhancer = PhoneticEnhancer()
         elif torch.backends.mps.is_available() and platform.system() == 'Darwin':
             return "mps"
         return "cpu"
     def preprocess_audio(self, audio):
         """Preprocess audio data for model input."""
             audio_data = self.preprocess_audio(audio)
             if audio_data is None:
                 return "Please provide valid audio input"
+            # Load model inside GPU context
+            model = Wav2Vec2ForCTC.from_pretrained(self.model_name).to(self.device)
+            model.eval()
             selected_enhancements = enhancements.split(',') if enhancements else []
+            inputs = self.processor(
                 audio_data,
                 sampling_rate=self.target_sample_rate,
                 return_tensors="pt",
             ).input_values.to(self.device)
             with torch.no_grad():
+                logits = model(inputs).logits
             predicted_ids = torch.argmax(logits, dim=-1)
+            transcription = self.processor.batch_decode(predicted_ids)[0]
             enhanced = self.enhancer.enhance_transcription(
                 transcription,
                 selected_enhancements
             )
+            # Clean up to free GPU memory
+            del model
+            if torch.cuda.is_available():
+                torch.cuda.empty_cache()
             return f"""Raw IPA: {transcription}
+Enhanced IPA: {enhanced}
+Applied enhancements: {', '.join(selected_enhancements) or 'none'}"""
         except Exception as e:
             import traceback