Spaces:

Coco-18
/

Kapamtalk

Running

App Files Files Community

Coco-18 commited on Mar 26

Commit

1a61e31

verified ·

1 Parent(s): e7b87ef

Update evaluate.py

Browse files

Files changed (1) hide show

evaluate.py +10 -6

evaluate.py CHANGED Viewed

@@ -15,7 +15,7 @@ from werkzeug.utils import secure_filename
 from concurrent.futures import ThreadPoolExecutor
 # Import necessary functions from translator.py
-from translator import asr_model, asr_processor, LANGUAGE_CODES
 # Configure logging
 logger = logging.getLogger("speech_api")
@@ -153,12 +153,15 @@ def handle_upload_reference(request, reference_dir, sample_rate):
 def handle_evaluation_request(request, reference_dir, output_dir, sample_rate):
-    """Handle pronunciation evaluation requests"""
     request_id = f"req-{id(request)}"  # Create unique ID for this request
     logger.info(f"[{request_id}] 🆕 Starting new pronunciation evaluation request")
     temp_dir = None
     if asr_model is None or asr_processor is None:
         logger.error(f"[{request_id}] ❌ Evaluation endpoint called but ASR models aren't loaded")
         return jsonify({"error": "ASR model not available"}), 503
@@ -265,8 +268,8 @@ def handle_evaluation_request(request, reference_dir, output_dir, sample_rate):
                 if ref_sr != sample_rate:
                     ref_waveform = torchaudio.transforms.Resample(ref_sr, sample_rate)(ref_waveform)
                 ref_waveform = ref_waveform.squeeze().numpy()
-                # Transcribe reference audio
                 inputs = asr_processor(
                     ref_waveform,
                     sampling_rate=sample_rate,
@@ -275,6 +278,7 @@ def handle_evaluation_request(request, reference_dir, output_dir, sample_rate):
                 )
                 inputs = {k: v.to(asr_model.device) for k, v in inputs.items()}
                 with torch.no_grad():
                     logits = asr_model(**inputs).logits
                 ids = torch.argmax(logits, dim=-1)[0]

 from concurrent.futures import ThreadPoolExecutor
 # Import necessary functions from translator.py
+from translator import get_asr_model, get_asr_processor, LANGUAGE_CODES
 # Configure logging
 logger = logging.getLogger("speech_api")
 def handle_evaluation_request(request, reference_dir, output_dir, sample_rate):
     request_id = f"req-{id(request)}"  # Create unique ID for this request
     logger.info(f"[{request_id}] 🆕 Starting new pronunciation evaluation request")
     temp_dir = None
+    # Get the ASR model and processor using the getter functions
+    asr_model = get_asr_model()
+    asr_processor = get_asr_processor()
     if asr_model is None or asr_processor is None:
         logger.error(f"[{request_id}] ❌ Evaluation endpoint called but ASR models aren't loaded")
         return jsonify({"error": "ASR model not available"}), 503
                 if ref_sr != sample_rate:
                     ref_waveform = torchaudio.transforms.Resample(ref_sr, sample_rate)(ref_waveform)
                 ref_waveform = ref_waveform.squeeze().numpy()
+                # Transcribe reference audio - use the local asr_model and asr_processor
                 inputs = asr_processor(
                     ref_waveform,
                     sampling_rate=sample_rate,
                 )
                 inputs = {k: v.to(asr_model.device) for k, v in inputs.items()}
                 with torch.no_grad():
                     logits = asr_model(**inputs).logits
                 ids = torch.argmax(logits, dim=-1)[0]