Spaces:

gresqdf
/

KurdishTranslatorAPI

Running

gresqdf commited on Feb 9

Commit

ea25f01

1 Parent(s): 3459eb7

new route

Files changed (2) hide show

Dockerfile CHANGED Viewed

@@ -19,7 +19,7 @@ RUN pip install --upgrade pip
 RUN pip install torch torchvision
 # Install Hugging Face Transformers and other dependencies
-RUN pip install transformers librosa deep-translator python-multipart fastapi uvicorn
 # Copy the main script
 COPY --chown=user main.py .

 RUN pip install torch torchvision
 # Install Hugging Face Transformers and other dependencies
+RUN pip install transformers librosa deep-translator python-multipart fastapi uvicorn sentencepiece
 # Copy the main script
 COPY --chown=user main.py .

main.py CHANGED Viewed

@@ -1,4 +1,4 @@
-from fastapi import FastAPI, UploadFile, File
 from transformers import pipeline
 import librosa
 from deep_translator import GoogleTranslator
@@ -6,23 +6,43 @@ import io
 app = FastAPI()
-print("Loading Speech Recognition")
-pipe = pipeline("automatic-speech-recognition", model="Akashpb13/xlsr_kurmanji_kurdish")
-print("Speech Recognition Loaded")
 print("Loading translator")
 translator = GoogleTranslator(source='ku', target='fr')
 print("Translator loaded")
 def speech2text(audio_data: bytes):
-    audio_array, _ = librosa.load(io.BytesIO(audio_data), sr=16000)
     output = pipe(audio_array)
     return output["text"]
 @app.post("/transcribe")
 async def transcribe(file: UploadFile = File(...)):
     audio_data = await file.read()
     text_output = speech2text(audio_data)
     translated = translator.translate(text_output)
-    return {"text": text_output, "translation": translated}

+from fastapi import FastAPI, UploadFile, File, Response
 from transformers import pipeline
 import librosa
 from deep_translator import GoogleTranslator
 app = FastAPI()
+# print("Loading Speech Recognition")
+# print("Speech Recognition Loaded")
 print("Loading translator")
 translator = GoogleTranslator(source='ku', target='fr')
 print("Translator loaded")
+# print("Loading tts")
+# print("TTS loaded")
 def speech2text(audio_data: bytes):
+    audio_array, _ = librosa.load(io.BytesIO(audio_data), sr=16000)
+    pipe = pipeline("automatic-speech-recognition", model="Akashpb13/xlsr_kurmanji_kurdish")
     output = pipe(audio_array)
     return output["text"]
+def text2speech(text:str):
+    tts = pipeline("text-to-audio", model="roshna-omer/speecht5_tts_krd-kmr_CV17.0")
+    output = tts(text)
+    return output["audio"]
 @app.post("/transcribe")
 async def transcribe(file: UploadFile = File(...)):
     audio_data = await file.read()
     text_output = speech2text(audio_data)
     translated = translator.translate(text_output)
+    return {"text": text_output, "translation": translated}
+@app.post("/transcribe_audio")
+async def transcribe_and_return_audio(file: UploadFile = File(...)):
+    audio_data = await file.read()
+    text_output = speech2text(audio_data)
+    audio_output = text2speech(text_output)
+    return Response(content=audio_output, media_type="audio/wav")