Spaces:

demomodels
/

lyrics

Runtime error

App Files Files Community

demomodels commited on Feb 17, 2024

Commit

1378b33

1 Parent(s): 6e8e7a7

Initial commit

Browse files

Files changed (2) hide show

app.py +45 -4
requirements.txt +88 -0

app.py CHANGED Viewed

@@ -1,7 +1,48 @@
 import gradio as gr
-def greet(name):
-    return "Hello " + name + "!!"
-iface = gr.Interface(fn=greet, inputs="text", outputs="text")
-iface.launch()

 import gradio as gr
+import json
+import torch
+from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
+device = "cuda:0" if torch.cuda.is_available() else "cpu"
+torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
+model_id = "openai/whisper-large-v3"
+model = AutoModelForSpeechSeq2Seq.from_pretrained(
+    model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
+)
+model.to(device)
+processor = AutoProcessor.from_pretrained(model_id)
+pipe = pipeline(
+    "automatic-speech-recognition",
+    model=model,
+    tokenizer=processor.tokenizer,
+    feature_extractor=processor.feature_extractor,
+    max_new_tokens=128,
+    chunk_length_s=30,
+    batch_size=16,
+    return_timestamps=True,
+    torch_dtype=torch_dtype,
+    device=device,
+)
+def process_audio(audio_file):
+    # In this example, let's just return a hardcoded array of JSON objects
+    output_data = [
+        {"label": "cat", "confidence": 0.8},
+        {"label": "dog", "confidence": 0.7},
+        {"label": "bird", "confidence": 0.6}
+    ]
+    return json.dumps(output_data)
+def process(audio):
+    result = pipe('audio.mp3')['chunks']
+    for item in result:
+        item['timestamp'] = list(item['timestamp'])
+    return result
+iface = gr.Interface(fn=process_audio, inputs="audio", outputs="text")
+iface.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,88 @@

+accelerate==0.27.2
+aiofiles==23.2.1
+altair==5.2.0
+annotated-types==0.6.0
+anyio==4.2.0
+attrs==23.2.0
+certifi==2024.2.2
+charset-normalizer==3.3.2
+click==8.1.7
+colorama==0.4.6
+contourpy==1.2.0
+cycler==0.12.1
+fastapi==0.109.2
+ffmpy==0.3.2
+filelock==3.13.1
+fonttools==4.49.0
+fsspec==2024.2.0
+gradio==4.19.1
+gradio_client==0.10.0
+h11==0.14.0
+httpcore==1.0.3
+httpx==0.26.0
+huggingface-hub==0.20.3
+idna==3.6
+importlib-resources==6.1.1
+Jinja2==3.1.3
+jsonschema==4.21.1
+jsonschema-specifications==2023.12.1
+kiwisolver==1.4.5
+markdown-it-py==3.0.0
+MarkupSafe==2.1.5
+matplotlib==3.8.3
+mdurl==0.1.2
+mpmath==1.3.0
+networkx==3.2.1
+numpy==1.26.4
+nvidia-cublas-cu12==12.1.3.1
+nvidia-cuda-cupti-cu12==12.1.105
+nvidia-cuda-nvrtc-cu12==12.1.105
+nvidia-cuda-runtime-cu12==12.1.105
+nvidia-cudnn-cu12==8.9.2.26
+nvidia-cufft-cu12==11.0.2.54
+nvidia-curand-cu12==10.3.2.106
+nvidia-cusolver-cu12==11.4.5.107
+nvidia-cusparse-cu12==12.1.0.106
+nvidia-nccl-cu12==2.19.3
+nvidia-nvjitlink-cu12==12.3.101
+nvidia-nvtx-cu12==12.1.105
+orjson==3.9.14
+packaging==23.2
+pandas==2.2.0
+pillow==10.2.0
+psutil==5.9.8
+pydantic==2.6.1
+pydantic_core==2.16.2
+pydub==0.25.1
+Pygments==2.17.2
+pyparsing==3.1.1
+python-dateutil==2.8.2
+python-multipart==0.0.9
+pytz==2024.1
+PyYAML==6.0.1
+referencing==0.33.0
+regex==2023.12.25
+requests==2.31.0
+rich==13.7.0
+rpds-py==0.18.0
+ruff==0.2.1
+safetensors==0.4.2
+semantic-version==2.10.0
+shellingham==1.5.4
+six==1.16.0
+sniffio==1.3.0
+starlette==0.36.3
+sympy==1.12
+tokenizers==0.15.2
+tomlkit==0.12.0
+toolz==0.12.1
+torch==2.2.0
+tqdm==4.66.2
+transformers==4.37.2
+triton==2.2.0
+typer==0.9.0
+typing_extensions==4.9.0
+tzdata==2024.1
+urllib3==2.2.0
+uvicorn==0.27.1
+websockets==11.0.3