YT_Script_Shorts

Running

File size: 3,080 Bytes

import os
import requests
import json
import gradio as gr
import re

# Hugging Face 환경 변수로부터 RapidAPI 키와 호스트 가져오기
AA_KEY = os.getenv("AA_KEY")
AA_HOST = "youtube-transcriptor.p.rapidapi.com"

def get_video_id(youtube_url):
    # 다양한 YouTube URL 형식에 대한 정규표현식 패턴
    patterns = [
        r"(?:v=|\/)([0-9A-Za-z_-]{11}).*",  # 일반적인 YouTube URL 및 Shorts URL
        r"(?:youtu\.be\/|youtube.com\/shorts\/)([0-9A-Za-z_-]{11})",  # 단축 URL 및 Shorts URL
        r"^[0-9A-Za-z_-]{11}$"  # 비디오 ID만 입력된 경우
    ]
    
    # URL에서 쿼리 파라미터 제거
    url_without_params = youtube_url.split('?')[0]
    
    for pattern in patterns:
        match = re.search(pattern, url_without_params)
        if match:
            return match.group(1)
    
    return None

# 자막 언어 우선순위 리스트
LANGUAGE_PRIORITY = ['ko', 'en', 'ja', 'zh']

# 유튜브 자막을 요청하는 함수 (언어 우선순위를 적용하여 시도)
def get_youtube_transcript(youtube_url):
    # 비디오 ID 추출
    video_id = get_video_id(youtube_url)
    if video_id is None:
        return {"error": "잘못된 유튜브 URL입니다. 비디오 ID를 찾을 수 없습니다."}
    
    url = "https://youtube-transcriptor.p.rapidapi.com/transcript"
    
    headers = {
        "x-rapidapi-key": AA_KEY,
        "x-rapidapi-host": AA_HOST
    }

    # 언어 우선순위에 따라 순차적으로 요청을 시도
    for lang in LANGUAGE_PRIORITY:
        querystring = {"video_id": video_id, "lang": lang}
        try:
            response = requests.get(url, headers=headers, params=querystring)
            response.raise_for_status()  # 오류 상태 코드에 대해 예외 발생
            
            data = response.json()
            
            # 자막이 없는 경우 처리
            if "transcript" not in data or not data["transcript"]:
                continue
            
            return {"language": lang, "data": data}
            
        except requests.exceptions.RequestException as e:
            print(f"Error for language {lang}: {str(e)}")
            continue
        except json.JSONDecodeError as e:
            print(f"JSON Decode Error for language {lang}: {str(e)}")
            continue

    # 모든 언어에서 자막을 찾지 못한 경우
    return {"error": "우선순위 언어로 자막을 찾을 수 없습니다. 해당 동영상에 자막이 없거나 접근할 수 없습니다."}

# Gradio 인터페이스 정의
def youtube_transcript_interface(youtube_url):
    # 자막 데이터 가져오기
    transcript_data = get_youtube_transcript(youtube_url)
    
    # 결과 출력
    return json.dumps(transcript_data, ensure_ascii=False, indent=2)

# Gradio 인터페이스 생성
interface = gr.Interface(
    fn=youtube_transcript_interface, 
    inputs="text", 
    outputs="text",
    title="YouTube 자막 추출기",
    description="유튜브 URL을 입력하세요."
)

# Gradio 인터페이스 실행
interface.launch()