import os import requests import json import gradio as gr import re # Hugging Face 환경 변수로부터 RapidAPI 키와 호스트 가져오기 AA_KEY = os.getenv("AA_KEY") AA_HOST = "youtube-transcriptor.p.rapidapi.com" def get_video_id(youtube_url): # 다양한 YouTube URL 형식에 대한 정규표현식 패턴 patterns = [ r"(?:v=|\/)([0-9A-Za-z_-]{11}).*", # 일반적인 YouTube URL 및 Shorts URL r"(?:youtu\.be\/|youtube.com\/shorts\/)([0-9A-Za-z_-]{11})", # 단축 URL 및 Shorts URL r"^[0-9A-Za-z_-]{11}$" # 비디오 ID만 입력된 경우 ] # URL에서 쿼리 파라미터 제거 url_without_params = youtube_url.split('?')[0] for pattern in patterns: match = re.search(pattern, url_without_params) if match: return match.group(1) return None # 자막 언어 우선순위 리스트 LANGUAGE_PRIORITY = ['ko', 'en', 'ja', 'zh'] # 유튜브 자막을 요청하는 함수 (언어 우선순위를 적용하여 시도) def get_youtube_transcript(youtube_url): # 비디오 ID 추출 video_id = get_video_id(youtube_url) if video_id is None: return {"error": "잘못된 유튜브 URL입니다. 비디오 ID를 찾을 수 없습니다."} url = "https://youtube-transcriptor.p.rapidapi.com/transcript" headers = { "x-rapidapi-key": AA_KEY, "x-rapidapi-host": AA_HOST } # 언어 우선순위에 따라 순차적으로 요청을 시도 for lang in LANGUAGE_PRIORITY: querystring = {"video_id": video_id, "lang": lang} try: response = requests.get(url, headers=headers, params=querystring) response.raise_for_status() # 오류 상태 코드에 대해 예외 발생 data = response.json() # 자막이 없는 경우 처리 if "transcript" not in data or not data["transcript"]: continue return {"language": lang, "data": data} except requests.exceptions.RequestException as e: print(f"Error for language {lang}: {str(e)}") continue except json.JSONDecodeError as e: print(f"JSON Decode Error for language {lang}: {str(e)}") continue # 모든 언어에서 자막을 찾지 못한 경우 return {"error": "우선순위 언어로 자막을 찾을 수 없습니다. 해당 동영상에 자막이 없거나 접근할 수 없습니다."} # Gradio 인터페이스 정의 def youtube_transcript_interface(youtube_url): # 자막 데이터 가져오기 transcript_data = get_youtube_transcript(youtube_url) # 결과 출력 return json.dumps(transcript_data, ensure_ascii=False, indent=2) # Gradio 인터페이스 생성 interface = gr.Interface( fn=youtube_transcript_interface, inputs="text", outputs="text", title="YouTube 자막 추출기", description="유튜브 URL을 입력하세요." ) # Gradio 인터페이스 실행 interface.launch()