N_B_analysis-5

Sleeping

File size: 42,002 Bytes

d5fb63f
 
 
0fedf9f
d5fb63f
 
 
 
0fedf9f
d5fb63f
 
 
 
 
0fedf9f
 
 
 
 
 
 
 
d5fb63f
 
 
0fedf9f
d5fb63f
b4650b8
f8570dc
d5fb63f
 
 
 
 
 
 
 
 
 
0fedf9f
f8570dc
 
 
 
 
 
 
 
 
0fedf9f
 
 
 
 
 
 
 
 
 
f8570dc
 
 
 
0fedf9f
 
 
 
 
 
 
 
 
 
 
 
f8570dc
0fedf9f
f8570dc
 
 
 
 
 
0fedf9f
 
 
 
 
 
 
 
 
 
 
 
 
 
f8570dc
0fedf9f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
f8570dc
 
b4650b8
f8570dc
0fedf9f
 
 
d5fb63f
0fedf9f
d5fb63f
 
b4650b8
f8570dc
0fedf9f
f8570dc
0fedf9f
 
 
 
 
 
 
 
 
 
 
f8570dc
0fedf9f
 
f8570dc
 
0fedf9f
 
b4650b8
0fedf9f
 
f8570dc
0fedf9f
f8570dc
0fedf9f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
f8570dc
b4650b8
d5fb63f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
0fedf9f
 
 
 
 
 
 
 
f8570dc
0fedf9f
 
 
 
 
 
 
 
 
d5fb63f
 
 
0fedf9f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
d5fb63f
f8570dc
c850803
0fedf9f
 
 
 
 
 
 
d5fb63f
 
 
 
 
0fedf9f
 
 
 
 
f8570dc
0fedf9f
 
 
 
 
 
 
 
 
 
d5fb63f
 
0fedf9f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
d5fb63f
f8570dc
0fedf9f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2c541cf
0fedf9f
 
2c541cf
0fedf9f
 
 
 
 
 
 
 
 
 
2c541cf
 
0fedf9f
b4650b8
fb6f347
c850803
0fedf9f
 
c850803
 
0fedf9f
 
fb6f347
0fedf9f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
c850803
 
 
d5fb63f
0fedf9f
82bbb8a
 
 
0fedf9f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
82bbb8a
0fedf9f
 
82bbb8a
 
b4650b8
 
0fedf9f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
b4650b8
0fedf9f
 
fdac880
82bbb8a
 
0fedf9f
 
 
 
 
 
 
 
 
 
 
 
82bbb8a
6faa7b9
0fedf9f
 
 
 
 
 
 
82bbb8a
6faa7b9
0fedf9f
 
 
 
 
 
82bbb8a
b4650b8
989a45c
 
0fedf9f
 
 
 
 
 
989a45c
0fedf9f
 
989a45c
 
6faa7b9
82bbb8a
6faa7b9
 
0fedf9f
6faa7b9
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
0fedf9f
6faa7b9
0fedf9f
 
 
 
6faa7b9
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
82bbb8a
6faa7b9
 
0fedf9f
 
771fcfc
0fedf9f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
b4650b8
989a45c
0fedf9f
 
 
 
 
d5fb63f
 
0fedf9f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
d5fb63f
0fedf9f

import gradio as gr
import requests
from bs4 import BeautifulSoup
import urllib.parse # iframe 경로 보정을 위한 모듈
import re
import logging
import tempfile
import pandas as pd
import mecab # python?mecab?ko 라이브러리 사용
import os
import time
import hmac
import hashlib
import base64
from concurrent.futures import ThreadPoolExecutor, as_completed

# --- 병렬 처리 설정 ---
# API 호출 제한에 맞춰 적절히 조절하세요.
# 너무 높은 값은 API 제한에 걸릴 수 있습니다.
MAX_WORKERS_RELATED_KEYWORDS = 5  # fetch_related_keywords 병렬 작업자 수
MAX_WORKERS_BLOG_COUNT = 10       # fetch_blog_count 병렬 작업자 수


# 디버깅(로그)용 함수
def debug_log(message: str):
    print(f"[{time.strftime('%Y-%m-%d %H:%M:%S')}] [DEBUG] {message}")

# --- 네이버 블로그 스크래핑 ---
def scrape_naver_blog(url: str) -> str:
    debug_log("scrape_naver_blog 함수 시작")
    debug_log(f"요청받은 URL: {url}")
    headers = {
        "User-Agent": (
            "Mozilla/5.0 (Windows NT 10.0; Win64; x64) "
            "AppleWebKit/537.36 (KHTML, like Gecko) "
            "Chrome/96.0.4664.110 Safari/537.36"
        )
    }
    try:
        response = requests.get(url, headers=headers, timeout=10)
        debug_log("HTTP GET 요청(메인 페이지) 완료")
        if response.status_code != 200:
            debug_log(f"요청 실패, 상태코드: {response.status_code}")
            return f"오류가 발생했습니다. 상태코드: {response.status_code}"
        soup = BeautifulSoup(response.text, "html.parser")
        debug_log("HTML 파싱(메인 페이지) 완료")
        iframe = soup.select_one("iframe#mainFrame")
        if not iframe:
            debug_log("iframe#mainFrame 태그를 찾을 수 없습니다.")
            # 일부 블로그는 mainFrame이 없을 수 있음. 본문 직접 시도
            content_div_direct = soup.select_one('.se-main-container')
            if content_div_direct:
                title_div_direct = soup.select_one('.se-module.se-module-text.se-title-text')
                title = title_div_direct.get_text(strip=True) if title_div_direct else "제목을 찾을 수 없습니다."
                content = content_div_direct.get_text("\n", strip=True)
                debug_log("iframe 없이 본문 직접 추출 완료")
                return f"[제목]\n{title}\n\n[본문]\n{content}"
            return "본문 iframe을 찾을 수 없습니다. (본문 직접 추출 실패)"

        iframe_src = iframe.get("src")
        if not iframe_src:
            debug_log("iframe src가 존재하지 않습니다.")
            return "본문 iframe의 src를 찾을 수 없습니다."
        
        # iframe_src가 절대 URL이 아닌 경우를 대비
        if iframe_src.startswith("//"):
            parsed_iframe_url = "https:" + iframe_src
        elif iframe_src.startswith("/"):
            parsed_main_url = urllib.parse.urlparse(url)
            parsed_iframe_url = urllib.parse.urlunparse(
                (parsed_main_url.scheme, parsed_main_url.netloc, iframe_src, None, None, None)
            )
        else:
            parsed_iframe_url = urllib.parse.urljoin(url, iframe_src)
            
        debug_log(f"iframe 페이지 요청 URL: {parsed_iframe_url}")
        iframe_response = requests.get(parsed_iframe_url, headers=headers, timeout=10)
        debug_log("HTTP GET 요청(iframe 페이지) 완료")
        if iframe_response.status_code != 200:
            debug_log(f"iframe 요청 실패, 상태코드: {iframe_response.status_code}")
            return f"iframe에서 오류가 발생했습니다. 상태코드: {iframe_response.status_code}"
        iframe_soup = BeautifulSoup(iframe_response.text, "html.parser")
        debug_log("HTML 파싱(iframe 페이지) 완료")
        
        # 제목 추출 (다양한 구조 시도)
        title_selectors = [
            '.se-module.se-module-text.se-title-text', # 일반적인 스마트에디터 ONE
            '.title_text', # 구버전 에디터 또는 다른 구조
            'div[class*="title"] h3', 
            'h1', 'h2', 'h3' # 일반적인 제목 태그
        ]
        title = "제목을 찾을 수 없습니다."
        for selector in title_selectors:
            title_div = iframe_soup.select_one(selector)
            if title_div:
                title = title_div.get_text(strip=True)
                break
        debug_log(f"추출된 제목: {title}")

        # 본문 추출 (다양한 구조 시도)
        content_selectors = [
            '.se-main-container', # 스마트에디터 ONE
            'div#content',       # 구버전 에디터
            'div.post_ct',       # 일부 블로그 구조
            'article', 'main'    # 시맨틱 태그
        ]
        content = "본문을 찾을 수 없습니다."
        for selector in content_selectors:
            content_div = iframe_soup.select_one(selector)
            if content_div:
                # 불필요한 스크립트, 스타일 태그 제거
                for s in content_div(['script', 'style']):
                    s.decompose()
                content = content_div.get_text("\n", strip=True)
                break
        
        debug_log("본문 추출 완료")
        result = f"[제목]\n{title}\n\n[본문]\n{content}"
        debug_log("제목과 본문 합침 완료")
        return result
    except requests.exceptions.Timeout:
        debug_log(f"요청 시간 초과: {url}")
        return f"스크래핑 중 시간 초과가 발생했습니다: {url}"
    except Exception as e:
        debug_log(f"스크래핑 에러 발생: {str(e)}")
        return f"스크래핑 중 오류가 발생했습니다: {str(e)}"

# --- 형태소 분석 (참조코드-1) ---
def analyze_text(text: str):
    logging.basicConfig(level=logging.INFO) # INFO 레벨로 변경하여 너무 많은 로그 방지
    logger = logging.getLogger(__name__)
    # logger.debug("원본 텍스트: %s", text) # 너무 길 수 있으므로 주석 처리
    filtered_text = re.sub(r'[^가-힣a-zA-Z0-9\s]', '', text) # 영어, 숫자, 공백 포함
    # logger.debug("필터링된 텍스트: %s", filtered_text)
    if not filtered_text.strip():
        logger.info("유효한 텍스트가 없음 (필터링 후).")
        return pd.DataFrame(columns=["단어", "빈도수"]), ""
    try:
        mecab_instance = mecab.MeCab()
        tokens = mecab_instance.pos(filtered_text)
    except Exception as e:
        logger.error(f"MeCab 형태소 분석 중 오류: {e}")
        return pd.DataFrame(columns=["단어", "빈도수"]), ""
        
    # logger.debug("형태소 분석 결과: %s", tokens)
    freq = {}
    for word, pos in tokens:
        # 일반명사(NNG), 고유명사(NNP), 외국어(SL), 숫자(SN) 등 포함, 한 글자 단어는 제외 (선택 사항)
        if word and word.strip() and (pos.startswith("NN") or pos in ["SL", "SH"]) and len(word) > 1 :
            freq[word] = freq.get(word, 0) + 1
            # logger.debug("단어: %s, 품사: %s, 빈도: %d", word, pos, freq[word])
            
    sorted_freq = sorted(freq.items(), key=lambda x: x[1], reverse=True)
    # logger.debug("정렬된 단어 빈도: %s", sorted_freq)
    df = pd.DataFrame(sorted_freq, columns=["단어", "빈도수"])
    logger.info(f"형태소 분석 DataFrame 생성됨, shape: {df.shape}")
    
    temp_file_path = ""
    if not df.empty:
        try:
            with tempfile.NamedTemporaryFile(delete=False, suffix=".xlsx", mode='w+b') as temp_file:
                df.to_excel(temp_file.name, index=False, engine='openpyxl')
                temp_file_path = temp_file.name
            logger.info(f"Excel 파일 생성됨: {temp_file_path}")
        except Exception as e:
            logger.error(f"Excel 파일 저장 중 오류: {e}")
            temp_file_path = "" # 오류 발생 시 경로 초기화

    return df, temp_file_path


# --- 네이버 검색 및 광고 API 관련 (참조코드-2) ---
def generate_signature(timestamp, method, uri, secret_key):
    message = f"{timestamp}.{method}.{uri}"
    digest = hmac.new(secret_key.encode("utf-8"), message.encode("utf-8"), hashlib.sha256).digest()
    return base64.b64encode(digest).decode()

def get_header(method, uri, api_key, secret_key, customer_id):
    timestamp = str(round(time.time() * 1000))
    signature = generate_signature(timestamp, method, uri, secret_key)
    return {
        "Content-Type": "application/json; charset=UTF-8",
        "X-Timestamp": timestamp,
        "X-API-KEY": api_key,
        "X-Customer": str(customer_id),
        "X-Signature": signature
    }

# API 키 환경 변수 확인 함수
def get_env_variable(var_name):
    value = os.environ.get(var_name)
    if value is None:
        debug_log(f"환경 변수 '{var_name}'가 설정되지 않았습니다. API 호출이 실패할 수 있습니다.")
        # 필요시 여기서 raise Exception 또는 기본값 반환
    return value

def fetch_related_keywords(keyword):
    debug_log(f"fetch_related_keywords 호출 시작, 키워드: {keyword}")
    API_KEY = get_env_variable("NAVER_API_KEY")
    SECRET_KEY = get_env_variable("NAVER_SECRET_KEY")
    CUSTOMER_ID = get_env_variable("NAVER_CUSTOMER_ID")
    
    if not all([API_KEY, SECRET_KEY, CUSTOMER_ID]):
        debug_log(f"네이버 광고 API 키 정보 부족으로 '{keyword}' 연관 키워드 조회를 건너<0xEB><0xB5>니다.")
        return pd.DataFrame()

    BASE_URL = "https://api.naver.com"
    uri = "/keywordstool"
    method = "GET"
    
    try:
        headers = get_header(method, uri, API_KEY, SECRET_KEY, CUSTOMER_ID)
        params = {
            "hintKeywords": keyword, # 단일 키워드 문자열로 전달
            "showDetail": "1"
        }
        # hintKeywords는 리스트로 받을 수 있으나, 여기서는 단일 키워드 처리를 가정하고 문자열로 전달
        # 만약 API가 hintKeywords를 리스트로만 받는다면 [keyword]로 수정 필요
        
        response = requests.get(BASE_URL + uri, params=params, headers=headers, timeout=10)
        response.raise_for_status() # 오류 발생 시 예외 발생
        data = response.json()
        
        if "keywordList" not in data or not data["keywordList"]:
            debug_log(f"'{keyword}'에 대한 연관 키워드 결과 없음.")
            return pd.DataFrame() # 빈 DataFrame 반환
            
        df = pd.DataFrame(data["keywordList"])
        
        # API 응답에 해당 컬럼이 없을 경우를 대비
        df["monthlyPcQcCnt"] = df.get("monthlyPcQcCnt", 0)
        df["monthlyMobileQcCnt"] = df.get("monthlyMobileQcCnt", 0)

        def parse_count(x):
            if pd.isna(x) or str(x).lower() == '< 10': # 네이버 API는 10 미만일 때 "< 10"으로 반환
                return 5 # 또는 0, 또는 다른 대표값 (예: 5)
            try:
                return int(str(x).replace(",", ""))
            except ValueError:
                return 0
                
        df["PC월검색량"] = df["monthlyPcQcCnt"].apply(parse_count)
        df["모바일월검색량"] = df["monthlyMobileQcCnt"].apply(parse_count)
        df["토탈월검색량"] = df["PC월검색량"] + df["모바일월검색량"]
        df.rename(columns={"relKeyword": "정보키워드"}, inplace=True)
        
        # 필요한 컬럼만 선택, 없는 경우 대비
        required_cols = ["정보키워드", "PC월검색량", "모바일월검색량", "토탈월검색량"]
        result_df = pd.DataFrame(columns=required_cols)
        for col in required_cols:
            if col in df.columns:
                result_df[col] = df[col]
            else: # 해당 컬럼이 API 응답에 없을 경우 기본값으로 채움
                 if col == "정보키워드": # 정보키워드는 필수
                     debug_log(f"API 응답에 'relKeyword'가 없습니다. '{keyword}' 처리 중단.")
                     return pd.DataFrame()
                 result_df[col] = 0

        debug_log(f"fetch_related_keywords '{keyword}' 완료, 결과 {len(result_df)}개")
        return result_df.head(100) # 최대 100개로 제한
        
    except requests.exceptions.HTTPError as http_err:
        debug_log(f"HTTP 오류 발생 (fetch_related_keywords for '{keyword}'): {http_err} - 응답: {response.text if 'response' in locals() else 'N/A'}")
    except requests.exceptions.RequestException as req_err:
        debug_log(f"요청 오류 발생 (fetch_related_keywords for '{keyword}'): {req_err}")
    except Exception as e:
        debug_log(f"알 수 없는 오류 발생 (fetch_related_keywords for '{keyword}'): {e}")
    return pd.DataFrame() # 오류 발생 시 빈 DataFrame 반환


def fetch_blog_count(keyword):
    debug_log(f"fetch_blog_count 호출, 키워드: {keyword}")
    client_id = get_env_variable("NAVER_SEARCH_CLIENT_ID")
    client_secret = get_env_variable("NAVER_SEARCH_CLIENT_SECRET")

    if not client_id or not client_secret:
        debug_log(f"네이버 검색 API 키 정보 부족으로 '{keyword}' 블로그 수 조회를 건너<0xEB><0xB5>니다.")
        return 0

    url = "https://openapi.naver.com/v1/search/blog.json"
    headers = {
        "X-Naver-Client-Id": client_id,
        "X-Naver-Client-Secret": client_secret
    }
    params = {"query": keyword, "display": 1} # display=1로 설정하여 total 값만 빠르게 확인
    
    try:
        response = requests.get(url, headers=headers, params=params, timeout=5)
        response.raise_for_status() # HTTP 오류 발생 시 예외 발생
        data = response.json()
        total_count = data.get("total", 0)
        debug_log(f"fetch_blog_count 결과: {total_count} for '{keyword}'")
        return total_count
    except requests.exceptions.HTTPError as http_err:
        debug_log(f"HTTP 오류 발생 (fetch_blog_count for '{keyword}'): {http_err} - 응답: {response.text}")
    except requests.exceptions.RequestException as req_err: # Timeout, ConnectionError 등
        debug_log(f"요청 오류 발생 (fetch_blog_count for '{keyword}'): {req_err}")
    except Exception as e: # JSONDecodeError 등 기타 예외
        debug_log(f"알 수 없는 오류 발생 (fetch_blog_count for '{keyword}'): {e}")
    return 0 # 오류 발생 시 0 반환

def create_excel_file(df):
    if df.empty:
        debug_log("빈 DataFrame으로 Excel 파일을 생성하지 않습니다.")
        # 빈 파일을 생성하거나, None을 반환하여 Gradio에서 처리하도록 할 수 있음
        # 여기서는 빈 임시 파일을 생성하여 반환 (Gradio File 컴포넌트가 경로를 기대하므로)
        with tempfile.NamedTemporaryFile(suffix=".xlsx", delete=False) as tmp:
            excel_path = tmp.name
        # 빈 엑셀 파일에 헤더만이라도 써주려면
        # pd.DataFrame(columns=df.columns).to_excel(excel_path, index=False)
        # 아니면 그냥 빈 파일을 반환
        return excel_path

    try:
        with tempfile.NamedTemporaryFile(suffix=".xlsx", delete=False, mode='w+b') as tmp:
            excel_path = tmp.name
        df.to_excel(excel_path, index=False, engine='openpyxl')
        debug_log(f"Excel 파일 생성됨: {excel_path}")
        return excel_path
    except Exception as e:
        debug_log(f"Excel 파일 생성 중 오류: {e}")
        # 오류 발생 시 빈 파일 경로라도 반환 (Gradio 호환성)
        with tempfile.NamedTemporaryFile(suffix=".xlsx", delete=False) as tmp:
            return tmp.name


def process_keyword(keywords: str, include_related: bool):
    debug_log(f"process_keyword 호출 시작, 키워드들: '{keywords[:100]}...', 연관검색어 포함: {include_related}")
    input_keywords_orig = [k.strip() for k in keywords.splitlines() if k.strip()]
    
    if not input_keywords_orig:
        debug_log("입력된 키워드가 없습니다.")
        return pd.DataFrame(columns=["정보키워드", "PC월검색량", "모바일월검색량", "토탈월검색량", "블로그문서수"]), ""

    all_related_keywords_dfs = []
    
    # 1. fetch_related_keywords 병렬 처리
    debug_log(f"연관 키워드 조회 병렬 처리 시작 (최대 작업자 수: {MAX_WORKERS_RELATED_KEYWORDS})")
    with ThreadPoolExecutor(max_workers=MAX_WORKERS_RELATED_KEYWORDS) as executor:
        future_to_keyword_related = {
            executor.submit(fetch_related_keywords, kw): kw for kw in input_keywords_orig
        }
        for i, future in enumerate(as_completed(future_to_keyword_related)):
            kw = future_to_keyword_related[future]
            try:
                df_kw_related = future.result() # DataFrame 반환
                if not df_kw_related.empty:
                    # 원본 키워드가 결과에 포함되어 있는지 확인하고, 없으면 추가 시도 (API가 항상 relKeyword로 자신을 주진 않음)
                    # 하지만 fetch_related_keywords에서 이미 hintKeyword를 기반으로 검색하므로,
                    # 일반적으로는 해당 키워드 정보가 있거나, 연관 키워드만 나옴.
                    # 여기서는 API 응답을 그대로 활용.
                    
                    # 첫 번째 입력 키워드이고, 연관 키워드 포함 옵션이 켜져 있으면 모든 연관 키워드를 추가
                    # 그 외의 경우에는 해당 키워드 자체의 정보만 (있다면) 사용하거나, 최상단 키워드 사용
                    if include_related and kw == input_keywords_orig[0]:
                         all_related_keywords_dfs.append(df_kw_related)
                         debug_log(f"첫 번째 키워드 '{kw}'의 모든 연관 키워드 ({len(df_kw_related)}개) 추가됨.")
                    else:
                        # 해당 키워드와 일치하는 행을 찾거나, 없으면 API가 반환한 첫번째 행을 사용
                        row_kw = df_kw_related[df_kw_related["정보키워드"] == kw]
                        if not row_kw.empty:
                            all_related_keywords_dfs.append(row_kw)
                            debug_log(f"키워드 '{kw}'의 직접 정보 추가됨.")
                        elif not df_kw_related.empty : # 직접 정보는 없지만 연관 키워드는 있을 때
                            all_related_keywords_dfs.append(df_kw_related.head(1)) # 가장 연관성 높은 키워드 추가
                            debug_log(f"키워드 '{kw}'의 직접 정보는 없으나, 가장 연관성 높은 키워드 1개 추가됨.")
                        # else: 키워드 정보도, 연관 정보도 없을 때 (df_kw_related가 비어있음)

                debug_log(f"'{kw}' 연관 키워드 처리 완료 ({i+1}/{len(input_keywords_orig)})")
            except Exception as e:
                debug_log(f"'{kw}' 연관 키워드 조회 중 병렬 작업 오류: {e}")

    if not all_related_keywords_dfs:
        debug_log("연관 키워드 조회 결과가 모두 비어있습니다.")
        # 빈 DataFrame에 블로그 문서수 컬럼 추가
        empty_df = pd.DataFrame(columns=["정보키워드", "PC월검색량", "모바일월검색량", "토탈월검색량"])
        empty_df["블로그문서수"] = None
        return empty_df, create_excel_file(empty_df)

    result_df = pd.concat(all_related_keywords_dfs, ignore_index=True)
    result_df.drop_duplicates(subset=["정보키워드"], inplace=True) # 중복 제거
    debug_log(f"연관 키워드 병렬 처리 완료. 통합된 DataFrame shape: {result_df.shape}")

    # 2. fetch_blog_count 병렬 처리
    keywords_for_blog_count = result_df["정보키워드"].dropna().unique().tolist()
    blog_counts_map = {}

    if keywords_for_blog_count:
        debug_log(f"블로그 문서 수 조회 병렬 처리 시작 (키워드 {len(keywords_for_blog_count)}개, 최대 작업자 수: {MAX_WORKERS_BLOG_COUNT})")
        with ThreadPoolExecutor(max_workers=MAX_WORKERS_BLOG_COUNT) as executor:
            future_to_keyword_blog = {
                executor.submit(fetch_blog_count, kw): kw for kw in keywords_for_blog_count
            }
            for i, future in enumerate(as_completed(future_to_keyword_blog)):
                kw = future_to_keyword_blog[future]
                try:
                    count = future.result() # 숫자 반환
                    blog_counts_map[kw] = count
                    if (i+1) % 50 == 0: # 너무 많은 로그 방지
                         debug_log(f"블로그 수 조회 진행 중... ({i+1}/{len(keywords_for_blog_count)})")
                except Exception as e:
                    debug_log(f"'{kw}' 블로그 수 조회 중 병렬 작업 오류: {e}")
                    blog_counts_map[kw] = 0 # 오류 시 0으로 처리
        
        result_df["블로그문서수"] = result_df["정보키워드"].map(blog_counts_map).fillna(0).astype(int)
        debug_log("블로그 문서 수 병렬 처리 완료.")
    else:
        result_df["블로그문서수"] = 0 # 조회할 키워드가 없으면 0으로 채움

    result_df.sort_values(by="토탈월검색량", ascending=False, inplace=True)
    debug_log(f"process_keyword 최종 완료. DataFrame shape: {result_df.shape}")
    
    # 최종 컬럼 순서 및 존재 여부 확인
    final_columns = ["정보키워드", "PC월검색량", "모바일월검색량", "토탈월검색량", "블로그문서수"]
    for col in final_columns:
        if col not in result_df.columns:
            result_df[col] = 0 if col != "정보키워드" else "" # 없는 컬럼은 기본값으로 채움
    
    result_df = result_df[final_columns] # 컬럼 순서 고정

    return result_df, create_excel_file(result_df)


# --- 형태소 분석과 검색량/블로그문서수 병합 ---
def morphological_analysis_and_enrich(text: str, remove_freq1: bool):
    debug_log("morphological_analysis_and_enrich 함수 시작")
    df_freq, _ = analyze_text(text) # 엑셀 파일 경로는 여기선 사용 안 함
    
    if df_freq.empty:
        debug_log("형태소 분석 결과가 빈 데이터프레임입니다.")
        return pd.DataFrame(columns=["단어", "빈도수", "PC월검색량", "모바일월검색량", "토탈월검색량", "블로그문서수"]), ""

    if remove_freq1:
        before_count = len(df_freq)
        df_freq = df_freq[df_freq["빈도수"] > 1].copy() # .copy() 추가
        debug_log(f"빈도수 1 제거 적용됨. {before_count} -> {len(df_freq)}")

    if df_freq.empty:
        debug_log("빈도수 1 제거 후 데이터가 없습니다.")
        return pd.DataFrame(columns=["단어", "빈도수", "PC월검색량", "모바일월검색량", "토탈월검색량", "블로그문서수"]), ""

    keywords_from_morph = "\n".join(df_freq["단어"].tolist())
    debug_log(f"형태소 분석 기반 키워드 ({len(df_freq['단어'])}개)에 대한 정보 조회 시작")
    
    # process_keyword는 연관 키워드를 포함하지 않도록 호출 (include_related=False)
    df_keyword_info, _ = process_keyword(keywords_from_morph, include_related=False)
    debug_log("형태소 분석 키워드에 대한 검색량 및 블로그문서수 조회 완료")

    if df_keyword_info.empty:
        debug_log("형태소 분석 키워드에 대한 API 정보 조회 결과가 없습니다.")
        # df_freq에 빈 컬럼들 추가
        for col in ["PC월검색량", "모바일월검색량", "토탈월검색량", "블로그문서수"]:
            df_freq[col] = None
        merged_df = df_freq
    else:
        merged_df = pd.merge(df_freq, df_keyword_info, left_on="단어", right_on="정보키워드", how="left")
        if "정보키워드" in merged_df.columns: # merge 후 정보키워드 컬럼이 생겼다면 삭제
            merged_df.drop(columns=["정보키워드"], inplace=True, errors='ignore')

    # 누락된 컬럼 기본값으로 채우기
    expected_cols = ["단어", "빈도수", "PC월검색량", "모바일월검색량", "토탈월검색량", "블로그문서수"]
    for col in expected_cols:
        if col not in merged_df.columns:
            merged_df[col] = None if col not in ["빈도수"] else 0
    
    merged_df = merged_df[expected_cols] # 컬럼 순서 고정

    merged_excel_path = create_excel_file(merged_df)
    debug_log("morphological_analysis_and_enrich 함수 완료")
    return merged_df, merged_excel_path


# --- 직접 키워드 분석 (단독 분석) ---
def direct_keyword_analysis(text: str, keyword_input: str):
    debug_log("direct_keyword_analysis 함수 시작")
    direct_keywords_list = [kw.strip() for kw in re.split(r'[\n,]+', keyword_input) if kw.strip()]
    debug_log(f"입력된 직접 키워드 목록: {direct_keywords_list}")

    if not direct_keywords_list:
        debug_log("직접 입력된 키워드가 없습니다.")
        return pd.DataFrame(columns=["키워드", "빈도수"]), ""

    # 1. 본문 내 빈도수 계산
    results_freq = []
    for kw in direct_keywords_list:
        count = text.count(kw) # 대소문자 구분, 정확한 문자열 카운트
        results_freq.append({"키워드": kw, "빈도수": count})
        debug_log(f"직접 키워드 '{kw}'의 본문 내 빈도수: {count}")
    df_direct_freq = pd.DataFrame(results_freq)

    # 2. API를 통해 검색량 및 블로그 수 조회 (병렬 처리된 process_keyword 사용)
    # 여기서는 각 직접 키워드에 대한 정보만 필요하므로 include_related=False
    keywords_for_api = "\n".join(direct_keywords_list)
    df_direct_api_info, _ = process_keyword(keywords_for_api, include_related=False)

    # 3. 빈도수 결과와 API 결과 병합
    if not df_direct_api_info.empty:
        # API 결과의 '정보키워드'를 '키워드'로 변경하여 병합 기준 통일
        df_direct_api_info.rename(columns={"정보키워드": "키워드"}, inplace=True)
        merged_df = pd.merge(df_direct_freq, df_direct_api_info, on="키워드", how="left")
    else:
        merged_df = df_direct_freq
        for col in ["PC월검색량", "모바일월검색량", "토탈월검색량", "블로그문서수"]:
            merged_df[col] = None # API 정보가 없을 경우 빈 컬럼 추가

    # 컬럼 순서 및 기본값 정리
    final_cols = ["키워드", "빈도수", "PC월검색량", "모바일월검색량", "토탈월검색량", "블로그문서수"]
    for col in final_cols:
        if col not in merged_df.columns:
            merged_df[col] = 0 if col != "키워드" else ""
    merged_df = merged_df[final_cols]


    excel_path = create_excel_file(merged_df)
    debug_log("direct_keyword_analysis 함수 완료")
    return merged_df, excel_path


# --- 통합 분석 (형태소 분석 + 직접 키워드 분석) ---
def combined_analysis(blog_text: str, remove_freq1: bool, direct_keyword_input: str):
    debug_log("combined_analysis 함수 시작")
    
    # 1. 형태소 분석 기반 결과 (API 정보 포함)
    df_morph, _ = morphological_analysis_and_enrich(blog_text, remove_freq1)
    # df_morph 컬럼: "단어", "빈도수", "PC월검색량", "모바일월검색량", "토탈월검색량", "블로그문서수"
    
    # 2. 직접 입력 키워드 처리
    direct_keywords_list = [kw.strip() for kw in re.split(r'[\n,]+', direct_keyword_input) if kw.strip()]
    debug_log(f"통합 분석 - 입력된 직접 키워드: {direct_keywords_list}")

    if not direct_keywords_list: # 직접 입력 키워드가 없으면 형태소 분석 결과만 반환
        if "직접입력" not in df_morph.columns and not df_morph.empty:
             df_morph["직접입력"] = "" # 직접입력 컬럼 추가
        # 컬럼 순서 조정
        cols = ["단어", "빈도수", "PC월검색량", "모바일월검색량", "토탈월검색량", "블로그문서수", "직접입력"]
        for col in cols:
            if col not in df_morph.columns:
                 df_morph[col] = "" if col == "직접입력" else (0 if col != "단어" else "")
        df_morph = df_morph[cols]
        return df_morph, create_excel_file(df_morph)

    # 직접 입력 키워드에 대한 정보 (빈도수, API 정보) 가져오기
    # direct_keyword_analysis는 "키워드" 컬럼을 사용하므로, df_morph의 "단어"와 통일 필요
    df_direct_raw, _ = direct_keyword_analysis(blog_text, direct_keyword_input)
    # df_direct_raw 컬럼: "키워드", "빈도수", "PC월검색량", "모바일월검색량", "토탈월검색량", "블로그문서수"
    df_direct_raw.rename(columns={"키워드": "단어"}, inplace=True) # 컬럼명 통일

    # 형태소 분석 결과에 '직접입력' 표기
    if not df_morph.empty:
        df_morph["직접입력"] = df_morph["단어"].apply(lambda x: "직접입력" if x in direct_keywords_list else "")
    else: # 형태소 분석 결과가 비어있을 수 있음
        df_morph = pd.DataFrame(columns=["단어", "빈도수", "PC월검색량", "모바일월검색량", "토탈월검색량", "블로그문서수", "직접입력"])


    # 직접 입력된 키워드 중 형태소 분석 결과에 없는 것들을 추가
    # df_direct_raw에는 모든 직접 입력 키워드의 정보가 있음
    
    # df_morph와 df_direct_raw를 합치되, '단어' 기준으로 중복 처리
    # 먼저 df_direct_raw에 '직접입력' 컬럼을 추가하고 "직접입력"으로 채움
    df_direct_raw["직접입력"] = "직접입력"
    
    # df_morph에 있는 단어는 df_morph 정보를 우선 사용 (직접입력 플래그만 업데이트)
    # df_direct_raw에서 df_morph에 없는 단어만 골라서 추가
    
    # 합치기: df_morph를 기준으로 df_direct_raw의 정보를 추가/업데이트
    # Pandas 0.25.0 이상에서는 combine_first의 overwrite 동작이 약간 다를 수 있으므로 merge 사용 고려
    
    # 1. df_morph의 단어들에 대해 df_direct_raw의 정보로 업데이트 (API 정보 등)
    #    단, 빈도수는 각자 계산한 것을 유지할지, 아니면 한쪽을 택할지 결정 필요.
    #    여기서는 df_morph의 빈도수(형태소분석 기반)와 df_direct_raw의 빈도수(단순 count)가 다를 수 있음.
    #    일단은 df_morph 기준으로 하고, 없는 직접 키워드만 df_direct_raw에서 추가하는 방식.

    # df_morph의 '직접입력' 컬럼은 이미 위에서 처리됨.
    # 이제 df_direct_raw에만 있는 키워드를 df_morph에 추가
    
    # df_morph에 있는 단어 목록
    morph_words = df_morph['단어'].tolist() if not df_morph.empty else []
    
    rows_to_add = []
    for idx, row in df_direct_raw.iterrows():
        if row['단어'] not in morph_words:
            rows_to_add.append(row)
            
    if rows_to_add:
        df_to_add = pd.DataFrame(rows_to_add)
        combined_df = pd.concat([df_morph, df_to_add], ignore_index=True)
    else:
        combined_df = df_morph.copy() # df_morph가 비어있을 수도 있음

    # 최종 컬럼 정리 및 순서
    final_cols_combined = ["단어", "빈도수", "PC월검색량", "모바일월검색량", "토탈월검색량", "블로그문서수", "직접입력"]
    for col in final_cols_combined:
        if col not in combined_df.columns:
            # 기본값 설정: '직접입력'은 "", 나머지는 0 또는 None (API 값은 None 허용)
            if col == "직접입력":
                combined_df[col] = ""
            elif col == "빈도수":
                 combined_df[col] = 0
            elif col == "단어":
                 combined_df[col] = ""
            else: # API 관련 컬럼
                 combined_df[col] = None # pd.NA도 가능

    # NA 값들을 적절히 처리 (예: 0으로 채우거나 그대로 두기)
    # API 값들은 숫자가 아닐 수 있으므로 (예: "< 10"), process_keyword에서 처리됨. 여기서는 int형 변환 전이므로 그대로 둠.
    # Gradio Dataframe은 None을 잘 표시함.
    # 빈도수는 정수형이어야 함
    if "빈도수" in combined_df.columns:
        combined_df["빈도수"] = combined_df["빈도수"].fillna(0).astype(int)


    combined_df = combined_df[final_cols_combined].drop_duplicates(subset=['단어'], keep='first') # 만약을 위한 중복 제거
    combined_df.sort_values(by=["직접입력", "빈도수"], ascending=[False, False], inplace=True, na_position='last') # 직접입력 우선, 그 다음 빈도수
    combined_df.reset_index(drop=True, inplace=True)

    combined_excel = create_excel_file(combined_df)
    debug_log("combined_analysis 함수 완료")
    return combined_df, combined_excel


# --- 분석 핸들러 ---
def analysis_handler(blog_text: str, remove_freq1: bool, direct_keyword_input: str, direct_keyword_only: bool):
    debug_log(f"analysis_handler 함수 시작. 직접 키워드만 분석: {direct_keyword_only}")
    start_time = time.time()

    if not blog_text or blog_text.strip() == "스크래핑된 블로그 내용이 여기에 표시됩니다." or blog_text.strip() == "":
        debug_log("분석할 블로그 내용이 없습니다.")
        # 빈 결과를 반환하기 위한 DataFrame 구조 명시
        empty_cols_direct = ["키워드", "빈도수", "PC월검색량", "모바일월검색량", "토탈월검색량", "블로그문서수"]
        empty_cols_combined = ["단어", "빈도수", "PC월검색량", "모바일월검색량", "토탈월검색량", "블로그문서수", "직접입력"]
        df_empty = pd.DataFrame(columns=empty_cols_direct if direct_keyword_only else empty_cols_combined)
        return df_empty, create_excel_file(df_empty)


    if direct_keyword_only:
        # "직접 키워드 입력만 분석" 선택 시 단독 분석 수행
        if not direct_keyword_input or not direct_keyword_input.strip():
            debug_log("직접 키워드만 분석 선택되었으나, 입력된 직접 키워드가 없습니다.")
            empty_cols_direct = ["키워드", "빈도수", "PC월검색량", "모바일월검색량", "토탈월검색량", "블로그문서수"]
            df_empty = pd.DataFrame(columns=empty_cols_direct)
            return df_empty, create_excel_file(df_empty)
        
        result_df, excel_path = direct_keyword_analysis(blog_text, direct_keyword_input)
    else:
        # 기본 통합 분석 수행
        result_df, excel_path = combined_analysis(blog_text, remove_freq1, direct_keyword_input)
    
    end_time = time.time()
    debug_log(f"analysis_handler 총 실행 시간: {end_time - start_time:.2f} 초")
    return result_df, excel_path


# --- 스크래핑 실행 ---
def fetch_blog_content(url: str):
    debug_log("fetch_blog_content 함수 시작")
    if not url or not url.strip():
        return "블로그 URL을 입력해주세요."
    if not url.startswith("http://") and not url.startswith("https://"):
        return "유효한 URL 형식(http:// 또는 https://)으로 입력해주세요."
    
    start_time = time.time()
    content = scrape_naver_blog(url)
    end_time = time.time()
    debug_log(f"fetch_blog_content 총 실행 시간: {end_time - start_time:.2f} 초. 내용 길이: {len(content)}")
    return content

# --- Custom CSS ---
custom_css = """
/* 전체 컨테이너 스타일 */
.gradio-container {
    max-width: 1080px; /* 너비 확장 */
    margin: auto;
    font-family: 'Helvetica Neue', Arial, sans-serif;
    background: #f5f7fa;
    padding: 2rem;
}

/* 헤더 스타일 */
.custom-header {
    text-align: center;
    font-size: 2.5rem;
    font-weight: bold;
    margin-bottom: 1.5rem;
    color: #333;
}

/* 그룹 박스 스타일 */
.custom-group {
    background: #ffffff;
    border-radius: 8px;
    padding: 1.5rem;
    box-shadow: 0 2px 8px rgba(0,0,0,0.1);
    margin-bottom: 1.5rem;
}

/* 버튼 스타일 */
.custom-button {
    background-color: #007bff;
    color: #fff;
    border: none;
    border-radius: 4px;
    padding: 0.6rem 1.2rem;
    font-size: 1rem;
    cursor: pointer;
    min-width: 150px; /* 버튼 최소 너비 */
}
.custom-button:hover {
    background-color: #0056b3;
}


/* 체크박스 스타일 */
.custom-checkbox {
    margin-right: 1rem;
}

/* 결과 테이블 및 다운로드 버튼 */
.custom-result {
    margin-top: 1.5rem;
}

/* 가운데 정렬 */
.centered {
    display: flex;
    justify-content: center;
    align-items: center;
}
"""

# --- Gradio 인터페이스 구성 ---
with gr.Blocks(title="네이버 블로그 키워드 분석 서비스", css=custom_css) as demo:
    gr.HTML("<div class='custom-header'>네이버 블로그 키워드 분석 서비스</div>")
    
    with gr.Row():
        with gr.Column(scale=2): # 왼쪽 컬럼 (입력 영역)
            with gr.Group(elem_classes="custom-group"):
                blog_url_input = gr.Textbox(
                    label="네이버 블로그 링크", 
                    placeholder="예: https://blog.naver.com/아이디/글번호", 
                    lines=1,
                    info="분석할 네이버 블로그 게시물 URL을 입력하세요."
                )
                with gr.Row(elem_classes="centered"):
                    scrape_button = gr.Button("블로그 내용 가져오기", elem_classes="custom-button", variant="primary")
            
            with gr.Group(elem_classes="custom-group"):
                blog_content_box = gr.Textbox(
                    label="블로그 내용 (수정 가능)", 
                    lines=10, 
                    placeholder="스크래핑된 블로그 내용이 여기에 표시됩니다. 직접 수정하거나 붙여넣을 수 있습니다."
                )
            
            with gr.Group(elem_classes="custom-group"):
                gr.Markdown("### 분석 옵션 설정")
                with gr.Row():
                    remove_freq_checkbox = gr.Checkbox(
                        label="빈도수 1인 단어 제거 (형태소 분석 시)", 
                        value=True, 
                        elem_classes="custom-checkbox",
                        info="형태소 분석 결과에서 빈도수가 1인 단어를 제외합니다."
                    )
                with gr.Row():
                    direct_keyword_only_checkbox = gr.Checkbox(
                        label="직접 키워드만 분석", 
                        value=False, 
                        elem_classes="custom-checkbox",
                        info="이 옵션을 선택하면 아래 입력한 직접 키워드에 대해서만 분석을 수행합니다 (형태소 분석 생략)."
                    )
                with gr.Row():
                    direct_keyword_box = gr.Textbox(
                        label="직접 키워드 입력 (엔터 또는 ','로 구분)", 
                        lines=3, 
                        placeholder="예: 키워드1, 키워드2\n키워드3\n...\n(형태소 분석 결과와 별도로 분석하거나, 통합 분석에 추가할 키워드)",
                        info="분석에 포함하거나 단독으로 분석할 키워드를 직접 입력합니다."
                    )
            
            with gr.Group(elem_classes="custom-group"):
                with gr.Row(elem_classes="centered"):
                    analyze_button = gr.Button("키워드 분석 실행", elem_classes="custom-button", variant="primary")

        with gr.Column(scale=3): # 오른쪽 컬럼 (결과 영역)
            with gr.Group(elem_classes="custom-group custom-result"):
                gr.Markdown("### 분석 결과")
                result_df_display = gr.Dataframe(
                    label="통합 분석 결과 (단어, 빈도수, 검색량, 블로그문서수, 직접입력 여부)", 
                    interactive=False, # 사용자가 직접 수정 불가
                    height=600, # 높이 조절
                    wrap=True # 긴 텍스트 줄바꿈
                )
            with gr.Group(elem_classes="custom-group"):
                gr.Markdown("### 결과 다운로드")
                excel_file_display = gr.File(label="분석 결과 Excel 파일 다운로드")

    # 이벤트 연결
    scrape_button.click(fn=fetch_blog_content, inputs=blog_url_input, outputs=blog_content_box)
    analyze_button.click(
        fn=analysis_handler,
        inputs=[blog_content_box, remove_freq_checkbox, direct_keyword_box, direct_keyword_only_checkbox],
        outputs=[result_df_display, excel_file_display]
    )

if __name__ == "__main__":
    # 환경 변수 설정 예시 (실제 실행 시에는 시스템 환경 변수로 설정하거나, .env 파일 등을 사용)
    # os.environ["NAVER_API_KEY"] = "YOUR_NAVER_API_KEY"
    # os.environ["NAVER_SECRET_KEY"] = "YOUR_NAVER_SECRET_KEY"
    # os.environ["NAVER_CUSTOMER_ID"] = "YOUR_NAVER_CUSTOMER_ID"
    # os.environ["NAVER_SEARCH_CLIENT_ID"] = "YOUR_NAVER_SEARCH_CLIENT_ID"
    # os.environ["NAVER_SEARCH_CLIENT_SECRET"] = "YOUR_NAVER_SEARCH_CLIENT_SECRET"

    # 환경 변수 설정 확인
    required_env_vars = [
        "NAVER_API_KEY", "NAVER_SECRET_KEY", "NAVER_CUSTOMER_ID",
        "NAVER_SEARCH_CLIENT_ID", "NAVER_SEARCH_CLIENT_SECRET"
    ]
    missing_vars = [var for var in required_env_vars if not os.environ.get(var)]
    if missing_vars:
        debug_log(f"경고: 다음 필수 환경 변수가 설정되지 않았습니다 - {', '.join(missing_vars)}")
        debug_log("API 호출 기능이 정상적으로 동작하지 않을 수 있습니다.")
        debug_log("스크립트 실행 전에 해당 환경 변수를 설정해주세요.")
        # Gradio 앱은 실행하되, API 호출 시 오류가 발생할 수 있음을 사용자에게 알림.

    debug_log("Gradio 앱 실행 시작")
    demo.launch(debug=True) # 개발 중에는 debug=True로 설정하여 오류 확인 용이
    debug_log("Gradio 앱 실행 종료")