N_B_analysis-5

Sleeping

File size: 21,077 Bytes

import gradio as gr
import requests
import aiohttp
import asyncio
from bs4 import BeautifulSoup
import urllib.parse  # iframe 경로 보정을 위한 모듈
import re
import logging
import tempfile
import pandas as pd
import mecab  # python‑mecab‑ko 라이브러리 사용
import os
import time
import hmac
import hashlib
import base64

# 디버깅(로그)용 함수
def debug_log(message: str):
    print(f"[DEBUG] {message}")

# --- 네이버 블로그 스크래핑 (비동기 버전) ---
async def scrape_naver_blog(url: str) -> str:
    debug_log("scrape_naver_blog 함수 시작")
    debug_log(f"요청받은 URL: {url}")
    headers = {
        "User-Agent": (
            "Mozilla/5.0 (Windows NT 10.0; Win64; x64) "
            "AppleWebKit/537.36 (KHTML, like Gecko) "
            "Chrome/96.0.4664.110 Safari/537.36"
        )
    }
    try:
        async with aiohttp.ClientSession() as session:
            async with session.get(url, headers=headers) as response:
                debug_log("HTTP GET 요청(메인 페이지) 완료")
                if response.status != 200:
                    debug_log(f"요청 실패, 상태코드: {response.status}")
                    return f"오류가 발생했습니다. 상태코드: {response.status}"
                html = await response.text()
                soup = BeautifulSoup(html, "html.parser")
                debug_log("HTML 파싱(메인 페이지) 완료")
                iframe = soup.select_one("iframe#mainFrame")
                if not iframe:
                    debug_log("iframe#mainFrame 태그를 찾을 수 없습니다.")
                    return "본문 iframe을 찾을 수 없습니다."
                iframe_src = iframe.get("src")
                if not iframe_src:
                    debug_log("iframe src가 존재하지 않습니다.")
                    return "본문 iframe의 src를 찾을 수 없습니다."
                parsed_iframe_url = urllib.parse.urljoin(url, iframe_src)
                debug_log(f"iframe 페이지 요청 URL: {parsed_iframe_url}")
            async with aiohttp.ClientSession() as session:
                async with session.get(parsed_iframe_url, headers=headers) as iframe_response:
                    debug_log("HTTP GET 요청(iframe 페이지) 완료")
                    if iframe_response.status != 200:
                        debug_log(f"iframe 요청 실패, 상태코드: {iframe_response.status}")
                        return f"iframe에서 오류가 발생했습니다. 상태코드: {iframe_response.status}"
                    iframe_html = await iframe_response.text()
                    iframe_soup = BeautifulSoup(iframe_html, "html.parser")
                    debug_log("HTML 파싱(iframe 페이지) 완료")
                    title_div = iframe_soup.select_one('.se-module.se-module-text.se-title-text')
                    title = title_div.get_text(strip=True) if title_div else "제목을 찾을 수 없습니다."
                    debug_log(f"추출된 제목: {title}")
                    content_div = iframe_soup.select_one('.se-main-container')
                    if content_div:
                        content = content_div.get_text("\n", strip=True)
                    else:
                        content = "본문을 찾을 수 없습니다."
                    debug_log("본문 추출 완료")
                    result = f"[제목]\n{title}\n\n[본문]\n{content}"
                    debug_log("제목과 본문 합침 완료")
                    return result
    except Exception as e:
        debug_log(f"에러 발생: {str(e)}")
        return f"스크래핑 중 오류가 발생했습니다: {str(e)}"

# --- 네이버 검색 및 광고 API 관련 ---
def generate_signature(timestamp, method, uri, secret_key):
    message = f"{timestamp}.{method}.{uri}"
    digest = hmac.new(secret_key.encode("utf-8"), message.encode("utf-8"), hashlib.sha256).digest()
    return base64.b64encode(digest).decode()

def get_header(method, uri, api_key, secret_key, customer_id):
    timestamp = str(round(time.time() * 1000))
    signature = generate_signature(timestamp, method, uri, secret_key)
    return {
        "Content-Type": "application/json; charset=UTF-8",
        "X-Timestamp": timestamp,
        "X-API-KEY": api_key,
        "X-Customer": str(customer_id),
        "X-Signature": signature
    }

# --- 연관 키워드 조회 (비동기) ---
async def fetch_related_keywords(keyword):
    debug_log(f"fetch_related_keywords 호출, 키워드: {keyword}")
    API_KEY = os.environ["NAVER_API_KEY"]
    SECRET_KEY = os.environ["NAVER_SECRET_KEY"]
    CUSTOMER_ID = os.environ["NAVER_CUSTOMER_ID"]
    BASE_URL = "https://api.naver.com"
    uri = "/keywordstool"
    method = "GET"
    headers = get_header(method, uri, API_KEY, SECRET_KEY, CUSTOMER_ID)
    params = {
        "hintKeywords": [keyword],
        "showDetail": "1"
    }
    async with aiohttp.ClientSession() as session:
        async with session.get(BASE_URL + uri, headers=headers, params=params) as response:
            data = await response.json()
    if "keywordList" not in data:
        return pd.DataFrame()
    df = pd.DataFrame(data["keywordList"])
    if len(df) > 100:
        df = df.head(100)
    def parse_count(x):
        try:
            return int(str(x).replace(",", ""))
        except:
            return 0
    df["PC월검색량"] = df["monthlyPcQcCnt"].apply(parse_count)
    df["모바일월검색량"] = df["monthlyMobileQcCnt"].apply(parse_count)
    df["토탈월검색량"] = df["PC월검색량"] + df["모바일월검색량"]
    df.rename(columns={"relKeyword": "정보키워드"}, inplace=True)
    result_df = df[["정보키워드", "PC월검색량", "모바일월검색량", "토탈월검색량"]]
    debug_log("fetch_related_keywords 완료")
    return result_df

# --- 블로그 문서수 조회 (비동기) ---
async def fetch_blog_count(keyword):
    debug_log(f"fetch_blog_count 호출, 키워드: {keyword}")
    client_id = os.environ["NAVER_SEARCH_CLIENT_ID"]
    client_secret = os.environ["NAVER_SEARCH_CLIENT_SECRET"]
    url = "https://openapi.naver.com/v1/search/blog.json"
    headers = {
        "X-Naver-Client-Id": client_id,
        "X-Naver-Client-Secret": client_secret
    }
    params = {"query": keyword, "display": 1}
    async with aiohttp.ClientSession() as session:
        async with session.get(url, headers=headers, params=params) as response:
            if response.status == 200:
                data = await response.json()
                debug_log(f"fetch_blog_count 결과: {data.get('total', 0)}")
                return data.get("total", 0)
            else:
                debug_log(f"fetch_blog_count 오류, 상태코드: {response.status}")
                return 0

def create_excel_file(df):
    with tempfile.NamedTemporaryFile(suffix=".xlsx", delete=False) as tmp:
        excel_path = tmp.name
    df.to_excel(excel_path, index=False, engine='openpyxl')
    debug_log(f"Excel 파일 생성됨: {excel_path}")
    return excel_path

# --- 키워드 검색 (비동기) ---
async def process_keyword(keywords: str, include_related: bool):
    debug_log(f"process_keyword 호출, 키워드들: {keywords}, 연관검색어 포함: {include_related}")
    input_keywords = [k.strip() for k in keywords.splitlines() if k.strip()]
    result_dfs = []
    for idx, kw in enumerate(input_keywords):
        df_kw = await fetch_related_keywords(kw)
        if df_kw.empty:
            continue
        row_kw = df_kw[df_kw["정보키워드"] == kw]
        if not row_kw.empty:
            result_dfs.append(row_kw)
        else:
            result_dfs.append(df_kw.head(1))
        if include_related and idx == 0:
            df_related = df_kw[df_kw["정보키워드"] != kw]
            if not df_related.empty:
                result_dfs.append(df_related)
    if result_dfs:
        result_df = pd.concat(result_dfs, ignore_index=True)
        result_df.drop_duplicates(subset=["정보키워드"], inplace=True)
    else:
        result_df = pd.DataFrame(columns=["정보키워드", "PC월검색량", "모바일월검색량", "토탈월검색량"])
    # 블로그 문서수 조회를 병렬로 처리
    tasks = [fetch_blog_count(kw) for kw in result_df["정보키워드"]]
    counts = await asyncio.gather(*tasks)
    result_df["블로그문서수"] = counts
    result_df.sort_values(by="토탈월검색량", ascending=False, inplace=True)
    debug_log("process_keyword 완료")
    return result_df, create_excel_file(result_df)

# --- 형태소 분석 (참고 코드-1, 동기) ---
def analyze_text(text: str):
    logging.basicConfig(level=logging.DEBUG)
    logger = logging.getLogger(__name__)
    logger.debug("원본 텍스트: %s", text)
    filtered_text = re.sub(r'[^가-힣]', '', text)
    logger.debug("필터링된 텍스트: %s", filtered_text)
    if not filtered_text:
        logger.debug("유효한 한국어 텍스트가 없음.")
        return pd.DataFrame(columns=["단어", "빈도수"]), ""
    mecab_instance = mecab.MeCab()
    tokens = mecab_instance.pos(filtered_text)
    logger.debug("형태소 분석 결과: %s", tokens)
    freq = {}
    for word, pos in tokens:
        if word and word.strip() and pos.startswith("NN"):
            freq[word] = freq.get(word, 0) + 1
            logger.debug("단어: %s, 품사: %s, 빈도: %d", word, pos, freq[word])
    sorted_freq = sorted(freq.items(), key=lambda x: x[1], reverse=True)
    logger.debug("정렬된 단어 빈도: %s", sorted_freq)
    df = pd.DataFrame(sorted_freq, columns=["단어", "빈도수"])
    logger.debug("형태소 분석 DataFrame 생성됨, shape: %s", df.shape)
    temp_file = tempfile.NamedTemporaryFile(delete=False, suffix=".xlsx")
    df.to_excel(temp_file.name, index=False, engine='openpyxl')
    temp_file.close()
    logger.debug("Excel 파일 생성됨: %s", temp_file.name)
    return df, temp_file.name

# --- 형태소 분석과 검색량/블로그문서수 병합 (비동기) ---
async def morphological_analysis_and_enrich(text: str, remove_freq1: bool):
    debug_log("morphological_analysis_and_enrich 함수 시작")
    df_freq, _ = analyze_text(text)
    if df_freq.empty:
        debug_log("형태소 분석 결과가 빈 데이터프레임입니다.")
        return df_freq, ""
    if remove_freq1:
        before_shape = df_freq.shape
        df_freq = df_freq[df_freq["빈도수"] != 1]
        debug_log(f"빈도수 1 제거 적용됨. {before_shape} -> {df_freq.shape}")
    keywords = "\n".join(df_freq["단어"].tolist())
    debug_log(f"분석된 키워드: {keywords}")
    df_keyword_info, _ = await process_keyword(keywords, include_related=False)
    debug_log("검색량 및 블로그문서수 조회 완료")
    merged_df = pd.merge(df_freq, df_keyword_info, left_on="단어", right_on="정보키워드", how="left")
    merged_df.drop(columns=["정보키워드"], inplace=True)
    merged_excel_path = create_excel_file(merged_df)
    debug_log("morphological_analysis_and_enrich 함수 완료")
    return merged_df, merged_excel_path

# --- 직접 키워드 분석 (단독 분석, 비동기) ---
async def direct_keyword_analysis(text: str, keyword_input: str):
    debug_log("direct_keyword_analysis 함수 시작")
    keywords = re.split(r'[\n,]+', keyword_input)
    keywords = [kw.strip() for kw in keywords if kw.strip()]
    debug_log(f"입력된 키워드 목록: {keywords}")
    results = []
    for kw in keywords:
        count = text.count(kw)
        results.append((kw, count))
        debug_log(f"키워드 '{kw}'의 빈도수: {count}")
        # 직접 입력 키워드가 본문에 없으면 추가 조회
        if kw not in text:
            df_direct, _ = await process_keyword(kw, include_related=False)
            if (not df_direct.empty) and (kw in df_direct["정보키워드"].values):
                row = df_direct[df_direct["정보키워드"] == kw].iloc[0]
                pc = row.get("PC월검색량", None)
                mobile = row.get("모바일월검색량", None)
                total = row.get("토탈월검색량", None)
                blog_count = row.get("블로그문서수", None)
            else:
                pc = mobile = total = blog_count = None
            # 결과에 새 행 추가
            results.append((kw, count))
    df = pd.DataFrame(results, columns=["키워드", "빈도수"])
    excel_path = create_excel_file(df)
    debug_log("direct_keyword_analysis 함수 완료")
    return df, excel_path

# --- 통합 분석 (형태소 분석 + 직접 키워드 분석, 비동기) ---
async def combined_analysis(blog_text: str, remove_freq1: bool, direct_keyword_input: str):
    debug_log("combined_analysis 함수 시작")
    merged_df, _ = await morphological_analysis_and_enrich(blog_text, remove_freq1)
    if "직접입력" not in merged_df.columns:
        merged_df["직접입력"] = ""
    direct_keywords = re.split(r'[\n,]+', direct_keyword_input)
    direct_keywords = [kw.strip() for kw in direct_keywords if kw.strip()]
    debug_log(f"입력된 직접 키워드: {direct_keywords}")
    for dk in direct_keywords:
        if dk in merged_df["단어"].values:
            merged_df.loc[merged_df["단어"] == dk, "직접입력"] = "직접입력"
        else:
            freq = blog_text.count(dk)
            df_direct, _ = await process_keyword(dk, include_related=False)
            if (not df_direct.empty) and (dk in df_direct["정보키워드"].values):
                row = df_direct[df_direct["정보키워드"] == dk].iloc[0]
                pc = row.get("PC월검색량", None)
                mobile = row.get("모바일월검색량", None)
                total = row.get("토탈월검색량", None)
                blog_count = row.get("블로그문서수", None)
            else:
                pc = mobile = total = blog_count = None
            new_row = {
                "단어": dk,
                "빈도수": freq,
                "PC월검색량": pc,
                "모바일월검색량": mobile,
                "토탈월검색량": total,
                "블로그문서수": blog_count,
                "직접입력": "직접입력"
            }
            merged_df = pd.concat([merged_df, pd.DataFrame([new_row])], ignore_index=True)
    merged_df = merged_df.sort_values(by="빈도수", ascending=False).reset_index(drop=True)
    combined_excel = create_excel_file(merged_df)
    debug_log("combined_analysis 함수 완료")
    return merged_df, combined_excel

# --- 분석 핸들러 (비동기) ---
async def analysis_handler(blog_text: str, remove_freq1: bool, direct_keyword_input: str, direct_keyword_only: bool):
    debug_log("analysis_handler 함수 시작")
    if direct_keyword_only:
        return await direct_keyword_analysis(blog_text, direct_keyword_input)
    else:
        return await combined_analysis(blog_text, remove_freq1, direct_keyword_input)

# --- 스크래핑 실행 핸들러 (비동기) ---
async def fetch_blog_content(url: str):
    debug_log("fetch_blog_content 함수 시작")
    content = await scrape_naver_blog(url)
    debug_log("fetch_blog_content 함수 완료")
    return content

# --- Custom CSS ---
custom_css = """
/* 전체 컨테이너 스타일 */
.gradio-container {
    max-width: 960px;
    margin: auto;
    font-family: 'Helvetica Neue', Arial, sans-serif;
    background: #f5f7fa;
    padding: 2rem;
}
/* 헤더 스타일 */
.custom-header {
    text-align: center;
    font-size: 2.5rem;
    font-weight: bold;
    margin-bottom: 1.5rem;
    color: #333;
}
/* 그룹 박스 스타일 */
.custom-group {
    background: #ffffff;
    border-radius: 8px;
    padding: 1.5rem;
    box-shadow: 0 2px 8px rgba(0,0,0,0.1);
    margin-bottom: 1.5rem;
}
/* 버튼 스타일 */
.custom-button {
    background-color: #007bff;
    color: #fff;
    border: none;
    border-radius: 4px;
    padding: 0.6rem 1.2rem;
    font-size: 1rem;
    cursor: pointer;
    transition: background-color 0.3s;
}
.custom-button:hover {
    background-color: #0056b3;
}
/* 체크박스 스타일 */
.custom-checkbox {
    margin-right: 1rem;
    font-size: 1rem;
    font-weight: bold;
}
/* 결과 테이블 및 다운로드 버튼 */
.custom-result {
    margin-top: 1.5rem;
}
/* 가운데 정렬 */
.centered {
    display: flex;
    justify-content: center;
    align-items: center;
}
/* 사용설명 스타일 */
.usage-instructions {
    font-size: 1.1rem;
    line-height: 1.6;
    color: #555;
    background: #fff;
    padding: 1.5rem;
    border-radius: 8px;
    box-shadow: 0 2px 8px rgba(0,0,0,0.1);
    margin-top: 2rem;
}
.usage-instructions h2 {
    font-size: 1.8rem;
    font-weight: bold;
    margin-bottom: 1rem;
    color: #333;
}
.usage-instructions ul {
    list-style: disc;
    margin-left: 2rem;
}
"""

# --- Gradio 인터페이스 구성 ---
with gr.Blocks(title="네이버 블로그 형태소 분석 서비스", css=custom_css) as demo:
    gr.HTML("<div class='custom-header'>네이버 블로그 형태소 분석 서비스 🚀</div>")
    with gr.Group(elem_classes="custom-group"):
        with gr.Row():
            blog_url_input = gr.Textbox(label="네이버 블로그 링크", placeholder="예: https://blog.naver.com/ssboost/222983068507", lines=1)
        with gr.Row(elem_classes="centered"):
            scrape_button = gr.Button("스크래핑 실행", elem_classes="custom-button")
    with gr.Group(elem_classes="custom-group"):
        blog_content_box = gr.Textbox(label="블로그 내용 (수정 가능)", lines=10, placeholder="스크래핑된 블로그 내용이 여기에 표시됩니다.")
    with gr.Group(elem_classes="custom-group"):
        with gr.Row():
            remove_freq_checkbox = gr.Checkbox(label="빈도수1 제거", value=True, elem_classes="custom-checkbox")
        with gr.Row():
            direct_keyword_only_checkbox = gr.Checkbox(label="직접 키워드 입력만 분석", value=False, elem_classes="custom-checkbox")
        with gr.Row():
            direct_keyword_box = gr.Textbox(label="직접 키워드 입력 (엔터 또는 ','로 구분)", lines=2, placeholder="예: 키워드1, 키워드2\n키워드3")
    with gr.Group(elem_classes="custom-group"):
        with gr.Row(elem_classes="centered"):
            analyze_button = gr.Button("분석 실행", elem_classes="custom-button")
    with gr.Group(elem_classes="custom-group custom-result"):
        result_df = gr.Dataframe(label="통합 분석 결과 (단어, 빈도수, 검색량, 블로그문서수, 직접입력)", interactive=True)
    with gr.Group(elem_classes="custom-group"):
        excel_file = gr.File(label="Excel 다운로드")
    with gr.Group(elem_classes="custom-group"):
        usage_html = gr.HTML("""
        <div class="usage-instructions">
            <h2>사용 설명 📖</h2>
            <ul>
                <li>🔗 <strong>네이버 블로그 링크</strong>: 분석할 네이버 블로그의 URL을 입력하세요.</li>
                <li>✂️ <strong>스크래핑 실행</strong>: 링크 입력 후 버튼을 클릭하면 블로그의 제목과 본문이 자동으로 불러와집니다.</li>
                <li>📝 <strong>블로그 내용 (수정 가능)</strong>: 불러온 블로그 내용이 표시되며, 필요에 따라 직접 수정할 수 있습니다.</li>
                <li>⚙️ <strong>옵션 설정</strong>:
                    <ul>
                        <li><em>빈도수1 제거</em>: 기본 선택되어 있으며, 빈도수가 1인 단어는 결과에서 제외합니다.</li>
                        <li><em>직접 키워드 입력만 분석</em>: 이 옵션을 선택하면, 블로그 본문에서 직접 입력한 키워드만 분석합니다.</li>
                    </ul>
                </li>
                <li>🔤 <strong>직접 키워드 입력</strong>: 엔터 또는 쉼표(,)로 구분하여 분석할 키워드를 입력하세요.</li>
                <li>🚀 <strong>분석 실행</strong>: 설정한 옵션에 따라 형태소 분석 및 키워드 분석이 수행되어 결과가 표와 Excel 파일로 출력됩니다.</li>
                <li>📥 <strong>Excel 다운로드</strong>: 분석 결과를 Excel 파일로 다운로드할 수 있습니다.</li>
            </ul>
            <p><strong>Tip:</strong> 분석 결과는 실시간으로 업데이트되며, 필요시 수정 후 다시 분석할 수 있습니다. 즐거운 분석 되세요! 😊</p>
        </div>
        """)
    # 이벤트 연결 (비동기 함수 사용)
    scrape_button.click(fn=fetch_blog_content, inputs=blog_url_input, outputs=blog_content_box)
    analyze_button.click(fn=analysis_handler, 
                         inputs=[blog_content_box, remove_freq_checkbox, direct_keyword_box, direct_keyword_only_checkbox],
                         outputs=[result_df, excel_file])

if __name__ == "__main__":
    debug_log("Gradio 앱 실행 시작")
    demo.launch()
    debug_log("Gradio 앱 실행 종료")