tubeblog

Paused

App Files Files Community

ginipick commited on May 24, 2024

Commit

ebf865c

verified ·

1 Parent(s): f220324

Update app.py

Browse files

Files changed (1) hide show

app.py +52 -124

app.py CHANGED Viewed

@@ -1,15 +1,11 @@
 import gradio as gr
-import requests
-import re
 import os
-import json
-import time
-import threading
-from googleapiclient.discovery import build
-from huggingface_hub import InferenceClient
 from pytube import YouTube
 import whisper
 import logging
 # 로그 설정
 logging.basicConfig(level=logging.INFO)
@@ -17,31 +13,42 @@ logging.basicConfig(level=logging.INFO)
 # Whisper 모델 로드
 model = whisper.load_model("base")
-# YouTube API 키
-API_KEY = 'AIzaSyDUz3wkGal0ewRtPlzeMit88bV4hS4ZIVY'
-# YouTube API 서비스 빌드
-youtube = build('youtube', 'v3', developerKey=API_KEY)
 # Hugging Face API 설정
 client = InferenceClient(model="meta-llama/Meta-Llama-3-70B-Instruct", token=os.getenv("HF_TOKEN"))
-WEBHOOK_URL = "https://connect.pabbly.com/workflow/sendwebhookdata/IjU3NjUwNTZhMDYzMDA0MzA1MjZhNTUzMzUxM2Ii_pc"
-COMMENTS_FILE = 'comments.json'
-DEFAULT_SYSTEM_PROMPT = "대화시 반드시 나의 이름 'GPTube'를 밝히며 한글로 인사를하라. 반드시 '한글'(한국어)로 250 토큰 이내로 답변을 생성하고 출력하라. Respond to the following YouTube comment in a friendly and helpful manner:"
-stop_event = threading.Event()  # 스레드 중지를 위한 이벤트
-def load_existing_comments():
-    if os.path.exists(COMMENTS_FILE):
-        with open(COMMENTS_FILE, 'r') as file:
-            return json.load(file)
-    return []
-def save_comments(comments):
-    with open(COMMENTS_FILE, 'w') as file:
-        json.dump(comments, file)
 def download_audio(video_url):
     yt = YouTube(video_url)
@@ -71,11 +78,11 @@ def generate_transcript(audio_path):
         logging.error(f"Exception during transcription: {str(e)}")
         return f"전사 중 오류가 발생했습니다: {str(e)}"
-def generate_reply(comment_text, system_prompt):
-    prompt = f"{system_prompt}\n\nComment: {comment_text}\n\nReply:"
     response = client.text_generation(
         prompt=prompt,
-        max_new_tokens=250,
         temperature=0.7,
         top_p=0.9
     )
@@ -83,98 +90,18 @@ def generate_reply(comment_text, system_prompt):
         return response['generated_text']
     return response
-def send_webhook(data):
-    response = requests.post(WEBHOOK_URL, json=data)
-    return response.status_code, response.text
-def get_video_comments(video_id):
-    try:
-        comments = []
-        request = youtube.commentThreads().list(
-            part='snippet',
-            videoId=video_id,
-            maxResults=100,   #댓글 읽어들이는 수 정의
-            textFormat='plainText'
-        )
-        response = request.execute()
-        while request is not None:
-            for item in response['items']:
-                snippet = item['snippet']['topLevelComment']['snippet']
-                comment = {
-                    'comment_id': item['snippet']['topLevelComment']['id'],
-                    'author': snippet['authorDisplayName'],
-                    'published_at': snippet['publishedAt'],
-                    'text': snippet['textDisplay'],
-                    'reply_count': item['snippet']['totalReplyCount']
-                }
-                comments.append(comment)
-            if 'nextPageToken' in response:
-                request = youtube.commentThreads().list(
-                    part='snippet',
-                    videoId=video_id,
-                    pageToken=response['nextPageToken'],
-                    maxResults=100,  #댓글 읽어들이는 수 정의
-                    textFormat='plainText'
-                )
-                response = request.execute()
-            else:
-                break
-        return comments
-    except Exception as e:
-        return [{'error': str(e)}]
-def fetch_comments(video_url, system_prompt):
     log_entries = []
-    video_id_match = re.search(r'(?:v=|\/)([0-9A-Za-z_-]{11}).*', video_url)
-    if video_id_match:
-        video_id = video_id_match.group(1)
-        audio_path = download_audio(video_url)
-        if not audio_path:
-            return "오디오를 다운로드할 수 없습니다."
-        transcript = generate_transcript(audio_path)
-        existing_comments = load_existing_comments()
-        new_comments = get_video_comments(video_id)
-        if not new_comments or 'error' in new_comments[0]:
-            return "댓글을 찾을 수 없거나 오류가 발생했습니다."
-        recent_new_comments = [c for c in new_comments if c['comment_id'] not in {c['comment_id'] for c in existing_comments} and c['reply_count'] == 0]
-        if recent_new_comments:
-            for most_recent_comment in recent_new_comments:
-                combined_prompt = f"{transcript}\n\n{system_prompt}"
-                reply_text = generate_reply(most_recent_comment['text'], combined_prompt)
-                webhook_data = {
-                    "comment_id": most_recent_comment['comment_id'],
-                    "author": most_recent_comment['author'],
-                    "published_at": most_recent_comment['published_at'],
-                    "text": most_recent_comment['text'],
-                    "reply_text": reply_text
-                }
-                webhook_status, webhook_response = send_webhook(webhook_data)
-                log_entries.append(f"최근 댓글: {most_recent_comment['text']}\n\n답변 생성: {reply_text}\n\n웹훅 응답: {webhook_status} - {webhook_response}")
-                existing_comments.append(most_recent_comment)
-            save_comments(existing_comments)
-        else:
-            log_entries.append("새로운 댓글이 없습니다.")
-    else:
-        log_entries.append("유효하지 않은 YouTube URL입니다.")
     return "\n\n".join(log_entries)
-def background_fetch_comments():
-    while not stop_event.is_set():
-        result = fetch_comments("https://www.youtube.com/watch?v=dQw4w9WgXcQ", DEFAULT_SYSTEM_PROMPT)  # URL과 프롬프트 실제 사용 예시
-        print(result)
-        time.sleep(10)
-def start_background_fetch():
-    threading.Thread(target=background_fetch_comments).start()
-def stop_background_fetch():
-    stop_event.set()
 def get_text(video_url):
     audio_path = download_audio(video_url)
     if not audio_path:
@@ -195,14 +122,15 @@ with demo:
     with gr.Row():
         result_button_transcribe = gr.Button('Transcribe')
-        result_button_comments = gr.Button('Fetch Comments and Generate Reply')
     with gr.Row():
         output_text_transcribe = gr.Textbox(placeholder='Transcript of the YouTube video.', label='Transcript', lines=20)
-        output_text_prompt = gr.Textbox(placeholder='응답 텍스트', label='응답 텍스트', lines=20)
     result_button_transcribe.click(get_text, inputs=input_text_url, outputs=output_text_transcribe, api_name="transcribe_api")
-    result_button_comments.click(fetch_comments, inputs=[input_text_url, input_text_prompt], outputs=output_text_prompt, api_name="fetch_comments_api")
 # 인터페이스 실행
 demo.launch()

 import gradio as gr
 import os
+import re
+import requests
 from pytube import YouTube
 import whisper
 import logging
+from huggingface_hub import InferenceClient
 # 로그 설정
 logging.basicConfig(level=logging.INFO)
 # Whisper 모델 로드
 model = whisper.load_model("base")
 # Hugging Face API 설정
 client = InferenceClient(model="meta-llama/Meta-Llama-3-70B-Instruct", token=os.getenv("HF_TOKEN"))
+DEFAULT_SYSTEM_PROMPT = """
+당신은 블로그를 운영하는 전문 블로거입니다.
+SEO에 맞는 퀄리티 높은 포스팅을 만드는 것이 최우선 목표가 되어야 하며, 블로그의 글을 작성할때는
+번역체가 아닌 자연스러운 한국어가 나오는 것을 무엇보다 최선을 다 해야합니다.
+한국어가 자연스럽게 하기 위해 아래[한국어 자연스럽게 하는 조건정리]를 바탕으로 모든 글을 작성해주셔야 합니다.
+글작성시 줄마다 줄 바꿈을 꼭 하여 보기좋게 작성하여야 하며, markdown 등을 활용하여 가독성 있게 작성할것.
+출력문에 "한자(중국어)", 일본어가 포함되어 출력시에는 반드시 "한글(한국어)"로 번역하여 출력되게 하라.
+[한국어 자연스럽게 하는 조건정리]
+1. 주제에 따른 문맥 이해에 맞는 글을 써주세요.
+2. 주제와 상황에 맞는 적절한 어휘 선택해주세요
+3. 한국 문화와 적합성를 고려해주세요
+4. 정서적 늬앙스를 고려해주세요.[감정적 뉘앙스를 적절히 표현해 공감을 이끔]
+5. 직역과 의역의 균형을 맞쳐주세요.
+6. 피동문에서 능동문을 우선
+7. 대명사를 최소화
+8. 명사형보다는 동사와 형용사를 우선
+9. 주어-목적어-동사으로 구성
+10. “~어요”, “~에요”, “~고요”,의 제외해주세요
+11. 과거형의 문장은 최소화 해주세요
+12. 생성형AI가 쓴글이라고 인식할수 없도록 주의해서 글을 써 주세요.
+13. 문장의 길이를 간결하게 해주세요
+14. 어휘의 난이도는 쉬운 용어를 중심으로 작성해주세요
+15. 이 글을 쓰는 목적은 사용 후기를 직접 사용한 것처럼 생생하게 알려주는 용도입니다.
+[본문내용]
+1. 각 챕터 시작하기 전에 [한국어 자연스럽게 조건정리]을 인지하시고 적용하는것이 우선입니다.
+2. 본문내용의 모든 내용은 생성하는것이 아니라 예시1~3을 기반으로 작성해야합니다.
+3. 본문의 경우 이전에 입력 받은 키워드를 바탕으로 SEO에 맞도록 작성해야 합니다.
+4. 기본 세 챕터를 한 번에 작성 후 마무리 결론을 작성하라.
+5. 서두에 메인 키워드를 넣지 마세요.
+6. 주제 관련 키워드들을 다양하게 사용 한 챕터당 최대 2번 이상 작성을 절대 금지해주세요.
+7. 글의 전체가 아니라 챕터 마다 최소 1,000자 이상으로 세 챕터를 포함하면 3,000자 이상 작성해야 합니다.
+8. "#태그"를 10개 작성해주세요.
+"""
 def download_audio(video_url):
     yt = YouTube(video_url)
         logging.error(f"Exception during transcription: {str(e)}")
         return f"전사 중 오류가 발생했습니다: {str(e)}"
+def generate_blog_post(transcript, system_prompt):
+    prompt = f"{system_prompt}\n\nTranscript: {transcript}\n\nBlog Post:"
     response = client.text_generation(
         prompt=prompt,
+        max_new_tokens=3000,
         temperature=0.7,
         top_p=0.9
     )
         return response['generated_text']
     return response
+def process_video_url(video_url, system_prompt):
     log_entries = []
+    audio_path = download_audio(video_url)
+    if not audio_path:
+        return "오디오를 다운로드할 수 없습니다."
+    transcript = generate_transcript(audio_path)
+    blog_post_text = generate_blog_post(transcript, system_prompt)
+    log_entries.append(f"블로그 포스트 생성: {blog_post_text}")
     return "\n\n".join(log_entries)
 def get_text(video_url):
     audio_path = download_audio(video_url)
     if not audio_path:
     with gr.Row():
         result_button_transcribe = gr.Button('Transcribe')
+        result_button_blog_post = gr.Button('Generate Blog Post')
     with gr.Row():
         output_text_transcribe = gr.Textbox(placeholder='Transcript of the YouTube video.', label='Transcript', lines=20)
+        output_text_blog_post = gr.Textbox(placeholder='블로그 포스트 텍스트', label='블로그 포스트 텍스트', lines=20)
     result_button_transcribe.click(get_text, inputs=input_text_url, outputs=output_text_transcribe, api_name="transcribe_api")
+    result_button_blog_post.click(process_video_url, inputs=[input_text_url, input_text_prompt], outputs=output_text_blog_post, api_name="generate_blog_post_api")
 # 인터페이스 실행
 demo.launch()