Spaces:

Jiangxz01
/

Generated_Podcast_Audio

Running

App Files Files

Jiangxz01 commited on Sep 26, 2024

Commit

681ba78

verified ·

1 Parent(s): e063c54

Upload app.py

Browse files

Files changed (1) hide show

app.py +40 -46

app.py CHANGED Viewed

@@ -1,5 +1,7 @@
 import gradio as gr
 from pydub import AudioSegment
 import json
 import uuid
 import io
@@ -10,12 +12,6 @@ import pypdf
 import os
 import time
 from typing import List, Dict, Tuple
-import openai
-import logging
-# At the beginning of your script, set up logging
-logging.basicConfig(level=logging.INFO)
-logger = logging.getLogger(__name__)
 class PodcastGenerator:
     def __init__(self):
@@ -28,7 +24,7 @@ class PodcastGenerator:
         引數：
             prompt (str): 用於生成Podcast劇本的使用者輸入文字。
             language (str): Podcast指劇本所需的語言。
-            api_key (str): 用於訪問 SambaNova API 服務的 API 金鑰。
         返回：
             Dict: 包含以 JSON 格式生成Podcast劇本的字典。
@@ -36,7 +32,7 @@ class PodcastGenerator:
         異常：
             gr.Error: 如果 API 金鑰或速率限制出現問題。
-        此方法使用 SambaNova API 根據使用者的輸入生成Podcast劇本。
         它處理語言選擇，使用適當的配置設定 AI 模型，並處理生成的響應。
         """
         # 定義一個示例JSON結構，用於指導AI生成類似格式的Podcast劇本
@@ -255,51 +251,51 @@ class PodcastGenerator:
         # 設定使用者提示，包含使用者輸入的內容
         user_prompt = f"Please generate a podcast script based on the following user input:\n{prompt}"
-        # 配置 SambaNova API client
-        if not api_key:
-            api_key = os.getenv("YOUR_API_TOKEN")
-        client = openai.OpenAI(
-            api_key=api_key,
-            base_url="https://api.sambanova.ai/v1",
         )
         # 嘗試生成內容
         try:
-            response = client.chat.completions.create(
-                model='Meta-Llama-3.1-405B-Instruct',
-                messages=[
-                    {"role": "system", "content": system_prompt},
-                    {"role": "user", "content": user_prompt}
-                ],
-                temperature=1
-            )
-            logger.info(f"API Response: {response}")
-            if response.choices and len(response.choices) > 0:
-                generated_text = response.choices[0].message.content
-            else:
-                logger.warning("No content generated from the API")
-                raise ValueError("No content generated from the API")
         except Exception as e:
-            logger.error(f"Error generating script: {str(e)}")
             # 處理可能的錯誤
             if "API key not valid" in str(e):
-                raise gr.Error("Invalid API key. Please provide a valid SambaNova API key.")
             elif "rate limit" in str(e).lower():
-                raise gr.Error("Rate limit exceeded for the API key. Please try again later or provide your own SambaNova API key.")
             else:
-                raise gr.Error(f"Failed to generate podcast script: {str(e)}")
         # 列印生成的Podcast指令碼
-        print(f"Generated podcast script:\n{generated_text}")
-        # 嘗試解析JSON，如果失敗則返回原始文本
-        try:
-            return json.loads(generated_text)
-        except json.JSONDecodeError:
-            print("Warning: Generated text is not valid JSON. Returning raw text.")
-            return {"raw_text": generated_text}
     async def tts_generate(self, text: str, speaker: int, speaker1: str, speaker2: str) -> str:
         """
@@ -446,9 +442,6 @@ async def process_input(input_text: str, input_file, language: str, speaker1: st
     # 定義語音名稱對映
     voice_names = {
-        "臺女1 - Chinese Taiwanese (Taiwan)": "zh-TW-HsiaoChenNeural",
-        "臺女2 - Chinese Taiwanese (Taiwan)": "zh-TW-HsiaoYuNeural",
-        "臺男 - Chinese Taiwanese (Taiwan)": "zh-TW-YunJheNeural",
         "Andrew - English (United States)": "en-US-AndrewMultilingualNeural",
         "Ava - English (United States)": "en-US-AvaMultilingualNeural",
         "Brian - English (United States)": "en-US-BrianMultilingualNeural",
@@ -489,9 +482,10 @@ iface = gr.Interface(
         gr.File(label="Or Upload a PDF or TXT file"),
         gr.Dropdown(label="Language", choices=[
             "Auto Detect",
-            "Chinese Taiwanese", "Afrikaans", "Albanian", "Amharic", "Arabic", "Armenian", "Azerbaijani",
             "Bahasa Indonesian", "Bangla", "Basque", "Bengali", "Bosnian", "Bulgarian",
-            "Burmese", "Catalan", "Chinese Cantonese", "Chinese Mandarin", "Croatian", "Czech", "Danish", "Dutch", "English",
             "Estonian", "Filipino", "Finnish", "French", "Galician", "Georgian",
             "German", "Greek", "Hebrew", "Hindi", "Hungarian", "Icelandic", "Irish",
             "Italian", "Japanese", "Javanese", "Kannada", "Kazakh", "Khmer", "Korean",

 import gradio as gr
 from pydub import AudioSegment
+import google.generativeai as genai
+from google.generativeai.types import HarmCategory, HarmBlockThreshold
 import json
 import uuid
 import io
 import os
 import time
 from typing import List, Dict, Tuple
 class PodcastGenerator:
     def __init__(self):
         引數：
             prompt (str): 用於生成Podcast劇本的使用者輸入文字。
             language (str): Podcast指劇本所需的語言。
+            api_key (str): 用於訪問 Gemini AI 服務的 API 金鑰。
         返回：
             Dict: 包含以 JSON 格式生成Podcast劇本的字典。
         異常：
             gr.Error: 如果 API 金鑰或速率限制出現問題。
+        此方法使用 Gemini AI 模型根據使用者的輸入生成Podcast劇本。
         它處理語言選擇，使用適當的配置設定 AI 模型，並處理生成的響應。
         """
         # 定義一個示例JSON結構，用於指導AI生成類似格式的Podcast劇本
         # 設定使用者提示，包含使用者輸入的內容
         user_prompt = f"Please generate a podcast script based on the following user input:\n{prompt}"
+        # 設定訊息列表，包含使用者提示
+        messages = [
+            {"role": "user", "parts": [user_prompt]}
+        ]
+        # 配置Google Generative AI
+        genai.configure(api_key=api_key)
+        # 設定生成配置
+        generation_config = {
+            "temperature": 1,
+            "max_output_tokens": 8192,
+            "response_mime_type": "application/json",
+        }
+        # 建立生成模型實例
+        model = genai.GenerativeModel(
+            model_name="gemini-1.5-flash-002",
+            generation_config=generation_config,
+            safety_settings={
+                HarmCategory.HARM_CATEGORY_DANGEROUS_CONTENT: HarmBlockThreshold.BLOCK_NONE,
+                HarmCategory.HARM_CATEGORY_HARASSMENT: HarmBlockThreshold.BLOCK_NONE,
+                HarmCategory.HARM_CATEGORY_SEXUALLY_EXPLICIT: HarmBlockThreshold.BLOCK_NONE,
+                HarmCategory.HARM_CATEGORY_HATE_SPEECH: HarmBlockThreshold.BLOCK_NONE
+            },
+            system_instruction=system_prompt
         )
         # 嘗試生成內容
         try:
+            response = await model.generate_content_async(messages)
         except Exception as e:
             # 處理可能的錯誤
             if "API key not valid" in str(e):
+                raise gr.Error("Invalid API key. Please provide a valid Gemini API key.")
             elif "rate limit" in str(e).lower():
+                raise gr.Error("Rate limit exceeded for the API key. Please try again later or provide your own Gemini API key.")
             else:
+                raise gr.Error(f"Failed to generate podcast script: {e}")
         # 列印生成的Podcast指令碼
+        print(f"Generated podcast script:\n{response.text}")
+        # 返回解析後的JSON資料
+        return json.loads(response.text)
     async def tts_generate(self, text: str, speaker: int, speaker1: str, speaker2: str) -> str:
         """
     # 定義語音名稱對映
     voice_names = {
         "Andrew - English (United States)": "en-US-AndrewMultilingualNeural",
         "Ava - English (United States)": "en-US-AvaMultilingualNeural",
         "Brian - English (United States)": "en-US-BrianMultilingualNeural",
         gr.File(label="Or Upload a PDF or TXT file"),
         gr.Dropdown(label="Language", choices=[
             "Auto Detect",
+            "Afrikaans", "Albanian", "Amharic", "Arabic", "Armenian", "Azerbaijani",
             "Bahasa Indonesian", "Bangla", "Basque", "Bengali", "Bosnian", "Bulgarian",
+            "Burmese", "Catalan", "Chinese Cantonese", "Chinese Mandarin",
+            "Chinese Taiwanese", "Croatian", "Czech", "Danish", "Dutch", "English",
             "Estonian", "Filipino", "Finnish", "French", "Galician", "Georgian",
             "German", "Greek", "Hebrew", "Hindi", "Hungarian", "Icelandic", "Irish",
             "Italian", "Japanese", "Javanese", "Kannada", "Kazakh", "Khmer", "Korean",