Spaces:

NoticIA-Col
/

Generador-Noticias

Running

App Files Files Community

CamiloVega commited on Jun 11, 2024

Commit

5163b18

verified ·

1 Parent(s): 1ab6330

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -7

app.py CHANGED Viewed

@@ -1,3 +1,4 @@
 import openai
 import whisper
 import tempfile
@@ -6,10 +7,15 @@ from pydub import AudioSegment
 import fitz  # PyMuPDF para manejar PDFs
 import docx  # Para manejar archivos .docx
 import pandas as pd  # Para manejar archivos .xlsx y .csv
-import os
 # Cargar las variables de entorno desde el entorno de Hugging Face
-openai.api_key = os.getenv("OPENAI_API_KEY")
 # Cargar el modelo Whisper de mayor calidad una vez
 model = whisper.load_model("large")
@@ -52,13 +58,27 @@ def leer_documento(documento_path):
     except Exception as e:
         return f"Error al leer el documento: {str(e)}"
-def generar_noticia(instrucciones, hechos, tamaño, tono, *args):
-    """Genera una noticia a partir de instrucciones, hechos y transcripciones."""
-    base_de_conocimiento = {"instrucciones": instrucciones, "hechos": hechos, "contenido_documentos": [], "audio_data": []}
     num_audios = 5 * 3  # 5 audios * 3 campos (audio, nombre, cargo)
     audios = args[:num_audios]
     documentos = args[num_audios:]
     for documento in documentos:
         if documento is not None:
             base_de_conocimiento["contenido_documentos"].append(leer_documento(documento.name))
@@ -83,6 +103,7 @@ def generar_noticia(instrucciones, hechos, tamaño, tono, *args):
             transcripciones_brutas += transcripcion_bruta + "\n\n"
     contenido_documentos = "\n\n".join(base_de_conocimiento["contenido_documentos"])
     prompt_interno = """
     Instrucciones para el modelo:
@@ -101,6 +122,7 @@ def generar_noticia(instrucciones, hechos, tamaño, tono, *args):
     Instrucciones: {base_de_conocimiento["instrucciones"]}
     Hechos: {base_de_conocimiento["hechos"]}
     Contenido adicional de los documentos: {contenido_documentos}
     Utiliza las siguientes transcripciones como citas directas e indirectas (sin cambiar ni inventar contenido):
     {transcripciones_texto}
     """
@@ -124,8 +146,9 @@ with gr.Blocks() as demo:
             hechos = gr.Textbox(label="Describe los hechos de la noticia", lines=4)
             tamaño = gr.Number(label="Tamaño del cuerpo de la noticia (en palabras)", value=100)
             tono = gr.Dropdown(label="Tono de la noticia", choices=["serio", "neutral", "divertido"], value="neutral")
         with gr.Column(scale=3):
-            inputs_list = [instrucciones, hechos, tamaño, tono]
             with gr.Tabs():
                 for i in range(1, 6):
                     with gr.TabItem(f"Audio {i}"):
@@ -152,4 +175,4 @@ with gr.Blocks() as demo:
     generar.click(fn=generar_noticia, inputs=inputs_list, outputs=[noticia_output, transcripciones_output])
-demo.launch(share=True)

+import os
 import openai
 import whisper
 import tempfile
 import fitz  # PyMuPDF para manejar PDFs
 import docx  # Para manejar archivos .docx
 import pandas as pd  # Para manejar archivos .xlsx y .csv
+from google.colab import userdata  # Importa userdata de google.colab
+import requests
+from bs4 import BeautifulSoup
+# Configura tu clave API de OpenAI usando Google Colab userdata
+openai.api_key = userdata.get('OPENAI_API_KEY')
 # Cargar las variables de entorno desde el entorno de Hugging Face
+# openai.api_key = os.getenv("OPENAI_API_KEY")
 # Cargar el modelo Whisper de mayor calidad una vez
 model = whisper.load_model("large")
     except Exception as e:
         return f"Error al leer el documento: {str(e)}"
+def leer_url(url):
+    """Lee el contenido de una URL."""
+    try:
+        response = requests.get(url)
+        response.raise_for_status()
+        soup = BeautifulSoup(response.content, 'html.parser')
+        return soup.get_text()
+    except Exception as e:
+        return f"Error al leer la URL: {str(e)}"
+def generar_noticia(instrucciones, hechos, tamaño, tono, urls, *args):
+    """Genera una noticia a partir de instrucciones, hechos, URLs, documentos y transcripciones."""
+    base_de_conocimiento = {"instrucciones": instrucciones, "hechos": hechos, "contenido_documentos": [], "audio_data": [], "contenido_urls": []}
     num_audios = 5 * 3  # 5 audios * 3 campos (audio, nombre, cargo)
     audios = args[:num_audios]
     documentos = args[num_audios:]
+    for url in urls.split():
+        if url:
+            base_de_conocimiento["contenido_urls"].append(leer_url(url))
     for documento in documentos:
         if documento is not None:
             base_de_conocimiento["contenido_documentos"].append(leer_documento(documento.name))
             transcripciones_brutas += transcripcion_bruta + "\n\n"
     contenido_documentos = "\n\n".join(base_de_conocimiento["contenido_documentos"])
+    contenido_urls = "\n\n".join(base_de_conocimiento["contenido_urls"])
     prompt_interno = """
     Instrucciones para el modelo:
     Instrucciones: {base_de_conocimiento["instrucciones"]}
     Hechos: {base_de_conocimiento["hechos"]}
     Contenido adicional de los documentos: {contenido_documentos}
+    Contenido adicional de las URLs: {contenido_urls}
     Utiliza las siguientes transcripciones como citas directas e indirectas (sin cambiar ni inventar contenido):
     {transcripciones_texto}
     """
             hechos = gr.Textbox(label="Describe los hechos de la noticia", lines=4)
             tamaño = gr.Number(label="Tamaño del cuerpo de la noticia (en palabras)", value=100)
             tono = gr.Dropdown(label="Tono de la noticia", choices=["serio", "neutral", "divertido"], value="neutral")
+            urls = gr.Textbox(label="URLs (separadas por espacio)", lines=2)
         with gr.Column(scale=3):
+            inputs_list = [instrucciones, hechos, tamaño, tono, urls]
             with gr.Tabs():
                 for i in range(1, 6):
                     with gr.TabItem(f"Audio {i}"):
     generar.click(fn=generar_noticia, inputs=inputs_list, outputs=[noticia_output, transcripciones_output])
+demo.launch(share=True)