Voice-To-Text

Sleeping

App Files Files Community

lodhrangpt commited on Nov 14, 2024

Commit

bcd1dcf

verified ·

1 Parent(s): ca1b859

Update app.py

Browse files

Files changed (1) hide show

app.py +118 -80

app.py CHANGED Viewed

@@ -1,88 +1,126 @@
 import requests
-import json
-from nltk.tokenize import sent_tokenize, word_tokenize
-from nltk.corpus import stopwords
 import nltk
-from flask import Flask, request, jsonify
-# Download NLTK data
-nltk.download("punkt")
-nltk.download("stopwords")
-# Initialize stop words
-stop_words = set(stopwords.words("english"))
-# Initialize Flask app
-app = Flask(__name__)
-# Groq API credentials and endpoints
-GROQ_API_KEY = "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"
-TRANSCRIBE_ENDPOINT = "https://api.groq.com/transcribe"  # Replace with actual endpoint
-KEYWORD_EXTRACTION_ENDPOINT = "https://api.groq.com/keywords"  # Replace with actual endpoint
-def transcribe_audio(file_path):
-    """Send audio file to Groq's transcription API."""
-    with open(file_path, "rb") as audio_file:
-        response = requests.post(
-            TRANSCRIBE_ENDPOINT,
-            headers={"Authorization": f"Bearer {GROQ_API_KEY}"},
-            files={"file": audio_file}
-        )
-    response.raise_for_status()
-    return response.json()["transcript"]
-def extract_keywords(text):
-    """Send text to Groq's keyword extraction API."""
-    response = requests.post(
-        KEYWORD_EXTRACTION_ENDPOINT,
-        headers={"Authorization": f"Bearer {GROQ_API_KEY}", "Content-Type": "application/json"},
-        json={"text": text}
-    )
-    response.raise_for_status()
-    return response.json()["keywords"]
-def extract_key_sentences(transcript):
-    """Extract sentences containing keywords from the transcript."""
-    sentences = sent_tokenize(transcript)
-    important_sentences = [
-        sentence for sentence in sentences
-        if any(word.lower() not in stop_words for word in word_tokenize(sentence))
-    ]
-    return important_sentences
-@app.route("/transcribe", methods=["POST"])
-def transcribe():
-    """API endpoint to transcribe audio and generate notes."""
-    if "file" not in request.files:
-        return jsonify({"error": "No file uploaded"}), 400
-    file = request.files["file"]
-    file_path = "/tmp/audio_file.wav"
-    file.save(file_path)
-    # Transcribe the audio
-    transcript = transcribe_audio(file_path)
-    # Generate notes
-    notes = generate_notes(transcript)
-    return jsonify(notes)
 def generate_notes(transcript):
-    """Generate summarized notes based on keywords and important sentences."""
-    # Extract key sentences
-    key_sentences = extract_key_sentences(transcript)
-    # Extract keywords
-    keywords = extract_keywords(transcript)
-    # Prepare notes
-    notes = {
-        "short_questions": keywords[:5],  # Select top 5 keywords as short questions
-        "long_questions": key_sentences[:3],  # Select first 3 key sentences for long questions
-        "mcq": [{"question": f"What is {kw}?", "answer": "Yes/No"} for kw in keywords[:3]]
-    }
-    return notes
-if __name__ == "__main__":
-    app.run(debug=True)

+import gradio as gr
 import requests
+from fpdf import FPDF
 import nltk
+import os
+import tempfile
+from nltk.tokenize import sent_tokenize
+import random
+# Attempt to download punkt tokenizer
+try:
+    nltk.download("punkt")
+except:
+    print("NLTK punkt tokenizer download failed. Using custom tokenizer.")
+def custom_sent_tokenize(text):
+    return text.split(". ")
+def transcribe(audio_path):
+    with open(audio_path, "rb") as audio_file:
+        audio_data = audio_file.read()
+    groq_api_endpoint = "https://api.groq.com/openai/v1/audio/transcriptions"
+    headers = {
+        "Authorization": "Bearer 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",  # Replace with your actual API key
+    }
+    files = {
+        'file': ('audio.wav', audio_data, 'audio/wav'),
+    }
+    data = {
+        'model': 'whisper-large-v3-turbo',
+        'response_format': 'json',
+        'language': 'en',
+    }
+    response = requests.post(groq_api_endpoint, headers=headers, files=files, data=data)
+    if response.status_code == 200:
+        result = response.json()
+        transcript = result.get("text", "No transcription available.")
+        return generate_notes(transcript)
+    else:
+        error_msg = response.json().get("error", {}).get("message", "Unknown error.")
+        print(f"API Error: {error_msg}")
+        return create_error_pdf(f"API Error: {error_msg}")
 def generate_notes(transcript):
+    try:
+        sentences = sent_tokenize(transcript)
+    except LookupError:
+        sentences = custom_sent_tokenize(transcript)
+    long_questions = [f"What is meant by '{sentence}'?" for sentence in sentences[:5]]
+    short_questions = [f"Define '{sentence.split()[0]}'." for sentence in sentences[:5]]
+    mcqs = []
+    for sentence in sentences[:5]:
+        mcq = {
+            "question": f"What is '{sentence.split()[0]}'?",
+            "options": [sentence.split()[0]] + random.sample(["Option 1", "Option 2", "Option 3"], 3),
+            "answer": sentence.split()[0]
+        }
+        mcqs.append(mcq)
+    pdf_path = create_pdf(transcript, long_questions, short_questions, mcqs)
+    return pdf_path
+def create_pdf(transcript, long_questions, short_questions, mcqs):
+    pdf = FPDF()
+    pdf.add_page()
+    pdf.set_font("Arial", "B", 16)
+    pdf.cell(200, 10, "Transcription Notes", ln=True, align="C")
+    pdf.set_font("Arial", "", 12)
+    pdf.multi_cell(0, 10, f"Transcription:\n{transcript.encode('latin1', 'replace').decode('latin1')}\n\n")
+    pdf.set_font("Arial", "B", 14)
+    pdf.cell(200, 10, "Long Questions", ln=True)
+    pdf.set_font("Arial", "", 12)
+    for question in long_questions:
+        pdf.multi_cell(0, 10, f"- {question.encode('latin1', 'replace').decode('latin1')}\n")
+    pdf.set_font("Arial", "B", 14)
+    pdf.cell(200, 10, "Short Questions", ln=True)
+    pdf.set_font("Arial", "", 12)
+    for question in short_questions:
+        pdf.multi_cell(0, 10, f"- {question.encode('latin1', 'replace').decode('latin1')}\n")
+    pdf.set_font("Arial", "B", 14)
+    pdf.cell(200, 10, "Multiple Choice Questions (MCQs)", ln=True)
+    pdf.set_font("Arial", "", 12)
+    for mcq in mcqs:
+        pdf.multi_cell(0, 10, f"Q: {mcq['question'].encode('latin1', 'replace').decode('latin1')}")
+        for option in mcq["options"]:
+            pdf.multi_cell(0, 10, f"   - {option.encode('latin1', 'replace').decode('latin1')}")
+        pdf.multi_cell(0, 10, f"Answer: {mcq['answer'].encode('latin1', 'replace').decode('latin1')}\n")
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as temp_pdf:
+        pdf.output(temp_pdf.name)
+        pdf_path = temp_pdf.name
+    return pdf_path
+def create_error_pdf(message):
+    pdf = FPDF()
+    pdf.add_page()
+    pdf.set_font("Arial", "B", 16)
+    pdf.cell(200, 10, "Error Report", ln=True, align="C")
+    pdf.set_font("Arial", "", 12)
+    pdf.multi_cell(0, 10, message.encode('latin1', 'replace').decode('latin1'))
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as temp_pdf:
+        pdf.output(temp_pdf.name)
+        error_pdf_path = temp_pdf.name
+    return error_pdf_path
+iface = gr.Interface(
+    fn=transcribe,
+    inputs=gr.Audio(type="filepath"),
+    outputs=gr.File(label="Download PDF with Notes or Error Report"),
+    title="Voice to Text Converter and Notes Generator",
+)
+iface.launch()