Voice-To-Text

Sleeping

App Files Files Community

lodhrangpt commited on Nov 14, 2024

Commit

78a2aef

verified ·

1 Parent(s): bcd1dcf

Update app.py

Browse files

Files changed (1) hide show

app.py +36 -10

app.py CHANGED Viewed

@@ -6,6 +6,7 @@ import os
 import tempfile
 from nltk.tokenize import sent_tokenize
 import random
 # Attempt to download punkt tokenizer
 try:
@@ -50,20 +51,42 @@ def generate_notes(transcript):
     except LookupError:
         sentences = custom_sent_tokenize(transcript)
-    long_questions = [f"What is meant by '{sentence}'?" for sentence in sentences[:5]]
-    short_questions = [f"Define '{sentence.split()[0]}'." for sentence in sentences[:5]]
     mcqs = []
-    for sentence in sentences[:5]:
         mcq = {
-            "question": f"What is '{sentence.split()[0]}'?",
-            "options": [sentence.split()[0]] + random.sample(["Option 1", "Option 2", "Option 3"], 3),
-            "answer": sentence.split()[0]
         }
         mcqs.append(mcq)
-    pdf_path = create_pdf(transcript, long_questions, short_questions, mcqs)
-    return pdf_path
 def create_pdf(transcript, long_questions, short_questions, mcqs):
     pdf = FPDF()
@@ -75,18 +98,21 @@ def create_pdf(transcript, long_questions, short_questions, mcqs):
     pdf.set_font("Arial", "", 12)
     pdf.multi_cell(0, 10, f"Transcription:\n{transcript.encode('latin1', 'replace').decode('latin1')}\n\n")
     pdf.set_font("Arial", "B", 14)
     pdf.cell(200, 10, "Long Questions", ln=True)
     pdf.set_font("Arial", "", 12)
     for question in long_questions:
         pdf.multi_cell(0, 10, f"- {question.encode('latin1', 'replace').decode('latin1')}\n")
     pdf.set_font("Arial", "B", 14)
     pdf.cell(200, 10, "Short Questions", ln=True)
     pdf.set_font("Arial", "", 12)
     for question in short_questions:
         pdf.multi_cell(0, 10, f"- {question.encode('latin1', 'replace').decode('latin1')}\n")
     pdf.set_font("Arial", "B", 14)
     pdf.cell(200, 10, "Multiple Choice Questions (MCQs)", ln=True)
     pdf.set_font("Arial", "", 12)
@@ -123,4 +149,4 @@ iface = gr.Interface(
     title="Voice to Text Converter and Notes Generator",
 )
-iface.launch()

 import tempfile
 from nltk.tokenize import sent_tokenize
 import random
+import re
 # Attempt to download punkt tokenizer
 try:
     except LookupError:
         sentences = custom_sent_tokenize(transcript)
+    # Extract key sentences for generating questions
+    important_sentences = get_important_sentences(sentences)
+    # Generate long questions, short questions, and MCQs
+    long_questions = [f"What is meant by '{sentence}'?" for sentence in important_sentences[:5]]
+    short_questions = [f"Define '{sentence.split()[0]}'." for sentence in important_sentences[:5]]
+    mcqs = generate_mcqs(important_sentences)
+    pdf_path = create_pdf(transcript, long_questions, short_questions, mcqs)
+    return pdf_path
+def get_important_sentences(sentences):
+    # Prioritize sentences that contain nouns or verbs to be more relevant
+    important_sentences = []
+    for sentence in sentences:
+        # Simple rule: sentences with nouns/verbs are considered important
+        if len(re.findall(r'\b(NN|VB)\b', sentence)):  # Using POS tags to detect nouns/verbs
+            important_sentences.append(sentence)
+    return important_sentences[:5]  # Limit to top 5 important sentences
+def generate_mcqs(important_sentences):
     mcqs = []
+    for sentence in important_sentences:
+        # Generate MCQs from meaningful sentences
+        key_terms = sentence.split()  # Split sentence into words (simple tokenization)
+        correct_answer = random.choice(key_terms)  # Randomly select a key term from the sentence
+        options = [correct_answer] + random.sample(key_terms, 3)  # Create multiple choice options
+        random.shuffle(options)  # Shuffle options
         mcq = {
+            "question": f"What is '{correct_answer}' in the context of the sentence?",
+            "options": options,
+            "answer": correct_answer
         }
         mcqs.append(mcq)
+    return mcqs
 def create_pdf(transcript, long_questions, short_questions, mcqs):
     pdf = FPDF()
     pdf.set_font("Arial", "", 12)
     pdf.multi_cell(0, 10, f"Transcription:\n{transcript.encode('latin1', 'replace').decode('latin1')}\n\n")
+    # Add long questions section
     pdf.set_font("Arial", "B", 14)
     pdf.cell(200, 10, "Long Questions", ln=True)
     pdf.set_font("Arial", "", 12)
     for question in long_questions:
         pdf.multi_cell(0, 10, f"- {question.encode('latin1', 'replace').decode('latin1')}\n")
+    # Add short questions section
     pdf.set_font("Arial", "B", 14)
     pdf.cell(200, 10, "Short Questions", ln=True)
     pdf.set_font("Arial", "", 12)
     for question in short_questions:
         pdf.multi_cell(0, 10, f"- {question.encode('latin1', 'replace').decode('latin1')}\n")
+    # Add MCQs section
     pdf.set_font("Arial", "B", 14)
     pdf.cell(200, 10, "Multiple Choice Questions (MCQs)", ln=True)
     pdf.set_font("Arial", "", 12)
     title="Voice to Text Converter and Notes Generator",
 )
+iface.launch()