Voice-To-Text

Sleeping

App Files Files Community

Voice-To-Text / app.py

lodhrangpt

Update app.py

78a2aef verified 8 months ago

raw

history blame

5.54 kB

	import gradio as gr
	import requests
	from fpdf import FPDF
	import nltk
	import os
	import tempfile
	from nltk.tokenize import sent_tokenize
	import random
	import re

	# Attempt to download punkt tokenizer
	try:
	nltk.download("punkt")
	except:
	print("NLTK punkt tokenizer download failed. Using custom tokenizer.")

	def custom_sent_tokenize(text):
	return text.split(". ")

	def transcribe(audio_path):
	with open(audio_path, "rb") as audio_file:
	audio_data = audio_file.read()

	groq_api_endpoint = "https://api.groq.com/openai/v1/audio/transcriptions"
	headers = {
	"Authorization": "Bearer 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", # Replace with your actual API key
	}
	files = {
	'file': ('audio.wav', audio_data, 'audio/wav'),
	}
	data = {
	'model': 'whisper-large-v3-turbo',
	'response_format': 'json',
	'language': 'en',
	}

	response = requests.post(groq_api_endpoint, headers=headers, files=files, data=data)

	if response.status_code == 200:
	result = response.json()
	transcript = result.get("text", "No transcription available.")
	return generate_notes(transcript)
	else:
	error_msg = response.json().get("error", {}).get("message", "Unknown error.")
	print(f"API Error: {error_msg}")
	return create_error_pdf(f"API Error: {error_msg}")

	def generate_notes(transcript):
	try:
	sentences = sent_tokenize(transcript)
	except LookupError:
	sentences = custom_sent_tokenize(transcript)

	# Extract key sentences for generating questions
	important_sentences = get_important_sentences(sentences)

	# Generate long questions, short questions, and MCQs
	long_questions = [f"What is meant by '{sentence}'?" for sentence in important_sentences[:5]]
	short_questions = [f"Define '{sentence.split()[0]}'." for sentence in important_sentences[:5]]

	mcqs = generate_mcqs(important_sentences)

	pdf_path = create_pdf(transcript, long_questions, short_questions, mcqs)
	return pdf_path

	def get_important_sentences(sentences):
	# Prioritize sentences that contain nouns or verbs to be more relevant
	important_sentences = []
	for sentence in sentences:
	# Simple rule: sentences with nouns/verbs are considered important
	if len(re.findall(r'\b(NN\|VB)\b', sentence)): # Using POS tags to detect nouns/verbs
	important_sentences.append(sentence)
	return important_sentences[:5] # Limit to top 5 important sentences

	def generate_mcqs(important_sentences):
	mcqs = []
	for sentence in important_sentences:
	# Generate MCQs from meaningful sentences
	key_terms = sentence.split() # Split sentence into words (simple tokenization)
	correct_answer = random.choice(key_terms) # Randomly select a key term from the sentence
	options = [correct_answer] + random.sample(key_terms, 3) # Create multiple choice options
	random.shuffle(options) # Shuffle options
	mcq = {
	"question": f"What is '{correct_answer}' in the context of the sentence?",
	"options": options,
	"answer": correct_answer
	}
	mcqs.append(mcq)
	return mcqs

	def create_pdf(transcript, long_questions, short_questions, mcqs):
	pdf = FPDF()
	pdf.add_page()

	pdf.set_font("Arial", "B", 16)
	pdf.cell(200, 10, "Transcription Notes", ln=True, align="C")

	pdf.set_font("Arial", "", 12)
	pdf.multi_cell(0, 10, f"Transcription:\n{transcript.encode('latin1', 'replace').decode('latin1')}\n\n")

	# Add long questions section
	pdf.set_font("Arial", "B", 14)
	pdf.cell(200, 10, "Long Questions", ln=True)
	pdf.set_font("Arial", "", 12)
	for question in long_questions:
	pdf.multi_cell(0, 10, f"- {question.encode('latin1', 'replace').decode('latin1')}\n")

	# Add short questions section
	pdf.set_font("Arial", "B", 14)
	pdf.cell(200, 10, "Short Questions", ln=True)
	pdf.set_font("Arial", "", 12)
	for question in short_questions:
	pdf.multi_cell(0, 10, f"- {question.encode('latin1', 'replace').decode('latin1')}\n")

	# Add MCQs section
	pdf.set_font("Arial", "B", 14)
	pdf.cell(200, 10, "Multiple Choice Questions (MCQs)", ln=True)
	pdf.set_font("Arial", "", 12)
	for mcq in mcqs:
	pdf.multi_cell(0, 10, f"Q: {mcq['question'].encode('latin1', 'replace').decode('latin1')}")
	for option in mcq["options"]:
	pdf.multi_cell(0, 10, f" - {option.encode('latin1', 'replace').decode('latin1')}")
	pdf.multi_cell(0, 10, f"Answer: {mcq['answer'].encode('latin1', 'replace').decode('latin1')}\n")

	with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as temp_pdf:
	pdf.output(temp_pdf.name)
	pdf_path = temp_pdf.name

	return pdf_path

	def create_error_pdf(message):
	pdf = FPDF()
	pdf.add_page()
	pdf.set_font("Arial", "B", 16)
	pdf.cell(200, 10, "Error Report", ln=True, align="C")
	pdf.set_font("Arial", "", 12)
	pdf.multi_cell(0, 10, message.encode('latin1', 'replace').decode('latin1'))

	with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as temp_pdf:
	pdf.output(temp_pdf.name)
	error_pdf_path = temp_pdf.name

	return error_pdf_path

	iface = gr.Interface(
	fn=transcribe,
	inputs=gr.Audio(type="filepath"),
	outputs=gr.File(label="Download PDF with Notes or Error Report"),
	title="Voice to Text Converter and Notes Generator",
	)

	iface.launch()