urlcrawl

Sleeping

urlcrawl / app.py

Update app.py

dc39e39 verified about 1 year ago

1.34 kB

	import gradio as gr
	import re
	import requests
	from bs4 import BeautifulSoup

	def extract_pdf_links(url):
	# URL 유효성 검사 추가
	if not re.match(r'http[s]?://', url):
	return ["Invalid URL"]

	response = requests.get(url)
	soup = BeautifulSoup(response.text, 'html.parser')

	pdf_links = []
	for link in soup.find_all('a', href=True):
	if re.search(r'\.pdf', link['href']):
	pdf_links.append(link['href'])

	return pdf_links[:100]

	def filter_links_by_keyword(pdf_links, keyword):
	filtered_links = [link for link in pdf_links if keyword.lower() in link.lower()]
	return filtered_links

	def generate_html(pdf_links):
	html = ""
	for link in pdf_links:
	html += f'<a href="{link}" target="_blank" download>{link}</a><br/>'
	return html

	def main(url, keyword):
	pdf_links = extract_pdf_links(url)
	if keyword: # 키워드가 비어있지 않은 경우에만 필터링
	pdf_links = filter_links_by_keyword(pdf_links, keyword)
	return generate_html(pdf_links)

	title = "네이버 증권 리서치 링크 - https://finance.naver.com/research/company_list.naver"

	iface = gr.Interface(main,
	inputs=["text", "text"], # URL과 키워드 입력
	outputs="text",
	title=title)

	iface.launch()