Spaces:

enesmanan
/

trendyol-review-summarizer

Sleeping

App Files Files Community

trendyol-review-summarizer / scripts /review_summarizer.py

enesmanan

Upload 5 files

22d9d31 verified 3 months ago

raw

history blame

10.1 kB

	import pandas as pd
	import numpy as np
	from transformers import (
	AutoTokenizer,
	AutoModelForSequenceClassification
	)
	import torch
	import os
	import requests
	from collections import Counter
	import warnings
	from nltk.tokenize import word_tokenize
	import nltk
	import re
	import google.generativeai as genai
	from dotenv import load_dotenv

	warnings.filterwarnings('ignore')

	# NLTK indirmelerini try-except bloğuna alalım
	try:
	nltk.download('stopwords', quiet=True)
	nltk.download('punkt', quiet=True)
	except:
	print("NLTK dosyaları indirilemedi, devam ediliyor...")

	class ReviewAnalyzer:
	def __init__(self):
	# Load environment variables
	load_dotenv()

	# Configure Gemini API
	genai.configure(api_key=os.getenv('GOOGLE_API_KEY'))
	self.model = genai.GenerativeModel('gemini-pro')

	# Diğer model kurulumları (sentiment analizi için)
	self.setup_sentiment_model()

	self.turkish_stopwords = self.get_turkish_stopwords()

	# Lojistik ve satıcı ile ilgili kelimeleri tanımla
	self.logistics_seller_words = {
	# Kargo ve teslimat ile ilgili
	'kargo', 'kargocu', 'paket', 'paketleme', 'teslimat', 'teslim',
	'gönderi', 'gönderim', 'ulaştı', 'ulaşım', 'geldi', 'kurye',
	'dağıtım', 'hasarlı', 'hasar', 'kutu', 'ambalaj', 'zamanında',
	'geç', 'hızlı', 'yavaş', 'günde', 'saatte',

	# Satıcı ve mağaza ile ilgili
	'satıcı', 'mağaza', 'sipariş', 'trendyol', 'tedarik', 'stok',
	'garanti', 'fatura', 'iade', 'geri', 'müşteri', 'hizmet',
	'destek', 'iletişim', 'şikayet', 'sorun', 'çözüm', 'hediye',

	# Fiyat ve ödeme ile ilgili
	'fiyat', 'ücret', 'para', 'bedava', 'ücretsiz', 'indirim',
	'kampanya', 'taksit', 'ödeme', 'bütçe', 'hesap', 'kur',

	# Zaman ile ilgili teslimat kelimeleri
	'bugün', 'yarın', 'dün', 'hafta', 'gün', 'saat', 'süre',
	'bekleme', 'gecikme', 'erken', 'geç'
	}

	def get_turkish_stopwords(self):
	"""Genişletilmiş stop words listesini hazırla"""
	github_url = "https://raw.githubusercontent.com/sgsinclair/trombone/master/src/main/resources/org/voyanttools/trombone/keywords/stop.tr.turkish-lucene.txt"
	stop_words = set()

	try:
	response = requests.get(github_url)
	if response.status_code == 200:
	github_stops = set(word.strip() for word in response.text.split('\n') if word.strip())
	stop_words.update(github_stops)
	except Exception as e:
	print(f"GitHub'dan stop words çekilirken hata oluştu: {e}")

	stop_words.update(set(nltk.corpus.stopwords.words('turkish')))

	additional_stops = {'bir', 've', 'çok', 'bu', 'de', 'da', 'için', 'ile', 'ben', 'sen',
	'o', 'biz', 'siz', 'onlar', 'bu', 'şu', 'ama', 'fakat', 'ancak',
	'lakin', 'ki', 'dahi', 'mi', 'mı', 'mu', 'mü', 'var', 'yok',
	'olan', 'içinde', 'üzerinde', 'bana', 'sana', 'ona', 'bize',
	'size', 'onlara', 'evet', 'hayır', 'tamam', 'oldu', 'olmuş',
	'olacak', 'etmek', 'yapmak', 'kez', 'kere', 'defa', 'adet'}
	stop_words.update(additional_stops)

	print(f"Toplam {len(stop_words)} adet stop words yüklendi.")
	return stop_words

	def preprocess_text(self, text):
	"""Metin ön işleme"""
	if isinstance(text, str):
	# Küçük harfe çevir
	text = text.lower()
	# Özel karakterleri temizle
	text = re.sub(r'[^\w\s]', '', text)
	# Sayıları temizle
	text = re.sub(r'\d+', '', text)
	# Fazla boşlukları temizle
	text = re.sub(r'\s+', ' ', text).strip()
	# Stop words'leri çıkar
	words = text.split()
	words = [word for word in words if word not in self.turkish_stopwords]
	return ' '.join(words)
	return ''

	def setup_sentiment_model(self):
	"""Sentiment analiz modelini hazırla"""
	self.device = "cuda" if torch.cuda.is_available() else "cpu"
	print(f"Using device for sentiment: {self.device}")

	model_name = "savasy/bert-base-turkish-sentiment-cased"
	self.sentiment_tokenizer = AutoTokenizer.from_pretrained(model_name)
	self.sentiment_model = (
	AutoModelForSequenceClassification.from_pretrained(model_name)
	.to(self.device)
	.to(torch.float32)
	)

	def filter_reviews(self, df):
	"""Ürün ile ilgili olmayan yorumları filtrele"""
	def is_product_review(text):
	if not isinstance(text, str):
	return False
	return not any(word in text.lower() for word in self.logistics_seller_words)

	filtered_df = df[df['Yorum'].apply(is_product_review)].copy()

	print(f"\nFiltreleme İstatistikleri:")
	print(f"Toplam yorum sayısı: {len(df)}")
	print(f"Ürün yorumu sayısı: {len(filtered_df)}")
	print(f"Filtrelenen yorum sayısı: {len(df) - len(filtered_df)}")
	print(f"Filtreleme oranı: {((len(df) - len(filtered_df)) / len(df) * 100):.2f}%")

	return filtered_df

	def analyze_sentiment(self, df):
	"""Sentiment analizi yap"""
	def predict_sentiment(text):
	if not isinstance(text, str) or len(text.strip()) == 0:
	return {"label": "Nötr", "score": 0.5}

	try:
	cleaned_text = self.preprocess_text(text)

	inputs = self.sentiment_tokenizer(
	cleaned_text,
	return_tensors="pt",
	truncation=True,
	max_length=512,
	padding=True
	).to(self.device)

	with torch.no_grad():
	outputs = self.sentiment_model(**inputs)
	probs = torch.nn.functional.softmax(outputs.logits, dim=1)
	prediction = probs.cpu().numpy()[0]

	score = float(prediction[1])

	if score > 0.75:
	label = "Pozitif"
	elif score < 0.25:
	label = "Negatif"
	elif score > 0.55:
	label = "Pozitif"
	elif score < 0.45:
	label = "Negatif"
	else:
	label = "Nötr"

	return {"label": label, "score": score}

	except Exception as e:
	print(f"Error in sentiment prediction: {e}")
	return {"label": "Nötr", "score": 0.5}

	print("\nSentiment analizi yapılıyor...")
	results = [predict_sentiment(text) for text in df['Yorum']]

	df['sentiment_score'] = [r['score'] for r in results]
	df['sentiment_label'] = [r['label'] for r in results]
	df['cleaned_text'] = df['Yorum'].apply(self.preprocess_text)

	return df

	def get_key_phrases(self, text_series):
	"""En önemli anahtar kelimeleri bul"""
	text = ' '.join(text_series.astype(str))
	words = self.preprocess_text(text).split()
	word_freq = Counter(words)
	# En az 3 kez geçen kelimeleri al
	return {word: count for word, count in word_freq.items()
	if count >= 3 and len(word) > 2}

	def generate_summary(self, df):
	"""Yorumları özetle"""
	# Yorumları ve yıldızları birleştir
	reviews_with_ratings = [
	f"Yıldız: {row['Yıldız Sayısı']}, Yorum: {row['Yorum']}"
	for _, row in df.iterrows()
	]

	# Prompt hazırla
	prompt = f"""
	Aşağıdaki ürün yorumlarını analiz edip özet çıkar:

	{reviews_with_ratings[:50]} # İlk 50 yorumu al (API limiti için)

	Lütfen şu başlıklar altında özetle:
	1. Genel Değerlendirme
	2. Olumlu Yönler
	3. Olumsuz Yönler
	4. Öneriler

	Önemli: Yanıtını Türkçe olarak ver ve madde madde listele.
	"""

	try:
	response = self.model.generate_content(prompt)
	summary = response.text
	except Exception as e:
	summary = f"Özet oluşturulurken hata oluştu: {str(e)}"

	return summary

	def analyze_reviews(self, df):
	"""Tüm yorumları analiz et"""
	try:
	# Yorumları filtrele
	filtered_df = self.filter_reviews(df)

	# Sentiment analizi yap
	analyzed_df = self.analyze_sentiment(filtered_df)

	return analyzed_df

	except Exception as e:
	print(f"Analiz sırasında hata oluştu: {str(e)}")
	return pd.DataFrame()

	def analyze_reviews(file_path):
	df = pd.read_csv(file_path)

	analyzer = ReviewAnalyzer()

	filtered_df = analyzer.filter_reviews(df)

	print("Sentiment analizi başlatılıyor...")
	analyzed_df = analyzer.analyze_sentiment(filtered_df)

	analyzed_df.to_csv('sentiment_analyzed_reviews.csv', index=False, encoding='utf-8-sig')
	print("Sentiment analizi tamamlandı ve kaydedildi.")

	print("\nÜrün özeti oluşturuluyor...")
	summary = analyzer.generate_summary(analyzed_df)

	with open('urun_ozeti.txt', 'w', encoding='utf-8') as f:
	f.write(summary)

	print("\nÜrün Özeti:")
	print("-" * 50)
	print(summary)
	print("\nÖzet 'urun_ozeti.txt' dosyasına kaydedildi.")

	if __name__ == "__main__":
	analyze_reviews('data/macbook_product_comments_with_ratings.csv')