Spaces:

enesmanan
/

trendyol-review-summarizer

Sleeping

App Files Files Community

enesmanan commited on Jan 8

Commit

b42b622

verified ·

1 Parent(s): d0ee054

change genai model

Browse files

Files changed (2) hide show

app.py +74 -67
requirements.txt +3 -1

app.py CHANGED Viewed

@@ -11,11 +11,15 @@ import re
 from tqdm import tqdm
 import nltk
 from nltk.corpus import stopwords
 class ReviewAnalysisApp:
     def __init__(self):
         self.setup_models()
         self.setup_stopwords()
     def setup_stopwords(self):
         """Türkçe stopwords'leri yükle"""
@@ -34,8 +38,8 @@ class ReviewAnalysisApp:
     def setup_models(self):
         """Modelleri yükle ve hazırla"""
-        # Sentiment model setup
-        self.device = "cpu"  # Spaces'de CPU kullanacağız
         print(f"Cihaz: {self.device}")
         model_name = "savasy/bert-base-turkish-sentiment-cased"
@@ -43,35 +47,31 @@ class ReviewAnalysisApp:
         self.sentiment_model = (
             AutoModelForSequenceClassification.from_pretrained(
                 model_name,
-                low_cpu_mem_usage=False  # CPU için False yapıyoruz
             )
             .to(self.device)
             .to(torch.float32)
         )
-        # Summary model setup
-        print("Trendyol-LLM modeli yükleniyor...")
-        model_id = "Trendyol/Trendyol-LLM-8b-chat-v2.0"
-        self.summary_pipe = pipeline(
-            "text-generation",
-            model=model_id,
-            torch_dtype=torch.float32,
-            device=self.device,  # device_map yerine device kullanıyoruz
-        )
-        self.terminators = [
-            self.summary_pipe.tokenizer.eos_token_id,
-            self.summary_pipe.tokenizer.convert_tokens_to_ids("<|eot_id|>")
-        ]
-        self.sampling_params = {
-            "do_sample": True,
-            "temperature": 0.3,
-            "top_k": 50,
-            "top_p": 0.9,
-            "repetition_penalty": 1.1
-        }
     def preprocess_text(self, text):
         """Metin ön işleme"""
         if isinstance(text, str):
@@ -145,7 +145,7 @@ class ReviewAnalysisApp:
         return df
     def generate_summary(self, df):
-        """Yorumları özetle"""
         # Temel istatistikler
         avg_rating = df['Yıldız Sayısı'].mean()
         total_reviews = len(df)
@@ -160,7 +160,7 @@ class ReviewAnalysisApp:
         star_dist = df['Yıldız Sayısı'].value_counts().sort_index()
         star_dist_text = "\n".join([f"{star} yıldız: {count} yorum" for star, count in star_dist.items()])
-        # En sık geçen kelimeler (stopwords temizlenmiş)
         all_words = []
         for text in df['Yorum']:
             cleaned_text = self.preprocess_text(text)
@@ -171,58 +171,65 @@ class ReviewAnalysisApp:
         word_freq = Counter(all_words).most_common(10)
         frequent_words = ", ".join([f"{word} ({count} kez)" for word, count in word_freq])
-        # Prompt hazırlama
-        prompt = f"""Bu ürün için yapılan {total_reviews} yorumun detaylı analizi:
-1. Genel Değerlendirme:
-- Ortalama puan: {avg_rating:.1f}/5
-- Toplam yorum sayısı: {total_reviews}
-- Pozitif yorum sayısı: {positive_count}
-- Negatif yorum sayısı: {negative_count}
-2. Yıldız Dağılımı:
 {star_dist_text}
-3. En Sık Kullanılan Kelimeler:
 {frequent_words}
-4. Örnek Yorumlar:
-Pozitif yorumlardan:
 {' | '.join(positive_comments[:3])}
-Negatif yorumlardan:
 {' | '.join(negative_comments[:3])}
-Yukarıdaki verilere dayanarak:
-1. Ürünün genel kalitesi ve kullanıcı memnuniyeti hakkında
-2. Ürünün güçlü ve zayıf yönleri hakkında
-3. Potansiyel alıcılar için önemli noktalar hakkında
-kapsamlı bir değerlendirme yazar mısın?
-"""
-        # Özet oluştur
-        response = self.summary_pipe(
-            prompt,
-            max_new_tokens=800,  # Daha uzun özet için
-            eos_token_id=self.terminators,
-            **self.sampling_params
-        )[0]['generated_text']
-        # Prompt'u çıkar ve sadece özeti döndür
-        summary = response[len(prompt):].strip()
-        # Özeti formatla
-        formatted_summary = f"""📊 ÜRÜN ANAL�Z RAPORU
-⭐ Ortalama Puan: {avg_rating:.1f}/5
-📝 Toplam Yorum: {total_reviews}
-✅ Pozitif Yorum: {positive_count}
-❌ Negatif Yorum: {negative_count}
-🔍 DETAYLI ANALİZ:
-{summary}"""
-        return formatted_summary
     def analyze_url(self, url):
         try:

 from tqdm import tqdm
 import nltk
 from nltk.corpus import stopwords
+from dotenv import load_dotenv
+import google.generativeai as genai
+from pathlib import Path
 class ReviewAnalysisApp:
     def __init__(self):
         self.setup_models()
         self.setup_stopwords()
+        self.setup_gemini()
     def setup_stopwords(self):
         """Türkçe stopwords'leri yükle"""
     def setup_models(self):
         """Modelleri yükle ve hazırla"""
+        # Sadece sentiment model
+        self.device = "cpu"
         print(f"Cihaz: {self.device}")
         model_name = "savasy/bert-base-turkish-sentiment-cased"
         self.sentiment_model = (
             AutoModelForSequenceClassification.from_pretrained(
                 model_name,
+                low_cpu_mem_usage=False
             )
             .to(self.device)
             .to(torch.float32)
         )
+    def setup_gemini(self):
+        """Gemini API'yi hazırla"""
+        try:
+            # Önce .env dosyasından API key'i al
+            load_dotenv()
+            api_key = os.getenv('GOOGLE_API_KEY')
+            if not api_key:
+                raise ValueError("API key bulunamadı!")
+            # Gemini'yi yapılandır
+            genai.configure(api_key=api_key)
+            # Modeli ayarla
+            self.gemini_model = genai.GenerativeModel('gemini-pro')
+        except Exception as e:
+            print(f"Gemini API yapılandırma hatası: {str(e)}")
+            self.gemini_model = None
     def preprocess_text(self, text):
         """Metin ön işleme"""
         if isinstance(text, str):
         return df
     def generate_summary(self, df):
+        """İstatistiksel özet ve Gemini ile detaylı analiz"""
         # Temel istatistikler
         avg_rating = df['Yıldız Sayısı'].mean()
         total_reviews = len(df)
         star_dist = df['Yıldız Sayısı'].value_counts().sort_index()
         star_dist_text = "\n".join([f"{star} yıldız: {count} yorum" for star, count in star_dist.items()])
+        # En sık kelimeler
         all_words = []
         for text in df['Yorum']:
             cleaned_text = self.preprocess_text(text)
         word_freq = Counter(all_words).most_common(10)
         frequent_words = ", ".join([f"{word} ({count} kez)" for word, count in word_freq])
+        # İstatistiksel özet metni
+        stats_summary = f"""📊 ÜRÜN ANALİZ RAPORU
+⭐ Ortalama Puan: {avg_rating:.1f}/5
+📝 Toplam Yorum: {total_reviews}
+✅ Pozitif Yorum: {positive_count}
+❌ Negatif Yorum: {negative_count}
+📈 YILDIZ DAĞILIMI:
 {star_dist_text}
+🔍 EN SIK KULLANILAN KELİMELER:
 {frequent_words}
+💬 ÖRNEK YORUMLAR:
+✅ Pozitif Yorumlar:
 {' | '.join(positive_comments[:3])}
+❌ Negatif Yorumlar:
+{' | '.join(negative_comments[:3])}"""
+        # Gemini ile detaylı analiz
+        if self.gemini_model:
+            try:
+                prompt = f"""Aşağıdaki ürün yorumları verilerine dayanarak detaylı bir analiz yap:
+1. İstatistikler:
+- Toplam {total_reviews} yorum
+- Ortalama puan: {avg_rating:.1f}/5
+- {positive_count} pozitif, {negative_count} negatif yorum
+2. Örnek Pozitif Yorumlar:
+{' | '.join(positive_comments[:3])}
+3. Örnek Negatif Yorumlar:
 {' | '.join(negative_comments[:3])}
+4. En Sık Kullanılan Kelimeler:
+{frequent_words}
+Lütfen şu başlıklar altında bir değerlendirme yap:
+1. Ürünün güçlü yönleri
+2. Ürünün zayıf yönleri
+3. Genel kullanıcı memnuniyeti
+4. Potansiyel alıcılar için öneriler
+Yanıtını Türkçe olarak ver ve mümkün olduğunca özlü tut."""
+                response = self.gemini_model.generate_content(prompt)
+                ai_analysis = response.text
+                # İstatistiksel özet ve AI analizini birleştir
+                return f"{stats_summary}\n\n🤖 YAPAY ZEKA ANALİZİ:\n{ai_analysis}"
+            except Exception as e:
+                print(f"Gemini API hatası: {str(e)}")
+                return stats_summary
+        return stats_summary
     def analyze_url(self, url):
         try:

requirements.txt CHANGED Viewed

@@ -10,4 +10,6 @@ webdriver_manager
 tqdm
 regex
 scikit-learn
-accelerate>=0.26.0

 tqdm
 regex
 scikit-learn
+accelerate>=0.26.0
+python-dotenv
+google-generativeai