Spaces:

DvorakInnovationAI
/

Story-Analytics

Sleeping

App Files Files Community

subashdvorak commited on Jan 23

Commit

2526e11

verified ·

1 Parent(s): 50da970

Update app.py

Browse files

Files changed (1) hide show

app.py +45 -33

app.py CHANGED Viewed

@@ -19,8 +19,7 @@ def preprocess_text(text):
     text = re.sub(r'[^a-zA-Z\s]', '', text)  # Remove special characters
     return text
-# Function to generate graphs for stories with similarity > 0.8
-def generate_graphs(new_story):
     # Preprocess the new story
     new_story = preprocess_text(new_story)
@@ -28,57 +27,70 @@ def generate_graphs(new_story):
     new_story_vector = model.encode([new_story])[0]
     # Calculate similarity with knowledge base stories
-    knowledge_base_vectors = encoded_df.iloc[:, :-7].values  # Exclude 'likesCount'
     similarities = cosine_similarity([new_story_vector], knowledge_base_vectors)[0]
-    # Filter indices with similarity > 0.8
     similar_indexes = np.where(similarities > 0.85)[0]
     if len(similar_indexes) == 0:
-        return None, "No stories have a similarity > 0.85."
-    # Get likesCount for stories with similarity > 0.8
-    likes_distribution = encoded_df.iloc[similar_indexes]['likesCount'].values
     story_labels = [f"Story {i+1}" for i in similar_indexes]
     # Plot similarity distribution for all similar stories
-    plt.figure(figsize=(10, 6))
     sns.kdeplot(new_story_vector, shade=False, label="New Story", color='blue', linewidth=2)
     for idx in similar_indexes:
         most_similar_vector = encoded_df.iloc[idx, :-7].values
         sns.kdeplot(most_similar_vector, shade=False, label=f"Story {idx+1}", alpha=0.5)
-    plt.title("Similarity Distribution: New Story vs Similar Stories", fontsize=14)
     plt.xlabel("Vector Values", fontsize=12)
     plt.ylabel("Density", fontsize=12)
     plt.legend(title="Stories")
-    sim_dist_plot = plt.gcf()
-    # Create a bar graph for likes distribution
-    plt.figure(figsize=(10, 6))
-    sns.barplot(x=story_labels, y=likes_distribution, palette="viridis")
-    plt.title("LikesCount Distribution for Similar Stories", fontsize=14)
-    plt.xlabel("Story Index (Similarity > 0.8)", fontsize=12)
-    plt.ylabel("LikesCount", fontsize=12)
     plt.xticks(rotation=90)
-    likes_dist_plot = plt.gcf()
-    return sim_dist_plot, likes_dist_plot
-# Gradio interface
-def gradio_interface(new_story):
-    sim_dist_plot, likes_dist_plot = generate_graphs(new_story)
     if sim_dist_plot is None:
-        return "No stories have a similarity > 0.8.", None
-    return sim_dist_plot, likes_dist_plot
-# Create the Gradio interface
-iface = gr.Interface(
-    fn=gradio_interface,
-    inputs=gr.Textbox(label="Enter a story", lines=10, placeholder="Enter the story here..."),
-    outputs=[gr.Plot(label="Similarity Distribution"), gr.Plot(label="Likes Distribution")],
-    title="Story Similarity and Likes Analysis",
-    description="Enter a new story to compare with the knowledge base. "
-                "View similarity distributions and likes of stories with similarity > 0.8."
 )
 # Launch the interface

     text = re.sub(r'[^a-zA-Z\s]', '', text)  # Remove special characters
     return text
+def generate_graphs(new_story, metric):
     # Preprocess the new story
     new_story = preprocess_text(new_story)
     new_story_vector = model.encode([new_story])[0]
     # Calculate similarity with knowledge base stories
+    knowledge_base_vectors = encoded_df.iloc[:, :-7].values  # Exclude metrics columns
     similarities = cosine_similarity([new_story_vector], knowledge_base_vectors)[0]
+    # Filter indices with similarity > 0.85
     similar_indexes = np.where(similarities > 0.85)[0]
+    print('Similar indexes:',similar_indexes)
     if len(similar_indexes) == 0:
+        return None,None
+    # Get metric distribution for stories with similarity > 0.85
+    metric_distribution = encoded_df.iloc[similar_indexes][metric].values
     story_labels = [f"Story {i+1}" for i in similar_indexes]
     # Plot similarity distribution for all similar stories
+    sim_dist_plot = plt.figure(figsize=(10, 6))
     sns.kdeplot(new_story_vector, shade=False, label="New Story", color='blue', linewidth=2)
     for idx in similar_indexes:
         most_similar_vector = encoded_df.iloc[idx, :-7].values
         sns.kdeplot(most_similar_vector, shade=False, label=f"Story {idx+1}", alpha=0.5)
+    plt.title(f"Similarity Distribution: New Story vs Similar Stories ({metric})", fontsize=14)
     plt.xlabel("Vector Values", fontsize=12)
     plt.ylabel("Density", fontsize=12)
     plt.legend(title="Stories")
+    plt.tight_layout()
+    # Create a bar graph for the metric distribution
+    metric_dist_plot = plt.figure(figsize=(10, 6))
+    sns.barplot(x=story_labels, y=metric_distribution, palette="viridis")
+    plt.title(f"{metric} Distribution for Similar Stories", fontsize=14)
+    plt.xlabel("Story Index (Similarity > 0.85)", fontsize=12)
+    plt.ylabel(metric, fontsize=12)
     plt.xticks(rotation=90)
+    plt.tight_layout()
+    return sim_dist_plot, metric_dist_plot
+# Gradio interface for a specific metric
+def gradio_interface(new_story, metric):
+    sim_dist_plot, metric_dist_plot = generate_graphs(new_story, metric)
     if sim_dist_plot is None:
+        return None, None
+    return sim_dist_plot, metric_dist_plot
+# Create the Gradio interface with tabs
+def create_tab(metric):
+    return gr.Interface(
+        fn=lambda new_story: gradio_interface(new_story, metric),
+        inputs=gr.Textbox(label="Enter a story", lines=10, placeholder="Enter the story here..."),
+        outputs=[gr.Plot(label="Similarity Distribution"), gr.Plot(label=f"{metric} Distribution")],
+        title=f"Story Similarity and {metric} Analysis",
+        description=f"Enter a new story to compare with the knowledge base. View similarity distributions and {metric} of stories with similarity > 0.85."
+    )
+likes_tab = create_tab("likesCount")
+comments_tab = create_tab("commentCount")
+shares_tab = create_tab("shareCount")
+# Combine tabs into a single app
+iface = gr.TabbedInterface(
+    interface_list=[likes_tab, comments_tab, shares_tab],
+    tab_names=["Likes Analytics", "Comments Analytics", "Shares Analytics"]
 )
 # Launch the interface