Spaces:

Mattral
/

Click-Analyst

Sleeping

App Files Files Community

Mattral commited on May 2, 2024

Commit

ae65663

verified ·

1 Parent(s): 30a2c91

Update app.py

Browse files

Files changed (1) hide show

app.py +80 -20

app.py CHANGED Viewed

@@ -7,6 +7,7 @@ import seaborn as sns
 import plotly.express as px
 import time
 from PIL import Image
 # Config
 page_icon = Image.open("./assets/logo.png")
@@ -176,14 +177,11 @@ if st.session_state.df is None:
     # Select
     elif uploading_way == "select":
-                selected = st.selectbox("Select Dataset", ["Select", "Titanic Dataset", "Iris Dataset", "Wine Dataset", "Breast Cancer Dataset",
                                     "Diabetes Dataset", "Digits Dataset",
                                     "Olivetti Faces Dataset", "California Housing Dataset",
                                     "Covid-19 Dataset"])
-                if selected == "Titanic Dataset":
-                    df = load_data("./data/titanic.csv")
-                    st.session_state.df = df
                 elif selected == "Iris Dataset":
                     from sklearn.datasets import load_iris
@@ -199,20 +197,6 @@ if st.session_state.df is None:
                     df['target'] = wine.target
                     st.session_state.df = df
-                elif selected == "Breast Cancer Dataset":
-                    from sklearn.datasets import load_breast_cancer
-                    cancer = load_breast_cancer()
-                    df = pd.DataFrame(cancer.data, columns=cancer.feature_names)
-                    df['target'] = cancer.target
-                    st.session_state.df = df
-                elif selected == "Diabetes Dataset":
-                    from sklearn.datasets import load_diabetes
-                    diabetes = load_diabetes()
-                    df = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
-                    df['target'] = diabetes.target
-                    st.session_state.df = df
                 elif selected == "Digits Dataset":
                     from sklearn.datasets import load_digits
@@ -310,7 +294,18 @@ if st.session_state.df is not None:
             st.write(pd.DataFrame(df.columns, columns=['Columns']).T)
             new_line()
         # Describe Numerical
         describe = st.checkbox("Show Description **(Numerical Features)**", value=False)
         new_line()
@@ -318,6 +313,12 @@ if st.session_state.df is not None:
             st.dataframe(df.describe(), use_container_width=True)
             new_line()
         # Describe Categorical
         describe_cat = st.checkbox("Show Description **(Categorical Features)**", value=False)
         new_line()
@@ -469,7 +470,7 @@ df.drop(columns={col_to_delete}, inplace=True)
         # Feature Importance (Only if a model has been trained)
         if 'trained_model' in st.session_state and st.session_state.trained_model is not None:
-            feature_importance = st.checkbox("Show Feature Importance", value=False)
             new_line()
             if feature_importance:
                 model = st.session_state.trained_model
@@ -479,7 +480,66 @@ df.drop(columns={col_to_delete}, inplace=True)
                 ax.set_title('Feature Importance')
                 st.pyplot(fig)
                 new_line()
         # Interactive Data Tables
         interactive_table = st.checkbox("Show Interactive Data Table", value=False)
         new_line()

 import plotly.express as px
 import time
 from PIL import Image
+from wordcloud import WordCloud
 # Config
 page_icon = Image.open("./assets/logo.png")
     # Select
     elif uploading_way == "select":
+                selected = st.selectbox("Select Dataset", ["Select", "Titanic Dataset","Iris Dataset", "Wine Dataset",
                                     "Diabetes Dataset", "Digits Dataset",
                                     "Olivetti Faces Dataset", "California Housing Dataset",
                                     "Covid-19 Dataset"])
                 elif selected == "Iris Dataset":
                     from sklearn.datasets import load_iris
                     df['target'] = wine.target
                     st.session_state.df = df
                 elif selected == "Digits Dataset":
                     from sklearn.datasets import load_digits
             st.write(pd.DataFrame(df.columns, columns=['Columns']).T)
             new_line()
+        if st.checkbox("Check Data Types", value=False):
+            st.write(df.dtypes)
+            new_line()
+        if st.checkbox("Show Skewness and Kurtosis", value=False):
+            skew_kurt = pd.DataFrame(data={
+                'Skewness': df.skew(),
+                'Kurtosis': df.kurtosis()
+            })
+            st.write(skew_kurt)
+            new_line()
         # Describe Numerical
         describe = st.checkbox("Show Description **(Numerical Features)**", value=False)
         new_line()
             st.dataframe(df.describe(), use_container_width=True)
             new_line()
+        if st.checkbox("Unique Value Count", value=False):
+            unique_counts = pd.DataFrame(df.nunique()).rename(columns={0: 'Unique Count'})
+            st.write(unique_counts)
+            new_line()
         # Describe Categorical
         describe_cat = st.checkbox("Show Description **(Categorical Features)**", value=False)
         new_line()
         # Feature Importance (Only if a model has been trained)
         if 'trained_model' in st.session_state and st.session_state.trained_model is not None:
+            feature_importance = st.checkbox("Show Feature Importance (Only click after training or it will throw error)", value=False)
             new_line()
             if feature_importance:
                 model = st.session_state.trained_model
                 ax.set_title('Feature Importance')
                 st.pyplot(fig)
                 new_line()
+        if st.checkbox("Identify Outliers", value=False):
+            numeric_cols = df.select_dtypes(include=np.number).columns.tolist()
+            col_for_outliers = st.selectbox("Select Column to Check Outliers", options=numeric_cols)
+            fig, ax = plt.subplots()
+            sns.boxplot(x=df[col_for_outliers], ax=ax)
+            ax.set_title(f'Outliers in {col_for_outliers}')
+            st.pyplot(fig)
+            new_line()
+        if st.checkbox("Show Pairwise Scatter Plots", value=False):
+            selected_cols = st.multiselect("Select Columns", options=df.columns, default=df.columns[:2])
+            sns.pairplot(df[selected_cols])
+            st.pyplot()
+            new_line()
+        if st.checkbox("Show Cross-tabulations", value=False):
+            categorical_cols = df.select_dtypes(include=['object', 'category']).columns.tolist()
+            x_col = st.selectbox("Select X-axis Column for Cross-tab", options=categorical_cols, index=0)
+            y_col = st.selectbox("Select Y-axis Column for Cross-tab", options=categorical_cols, index=1 if len(categorical_cols) > 1 else 0)
+            cross_tab = pd.crosstab(df[x_col], df[y_col])
+            st.write(cross_tab)
+            new_line()
+        if st.checkbox("Segmented Analysis", value=False):
+            segments = st.selectbox("Select Segment", options=df.columns)
+            segment_values = df[segments].dropna().unique()
+            selected_segment = st.selectbox("Choose Segment Value", options=segment_values)
+            segmented_data = df[df[segments] == selected_segment]
+            st.write(segmented_data)
+            new_line()
+        # Assuming 'date_column' is the name of your datetime column
+        if st.checkbox("Temporal Analysis", value=False):
+            fig, ax = plt.subplots()
+            df.set_index('date_column')['some_value'].plot(ax=ax)
+            ax.set_title('Trend Over Time')
+            st.pyplot(fig)
+            new_line()
+        if st.checkbox("Show Word Cloud", value=False):
+            text_col = st.selectbox("Select Text Column for Word Cloud", options=df.select_dtypes(include=[np.object]).columns.tolist())
+            text_data = ' '.join(df[text_col].dropna())
+            wordcloud = WordCloud(width=800, height=400).generate(text_data)
+            fig, ax = plt.subplots()
+            ax.imshow(wordcloud, interpolation='bilinear')
+            ax.axis('off')
+            st.pyplot(fig)
+            new_line()
+        if st.checkbox("Show Text Statistics", value=False):
+            text_col = st.selectbox("Select Text Column for Statistics", options=df.select_dtypes(include=[np.object]).columns.tolist())
+            text_stats = df[text_col].dropna().apply(lambda x: {'length': len(x), 'word_count': len(x.split())})
+            text_stats_df = pd.DataFrame(list(text_stats))
+            st.write(text_stats_df.describe())
+            new_line()
         # Interactive Data Tables
         interactive_table = st.checkbox("Show Interactive Data Table", value=False)
         new_line()