Spaces:

SurbhiB
/

ml-code-generator

Sleeping

App Files Files Community

Surbhi commited on Mar 14

Commit

1960a99

1 Parent(s): b2fd176

Feature extraction and model training

Browse files

Files changed (9) hide show

app.py +109 -121
dataset.csv +0 -14
datasets/disease_prediction.csv +4 -0
datasets/fraud_detection.csv +6 -0
datasets/house_price.csv +6 -0
datasets/sales_forecasting.csv +6 -0
datasets/spam_detection.csv +6 -0
models/trained_model.pkl +0 -0
requirements.txt +2 -1

app.py CHANGED Viewed

@@ -1,112 +1,93 @@
 import streamlit as st
 import pandas as pd
 import numpy as np
-import joblib
-import textwrap
 from sklearn.model_selection import train_test_split
 from sklearn.preprocessing import StandardScaler, LabelEncoder
 from sklearn.impute import SimpleImputer
-from sklearn.feature_selection import SelectKBest, f_classif, f_regression
-from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, mean_absolute_error, mean_squared_error, r2_score
 from imblearn.over_sampling import SMOTE
-# Streamlit UI
-st.title("🚀 AI Code Generator")
-st.markdown("Generate & Train ML Models with Preprocessing and Feature Selection")
 # Sidebar UI
-st.sidebar.title("Choose Options")
 model_options = ["KNN", "SVM", "Random Forest", "Decision Tree", "Perceptron"]
 model = st.sidebar.selectbox("Choose a Model:", model_options)
 task_options = ["Classification", "Regression"]
 task = st.sidebar.selectbox("Choose a Task:", task_options)
-# Load Dataset
-st.markdown("### Upload your Dataset (CSV)")
-uploaded_file = st.file_uploader("Choose a CSV file", type="csv")
-if uploaded_file:
-    data = pd.read_csv(uploaded_file)
-    st.write("Preview of Dataset:", data.head())
-    # Preprocessing Steps
-    st.markdown("### Data Preprocessing Steps")
-    # Handling Missing Values
-    st.write("✅ Handling missing values using `SimpleImputer`")
-    imputer = SimpleImputer(strategy="mean")
-    data.fillna(data.mean(), inplace=True)
-    # Encoding Categorical Variables
-    st.write("✅ Encoding categorical variables")
-    for col in data.select_dtypes(include=["object"]).columns:
-        data[col] = LabelEncoder().fit_transform(data[col])
-    # Splitting Data
-    X = data.iloc[:, :-1]  # Features
-    y = data.iloc[:, -1]   # Target
-    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
-    # Feature Scaling
-    st.write("✅ Applying StandardScaler")
-    scaler = StandardScaler()
-    X_train = scaler.fit_transform(X_train)
-    X_test = scaler.transform(X_test)
-    # Handle Imbalanced Dataset using SMOTE
-    if task == "Classification":
-        st.write("✅ Handling Imbalanced Dataset using SMOTE")
-        smote = SMOTE()
-        X_train, y_train = smote.fit_resample(X_train, y_train)
-    # Feature Selection
-    st.write("✅ Selecting Best Features")
-    selector = SelectKBest(f_classif if task == "Classification" else f_regression, k=min(5, X.shape[1]))
-    X_train = selector.fit_transform(X_train, y_train)
-    X_test = selector.transform(X_test)
-    # Model Training
-    model_mapping = {
-        "KNN": "KNeighborsClassifier" if task == "Classification" else "KNeighborsRegressor",
-        "SVM": "SVC" if task == "Classification" else "SVR",
-        "Random Forest": "RandomForestClassifier" if task == "Classification" else "RandomForestRegressor",
-        "Decision Tree": "DecisionTreeClassifier" if task == "Classification" else "DecisionTreeRegressor",
-        "Perceptron": "Perceptron" if task == "Classification" else "Perceptron"
     }
-    model_class = model_mapping[model]
-    template = f"""
-import numpy as np
-import pandas as pd
-import joblib
-from sklearn.model_selection import train_test_split
-from sklearn.preprocessing import StandardScaler, LabelEncoder
-from sklearn.impute import SimpleImputer
-from sklearn.feature_selection import SelectKBest, f_classif, f_regression
-from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, mean_absolute_error, mean_squared_error, r2_score
-from imblearn.over_sampling import SMOTE
-from sklearn.{model.lower()} import {model_class}
-# Load Dataset
-data = pd.read_csv('dataset.csv')
-# Handling Missing Values
-imputer = SimpleImputer(strategy="mean")
-data.fillna(data.mean(), inplace=True)
-# Encoding Categorical Variables
-for col in data.select_dtypes(include=["object"]).columns:
-    data[col] = LabelEncoder().fit_transform(data[col])
-# Splitting Data
-X = data.iloc[:, :-1]
-y = data.iloc[:, -1]
 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
 # Feature Scaling
@@ -114,43 +95,50 @@ scaler = StandardScaler()
 X_train = scaler.fit_transform(X_train)
 X_test = scaler.transform(X_test)
-# Handle Imbalanced Data (SMOTE)
-if "{task}" == "Classification":
-    smote = SMOTE()
-    X_train, y_train = smote.fit_resample(X_train, y_train)
 # Feature Selection
-selector = SelectKBest(f_classif if "{task}" == "Classification" else f_regression, k=min(5, X.shape[1]))
 X_train = selector.fit_transform(X_train, y_train)
 X_test = selector.transform(X_test)
-# Model Training
-model = {model_class}()
-model.fit(X_train, y_train)
-# Save Trained Model
-joblib.dump(model, 'models/trained_model.pkl')
 # Evaluation Metrics
-if "{task}" == "Classification":
-    y_pred = model.predict(X_test)
-    print("Accuracy:", accuracy_score(y_test, y_pred))
-    print("Precision:", precision_score(y_test, y_pred, average='weighted'))
-    print("Recall:", recall_score(y_test, y_pred, average='weighted'))
-    print("F1 Score:", f1_score(y_test, y_pred, average='weighted'))
 else:
-    y_pred = model.predict(X_test)
-    print("Mean Absolute Error:", mean_absolute_error(y_test, y_pred))
-    print("Mean Squared Error:", mean_squared_error(y_test, y_pred))
-    print("R2 Score:", r2_score(y_test, y_pred))
-"""
-    st.code(template, language="python")
-    st.download_button("📥 Download AI Model Code", template, "ai_model.py")
-    # Save Model
-    model_instance = eval(model_class)()
-    model_instance.fit(X_train, y_train)
-    joblib.dump(model_instance, "models/trained_model.pkl")
-    st.success("✅ Model trained and saved as `trained_model.pkl`")

 import streamlit as st
 import pandas as pd
 import numpy as np
+import matplotlib.pyplot as plt
+import seaborn as sns
 from sklearn.model_selection import train_test_split
 from sklearn.preprocessing import StandardScaler, LabelEncoder
+from sklearn.feature_selection import SelectKBest, f_classif
 from sklearn.impute import SimpleImputer
 from imblearn.over_sampling import SMOTE
+from sklearn.metrics import accuracy_score, classification_report
+# Import ML Models
+from sklearn.neighbors import KNeighborsClassifier, KNeighborsRegressor
+from sklearn.svm import SVC, SVR
+from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
+from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor
+from sklearn.linear_model import Perceptron
 # Sidebar UI
+st.sidebar.title("AI Code Generator 🧠")
+st.sidebar.markdown("Generate AI models instantly!")
+# Model Selection
 model_options = ["KNN", "SVM", "Random Forest", "Decision Tree", "Perceptron"]
 model = st.sidebar.selectbox("Choose a Model:", model_options)
+# Task Selection
 task_options = ["Classification", "Regression"]
 task = st.sidebar.selectbox("Choose a Task:", task_options)
+# Problem Selection based on Task and Model
+problems = {
+    "Classification": {
+        "KNN": ["Spam Detection", "Disease Prediction"],
+        "SVM": ["Image Recognition", "Text Classification"],
+        "Random Forest": ["Fraud Detection", "Customer Segmentation"],
+        "Decision Tree": ["Loan Approval", "Churn Prediction"],
+        "Perceptron": ["Handwritten Digit Recognition", "Sentiment Analysis"]
+    },
+    "Regression": {
+        "KNN": ["House Price Prediction", "Stock Prediction"],
+        "SVM": ["Sales Forecasting", "Stock Market Trends"],
+        "Random Forest": ["Energy Consumption", "Patient Survival Prediction"],
+        "Decision Tree": ["House Price Estimation", "Revenue Prediction"],
+        "Perceptron": ["Weather Forecasting", "Traffic Flow Prediction"]
     }
+}
+problem = st.sidebar.selectbox("Choose a Problem:", problems[task][model])
+# Dataset Selection (User selects a pre-existing fake dataset)
+dataset_mapping = {
+    "Spam Detection": "datasets/spam_detection.csv",
+    "Disease Prediction": "datasets/disease_prediction.csv",
+    "Fraud Detection": "datasets/fraud_detection.csv",
+    "House Price Prediction": "datasets/house_price.csv",
+    "Sales Forecasting": "datasets/sales_forecasting.csv",
+}
+dataset_path = dataset_mapping.get(problem, "datasets/spam_detection.csv")
+df = pd.read_csv(dataset_path)
+# Display dataset
+st.subheader("Sample Dataset")
+st.write(df.head())
+# Preprocessing Steps
+st.subheader("📌 Preprocessing Steps")
+st.markdown("""
+- ✅ Handle Missing Values
+- ✅ Encoding Categorical Variables
+- ✅ Feature Scaling
+- ✅ Feature Selection
+- ✅ Handling Imbalanced Data using **SMOTE**
+""")
+# Handle missing values
+imputer = SimpleImputer(strategy='mean')
+df = df.apply(lambda col: imputer.fit_transform(col.values.reshape(-1, 1)).flatten() if col.dtypes == 'float64' else col)
+# Encoding categorical variables
+label_encoders = {}
+for col in df.select_dtypes(include=['object']).columns:
+    label_encoders[col] = LabelEncoder()
+    df[col] = label_encoders[col].fit_transform(df[col])
+# Split Data
+X = df.iloc[:, :-1]  # Features
+y = df.iloc[:, -1]   # Target
 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
 # Feature Scaling
 X_train = scaler.fit_transform(X_train)
 X_test = scaler.transform(X_test)
 # Feature Selection
+selector = SelectKBest(score_func=f_classif, k=5)
 X_train = selector.fit_transform(X_train, y_train)
 X_test = selector.transform(X_test)
+# Handle imbalanced data
+if task == "Classification":
+    smote = SMOTE()
+    X_train, y_train = smote.fit_resample(X_train, y_train)
+# Model Initialization
+model_mapping = {
+    "KNN": KNeighborsClassifier() if task == "Classification" else KNeighborsRegressor(),
+    "SVM": SVC() if task == "Classification" else SVR(),
+    "Random Forest": RandomForestClassifier() if task == "Classification" else RandomForestRegressor(),
+    "Decision Tree": DecisionTreeClassifier() if task == "Classification" else DecisionTreeRegressor(),
+    "Perceptron": Perceptron() if task == "Classification" else Perceptron()
+}
+model_instance = model_mapping[model]
+# Train Model
+model_instance.fit(X_train, y_train)
+y_pred = model_instance.predict(X_test)
 # Evaluation Metrics
+st.subheader("📊 Model Evaluation")
+if task == "Classification":
+    accuracy = accuracy_score(y_test, y_pred)
+    report = classification_report(y_test, y_pred)
+    st.write(f"**Accuracy:** {accuracy:.2f}")
+    st.text(report)
 else:
+    st.write("Regression evaluation metrics will be added soon!")
+# Visualization
+st.subheader("📈 Data Visualization")
+plt.figure(figsize=(8, 5))
+sns.heatmap(df.corr(), annot=True, cmap="coolwarm")
+st.pyplot(plt)
+# Download Code
+st.download_button("🐍 Download Python Code (.py)", "ai_model.py")
+st.download_button("📓 Download Notebook (.ipynb)", "ai_model.ipynb")
+st.markdown("[🚀 Open in Colab](https://colab.research.google.com/)")
+st.success("Code generated! Download and do magic! ✨")

dataset.csv DELETED Viewed

@@ -1,14 +0,0 @@
-# Fake dataset for AI Code Generator
-# You can replace this with your own dataset
-feature1,feature2,feature3,feature4,target
-34,180,1,50000,0
-25,165,0,60000,1
-40,175,1,55000,0
-30,170,0,62000,1
-45,185,1,58000,0
-28,160,0,57000,1
-35,178,1,53000,0
-50,190,1,49000,1
-23,158,0,61000,0
-38,172,1,56000,1

datasets/disease_prediction.csv ADDED Viewed

	@@ -0,0 +1,4 @@

+fever,cough,fatigue,disease
+98.6,0,0,"Healthy"
+100.2,1,1,"Flu"
+101.5,1,0,"COVID-19"

datasets/fraud_detection.csv ADDED Viewed

	@@ -0,0 +1,6 @@

+transaction_amount,transaction_type,location,is_fraud
+500,Credit Card,New York,0
+1200,Wire Transfer,California,1
+250,Debit Card,Texas,0
+800,Online Purchase,Florida,1
+50,Cash Withdrawal,Illinois,0

datasets/house_price.csv ADDED Viewed

	@@ -0,0 +1,6 @@

+area_sqft,bedrooms,bathrooms,location,price
+1200,3,2,New York,350000
+1800,4,3,California,500000
+950,2,1,Texas,200000
+2200,5,4,Florida,600000
+1100,3,2,Illinois,300000

datasets/sales_forecasting.csv ADDED Viewed

	@@ -0,0 +1,6 @@

+month,product,units_sold,revenue
+January,Product A,150,4500
+February,Product A,200,6000
+March,Product B,180,5400
+April,Product C,250,7500
+May,Product B,220,6600

datasets/spam_detection.csv ADDED Viewed

	@@ -0,0 +1,6 @@

+email_text,is_spam
+"Congratulations! You won a lottery",1
+"Important update on your bank account",1
+"Meeting tomorrow at 10 AM",0
+"Get your free trial now!",1
+"Project submission deadline extended",0

models/trained_model.pkl DELETED Viewed

File without changes

requirements.txt CHANGED Viewed

@@ -1,6 +1,7 @@
 streamlit
 pandas
 numpy
 scikit-learn
-joblib
 imbalanced-learn

 streamlit
 pandas
 numpy
+matplotlib
+seaborn
 scikit-learn
 imbalanced-learn