Spaces:

RMHalak
/

house-pricing-v1

Paused

App Files Files Community

RMHalak commited on Sep 3, 2024

Commit

344f42c

verified ·

1 Parent(s): cd9721e

Update utils.py

Browse files

Files changed (1) hide show

utils.py +14 -29

utils.py CHANGED Viewed

@@ -6,38 +6,13 @@ def create_new_features(df):
     df['years_since_renovation'] = df['year_sold'] - df['yr_renovated']
     df.drop(columns=['year_sold'], inplace=True)
     df['has_basement'] = df['sqft_basement'].apply(lambda x: 1 if x > 0 else 0)
     return df
 def normalize(df):
-    # min_dict = {'bedrooms': 0,
-    #  'bathrooms': 0,
-    #  'sqft_living': 370,
-    #  'sqft_lot': 638,
-    #  'floors': 1,
-    #  'waterfront': 0,
-    #  'view': 0,
-    #  'condition': 1,
-    #  'sqft_above': 370,
-    #  'sqft_basement': 0,
-    #  'yr_built': 1900,
-    #  'yr_renovated': 0,
-    #  'house_age': 0,
-    #  'years_since_renovation': 0}
-    # max_dict = {'bedrooms': 9,
-    #  'bathrooms': 8,
-    #  'sqft_living': 13540,
-    #  'sqft_lot': 1074218,
-    #  'floors': 3,
-    #  'waterfront': 1,
-    #  'view': 4,
-    #  'condition': 5,
-    #  'sqft_above': 9410,
-    #  'sqft_basement': 4820,
-    #  'yr_built': 2014,
-    #  'yr_renovated': 2014,
-    #  'house_age': 114,
-    #  'years_since_renovation': 2014}
     with open("./min_dict.json", "r") as f:
         min_dict = json.load(f)
@@ -52,8 +27,18 @@ def normalize(df):
         df[col] = df[col].apply(lambda x: (x-min_dict[col])/(max_dict[col]-min_dict[col]))
     return df
 def init_new_pred():
     import pandas as pd
     columns = ['bedrooms', 'bathrooms', 'sqft_living', 'sqft_lot', 'floors',
        'waterfront', 'view', 'condition', 'sqft_above', 'sqft_basement',
        'yr_built', 'yr_renovated', 'house_age', 'years_since_renovation',

     df['years_since_renovation'] = df['year_sold'] - df['yr_renovated']
     df.drop(columns=['year_sold'], inplace=True)
     df['has_basement'] = df['sqft_basement'].apply(lambda x: 1 if x > 0 else 0)
+    mask = df['yr_renovated'] == 0
+    df.loc[mask, 'yr_renovated'] = df.loc[mask, 'yr_built']
     return df
 def normalize(df):
+    import json
     with open("./min_dict.json", "r") as f:
         min_dict = json.load(f)
         df[col] = df[col].apply(lambda x: (x-min_dict[col])/(max_dict[col]-min_dict[col]))
     return df
+def bucketize(df):
+    bucket_sizes = {'sqft_living': 25,
+                    'sqft_lot': 25,
+                    'sqft_above': 25,
+                    'sqft_basement': 25}
+    for col, size in bucket_sizes.items():
+        df[col] = df[col].apply(lambda x: (x // size)*size)
+    return df
 def init_new_pred():
     import pandas as pd
     columns = ['bedrooms', 'bathrooms', 'sqft_living', 'sqft_lot', 'floors',
        'waterfront', 'view', 'condition', 'sqft_above', 'sqft_basement',
        'yr_built', 'yr_renovated', 'house_age', 'years_since_renovation',