{"metadata":{"kernelspec":{"language":"python","display_name":"Python 3","name":"python3"},"language_info":{"name":"python","version":"3.10.12","mimetype":"text/x-python","codemirror_mode":{"name":"ipython","version":3},"pygments_lexer":"ipython3","nbconvert_exporter":"python","file_extension":".py"},"kaggle":{"accelerator":"none","dataSources":[{"sourceId":7674502,"sourceType":"datasetVersion","datasetId":4476607}],"dockerImageVersionId":30918,"isInternetEnabled":false,"language":"python","sourceType":"notebook","isGpuEnabled":false}},"nbformat_minor":4,"nbformat":4,"cells":[{"cell_type":"code","source":"# This Python 3 environment comes with many helpful analytics libraries installed\n# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python\n# For example, here's several helpful packages to load\n\nimport numpy as np # linear algebra\nimport pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)\n\n# Input data files are available in the read-only \"../input/\" directory\n# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory\n\nimport os\nfor dirname, _, filenames in os.walk('/kaggle/input'):\n    for filename in filenames:\n        print(os.path.join(dirname, filename))\n\n# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using \"Save & Run All\" \n# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session","metadata":{"_uuid":"8f2839f25d086af736a60e9eeb907d3b93b6e0e5","_cell_guid":"b1076dfc-b9ad-4769-8c92-a6c4dae69d19","trusted":true,"execution":{"iopub.status.busy":"2025-03-08T10:03:24.626795Z","iopub.execute_input":"2025-03-08T10:03:24.627109Z","iopub.status.idle":"2025-03-08T10:03:26.092670Z","shell.execute_reply.started":"2025-03-08T10:03:24.627081Z","shell.execute_reply":"2025-03-08T10:03:26.091150Z"}},"outputs":[{"name":"stdout","text":"/kaggle/input/disease-and-symptoms-dataset/DiseaseAndSymptoms.csv\n/kaggle/input/disease-and-symptoms-dataset/Disease precaution.csv\n","output_type":"stream"}],"execution_count":1},{"cell_type":"code","source":"import pandas as pd\nfrom sklearn.model_selection import train_test_split\nfrom sklearn.preprocessing import MultiLabelBinarizer\n\n# Step 1: Load the dataset\ndf = pd.read_csv('/kaggle/input/disease-and-symptoms-dataset/DiseaseAndSymptoms.csv')\n\n# Combine all symptom columns into a list\nsymptom_columns = [col for col in df.columns if 'Symptom' in col]\ndf['Symptoms'] = df[symptom_columns].apply(lambda row: [s for s in row if pd.notna(s)], axis=1)\n\n# Drop original symptom columns\ndf = df[['Disease', 'Symptoms']]\n\n# One-hot encoding for symptoms\nmlb = MultiLabelBinarizer()\nX = mlb.fit_transform(df['Symptoms'])  # Features: Symptoms\ny = df['Disease']  # Target: Disease\n\n# Split into training and testing sets\nX_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)\n\n# Save processed data\npd.DataFrame(X_train, columns=mlb.classes_).to_csv('X_train.csv', index=False)\npd.DataFrame(X_test, columns=mlb.classes_).to_csv('X_test.csv', index=False)\ny_train.to_csv('y_train.csv', index=False)\ny_test.to_csv('y_test.csv', index=False)\n\nprint(\"Data Preprocessing Completed Successfully!\")","metadata":{"trusted":true,"execution":{"iopub.status.busy":"2025-03-08T10:09:52.036735Z","iopub.execute_input":"2025-03-08T10:09:52.037241Z","iopub.status.idle":"2025-03-08T10:09:52.314201Z","shell.execute_reply.started":"2025-03-08T10:09:52.037205Z","shell.execute_reply":"2025-03-08T10:09:52.312754Z"}},"outputs":[{"name":"stdout","text":"Data Preprocessing Completed Successfully!\n","output_type":"stream"}],"execution_count":3},{"cell_type":"code","source":"import xgboost as xgb\nimport pandas as pd\nfrom sklearn.preprocessing import LabelEncoder\nfrom sklearn.metrics import accuracy_score\n\n# Load preprocessed data\nX_train = pd.read_csv('X_train.csv')\nX_test = pd.read_csv('X_test.csv')\ny_train = pd.read_csv('y_train.csv').values.ravel()  # Convert to 1D array\ny_test = pd.read_csv('y_test.csv').values.ravel()\n\n# Step 1: Encode Disease Labels into Numbers\nlabel_encoder = LabelEncoder()\ny_train_encoded = label_encoder.fit_transform(y_train)  # Convert disease names to numbers\ny_test_encoded = label_encoder.transform(y_test)\n\n# Step 2: Initialize XGBoost classifier\nmodel = xgb.XGBClassifier(use_label_encoder=False, eval_metric='mlogloss')\n\n# Step 3: Train the model\nmodel.fit(X_train, y_train_encoded)\n\n# Step 4: Predict on test set\ny_pred = model.predict(X_test)\n\n# Step 5: Evaluate accuracy\naccuracy = accuracy_score(y_test_encoded, y_pred)\nprint(f\"Model Accuracy: {accuracy:.2f}\")\n\n# Step 6: Save the trained model and label encoder\nmodel.save_model(\"symptom_disease_model.json\")\nimport pickle\npickle.dump(label_encoder, open(\"label_encoder.pkl\", \"wb\"))\n\nprint(\"Model Training Completed and Saved!\")\n","metadata":{"trusted":true,"execution":{"iopub.status.busy":"2025-03-08T10:12:03.806755Z","iopub.execute_input":"2025-03-08T10:12:03.807162Z","iopub.status.idle":"2025-03-08T10:12:06.019614Z","shell.execute_reply.started":"2025-03-08T10:12:03.807132Z","shell.execute_reply":"2025-03-08T10:12:06.018494Z"}},"outputs":[{"name":"stdout","text":"Model Accuracy: 1.00\nModel Training Completed and Saved!\n","output_type":"stream"}],"execution_count":5},{"cell_type":"code","source":"import pandas as pd\n\n# Load Precaution Data\nprecaution_df = pd.read_csv('/kaggle/input/disease-and-symptoms-dataset/Disease precaution.csv')\n\n# Convert to dictionary for fast lookup\nprecaution_dict = {}\nfor _, row in precaution_df.iterrows():\n    disease = row['Disease'].strip().lower()  # Normalize disease name\n    precautions = [row[f'Precaution_{i}'] for i in range(1, 5) if pd.notna(row[f'Precaution_{i}'])]\n    precaution_dict[disease] = precautions\n\n# Function to Get Precautions\ndef get_precautions(disease_name):\n    disease_name = disease_name.strip().lower()\n    return precaution_dict.get(disease_name, [\"No precautions found\"])\n\n# Example Usage\npredicted_disease = \"Diabetes\"  # Replace with actual model prediction\nprecautions = get_precautions(predicted_disease)\nprint(f\"Precautions for {predicted_disease}: {precautions}\")\n","metadata":{"trusted":true,"execution":{"iopub.status.busy":"2025-03-08T10:31:21.688090Z","iopub.execute_input":"2025-03-08T10:31:21.688532Z","iopub.status.idle":"2025-03-08T10:31:21.716435Z","shell.execute_reply.started":"2025-03-08T10:31:21.688502Z","shell.execute_reply":"2025-03-08T10:31:21.715079Z"}},"outputs":[{"name":"stdout","text":"Precautions for Diabetes: ['have balanced diet', 'exercise', 'consult doctor', 'follow up']\n","output_type":"stream"}],"execution_count":11},{"cell_type":"code","source":"","metadata":{"trusted":true},"outputs":[],"execution_count":null}]}