03062025_V2_UMAP_Embedding_Classifier

This repository contains two final AutoGluon TabularPredictor models (binary and multi-class) built using UMAP-reduced embeddings from the Alibaba-NLP/gte-large-en-v1.5 model.

Key Details

UMAP for Binary Classification: Best n_components tuned via Optuna = 11.
UMAP for Multi-class Classification: Best n_components tuned via Optuna = 43.
Data: 112 technical questions with tiering classifications (0–4).
Performance Metrics:
- Binary: Accuracy ≈95.65%, F1 ≈0.97, ROC AUC ≈0.91.
- Multi-class: Accuracy ≈56.52%, F1 ≈0.59, ROC AUC ≈0.74.

Usage

Loading the Models:

from autogluon.tabular import TabularPredictor
binary_predictor = TabularPredictor.load("binary_final_model")
multi_predictor = TabularPredictor.load("multiclass_final_model")

Preprocessing: Generate embeddings for your input text using the Alibaba-NLP/gte-large-en-v1.5 model and apply the UMAP transformation with the provided reducer files (umap_reducer_binary.joblib and umap_reducer_multi.joblib).
Prediction: Use predict() and predict_proba() to obtain predictions.