📊 KNN Pipeline: From EDA to Dimensionality Reduction

Questo repository presenta un'analisi completa di Machine Learning focalizzata sull'algoritmo K-Nearest Neighbors (KNN). Il progetto illustra l'intero workflow di data science, ponendo particolare enfasi sulla preparazione statistica dei dati e sulla riduzione della dimensionalità.

🧠 Filosofia del Progetto

Il Machine Learning viene qui approcciato come un processo ingegneristico rigoroso, dove la qualità del modello finale è determinata dalla meticolosa cura della fase di preprocessing. L'obiettivo è trasformare dati grezzi in informazioni altamente strutturate e pronte per l'inferenza.

🛠️ Fasi del Workflow

1. Exploratory Data Analysis (EDA)

La fase di analisi esplorativa è fondamentale per comprendere la struttura del dataset attraverso:

Distribuzione delle Features: Studio della skewness e della dispersione dei dati.
Heatmap di Correlazione: Identificazione di eventuali ridondanze o relazioni lineari tra le variabili.
Analisi degli Outlier: Utilizzo di Boxplot per la rilevazione di anomalie nei dati.

2. Preprocessing dei Dati

✂️ Clipping degli Outlier

A differenza di altri algoritmi, il KNN è estremamente sensibile alla distanza euclidea. I valori estremi (outlier) possono distorcere significativamente il calcolo delle distanze, compromettendo la precisione del modello.

Razionale del Clipping: Invece di procedere con la rimozione dei record (che comporterebbe una perdita di informazioni), è stata applicata la tecnica del clipping. Questa metodologia limita i valori estremi entro un range predefinito (es. 1° e 99° percentile), neutralizzando l'impatto delle anomalie senza sacrificare la dimensione del dataset.

📏 Normalizzazione (Min-Max Scaling)

Dato che il KNN calcola distanze spaziali, feature con scale numeriche diverse dominerebbero impropriamente il modello. Tutti i dati sono stati riportati nell'intervallo [0, 1] per garantire che ogni variabile contribuisca equamente alla decisione finale.

3. Riduzione della Dimensionalità (PCA)

L'applicazione della Principal Component Analysis (PCA) risponde a tre esigenze:

Riduzione del rumore: Pulizia del segnale di fondo nei dati.
Visualizzazione: Proiezione dei dati in spazi 2D/3D per l'analisi dei cluster.
Efficienza Computazionale: Accelerazione del KNN attraverso l'eliminazione di componenti a bassa varianza.

📈 Valutazione del Modello

Le prestazioni sono state misurate attraverso strumenti analitici dettagliati:

Confusion Matrix: Per la localizzazione specifica degli errori di classificazione.
Report di Classificazione: Analisi di Precision, Recall e F1-Score per una valutazione bilanciata delle classi.

🇬🇧 English Version

📊 KNN Pipeline: From EDA to Dimensionality Reduction

This repository presents a comprehensive Machine Learning analysis focused on the K-Nearest Neighbors (KNN) algorithm. The project illustrates the entire data science workflow, with a particular emphasis on statistical data preparation and dimensionality reduction.

🧠 Project Philosophy

Machine Learning is approached here as a rigorous engineering process, where the quality of the final model is determined by the meticulous care of the preprocessing stage. The goal is to transform raw data into highly structured, inference-ready information.

🛠️ Workflow Phases

1. Exploratory Data Analysis (EDA)

The exploratory analysis phase is essential for understanding the dataset structure through:

Feature Distribution: Study of data skewness and dispersion.
Correlation Heatmap: Identification of redundancies or linear relationships between variables.
Outlier Analysis: Use of Boxplots to detect data anomalies.

2. Data Preprocessing

✂️ Outlier Clipping

Unlike other algorithms, KNN is extremely sensitive to Euclidean distance. Extreme values (outliers) can significantly distort distance calculations, compromising model accuracy.

Clipping Rationale: Instead of removing records (which would lead to information loss), the clipping technique was applied. This methodology limits extreme values within a predefined range (e.g., 1st and 99th percentiles), neutralizing the impact of anomalies without sacrificing dataset size.

📏 Normalization (Min-Max Scaling)

Since KNN calculates spatial distances, features with different numerical scales would improperly dominate the model. All data has been scaled to the [0, 1] range to ensure that each variable contributes equally to the final decision.

3. Dimensionality Reduction (PCA)

The application of Principal Component Analysis (PCA) serves three purposes:

Noise Reduction: Filtering background noise in the data.
Visualization: Projecting data into 2D/3D spaces for cluster analysis.
Computational Efficiency: Accelerating KNN by eliminating low-variance components.

📈 Model Evaluation

Performance was measured through detailed analytical tools:

Confusion Matrix: For specific localization of classification errors.
Classification Report: Analysis of Precision, Recall, and F1-Score for balanced class evaluation.

👨‍💻 Author

Flavio Rubens Ottaviani Project developed for educational purposes to deepen the dynamics of feature engineering and instance-based models.

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support