Data Tech

Alteryx Corner #6: Linear Regression

In questo Alteryx Corner #6 vediamo insieme uno degli strumenti in assoluto più utilizzati nel campo della previsione, la regressione lineare (Ordinary Least Square). In statistica la regressione lineare rappresenta un metodo di stima del valore atteso condizionato di una variabile dipendente Y, dati i valori di altre variabili indipendenti X1, X2 … Xn.

Il dataset che utilizzeremo per mostrare lo strumento di regressione lineare di Alteryx mostrerà alcune statistiche relative a 6820 film usciti tra il e il 1986 e il 2016. Noi proveremo a predire le vendite di ogni film sulla base del budget speso per la realizzazione dello stesso. Alla fine troveremo che per generare €1 in più di vendite occorreranno circa €3 in più di budget.

Nel nostro video mostriamo dunque una regressione lineare di tipo semplice, ossia utilizzando una sola variabile indipendente X.

Tuttavia il metodo sopra illustrato può essere esteso al caso in cui più variabili contribuiscono a spiegare la variabile dipendente Y.

In effetti raramente accade che venga utilizzato un solo regressore come nel nostro esempio. Quando ciò accade, occorre verificare che non vi sia correlazione tra i regressori e i loro disturbi casuali (non multicollinearità).

Un altro aspetto da tenere in considerazione in merito alla regressione lineare è appunto la linearità della relazione che intercorre tra la variabile Y e la variabile X. Prendiamo in considerazione la foto qui in basso. Le due regressioni nella prima riga mostrano una correlazione (forte nella foto a sinistra e perfetta nella foto a destra). Nella foto in basso a sinistra non c’è correlazione, mentre nella foto in basso a destra c’è evidentemente una relazione, ma non di tipo lineare. Occorre sempre ricordare che la regressione OLS cattura solamente una relazione lineare.

 

Infine, la Y e le X, vengono rispettivamente definite come endogena ed esogene; l’utilizzo di questi termini però, non deve generare confusione. Occorre sempre ricordare che la correlazione non implica necessariamente causalità, “correlation does not imply causation”.

Qui il video completo:

Se vuoi saperne di più su Alteryx e prenotare la tua demo, scrivici a alteryx@visualitics.it; oppure non perderti i prossimi articoli dedicati e continua a seguirci sul nostro blog e sui nostri canali social Facebook e LinkedIn!