CORRELAZIONE, INTERPOLAZIONE E
REGRESSIONE
La statistica è una scienza che si avvale della matematica e del metodo sperimentale per
studiare i modi in cui un fenomeno collettivo può essere sintetizzato e compreso. Ciò
avviene attraverso la raccolta e l'analisi delle informazioni relative al fenomeno studiato.
La correlazione, l’interpolazione e la regressione sono funzioni statistiche che ci permettono
di calcolare la dipendenza tra due variabili statistiche, cioè vedere se si influenzano e in che
misura.
Queste funzioni possono essere usate in indagini statistiche di tipo comparativo consistenti
nell’osservazione di due variabili su un medesimo gruppo di individui.
 LA CORRELAZIONE
La correlazione è la tendenza di una variabile Y di variare in funzione di un’altra variabile X.
La correlazione può essere:
 Diretta/positiva: se al variare di X, Y varia nello stesso segno.
 Indiretta/negativa/inversa: se al variare di X, Y varia nel senso opposto.
correlazione diretta
correlazione inversa
Il grado di correlazione viene espresso dal coefficiente di correlazione (X, Y) (leggi ro).
Questo coefficiente varia da -1 —in questo caso si parla di correlazione inversa— a +1 —in questo
caso si parla di correlazione diretta—, se è 0 non c’è correlazione.
Per calcolare  bisogna calcolare la covarianza cov(X, Y).
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)
𝑐𝑜𝑣(𝑋, 𝑌) =
𝑛
 Se cov(X,Y)>0 la correlazione sarà diretta;
 Se cov(X,Y)<0 la correlazione sarà indiretta;
 Se cov(X,Y)=0 non ci sarà correlazione;
Sapendo questa formula possiamo calcolare , cioè il rapporto fra la covarianza e il prodotto degli
scarti quadratici medi di X e Y:
(𝑋, 𝑌) =
𝑐𝑜𝑣(𝑋, 𝑌)
𝑥 ∗ 𝑦
Se  è -1 o +1 otterremo graficamente rispettivamente una retta con angolo di inclinazione ottuso o
una retta con angolo di inclinazione acuto.

L’INTERPOLAZIONE
La funzione di interpolazione ci permette di calcolare l’equazione della retta che abbiamo analizzato
con la correlazione, questa retta si chiama retta di interpolazione statistica o retta interpolante e
rappresenta la migliore approssimazione della nube di punti ottenuta dall’analisi statistica (la retta è
essa stessa una nube di punti con quest’ultimi allineati).
Esistono due metodi per calcolare la sua equazione:
 Criterio dei minimi quadrati, cioè la retta in cui a ogni x sia minimo il quadrato della differenza fra
l’ordinata ottenuta dall’analisi e l’ordinata della retta;
 Metodo del baricentro, cioè quella retta passante per il baricentro della nube di punti;
Vediamo adesso le equazioni:
equazione dei minimi quadrati: 𝑦 = 𝑚𝑥 + 𝑞 con
𝑚=
𝑛
𝑛
𝑛 ∑𝑛
𝑖=1 𝑥𝑖 𝑦𝑖 −∑𝑖=1 𝑥𝑖 ∑𝑖=1 𝑦𝑖
𝑛
2
𝑛 ∑𝑛
𝑖=1 𝑥𝑖 −(∑𝑖=1 𝑥𝑖 )
2
e
𝑞=
𝑛
𝑛
2 𝑛
∑𝑛
𝑖=1 𝑥𝑖 ∑𝑖=1 𝑦𝑖 −∑𝑖=1 𝑥𝑖 ∑𝑖=1 𝑥𝑖 𝑦𝑖
𝑛
2
2
𝑛 ∑𝑛
𝑖=1 𝑥𝑖 −(∑𝑖=1 𝑥𝑖 )
equazione del metodo del baricentro: 𝑦 − 𝑦 = 𝑚(𝑥 − 𝑥) con
∑𝑛𝑖=1(𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦)
𝑚=
∑𝑛𝑖=1(𝑥𝑖 − 𝑥)2
 LA REGRESSIONE
La regressione lineare rappresenta un metodo di stima del valore atteso condizionato di una variabile
dipendente dati i valori di altre variabili indipendenti.
In questa funzione non si parla di variabile dipendente Y e indipendente X, né viceversa.
Bisogna infatti distinguere due casi:
 Funzione di regressione di Y su X, se analizziamo la variazione dei valori di 𝑋 = 𝑥𝑖 mantenendo 𝑦
costante;
 Funzione di regressione di X su Y, se analizziamo la variazione dei valori di 𝑌 = 𝑦𝑖 mantenendo 𝑥
costante;
Entrambe queste funzioni possono essere rappresentate mediante il metodo del baricentro visto in
precedenza con delle rette di equazioni:


Y su X: 𝑦 − 𝑦 = 𝑎(𝑥 − 𝑥) con
∑𝑛𝑖=1(𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦)
𝑎=
∑𝑛𝑖=1(𝑥𝑖 − 𝑥)2
X su Y: 𝑥 − 𝑥 = 𝑐(𝑦 − 𝑦) con
∑𝑛𝑖=1(𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦)
𝑐=
∑𝑛𝑖=1(𝑦𝑖 − 𝑦)2
I termini ‘a’ e ‘c’ si chiamano rispettivamente coefficiente di regressione di Y su X e coefficiente di
regressione di X su Y.
Le due rette si incontrano nel centro (𝑥; 𝑦), detto centro della distribuzione.
Attraverso i coefficienti di regressione possiamo calcolare il coefficiente di correlazione delle due
variabili:
 = ±√(𝑎𝑐)
Si attribuisce il segno ‘+’ se sia ‘a’ che ‘c’ sono positivi, il segno ‘-‘ se sono entrambi negativi.