CORRELAZIONE, INTERPOLAZIONE E REGRESSIONE La statistica è una scienza che si avvale della matematica e del metodo sperimentale per studiare i modi in cui un fenomeno collettivo può essere sintetizzato e compreso. Ciò avviene attraverso la raccolta e l'analisi delle informazioni relative al fenomeno studiato. La correlazione, l’interpolazione e la regressione sono funzioni statistiche che ci permettono di calcolare la dipendenza tra due variabili statistiche, cioè vedere se si influenzano e in che misura. Queste funzioni possono essere usate in indagini statistiche di tipo comparativo consistenti nell’osservazione di due variabili su un medesimo gruppo di individui. LA CORRELAZIONE La correlazione è la tendenza di una variabile Y di variare in funzione di un’altra variabile X. La correlazione può essere: Diretta/positiva: se al variare di X, Y varia nello stesso segno. Indiretta/negativa/inversa: se al variare di X, Y varia nel senso opposto. correlazione diretta correlazione inversa Il grado di correlazione viene espresso dal coefficiente di correlazione (X, Y) (leggi ro). Questo coefficiente varia da -1 —in questo caso si parla di correlazione inversa— a +1 —in questo caso si parla di correlazione diretta—, se è 0 non c’è correlazione. Per calcolare bisogna calcolare la covarianza cov(X, Y). ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) 𝑐𝑜𝑣(𝑋, 𝑌) = 𝑛 Se cov(X,Y)>0 la correlazione sarà diretta; Se cov(X,Y)<0 la correlazione sarà indiretta; Se cov(X,Y)=0 non ci sarà correlazione; Sapendo questa formula possiamo calcolare , cioè il rapporto fra la covarianza e il prodotto degli scarti quadratici medi di X e Y: (𝑋, 𝑌) = 𝑐𝑜𝑣(𝑋, 𝑌) 𝑥 ∗ 𝑦 Se è -1 o +1 otterremo graficamente rispettivamente una retta con angolo di inclinazione ottuso o una retta con angolo di inclinazione acuto. L’INTERPOLAZIONE La funzione di interpolazione ci permette di calcolare l’equazione della retta che abbiamo analizzato con la correlazione, questa retta si chiama retta di interpolazione statistica o retta interpolante e rappresenta la migliore approssimazione della nube di punti ottenuta dall’analisi statistica (la retta è essa stessa una nube di punti con quest’ultimi allineati). Esistono due metodi per calcolare la sua equazione: Criterio dei minimi quadrati, cioè la retta in cui a ogni x sia minimo il quadrato della differenza fra l’ordinata ottenuta dall’analisi e l’ordinata della retta; Metodo del baricentro, cioè quella retta passante per il baricentro della nube di punti; Vediamo adesso le equazioni: equazione dei minimi quadrati: 𝑦 = 𝑚𝑥 + 𝑞 con 𝑚= 𝑛 𝑛 𝑛 ∑𝑛 𝑖=1 𝑥𝑖 𝑦𝑖 −∑𝑖=1 𝑥𝑖 ∑𝑖=1 𝑦𝑖 𝑛 2 𝑛 ∑𝑛 𝑖=1 𝑥𝑖 −(∑𝑖=1 𝑥𝑖 ) 2 e 𝑞= 𝑛 𝑛 2 𝑛 ∑𝑛 𝑖=1 𝑥𝑖 ∑𝑖=1 𝑦𝑖 −∑𝑖=1 𝑥𝑖 ∑𝑖=1 𝑥𝑖 𝑦𝑖 𝑛 2 2 𝑛 ∑𝑛 𝑖=1 𝑥𝑖 −(∑𝑖=1 𝑥𝑖 ) equazione del metodo del baricentro: 𝑦 − 𝑦 = 𝑚(𝑥 − 𝑥) con ∑𝑛𝑖=1(𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦) 𝑚= ∑𝑛𝑖=1(𝑥𝑖 − 𝑥)2 LA REGRESSIONE La regressione lineare rappresenta un metodo di stima del valore atteso condizionato di una variabile dipendente dati i valori di altre variabili indipendenti. In questa funzione non si parla di variabile dipendente Y e indipendente X, né viceversa. Bisogna infatti distinguere due casi: Funzione di regressione di Y su X, se analizziamo la variazione dei valori di 𝑋 = 𝑥𝑖 mantenendo 𝑦 costante; Funzione di regressione di X su Y, se analizziamo la variazione dei valori di 𝑌 = 𝑦𝑖 mantenendo 𝑥 costante; Entrambe queste funzioni possono essere rappresentate mediante il metodo del baricentro visto in precedenza con delle rette di equazioni: Y su X: 𝑦 − 𝑦 = 𝑎(𝑥 − 𝑥) con ∑𝑛𝑖=1(𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦) 𝑎= ∑𝑛𝑖=1(𝑥𝑖 − 𝑥)2 X su Y: 𝑥 − 𝑥 = 𝑐(𝑦 − 𝑦) con ∑𝑛𝑖=1(𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦) 𝑐= ∑𝑛𝑖=1(𝑦𝑖 − 𝑦)2 I termini ‘a’ e ‘c’ si chiamano rispettivamente coefficiente di regressione di Y su X e coefficiente di regressione di X su Y. Le due rette si incontrano nel centro (𝑥; 𝑦), detto centro della distribuzione. Attraverso i coefficienti di regressione possiamo calcolare il coefficiente di correlazione delle due variabili: = ±√(𝑎𝑐) Si attribuisce il segno ‘+’ se sia ‘a’ che ‘c’ sono positivi, il segno ‘-‘ se sono entrambi negativi.