Trovare relazioni fra dati in Excel tramite il test di correlazione di Pearson accoppiato al test t di Student Prof. Lorenzo Marafatto Esistono vari possibili metodi per cercare eventuali relazioni fra dati, che dipendono dalle caratteristiche del campione (numerosità, normalità, ecc.). In questo esempio viene analizzato un metodo molto semplice, che non vale in generale, ma in molti casi è utile. In particolare è molto affidabile se i dati si avvicinano “sufficientemente” ad una distribuzione normale. È chiaro che il termine “sufficientemente” non ha un significato rigoroso, e per verificare con correttezza statistica la normalità di un campione di dati dovrebbero essere utilizzati indici specifici, come il valore di curtosi e asimmetria. Per i nostri scopi è comunque sufficiente anche riportare preliminarmente i dati del campione in un grafico di frequenza, e limitarsi da verificare se graficamente la curva ottenuta si “avvicina” a quella della distribuzione normale. Il metodo per cercare una relazione fra dati preso in esame prevede in particolare di cercare se esista una relazione lineare fra due colonne (ovvero fra due intervalli di celle anche di tipo “matrice”) di valori numerici. Esiste una relazione lineare se, al variare dei dati di una delle due colonne, i dati dell’altra variano in modo lineare (cioè si trova una legge che lega una variabile all’altra, ovvero una colonna all’altra, che ha il comportamento di una retta). È chiaro che se vi è questo collegamento fra le due variazioni vi è una relazione fra i dati. Il test statistico necessario per effettuare la ricerca di questa correlazione lineare è il test di correlazione di Pearson, accoppiato al test t di Student. Il primo test, la correlazione di Pearson, calcola il valore del coefficiente di correlazione lineare, denominato r. Il valore di r è un numero tra -1 e 1. Tanto più il valore del coefficiente di correlazione si avvicina agli estremi (1 o -1), tanto più la correlazione è presente, in modo positivo se vicino a 1 (quando il valore di una delle colonne o variabili aumenta, aumenta anche quello dell’altra), negativo se vicino a -1 (quando il valore di una delle colonne o variabili aumenta, diminuisce quello dell’altra). Il valore 0 di correlazione indica l’assenza di correlazione lineare, ma, si noti bene, potrebbe essere presente un altro tipo di correlazione, non lineare (ad esempio quadratica o altro), che questo test semplicemente non può rilevare! Il secondo test, il test t di Student, serve a fornire la probabilità che la nostra eventuale relazione, che crediamo di aver trovato grazie al valore “alto” di correlazione, sia invece dovuta solo al caso, alla variabilità biologica: ci fornisce quindi la probabilità dell’ipotesi H0, che, come al solito, significa “ciò che è misurato dipende solo dal caso”. Nell’ambito biomedico, come sempre, sono interessanti probabilità di H0 che siano < 0,05 (5%) oppure < 0,01 (1%). Vediamo in dettaglio la proceduta da seguire con Excel per effettuare questo test che rilevi una eventuale correlazione lineare: Consideriamo il seguente esempio di foglio elettronico: Le due colonne, intestate x e y, contengono due ipotetici valori di qualche variabile, e quello che intendiamo verificare è se esse siano in relazione oppure no. In una cella del foglio Excel utilizziamo la funzione di Excel denominata “correlazione”, che ha come parametri proprio le nostre due colonne (o gli eventuali intervallo di celle su più colonne se il caso). Poniamo nella cella B13 la funzione: = CORRELAZIONE(a2:a11;b2:b11). Otteniamo questo risultato: Notiamo che, qualitativamente, si hanno questi “range” per i valori di correlazione di Pearson r: 0 < r < 0,3 correlazione debole 0,3 < r < 0,7 correlazione moderata; r > 0,7 correlazione forte. L’analisi qualitativa ci dà una correlazione moderata, ma è troppo grossolana. Nell’ambito scientifico non è sufficiente accontentarsi di dire “esiste una moderata correlazione fra x e y”, anche perché il termine “moderato” non è affatto oggettivo. Dobbiamo quindi accoppiare, come già detto, al test di correlazione un altro test, che dia la probabilità oggettiva dell’ipotesi che i risultati ottenuti siano semplicemente dovuti al caso. Il test scelto è il test t di Student, che si adatta bene a questa verifica. Per effettuare il test t sugli stessi dati basta inserire la funzione di Excel test.t, che richiede 4 parametri: i primi due, come prima, sono le colonne (o gli intervalli) su cui effettuare la verifica; il terzo parametro è il numero di code (1 oppure 2) e inseriamo il valore 2 se “non sappiamo” in che modo le due colonne o variabili sono collegate, in particolare non sappiamo se le medie dei valori sono uguali o meno, oppure il valore 1 se “sappiamo” che certamente una delle due variabili o colonne sarà “maggiore” dell’altra, ovvero avrà una media maggiore dell’altra; il quarto parametro è un valore tra 3 possibili: 1 se i dati sono accoppiati, ad esempio se sono la stessa popolazione “prima e dopo una certa cura”, 2 se non sono accoppiati ma la loro varianza (indice di variabilità, distanza dalla media) è la stessa, 3 se non sono accoppiati e nemmeno la loro varianza è uguale. Nel nostro caso inseriremo, nella cella b14, la formula = =TEST.T(A2:A11;B2:B11;1;1) Otterremo la tabella seguente: L’interpretazione del risultato è quindi la seguente: le due colonne (variabili) sono correlate secondo Pearson apparentemente in modo moderato, ma in realtà la probabilità che ciò sia dovuto al caso (indicata negli articoli scientifici con P) è molto alta (0,306394, cioè 30%), e non accettabile per gli standard dell’ambito biomedico, per i quali il minimo è 0,05 (5%). Un’ultima annotazione importante sull’interpretazione del valore di P del test t: se il risultato fosse più interessante, ad esempio test.t fornisse P = 0,03, cioè probabilità che sia un caso pari a 3%, la nostra relazione sarebbe significativa, ma non si pensi che sia significativa al 97%! Noi possiamo solo affermare che il caso “influisce” solo per il 3%, non che la certezza sia l’opposto, cioè 97%.