Università degli studi di Sassari Facoltà di Agraria Sede di Oristano CORSO DI LAUREA IN TECNOLOGIE ALIMENTARI CORSO DI LAUREA IN VITICOLTURA ED ENOLOGIA DISPENSE DEL CORSO DI STATISTICA Docente NICOLO’ MACCIOTTA DIPARTIMENTO DI SCIENZE ZOOTECNICHE ANNO ACCADEMICO 2003/2004 1 INTRODUZIONE La statistica è un settore della matematica applicata che si occupa dell’analisi e dell’interpretazione dei dati numerici. Nel linguaggio comune, la statistica è solitamente associata all’idea di indagini di tipo sociologico, politico o economico, che mirano ad esempio a valutare la frazione di italiani che sono impiegati in un particolare settore o che votano per un determinato partito politico o che fanno uso di un particolare prodotto e così via. In realtà l’esame accurato dei dati numerici e l’estrazione delle informazioni in essi contenute è una esigenza prioritaria di molti settori del mondo della ricerca e del lavoro. Ad esempio, al responsabile della produzione di un caseificio capita spesso di esaminare i referti delle analisi chimiche condotte sul latte proveniente da diversi allevamenti: da questi dati egli può trarre delle informazioni utili per valutare eventuali differenze tra i contenuti in grasso e proteine nelle varie zone di produzione oppure per mettere in relazione la composizione chimica del latte con la resa alla caseificazione nei vari tipi di formaggi che il caseificio produce. Una tale interpretazione dei dati originari viene realizzata attraverso i metodi della statistica che consentono di riassumere i dati, di analizzarli e di rappresentare i risultati dell’analisi in maniera sintetica ma altamente informativa. La statistica viene solitamente suddivisa in Statistica descrittiva e Statistica Inferenziale. La statistica descrittiva comprende i metodi atti a fornire una descrizione più efficace dei dati, in maniera da renderli più immediatamente leggibili e più facilmente interpretabili: a tale scopo si avvale di misure riassuntive, di rappresentazioni tabulari e grafiche. La statistica inferenziale parte dai risultati osservati su un limitato numero di unità sperimentali allo scopo di trarne delle considerazione di carattere generale. Di solito quando si conduce un esperimento o anche una indagine, i dati che si registrano hanno una numerosità limitata. Ad esempio, un’industria mangimistica che vuole produrre un nuovo mangime per ovini da latte, può fare riferimento ad un gregge di 500 pecore, che viene suddiviso in due gruppi di 250 pecore ciascuno: uno alimentato con il nuovo mangime l’altro con il mangime tradizionale dell’azienda. Su tutti i 500 animali viene misurata la produzione di latte (variabile di risposta) per verificare se gli animali alimentati con il nuovo mangime producono di più rispetto a quelli alimentati con il prodotto tradizionale. Ciascun animale costituisce una unità sperimentale e l’insieme dei 500 animali costituisce il campione. E’ ovvio che la ditta che ha organizzato l’esperimento non è interessata a produrre un mangime che determini una maggiore produzione solamente in quelle 250 pecore coinvolte nell’esperimento (campione). Il suo scopo è invece quello di mettere a punto un prodotto valido per l’alimentazione degli ovini da latte in generale (popolazione). A tal fine i risultati ottenuti sul campione debbono servire per trarre delle conclusioni che siano generalizzabili, cioè estendibili alla popolazione. 2 VARIABILI Per variabile si intende una qualsiasi grandezza, relativa ad un particolare fenomeno che si esprime attraverso un valore numerico e che può assumere valori diversi: il peso di un animale, il contenuto in proteina del latte prodotto da una bovina, il contenuto glucosio dell’uva, la positività ad un test per la ricerca di contaminanti in un prodotto alimentare etc. Una variabile è detta casuale quando i valori che essa può assumere dipendono unicamente dal caso. Un esempio classico di variabile casuale è il punteggio che si totalizza quando si lancia una coppia di dadi (non truccati!). La variabile invece è detta deterministica quando il fenomeno da essa rappresentato segue delle leggi che consentono di prevederne con esattezza i valori. Nella realtà tanto la completa casualità quanto il completo determinismo sono delle idealizzazioni e tutte le variabili di interesse scientifico e tecnologico sono un misto di casualità e determinazione. Un esempio di tale mescolanza di caso e determinazione è riportato nella tabella 1. Tabella 1. Fattori che influenzano una variabile biologica Peso di un bovino Età Sesso Parte Razza Deterministica Tipo di alimentazione Altri fattori che non conosciamo parte casuale Il peso di un bovino è una tipica variabile biologica e presenta un ampio campo di variazione: si va da vitelli alla nascita che pesano 30 kg sino a tori adulti di razze da carne che possono tranquillamente pesare kg 1200. Alcune delle cause che determinano questa variabilità sono note: animali adulti sono di solito più pesanti di quelli giovani, i maschi pesano più delle femmine, i bovini di razze specializzate per la produzione della carne sono più pesanti di quelli appartenenti a razze da latte, un bovino ben alimentato pesa di più di un altro alimentato in maniera inadeguata etc. Questo elenco di fattori costituisce la parte deterministica della variabilità del fenomeno. Il peso però è anch’esso una variabile in parte deterministica ma in parte casuale: se infatti si prendono della due bovini della stessa razza, sesso, età, tipo di alimentazione, difficilmente avranno esattamente lo stesso peso. Questo perché esiste però un’altra serie di fattori che influenzano il peso del bovino ma che noi non conosciamo. Essi costituiscono la parte casuale della variabilità del fenomeno. 3 Scopo fondamentale della statistica è quello di aumentare la parte deterministica, o spiegata, di un fenomeno, riducendo nel contempo la quota della variabilità casuale (non spiegata o residua). Ritornando all’esempio precedente sul peso del bovino, il risultato della statistica può essere riassunto nei due seguenti punti: 1) Aumento della capacità esplicativa relativamente al fenomeno in esame Aumentano le conoscenze sui fattori che fanno variare il peso nei bovini; 2) Aumento del potere previsionale. Possibilità di prevedere il peso che un bovino può avere quando non lo si può misurare direttamente ma si conoscono i fattori che lo condizionano In base alla modalità di espressione del fenomeno di cui sono espressione, le variabili si distinguono in variabili continue e variabili discontinue. Una variabile si dice continua o quantitativa quando può essere misurata in una scala graduata (metri, centimetri etc.) e può assumere tutti i valori possibili tra gli estremi della scala. Ad esempio il peso di una pecora di razza Sarda (figura 1) 35 ↑ ↑ 40 45 50 ↑ ↑ ↑ ↑ 37,5 55 60 ↑ ↑ 65 ↑ 52,4 Se si considera un intervallo di peso che va da 35 a 65 kg, è possibile trovare animali che hanno uno qualunque degli innumerevoli valori di peso compresi fra questi estremi. Rifacendoci a quanto riportato in figura 1, accanto alla pecora che pesa 37,5 kg è possibile trovarne una che pesa 37,6, e tra queste due si può trovarne un’altra che pesa 37,55 etc. Quindi una caratteristica importante di questo tipo di variabili è proprio la variazione continua, cioè per quantità infinitesime e non solo per bruschi salti. Molte delle variabili di interesse del settore agro-alimentare sono di tipo continuo: la produzione giornaliera di latte, il contenuto in grasso del latte, il grado zuccherino di un mosto etc. Una variabile discreta o qualitativa invece è quella che assume valori discontinui, che consentono solamente la classificazione della unità sperimentali in categorie. Ciò che solitamente si fa con questo tipo di variabili infatti è il conteggio delle unità sperimentali che presentano un determinato valore del carattere, cioè la determinazione delle frequenze. Un esempio è il caso della positività o 4 meno di un animale ad un test che diagnostica una determinata malattia: il risultato può essere positivo o negativo, non esistono altre possibilità. Pertanto, se il test viene eseguito su 100 animali si potranno contare il n. di animali positivi (ad es. 10) e di quelli negativi (90). Ai fini dell’elaborazione statistica, la differenza tra tipi di variabili ha profonde conseguenze e le metodologie adottate per sono talvo lta molto differenti fra loro. 5 TECNICHE DI STATISTICA DESCRITTIVA Misure di centro di un insieme di dati Come detto in precedenza, la statistica descrittiva comprende tutte le tecniche che consentono di descrivere in maniera più strutturata, sintetica ed efficace i dati originari. Un esempio classico di rappresentazione dei dati è quello tabulare. Nella tabella seguente sono riportate le produzioni totali per lattazione (espresse in quintali) di 40 bovine suddivise in due mandrie di 20 bovine ciascuna. . Tabella 2. Produzione di latte (quintali/lattazione) di due mandrie di bovine (da Grasselli) Vacca MANDRIA A Vacca MANDRIA B 1 60,1 21 77,3 2 52,6 22 67,8 3 64,6 23 79,1 4 68,8 24 64,4 5 67,7 25 78,5 6 59,5 26 53,0 7 74,9 27 83,6 8 64,2 28 69,2 9 60,2 29 54,1 10 54,3 30 82,4 11 61,3 31 54,7 12 47,4 32 76,2 13 78,4 33 73,0 14 67,3 34 45,6 15 84,4 35 54,6 16 74,9 36 49,8 17 63,6 37 48,7 18 58,1 38 77,9 19 59,4 39 46,5 20 69,5 40 54,9 La rappresentazione tabulare, cioè la semplice registrazione ordinata dei dati, è difficilmente leggibile però nel caso di insiemi di dati di numerosità elevata: già nel caso sopra riportato di 40 dati la tabella si presenta molto fitta e di non agevole leggibilità. 6 Un primo passo verso una rappresentazione più sintetica dell’insieme di dati riportato nella tabella 1 è quello del calcolo di una misura di tendenza centrale, cioè del centro di gravità della distribuzione dei dati. Tra le misure di centro possono essere ricordate la mediana, la moda e la media aritmetica. La moda di un insieme di dati è quel valore che si presenta con la maggiore frequenza. Nel caso delle due mandrie riportate nella tabella 1, si può notare come nella mandria A il valore 74,9 sia presente due volte mentre gli altri valori sono presenti tutti una sola volta; pertanto la moda della mandria A è pari a 74,9. Nel caso della mandria B invece, i 20 valori sono tutti uno diverso dall’altro, hanno perciò la stessa frequenza e pertanto non esiste una moda. Un insieme di dati potrebbe avere più mode (ad esempio, nella prima mandria poteva esserci un altro numero che, come 74,9, si ripeteva due volte): si possono avere pertanto distribuzioni bimodali, trimodali etc. In campo scientifico la moda non è una misura di centro molto utile. Il concetto di moda, al contrario, è usato diffusamente nel linguaggio comune in senso qualitativo: un modello di auto “di moda” è un modello molto venduto e quindi risulta molto frequente vederlo sulle strade. La moda è una misura che può essere utilizzata sia per variabili quantitative che qualitative, ed influenzata da valori cosiddetti outliers, cioè che i discostano notevolmente dagli altri (ad esempio se nella mandria A ci fosse una bovina che producesse 110 quintali). La mediana di un insieme di dati ordinato in maniera crescente è quel dato che si trova esattamente nel mezzo dell’insieme. Nel caso il numero dei dati sia dispari, la mediana è esattamente in valore centrale, mentre nel caso sia pari, la mediana è data dalla media dei due valori centrali. Tornando all’esempio delle vacche, se si ordinano i dati in maniera crescente (tabella 3) si nota come la mediana della prima mandria sarà 63,9 (cioè il valore medio tra l ‘11° ed il 10° valore, (63,6+64,2)/2) mentre quella della seconda 66,1 ((64,4+67,8)/2). La mediana è abbastanza usata come misura del punto centrale di grandi insiemi di dati, può essere applicata solamente alle variabili quantitative. 7 Tabella 3. Produzione di latte (quintali/lattazione) di due mandrie di bovine (da Grasselli), con dato ordinati in maniera crescente. Vacca MANDRIA A Vacca MANDRIA B 12 47,4 34 45,6 2 52,6 39 46,5 10 54,3 37 48,7 18 58,1 36 49,8 19 59,4 26 53,0 6 59,5 29 54,1 1 60,1 35 54,6 9 60,2 31 54,7 11 61,3 40 54,9 17 63,6 24 64,4 8 64,2 22 67,8 3 64,6 28 69,2 14 67,3 33 73,0 5 67,7 32 76,2 4 68,8 21 77,3 20 69,5 38 77,9 7 74,9 25 78,5 16 74,9 23 79,1 13 78,4 30 82,4 15 84,4 27 83,6 La media aritmetica o semplicemente media di un insieme di dati è data dalla somma dei valori dei dati (xi) divisa per la loro numerosità (n). X =∑ xi n Solitamente la media di un campione viene indicata con le lettere barrate in alto. Continuando con l’esempio delle bovine, la media della mandria A sarà 64,56 mentre quella della mandria B sarà 64,56. La media aritmetica è probabilmente la statistica descrittiva di uso più comune. Essa ha un 8 grande potere esplicativo sulla struttura dei dati. La media aritmetica può essere utilizzata solo per le variabili quantitative ed è sensibile, soprattutto per insiemi di dati di numerosità ridotta, alla presenza di outliers. Riassumendo la situazione delle due mandrie rispetto alle misure di centro è: Tabella 4. Misure di centro dei dati riportati nelle tabelle 1 e 2. Mandria A Mandria B Mediana 63,9 66,1 Moda 74,9 - Media 64,56 64,56 Il fatto che le due mandrie presentino la stessa media porterebbe a trarre la conclusione che i due insiemi di dati sono molto simili fra di loro. In realtà, se si osservano con attenzione i dati della tabella 2, si può notare come nella mandria A i valori delle produzione delle 20 vacche siano abbastanza simili fra di loro e vicini al valore medio, mentre nella mandria B siano piuttosto differenti fra loro e anche distanti dalla media. Le due mandrie presentano pertanto una uguale misura di centro (la media aritmetica) ma hanno una diversa dispersione dei dati intorno al centro. Ciò significa che la media sintetizza solo una parte dell’informazione relativa alla struttura dei dati. La diversa struttura dei due ins iemi dei dati considerati nell’esempio può essere evidenziata utilizzando una rappresentazione grafica, l’istogramma di frequenza. Un istogramma di frequenza è solitamente un grafico a barre verticali che presenta sull’asse delle ordinate delle frequenze (relative oppure assolute) e sull’asse delle ascisse gli intervalli di ampiezza delle classi in cui viene suddiviso il campo di variabilità della variabile oggetto di studio. L’istogramma si costruisce attraverso questi passi: • Ordinamento dell’insieme di dati in maniera crescente; • Suddivisione dell’intervallo compreso tra il valore più alto e quello più basso (cioè il campo di variabilità) in una serie di classi (a seconda dei casi non meno di 5 e non più di 20); • Conta delle frequenze entro ciascuna classe; • Rappresentazione delle frequenze su un grafico a barre. 9 Continuando l’esempio delle due mandrie, riprendiamo i dati riportati nella tabella 2 e poniamo di suddividerli in otto classi a partire da quella che comprende valori di produzione inferiori ai 50 quintali sino alla classe con produzione superiore agli 80 quintali. La tabella 5 riporta le frequenze assolute (cioè il numero di vacche presenti in ogni classe) per ciascuna delle due mandrie. Tabella 5. Frequenze assolute per classi di produzione nelle due mandrie Classe Frequenze Mandria A Mandria B Meno di 50 1 4 Tra 50 e 55 2 5 Tra 55 e 60 3 0 Tra 60 e 65 6 1 Tra 65 e 70 4 2 Tra 70 e 75 2 1 Tra 75 e 80 1 5 Più di 80 1 1 L’osservazione della tabella evidenzia come la distribuzione delle bovine nelle diverse classi di produzione sia nettamente diversa nelle due mandrie. Tale conclusione è confermata in maniera immediata dagli istogrammi delle frequenze assolute delle due mandrie riportati nelle figure 1a e 1b. 7 6 5 4 3 2 1 0 6 5 4 3 2 1 <50 5055 5560 6065 6570 7075 7580 0 >80 <50 5055 5560 6065 6570 7075 7580 >80 Figura 1a. Istogramma di frequenza dei dati della Figura 1b. Istogramma di frequenza dei dati mandria A. della mandria B. 10 Nella mandria A infatti l maggior parte della bovine si trova nella classe che contiene la media (quella centrale, che va da 60 a 65 quintali) o in quelle vicine. Nella mandria B invece la classe centrale comprende 1 sola bovina e addirittura quella tra 55 e 60 nessuna. La due mandrie quindi, pur avendo medie uguali, presentano una distribuzione dei valori intorno alla media, o dispersione dei dati intorno alla media, decisamente differente. Questo tipo di informazione sulla struttura dei dati non ci viene data dalle misure di centro ma bisogna ricorrere a misure di variabilità o dispersione. Misure di dispersione La misura di dispersione più immediata è il campo di variabilità o range, dato dalla differenza fra il valore più alto e quello più basso dell’insieme di dati. Nel caso della mandria A il campo di variabilità è 37 (84,4 - 47,4) nella mand ria B è 38 (83,6 – 45,6). Si può notare da questo esempio come il campo di variabilità sia una misura di scarsa rilevanza pratica: nelle due mandrie esso è infatti pressoché simile e pertanto non permette di cogliere le differenze strutturali dei due insiemi di dati. Una altra misura di variabilità è rappresentata dal percentile. Il p-esimo percentile di un insieme di dati ordinato in maniera crescente è quel valore che ha il p% di dati al di sotto. Ad esempio, il 25° percentile della mandria A è il valore che lascia al di sotto di sé il 25% dei dati (in questo caso 5 dati) ordinati in maniera crescente: in particolare il suo valore è pari 59,475. Come si nota il valore del percentile non è un valore che compare nell’insieme dei dati ma viene calcolato con delle apposite formule. Il 50° percentile di un insieme di dati è la mediana. Il percentile è una misura molto utilizzata in campo medico. I percentili di interesse sono solitamente il 25°, il 50° ed il 75° e sono denominati quartile inferiore, quartile mediano e quartile superiore rispettivamente. Il range interquartile (IQR) di un insieme di dati è la differenza fra il percentile superiore (75°) e quello inferiore (25°). Nel caso della mandria A, il range interquartile sarà 68,25 (75°) – 59.475(25°)= 8,775. L’IQR viene utilizzato per paragonare la variabilità di due insiemi di dati. Nel caso delle due mandrie, quello della mandria A è 8,775 mentre quello della mandria B è 22,925. Quindi questa misura di variabilità inizia ad evidenziare la differenza nella dispersione di dati che esiste fra le due mandrie. Dalla combinazione delle mediana con il range interquartile si ottiene una rappresentazione grafica dei dati molto efficace nota come Box-Whiskers Plot. In questa rappresentazione (Figure 2a e 2b) viene infatti indicata sia una misura di centro che una di variabilità. Il rettangolo (o quadrato nel caso della figura 2b) rappresenta il range interquartile mentre la linea orizzontale interna è la 11 mediana delle due mandrie. La maggiore dimensione del rettango lo nella figura 2b evidenzia la maggiore dispersione dei dati attorno alla mediana. Figura 2a. Rappresentazione Whiskers Plot dei dati Figura 2b. Rappresentazione Whiskers Plot dei della mandria A dati della mandria B Tuttavia, la misura più utilizzata per la descrizione della variabilità di un insieme di dati è certamente la varianza. Intuitivamente, una maniera immediata per verificare quale sia la dispersione di ogni singolo dato (xi) rispetto alla media ( x ) è quella del calcolo dello scarto del dato da quest’ultima. Cioè ritornando al caso della mandria si dovrebbe fare (60,1-64.56), quindi (52,664,56) e così via. Sfortunatamente però se si sommano tutti gli scarti dalla media, per la definizione stessa della media, alla fine si otterrà zero. Questo ostacolo viene superato elevando ciascuno scarto al quadrato. Alla fine si giunge al calcolo della varianza, o scarto quadratico medio, che è dato dalla somma degli scarti al quadrato di ciascun dato (xi ) dalla media ( x ), diviso per il numero di dati (n) meno uno. S =∑ 2 (xi − x )2 n −1 [1] Nello schema seguente è riportato per esteso il calcolo della varianza per la mandria A. 12 Mandria A Media Scarti Scarti al quadrato 60,1 64,56 -4,46 19,8916 52,6 64,56 -11,96 143,0416 64,6 64,56 0,04 0,0016 68,8 64,56 4,24 17,9776 67,7 64,56 3,14 9,8596 59,5 64,56 -5,06 25,6036 74,9 64,56 10,34 106,9156 64,2 64,56 -0,36 0,1296 60,2 64,56 -4,36 19,0096 54,3 64,56 -10,26 105,2676 61,3 64,56 -3,26 10,6276 47,4 64,56 -17,16 294,4656 78,4 64,56 13,84 191,5456 67,3 64,56 2,74 7,5076 84,4 64,56 19,84 393,6256 74,9 64,56 10,34 106,9156 63,6 64,56 -0,96 0,9216 58,1 64,56 -6,46 41,7316 59,4 64,56 -5,16 26,6256 69,5 64,56 4,94 24,4036 Somma degli scarti al quadrato =1546,068 Varianza = 1546,068/19 =81,372 Analogamente si può calcolare la varianza della mandria B, che è pari a 176,494. Si può notare quindi come la varianza della seconda mandria è pari a più del doppio di quella della prima. Quindi questa nuova misura di variabilità è in grado di cogliere la differente dispersione dei dati attorno alla media nelle due mandrie (cosa che ad esempio non riusciva a fare il range) e indica come tale dispersione sia maggiore nella mandria B rispetto alla A. Infatti, maggiore è la varianza di un insieme di dati, maggiore è la sua dispersione attorno ad un valore centrale. Un inconveniente della varianza è dato dal fatto che essa è una misura quadratica per cui, ad esempio, nel caso del latte essa deve essere espressa in quintali al quadrato. Per ricondurla alla stessa unità di misura dei dati si estrae la radice quadrata e si ottiene la deviazione standard. 13 S= ∑ ( xi − x )2 [2] n −1 I valori della deviazione standard nelle due mandrie sono rispettivamente 9,02 e 13.28 e sono espressi in quintali, cioè nella stessa unità di misura dei dati originari, in cui risulta espressa anche la media. A questo punto abbiamo gli elementi di statistica descrittiva che ci possono permettere di caratterizzare i due insiemi dei dati. Una indicazione corretta dei risultati è questa: MANDRIA A MANDRIA B 64,56 ± 9,02 64,56 ± 13,28 questa dicitura sta ad indicare come le due mandrie abbiano la stessa media ma diversa variabilità, espressa dalla deviazione standard, che per consuetudine viene rappresentata subito dopo la media preceduta dal segno ±. Se si ritorna alle figure 2a e 2b, si nota come la media rappresenta effettivamente il centro dell’insieme dei dati soprattutto nei casi in cui questi hanno una struttura simile a quella della madria A. Esistono però delle variabili che hanno una struttura notevolmente diversa e per le quali la media aritmetica non ha molto significato. Un caso tipico è rappresentato dal contenuto in cellule somatiche del latte (CCS), parametro essenziale per la valutazione della qualità del latte e dello stato sanitario dell’animale, che presenta solitamente una distribuzione fortemente asimmetrica. In figura 3 è riportata la distribuzione del cellule somatiche del latte di 88 pecore di razza Sarda, raggruppati in classi di ampiezza di 400000. Si può notare come la distribuzione sia fortemente asimmetrica, con la grande maggioranza dei dati concentrati nelle classi di minor valore, ma assieme alla presenza di dati anche nelle classi di valore elevato. 14 35 media=1.752.000 n. individui 30 25 20 15 10 5 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 classi di CCS (da 0 a 8.800.000) Figura 3. Distribuzione dei dati del CCS di pecore Sarde, raggruppati in classi di ampiezza di 400000 Questa particolare distribuzione fa sì che la rappresentatività della media come valore centrale dell’insieme di dati venga meno: la media aritmetica infatti è pari a 1,752,000 cellule per millilitro di latte ed è rappresentata con la linea verticale sottile nel grafico ma è distante dalla zona dove sono localizzati la maggioranza dei dati. Questo perché i dati delle classi elevate, pur non essendo molti, hanno il potere di trascinare la media verso un valore superiore, distante dal reale centro dell’insieme dei dati. In questi casi possono essere adottate due soluzioni: la trasformazione dei dati o l’utilizzo di misure di centro diverse dalla media aritmetica. La trasformazione dei dati consiste nel trasformare mediante operazioni semplici la variabile originaria in modo da modificarne la distribuzione e renderla più simile a quella della figura 2a. Nel caso dei dati raffigurati in figura 3, la trasformazione della variabile (numero di cellule per millilitro di latte) nel suo logaritmo in base 10, comporta la modificazione della distribuzione, rappresentata in figura 4. Si nota come la struttura dei dati, pur rimanendo ancora irregolare sia nettamente diversa da quella della variabile non trasformata e come in questo caso la media (2,87) sia effettivamente un indice abbastanza fedele del centro dell’insieme di dati. 15 n. individui 18 16 14 12 10 8 6 4 2 0 media=2,87 1,75< 1,75-2 2-2,25 2,25-2,5 2,5-2,75 2,75-3 3-3,25 3,25-3,5 3,5-3,75 3,75-4 LOG CCS Figura 4. Distribuzione del logaritmo in base 10 dei dati riportati in figura 3. Per quanto riguarda invece l’adozione di misure di centro diverse dalla media aritmetica, una misura utilizzata spesso proprio nel caso delle cellule somatiche è la media geometrica. La media geometrica di un insieme di n dati è data dalla radice n-esima del prodotto degli n dati Media geometrica = n x ⋅ x ⋅ ....... ⋅ x 1 2 [3] n ad esempio, la media geometrica dei numeri 8 15 22 24 sarà 4 8 × 15 × 22 × 24 = 15,8655 Un’altra misura alternativa alla media aritmetica è quella della media tronca, che si ottiene calcolando la media aritmetica dell’insieme dei dati oggetto di studio escludendo però i valori estremi (outliers). 16 PROBABILITA’ E DISTRIBUZIONI DI PROBABILITA’ Definizione della probabilità. Il concetto di probabilità è alla base di tutta la statistica, tanto è vero che esso è gia stato utilizzato nel capitolo precedente, sia pure in modo implicito. In termini espliciti, la probabilità del verificarsi di un evento A, è definita come il rapporto tra il numero di uscite favorevoli all’evento A (nA) ed il numero totale di uscite possibili (N). p( A) = nA N [4] Un esempio classico è quello del lancio di una moneta: quale è la probabilità che lanciando una moneta venga testa? L’uscita favorevole è pari ad uno (una moneta ha solo una testa, anzi gli euro nemmeno quella!) mentre il numero di uscite possibili è pari a due (testa o croce), quindi p(testa) = 1/2 = 0,5. Questa definizione classica, o matematica, della probabilità ha però scarsa rilevanza nelle scienze empiriche. Nella pratica scientifica, infatti, si utilizza la definizione frequentista di probabilità: un esperimento viene compiuto N volte (per ricollegarci all’esempio precedente, una moneta viene lanciata in aria N = 100 volte) ed n volte (n = 45) si registra un determinato risultato (croce). In questo caso, il rapporto: f (croce ) = n croci 45 = = 0 .45 N lanci 100 [5] rappresenta la frequenza relativa dell’evento “croce” osservata nel nostro esperimento. Si può notare come il valore appena calcolato sia simile a quello teorico previsto dalla prima definizione. Infatti la probabilità intesa in senso frequentistico costituisce una approssimazione della probabilità teorica f(croce) ˜ p(croce) Tale approssimazione è tanto migliore quanto maggiore è il numero di volte in cui si compie l’esperimento. Il rapporto fra i due concetti di probabilità verrà chiarito con l’esempio seguente (da L. Ott…, 1993). 17 Si ipotizzi di lanciare in aria contemporaneamente due monete, una con la mano destra e l’altra con la mano sinistra. Le uscite possibili sono 4: CC 2 croci CT croce con la dx e testa con la sx TC testa con la dx e croce con la sx TT 2 teste La domanda che ci poniamo è la seguente: quale è la probabilità di ottenere il risultato di una testa dal lancio delle due monete? Se utilizziamo la definizione classica della probabilità, poiché il numero di eventi favorevo li (cioè in cui si ha esattamente una sola testa) è 2 (testa a dx e croce a sx oppure croce a dx e testa a sx), la probabilità sarà: 2 1 = = 0,5 4 2 p(1 testa) Passiamo ora al concetto frequentistico. Ipotizziamo di compiere 2000 lanci delle due monete contemporaneamente e di registrare i risultati. Tabella 6. Frequenze assolute e relative dei risultati di 2000 lanci di due monete. Uscita Frequenza Frequenza relativa CC 474 474/2000 = 0,237 CT 502 502/2000 = 0,251 TC 496 496/2000 = 0,248 TT 528 528/2000 = 0,264 Se calcoliamo la probabilità in senso frequentistico di avere un sola testa applicando la formula [5] otteniamo: p(1 testa) 502 + 496 = 0,499 2000 Questo risultato è molto vicino a quello teorico di 0,5. 18 Come si è detto in precedenza, il valore teorico della probabilità e quello frequentistico tendono a coincidere quando il numero di volte in cui viene ripetuto l’esperimento (nel nostro esempio il numero di lanci) è molto grande. In termini formali si può dire che la p(teorica) è uguale al limite della p(frequentistica) per n che tende all’infinito. Una conseguenza importante della definizione di probabilità è che essa può assumere valori compresi fra 0 e 1. Se un evento non si verifica mai nel corso della sequenza degli esperimenti la sua probabilità è zero, mentre se si verifica sempre la sua probabilità sarà pari ad 1. Cenni di calcolo delle probabilità Le due operazioni di base che si fanno con le probabilità sono la somma e la moltiplicazione. Due eventi sono detti mutuamente esclusivi quando il realizzarsi di uno esclude che, nello stesso esperimento, possa verificarsi anche l’altro. Consideriamo, ad esempio, il risultato del lancio di un dado ed in particolare due risultati: A=3 B=2 è chiaro che se in un singolo lancio si ottiene 3 non si può ottenere 2 e viceversa. Se il dado è perfetto la probabilità che si verifichi 3 è pari a 1/6 e quella che si verifichi 2 è anch’essa pari a 1/6. Allora se vogliamo calcolare la probabilità che in un lancio esca o 3 o 2, questa è data dalla somma delle due probabilità: p(3 o 2 con un lancio)=p(3)+p(2)=1/6+1/6=2/6=1/3 cioè nel lanciare un dado si ha una probabilità di circa il 33% che esca 3 oppure 2. In termini generali p(A o B) = p(A) + p(B) [6] Questa regola vale solame nte se i due eventi sono mutuamente esclusivi. Ipotizziamo di prendere l’elenco degli studenti che frequentano il corso di statistica: la percentuale degli studenti maschi è pari al 60% mentre quella degli studenti che provengono dalla provincia di Oristano è del 70%. I due eventi non sono mutuamente esclusivi in quanto uno studente maschio può anche essere della provincia di Oristano e viceversa. Se ci volessimo calcolare quale è la 19 probabilità che uno studente preso a caso dall’elenco sia o maschio o della provincia di Oristano, facendo la somma otterremmo p(studente maschio o della Provincia di Oristano) = 0,6+0,7=1,3 che è un risultato errato in quanto si è detto in precedenza che la probabilità non può assumere valori superiori ad 1. L’errore deriva dal fatto che gli studenti maschi della provincia di Oristano vengono considerati sia nella probabilità di essere maschi che nella probabilità di essere di essere della provincia di Oristano. Pertanto la formula completa della somma è la seguente: p(studente maschio o della Provincia di Oristano) = p(studente maschio) + p(studente provincia di Oristano) – p(studente maschio e della provincia di Oristano) quindi se si ipotizza che gli studenti maschi della provincia di Oristano rappresentino il 40% del totale degli studenti del corso di Statistica, applicando la formula precedente si avrà: p(studente maschio o della Provincia di Oristano) = 0,6 + 0,7 – 0,4 = 0,9 In termini più generali: p(A o B o entrambi) = p(A) + p(B) – p(A e B) [7] E ovvio che quando due eventi sono mutuamente esclusivi (come l’esempio del lancio del dado fatto in precedenza), il termine p(A e B) diventa uguale a zero (nel lancio di un singolo dado non si possono ottenere due e tre contemporaneamente) e la formula [7] ritorna alla forma [6]. Gli esempi sopra riportati riguardano tutti l’unione di due eventi A e B, cioè l’insieme di tutte le uscite che includono A o B (o entrambi). In termini matematici l’unione di due eventi A e B è indicata con A ∪ B. Passiamo ora alla mo ltiplicazione tra probabilità. Ipotizziamo di lanciare due monete contemporaneamente, una con la mano destra e l’altra con la mano sinistra. Che probabilità abbiamo di ottenere due croci? La regola della moltiplicazione delle probabilità dice: 20 p(croce mano dx e croce mano sx) = p(croce mano dx) x p(croce mano sx) = 1/2 x 1/2 = 1/4 = 0,25 Nel nostro esempio il fatto che sia uscita croce nella mano destra non influenza minimamente la probabilità che esca croce sulla mano sinistra, cioè i due eventi sono tra loro indipendenti. Pertanto, quando due eventi sono tra loro indipendenti: p(A e B) = p(A) x p(B) [8] Esistono però dei casi in cui gli eventi non sono fra loro indipendenti., cioè che la p(B) una volta che si è verificato l’evento A, sia diversa dalla p(B) in assenza di A. Ad esempio consideriamo i risultati di uno studio sulle relazioni fra colore degli occhi e colore dei capelli riassunto nella tabella seguente: Tabella 7. Frequenze relative di colore di capelli e colore degli occhi in un dato campione di individui (Pilla, 1985) Colore capelli Colore occhi Neri Biondi Marroni 0,64 0,16 Azzurri 0,04 0,16 La percentuale di individui con i capelli neri è del 68% mentre quella che ha gli occhi azzurri è del 20%. La domanda che ci poniamo è: se prendiamo un individuo con i capelli neri, che probabilità abbiamo di trovarlo con gli occhi azzurri? Se i due eventi fossero tra loro indipendenti basterebbe fare p(occhi azzurri e capelli neri) = p(occhi azzurri) x p(capelli neri) In realtà i due eventi non sono indipendenti. I dati riportati nella tabella 7 mostrano chiaramente l’esistenza di un legame tra colore dei capelli e quello degli occhi, con gli individui con capelli neri che tendono ad avere in massima parte occhi marroni. In questo caso bisogna applicare la formula più generale che dice p(A e B) = p(B) x p(A¦ ?B ) [9] 21 dove p(A¦ ?B) è la probabilità che si verifichi A dato che si è verificato B, cioè è la probabilità condizionata dell’evento A in relazione all’evento B. Nel caso del nostro esempio la frequenza degli individui con gli occhi azzurri entro quelli che hanno i capelli neri è: p(occhi azzurri ?¦ capelli neri) = p(capelli neri e occhi azzurri)/ capelli neri = 0,04/0,68 = 0,06 una volta trovata la probabilità condizionale, si passa alla risoluzione del quesito: p(occhi azzurri e capelli neri) = p(capelli neri) x p(occhi azzurri ?¦ capelli neri) = 0,68 x 0,06 = 0,04 Se i due eventi fossero invece tra loro indipendenti (come il caso del lancio delle due monete) p(A¦ ?B) = p(A) per cui la formula [9] ritorna alla forma [8]. L’insieme di uscite che contengono sia A che in B costituiscono l’intersezione dei due eventi e si indicano con A∩B. Il seguente esempio mostra come l’applicazione delle diverse formule per il calcolo delle probabilità al medesimo caso porti allo stesso risultato. Poniamo di dover calcolare la probabilità di estrarre un fante di cuori da un mazzo di 52 carte. Le probabilità semplici dei due eventi sono: p(fante) = 4/52 = 0,076923 p(cuori) = 13/52 = 0,25 I due eventi sono tra loro indipendenti, perché il fatto che io prenda dal mazzo una carta di cuori non modifica la probabilità di estrarre un fante e viceversa. Un primo modo intuitivo di rispondere al quesito che ci siamo posti, basato sul fatto che esiste un solo fante di cuori su 52 carte, è fare il rapporto p(fante e cuori) = 1/52 = 0,019231 Trattandosi di due eventi indipendenti, però, si può fare anche il prodotto delle probabilità semplici 22 p(fante e cuori) = p(fante) x p(cuori) = 0,076923 x 0.25 = 0,019231 Ma si può anche applicare la formula generale dell’intersezione fra due eventi [9] p(fante e cuori) = p(cuori) x p(fante ?¦ cuori) ma p(fante ?¦ cuori) = p(fante) per cui la precedente diventa p(fante e cuori) = p(cuori) x p(fante¦ ?cuori) = p(cuori) x p(fante) = 0,076923 x 0.25 = 0,019231 Come si vede il risultato rimane sempre lo stesso. Distribuzioni di probabilità. Nel capitolo sulla statistica descrittiva si è visto come la rappresentazione grafica dei dati in forma di istogramma (figure 1a e 1b) consenta di evidenziarne la diversa struttura nelle due mandrie. Riprendiamo ora l’istogramma dei dati delle bovine della mandria A, questa volta espresso intermini di frequenze relative: 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 <50 50-55 55-60 60-65 65-70 70-75 75-80 >80 Figura 5. Istogramma di frequenza relativa dei dati della mandria A. 23 Questo istogramma rappresenta la distribuzione delle probabilità (intese in senso frequentista) dei diversi valori della variabile produzione di latte nella mandria A. Se prendo a caso una bovina dalla mandria A, che probabilità ho di trovare un animale che produce tra 55 e 60 quintali? Dalla osservazione della figura 5 si nota come la classe che comprende gli animali che producono fra 55 e 60 quintali abbia una frequenza del 15% (3 vacche su 20) per cui la risposta alla domanda è 0,15. La distribuzione di probabilità di una variabile casuale è data dall’insieme delle probabilità che la variabile ha di assumere tutti i valori possibili. Lo studio delle distribuzioni di probabilità rappresenta uno dei settori più importanti (anche se forse meno attraenti!) della statistica in quanto fornisce gli elementi indispensabili per l’applicazione delle tecniche della statistica inferenziale. Il primo compito dello statistico è infatti scegliere, tra i vari modelli teorici di distribuzione di probabilità, quello che meglio si adatta alla distribuzione della variabile oggetto di studio. Ritornando all’esempio della mandria A, si può notare come la distribuzione della variabile produzione di latte sia caratterizzata da elevate frequenze nelle classi centrali, cioè gran parte dei valori si collocano nelle vicinanze della media, mentre le frequenze per valori molto elevati o molto ridotti sono piuttosto basse. Numerose variabili di interesse tecnico-scientifico presentano una distribuzione di questo tipo, a collinetta (Mound-Shaped in inglese). La distribuzione teorica di probabilità che meglio si adatta a queste forme è la distribuzione Normale, nota anche come distribuzione a campana o di Gauss. La distribuzione Normale La distribuzione Normale è forse la più conosciuta distribuzione di probabilità per le variabili di tipo quantitativo. Come detto in precedenza, molte variabili di interesse scientifico come l’altezza nella specie umana, la produzione di latte nei bovini, il contenuto di grasso del latte nelle pecore etc. presentano una distribuzione che può essere ricondotta a quella normale. Per ciascuna distribuzione di probabilità di variabili di tipo quantitativo esiste la funzione di densità di probabilità che consente di calcolare le probabilità teoriche corrispondenti a ciascun valore della variabile y (alcuni software come excel la definiscono probabilità di massa). La funzione di densità di probabilità della distribuzione Normale è la seguente: f ( y) = 1 2πσ − e ( y − µ )2 2σ 2 [10] 24 e la sua rappresentazione grafica sotto forma di istogramma produce una curva smussata con forma f(y) di campana (figura 6). y Figura 6. Istogramma di frequenza della Distribuzione Normale. Sull’asse delle ascisse sono riportati i valori della variabile oggetto di studio (y) mentre sull’asse delle ordinate le frequenze relative (o densità relative) dei diversi valori di y. I parametri fondamentali della distribuzione Normale sono la media (µ) e la deviazione standard (σ). In realtà, come si vedrà in seguito, parlare di probabilità di un singolo valore per una variabile continua che può assumere infiniti valori non ha molto senso, mentre ha maggiore rilevanza pratica parlare di intervalli di valori. La funzione di distribuzione cumulativa di probabilità, consente invece di calcolare la probabilità cumulativa che la variabile continua y ha di assumere valori minori o uguali ad un determinato valore k. L’andamento della funzione di probabilità cumulativa della distribuzione Normale è riportato nella figura 7. 25 f(y) y Figura 7. Grafico della probabilità cumulativa della Distribuzione Normale. Vediamo ora alcune interessanti proprietà della distribuzione Normale. Essa è una distribuzione simmetrica rispetto alla media, in cui media, mediana e moda coincidono. L’area totale racchiusa sotto la curva è pari ad 1. La cosiddetta regola empirica della distribuzione normale dice che nell’area compresa tra la media e ± 1 volta la deviazione standard ricade il 68% dell’area totale racchiusa dalla curva, mentre tra µ ± 2 σ è compreso circa il 95% dell’area totale ed infine tra µ ± 3 σ è compreso circa il 99% dell’area. Come detto in precedenza, i parametri fondamentali della distribuzione normale sono la media e la deviazione standard: esisteranno pertanto infinite distribuzioni normali in base al valore che assumeranno questi due parametri. Ad esempio, dall’osservazione della figura 8 si può notare come f(y) all’aumentare del valore della deviazione standard la curva Normale tenda ad abbassarsi. 0.2 1.8 3.4 5 6.6 y Figura 8. Istogramma di frequenza di due distribuzioni di tipo Normale, con uguale media (4) e diversa deviazione standard: 2 (- - - ) o 1(- ¦ - ). 26 Ai fini di una utilizzazione pratica però occorre avere una unica distribuzione teorica di riferimento. Per questo fatto si ricorre alla distribuzione normale della variabile standardizzata z, che ha media 0 e deviazione standard 1. Qualunque variabile quantitativa y può essere ricondotta alla z attraverso una standardizzazione, cioè sottraendo al valore della variabile la sua media e dividendo il tutto per la deviazione standard: z= y− y σ [11] I valori tabulati delle frequenze della distribuzione z sono riportati nella tabella A-1, in appendice a queste dispense. Nella prima colonna sono riportati i valori di z sin al primo decimale, mentre nella prima riga i valori del secondo decimale di z. I valori interni al bordo rappresentano invece l’area della curva che si trova a destra del corrispondente valore di z. Passiamo ora ad alcune applicazioni pratiche della distribuzione normale. Nell’esempio precedente, in cui ci si chiedeva quale fosse la probabilità di trovare una bovina nella mandria A che producesse tra 55 e 60 quintali, implicitamente si è introdotto il concetto di intervallo di valori. Per le variabili continue non ha infatti grande interesse pratico conoscere la probabilità puntuale di un singolo valore (ad es. che probabilità ho di trovare una vacca che produca esattamente 55,178 quintali?) mentre ha maggior interesse pratico ragionare per intervalli: che probabilità ho di trovare un animale che produca tra 60 e 65 quintali? Oppure che probabilità ho di trovare una bovina che produca più di 50 quintali? Cioè nel calcolo della probabilità delle variabili continue con una distribuzione riconducibile a quella Normale, i valori tabulati della distribuzione Normale della variabile z sono utilizzati per il calcolo delle aree. La statura degli esseri umani è una variabile di tipo quantitativo ed ha una distribuzione simile a quella normale: ipotizziamo che statura media degli uomini italiani sia pari a 170 cm con una deviazione standard di 15. Che probabilità ho di trovare degli italiani più alti di 190 cm? Prima di tutto bisogna standardizzare il valore che mi interessa, cioè 190 cm, con la formula [11]. Quindi si osserva nelle tabella della distribuzione Normale standardizzata z (tabella A-1) e si vede che in corrispondenza del valore di z =1,33, l’area lasciata a destra da tale valore è pari a 0,0918 (Figura 9). Quindi si può concludere che la probabilità di trovare italiani di altezza superiore ai 190 cm è pari a circa il 9,2%. Analogamente potrei chiedermi che probabilità ho di trovare italiani alti più di 180 cm: il valore di z in questo caso è pari a circa 0,67. a cui corrisponde un valore di probabilità pari a circa il 25,1%. Infine, se volessi sapere quale è la probabilità di trovare italiani di altezza compresa i fra 180 e 190 cm dovrei fare la sottrazione 25,1-9,2=15,9%. 27 f(y) 15,9% 9,2% y z=0,67 z=1,33 Figura 9. Esempio di calcolo di aree con la distribuzione Normale standardizzata. Una distribuzione di probabilità per le variabili discrete: la distribuzione binomiale Nella sezione introduttiva abbiamo visto come alcuni fenomeni non si esprimano attraverso delle grandezze misurabili con una scala metrica (cioè delle variabili di tipo quantitativo) ma si manifestino attraverso risposte di tipo qualitativo, come ad esempio una positività ad una malattia, il genotipo ad un particolare locus etc. In questi casi gli esperimenti sono costituiti da una serie di tentativi (ad esempio il numero di animali sui quali viene eseguito un test diagnostico) nel corso dei quali viene realizzato un certo numero di successi (animali trovati positivi alla presenza della malattia). A differenza di quanto detto per le variabili continue, nel caso delle variabili discrete la conoscenza della probabilità che ha un dato valore della variabile di verificarsi riveste un certo interesse. Per il calcolo di tale probabilità occorre però conoscere la probabilità media che ha l’evento cercato di verificarsi in ogni singolo tentativo. La distribuzione binomiale consente di calcolare le probabilità associate a i diversi valori che può assumere una variabile discreta che abbia una manifestazione del tipo 0 e 1, cioè positivo o negativo. Esempio: la mastite è una infezione che colpisce l’apparato mammario degli animali in lattazione. Poniamo che la prevalenza della forma subclinica della mastite negli ovini in Sardegna sia del 30%. In queste condizioni, se nel corso di un’indagine sanitaria 15 pecore vengono sottoposte ad un test capace di individuare la mastite, che probabilità ci sono di trovare 10 animali infetti? Se facciamo questo calcolo usando la funzione DISTRIB.BINOM di excel, i valori che occorrono sono: 28 n. di successi, cioè il valore della variabile per il quale vogliamo calcolarci la probabilità, nel nostro caso 10 prove: sono 15 poiché esaminiamo 15 animali; probabilità di successo per ciascuna prova: 0,3 poiché il valore medio della prevalenza della mastite subclinica in Sardegna è pari al 30%, quindi per ogni pecora che prendiamo abbiamo in media una probabilità del 30% di trova rla positiva al controllo per la mastite cumulativo: FALSO, perché vogliamo la probabilità puntuale di 10 successi e non quella cumulativa. Nel nostro esempio, il valore è pari a 0,00298; cioè se prendiamo 15 pecore a caso in un allevamento ubicato in Sardegna, dove la mastite clinica ha una prevalenza del 30%, e su queste conduciamo un test in grado di individuare gli animali affetti da mastite, abbiamo una probabilità di circa lo 0,3% di trovarne esattamente 10 positivi. Nella figura 10 è riportato l’istogramma delle probabilità di trovarne positivi da 1 a 5. 0.25 Probabilità 0.2 0.15 0.1 0.05 0 1 2 3 4 5 n. animali positivi Figura 10. Distribuzione Binomiale per una probabilità di successo pari a 0,3 ed un numero di prove pari a 15. Va ricordato infine che quando il numero di prove è superiore a 30, la distribuzione binomiale può essere approssimata dalla distribuzione normale. 29 INFERENZA STATISTICA Quando si esegue un esperimento, la quantità di dati di cui si dispone è solitamente limitata, in ragione della complessità e dei costi di realizzazione dell’esperimento stesso. Le ricerche sperimentali, però, hanno lo scopo di trovare risposte che abbiano una validità di carattere generale, non limitata all’insieme delle unità sperimentali sulle quali si è effettivamente indagato. Queste ultime rappresentano un campione che è stato estratto da una popolazione, la quale costituisce il reale obiettivo conoscitivo dello sperimentatore (figura 11). Insieme di tutte le unità sperimentali POPOLAZIONE Campionamento Unità sperimentali selezionate della popolazione Inferenza statistica CAMPIONE Figura 11. Relazioni tra popolazione e campione in statistica. Un esempio chiarirà meglio questi concetti. Ipotizziamo che una casa automobilistica intenda costruire una vettura da mettere in commercio in Sardegna. Per dimensionare correttamente l’abitacolo, la ditta ha necessità di conoscere l’altezza media dei sardi adulti. E’ chiaro che misurare l’altezza di tutti i sardi adulti (circa un milione) sarebbe un’impresa ardua e costosissima, se non impossibile. La ditta pertanto decide di svolgere un’indagine su un campione di 1500 Sardi, la cui altezza media risulta essere 172 cm. La macchina però non deve essere costruita solamente per quelle 1500 persone, per le quali è stato possibile misurare l’altezza, ma deve essere adatta per tutti i Sardi (o almeno per la maggior parte). La casa automobilistica deve quindi partire dall’osservazione fatta sul campione (i 1500 individui misurati) per arrivare ad un’idea abbastanza precisa dell’altezza media della popolazione. Questa operazione 30 configura un caso tipico di inferenza statistica: se nella fase dell’indagine sperimentale si estrae un campione dalla popolazione (freccia con linea intera nella figura 11), nell’inferenza si compie il percorso opposto (linea tratteggiata), cioè si parte dai risultati ottenuti sul campione per arrivare ad una conoscenza induttiva valida per la popolazione. A partire dai 1500 valori di altezza misurati sul campione si possono calcolare delle misure di centro (media, mediana, etc.) e delle misure di variabilità (deviazione standard, varianza). Queste sono dette statistiche e vengono convenzionalmente indicate con le lettere dell’alfabeto latino. I valori delle stesse grandezze riferite alla popolazione si chiamano invece parametri e vengono indicati convenzionalmente con le lettere dell’alfabeto greco. I parametri, ovviamente, non possono essere calcolati (perché non disponiamo dei dati relativi a tutta la popolazione). I loro valori debbono invece essere stimati. Sostanzialmente l’inferenza statistica parte dalle statistiche calcolate sul campione e le utilizza per stimare i parametri relativi alla popolazione. Tali concetti possono essere così riassunti. CAMPIONE ? STATISTICHE media = Y varianza = s2 deviazione standard = s ? POPOLAZIONE ? ? INFERENZA STATISTICA PARAMETRI media = µ varianza = σ2 deviazione standard = σ Il fatto che il valore di un parametro debba essere stimato (e non calcolato) comporta che tale valore sia, in qualche misura, incerto, cioè soggetto ad un possibile errore. Anche nel linguaggio corrente peraltro il termine stima si accompagna solitamente all’idea di incertezza: se si stima una grandezza, vuol dire che non la si misura direttamente ma se ne induce un valore che è soggetto ad un errore più o meno elevato. L’errore costituisce un elemento fondamentale della inferenza statistica la quale non giunge mai a delle conclusioni esatte in misura assoluta, ma solo a risultati a 31 cui è associato un certo margine di incertezza (i cui limiti lo statistico può decidere di fissare preliminarmente alla elaborazione dei dati). Stima della media di una variabile continua. Vediamo ora come l’inferenza statistic a affronta il problema della stima di un parametro di una popolazione, riferendoci in particolare al parametro media. Il processo di inferenza, in questo caso, si fonda su una proprietà delle distribuzioni probabilistiche, enunciata dal così detto Teorema del Limite Centrale. Se campioni casuali di numerosità n sono estratti da una popolazione con media µ e deviazione standard σ, quando n è grande, l’istogramma di frequenza delle medie di tali campioni sarà approssimativamente normale (forma a campana) con media µ e deviazione standard (o errore standard della media) σx= σ n Ritorniamo all’esempio della casa automobilistica alla prese con l’altezza dei Sardi. Poniamo che l’altezza media e la deviazione standard della popolazione siano µ=170 cm e σ=8. Se si estraggono casualmente dalla popolazione un certo numero di campioni (ad es. 300), ciascuno costituito da n Sardi (n = 2000), e si calcola per ciascun campione l’altezza media, le 300 medie risultano diverse fra loro e diverse da µ. La loro distribuzione però (detta distribuzione delle medie campionarie) è Normale, con media = 170 cm e deviazione standard (errore standard della media) σx= σ = n 8 = 0,179 cm. 2000 Nel paragrafo dedicato alla distribuzione Normale, si è visto che nell’intervallo µ ± 2 σ (per la precisione 1,96σ) è compreso il 95% dell’area racchiusa dalla curva. Quindi, anche nel caso della distribuzione delle medie campionarie, tra µ ± 1,96σx si trova il 95% dei valori delle medie campionarie. Di conseguenza, ogniqualvolta la media del campione ( Y ) è compresa tra µ ± 1,96σx (cioè nel 95% dei casi), l’intervallo popolazione. L’intervallo Y ± 1,96 σ conterrà il vero valore della media di n Y ± 1,96σx è definito come intervallo di confidenza al 95% della media della popolazione, nel senso che esso contiene la vera media della popolazione con una probabilità del 95%. 32 Concetto di Intervallo di confidenza Un intervallo al (1-α) di confidenza di una media rappresenta un intervallo di valori che contiene al suo interno il vero valore cercato della media di popolazione al (1-α) di probabilità. Di conseguenza, il valore α è la probabilità di errore, cioè la probabilità che il parametro che ci interessa ricada al di fuori dell’intervallo stimato. La formula generale per il calcolo dell’intervallo di confidenza di una media è. Y ± zα/2 σx [12] dove: Y σx = è la media del campione σ n è l’errore standard della media. Si può notare come la formula contenga σ, cioè la vera deviazione standard della popolazione che, essendo un parametro, è per definizione inconoscibile. Tuttavia, quando la numerosità del campione (n) è abbastanza elevata (maggiore di 30), la deviazione standard del campione (s) rappresenta una stima ragionevolmente affidabile della deviazione standard della popolazione (σ) e quindi può essere utilizzata al posto di questa per il calcolo dell’errore standard della media. Per numerosità inferiori, si utilizza al posto di z un’altra variabile standardizzata (t), come vedremo nel paragrafo seguente. zα/2 è il valore della variabile normale standardizzata z che lascia alla sua destra un’area pari ad α/2 (vedi tabella A-1 nell’appendice) α è la probabilità di errore. Torniamo all’esempio delle altezze. Si ipotizzi di prendere un campione di 2000 Sardi, misurarne le altezze e calcolarne la media (ad esempio, cm168) e la deviazione standard (6). Come dobbiamo fare ora per stimare la vera altezza media dei sardi? 33 Dovremo stimare un intervallo con la formula [12]. Gli elementi che occorrono per l’applicazione della formula sono: Y = 168 σx = σ = n 6 = 0,13464 2000 Il livello di confidenza (1-α) dell’intervallo dipenderà dall’errore (α) che siamo disposti ad accettare: poniamo di fissare tale valore al 5%, per cui l’intervallo sarà al 95% di confidenza. Se α = 0,05, α/2 sarà 0,025. Per trovare il valore di zα/2, la tabella dei valori teorici della distribuzione Normale (tabella A-1) va utilizzata in maniera differente rispetto a quanto fatto nei paragrafi precedenti. Infatti ora non si dispone del valore di z, ma di α/2, cioè dell’area che si trova a destra del valore di z che si vuole trovare. Pertanto bisogna cercare dentro i margini della tabella A-1 il valore di 0,025. Si può notare come a tale valore corrisponda un valore di z pari a 1,96. Riassumendo: Calcolo di un intervallo di confidenza al 95% per una media a partire da un campione di 2000 individui applicando la formula [12]. n = 2000 α=0,05 limite superiore = limite inferiore = Y = 168 s=6 zα/2, = 1,96 σx = 0,13464 Y + zα/2 σx=168 + 1,96 x 0,13464 = 168 + 0,26292 = 168,263 Y - zα/2 σx=168 - 1,96 x 0,13464 = 168 - 0,26292 = 167,737 Quindi, in base ai risultati ottenuti dalla misurazione dell’altezza del campione di 2000 sardi, la vera altezza media della popolazione sarda è compresa, al 95% di probabilità, tra 167,737 e 168,263 cm. La funzione statistica CONFIDENZA di Excel consente di calcolare metà dell’ampiezza dell’intervallo di confidenza. I parametri richiesti dalla funzione sono: alfa che rappresenta la probabilità di errore. Nel nostro caso, con un intervallo di confidenza al 95%, sarà pari al 5%, cioè 0,05 34 dev_standard la deviazione standard della popolazione. In base a quanto detto in precedenza, poiché la numerosità del campione è sufficiente, noi utilizzeremo la deviazione standard del campione, cioè 6 dimensioni la numerosità del campione nel nostro caso 2000. Il risultato fornito da Excel con questi dati è 0,262957. Il lettore potrà facilmente constatare che questo numero rappresenta (con una minima approssimazione) il temine zα/2 σx, cioè la quantità da aggiungere (o da togliere) alla media del campione per il calcolo del limite superiore (o inferiore) dell’intervallo di confidenza. L’intervallo di confidenza della media calcolato nell’esempio sopra riportato ha una ampiezza abbastanza limitata, cioè gli estremi sono molto ravvicinati. Quindi la stima ha fornito un risultato piuttosto preciso. La ragione di ciò sta nella numerosità molto elevata del campione utilizzato per σ l’indagine. Nella formula dell’errore standard della media σ x = , infatti, la numerosità del n campione è al denominatore e pertanto al suo aumentare σx diminuisce, con conseguente diminuzione dell’ampiezza dell’intervallo di confidenza ( si veda la formula [12]). A titolo di esempio, si riportano i limiti inferiore e superiore dell’intervallo di confidenza al 95% calcolato per media=18, deviazione standard=6 e tre valori di numerosità del campione: 2000, 200, 50. Numerosità (n) errore standard limite superiore limite inferiore 2000 0,134164 18,263 17,737 200 0,424264 18,832 17,168 20 0,848528 19,663 16,337 E’ evidente come, al diminuire della numerosità del campione, aumenta l’ampiezza dell’intervallo di confidenza e quindi la stima diventa meno precisa. La numerosità del campione riveste pertanto un’importanza fondamentale ai fini della affidabilità dei risultati ottenibili da esperimenti ed indagini scientifiche. E’ inoltre necessario tener presente che la teoria statistica presuppone che i campioni, di qualsiasi dimensione, siano estratti casualmente dalla popolazione alla quale appartengono. Venendo all’esempio delle altezze, se tutti i 2000 sardi del campione fossero stati presi da un’unica zona, ad esempio la Gallura (dove gli uomini sono solitamente più alti che in altre regioni dell’Isola) il campione, ancorché numericamente rilevante, sarebbe poco 35 rappresentativo dell’altezza di tutti i sardi o, come si dice in gergo statistico, sarebbe un campione distorto. Come si è visto, il secondo fattore che influenza l’ampiezza dell’intervallo di confidenza è l’errore che lo sperimentatore è disposto a tollerare quando sviluppa l’inferenza. Minore è l’errore (quindi maggiore è la prudenza dello sperimentatore) maggiore sarà l’ampiezza dell’intervallo. Nello schema seguente sono riportati i calcoli dell’intervallo di confidenza per media=18, deviazione standard=6, numerosità del campione 200 e tre livelli di coefficiente di confidenza (1-α): 90%, 95% e 99%.. α α/2 zα/2 Limite superiore Limite inferiore 0,90 0,10 0,05 1,645 18,69791 17,30209 0,95 0,05 0,025 1,96 18,83156 17,16844 0,99 0,01 0,005 2,575 19,09248 16,90752 Coefficiente di confidenza (1-α) A conferma di quanto detto, l’esempio mostra come al diminuire dell’errore che si è disposti a tollerare aumenta l’ampiezza dell’intervallo di confidenza della media. Questo risultato non dovrebbe meravigliarci, visto che lo utilizziamo intuitivamente nella logica di tutti i giorni: se facciamo una scommessa con un amico sulla posizione in classifica che avrà la squadra di calcio del Cagliari alla fine dell’attuale campionato di calcio di serie B (2003-2004), quando la posta è una pizza (15 euro, ndr) possiamo anche sbilanciarci e dire: entro le prime 4. Se però l’amico vuole giocarsi una cena a base di pesce in un ristorante chic, allora siamo disposti a sbagliare di meno (α più piccolo) e quindi andiamo più cauti: entro le prime 8. Se infine il nostro amico si vuole giocare lo stipendio, allora cerchiamo di andare sul sicuro e diciamo entro le prime 12. In definitiva, minore è il rischio (la probabilità di errore) che siamo disposti a correre, maggiore è l’intervallo di valori che proponiamo, cioè maggiore è l’incertezza della stima. Infine l’ultimo fattore che fa variare l’ampiezza dell’intervallo di confidenza è la deviazione standard del campione: all’aumentare di questa aumenta l’ampiezza dell’intervallo. Di seguito è riportato un altro esempio di calcolo di intervallo di confidenza al 95% della media di popolazione. Esso si riferisce al contenuto di grasso del latte di pecora stimato in base ai dati rilevati su un campione di 50 pecore di razza Sarda. 36 Dati. Pecora 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 Grasso (%) 5 7.7 4.5 5.2 6.1 6.7 7.9 5.4 6.5 4 3.4 6.6 6.5 6.7 4.7 4.7 6.5 6 9.1 8 7 7.1 6.2 9.3 6.8 6.9 5 3.4 7.1 3.4 8.5 5.1 3 6.6 4.7 5.2 4.3 7.6 8 6.3 37 41 42 43 44 45 46 47 48 49 50 n = 50 5.9 9 7 3 8.5 4.4 7 4.6 3.3 7 α=0,05 limite superiore = limite inferiore = Y = 6,048 s = 1,679 zα/2, = 1,96 σx = 0,237 Y + zα/2 σx=6,048 + 1,96 x 0,237 = 6,512 Y + zα/2 σx=6,048 - 1,96 x 0,237 = 5,583 (n.b. i risultati sono approssimati alle prime tre cifre decimali) Gli esempi sinora riportati di stima dell’intervallo di confidenza di una media di popolazione presuppongono la conoscenza della deviazione standard della popolazione (σ). Si è visto che quando la numerosità del campione è elevata (n>30) la deviazione standard del campione può essere considerata una stima attendibile di σ e quindi utilizzata al posto di questa nel calcolo dell’errore standard della media. Nei casi però in cui non si conosce σ e la numerosità del campione è ridotta (n<30), per il calcolo dell’intervallo di confidenza non si usa la variabile z ma la variabile t, nota come t di Student. Analogamente alla z, la t è una variabile standardizzata, presenta una distribuzione molto simile alla curva Normale (leggermente più stretta e con le code più allungate). A differenza della z che ha un’unica distribuzione, la t presenta però numerose distribuzioni in funzione della numerosità dei campioni esaminati, riassunta nei gradi di libertà. Si può osservare infatti dalla tabella A-2 riportata in appendice a queste dispense come esistano diversi valori di t al variare dei gradi di libertà. Comunque, al crescere delle numerosità del campione (n>30) la distribuzione t tende a coincidere con la z. 38 Test di ipotesi su variabili quantitative: uso del test t per il confronto fra le medie di due gruppi Spesso uno studio scientifico si sviluppa a partire da un’ipotesi, che gli sperimentatori formulano in base alle loro precedenti conoscenze sull’argomento. In questi casi si presenta frequentemente l’esigenza di confrontare i valori che un parametro assume in due popolazioni differenti: ad esempio, il confronto tra il contenuto in grasso e proteina del latte prodotto da due diverse razze ovine oppure la gradazione alcolica di un vino ottenuto dallo stesso vitigno ma con due differenti tecniche di allevamento della vite. In tali situazioni, il ricercatore dispone dei dati rilevati sui campioni anche se l’interesse è volto al confronto fra i valori del parametro nelle due popolazioni da cui i campioni sono stati estratti. L’inferenza statistica si sviluppa, allora, attraverso degli opportuni test statistici, la cui applicazione permette di asserire se, e in quale misura, i dati sperimentali confermano l’ipotesi di lavoro, oppure la contraddicono. Dal punto di vista logico, un test statistico si articola in 5 punti fondamentali: 1. Ipotesi nulla (H0 ) 2. Ipotesi alternativa o di ricerca (Ha) 3. Statistica del test 4. Regione di rigetto 5. Conclusione del test L’esempio pratico seguente consentirà di illustrare in maniera semplice la struttura di un test statistico. Una casa farmaceutica intende immettere sul mercato un nuovo farmaco per il quale si ipotizza che sia in grado di combattere un parassita gastrico degli ovini. Per verificarne l’efficacia di azione sul campo, viene organizzato un esperimento con 14 pecore, divise in due gruppi di 7 animali ciascuno. Un gruppo viene trattato per un certo numero di giorni con il farmaco (gruppo trattato) mentre l’altro non subisce alcun trattamento (gruppo di controllo). Alla fine dell’esperimento gli animali vengono macellati e, per ciascuno di essi, viene rilevato il numero di parassiti presenti nello stomaco. I risultati sono i seguenti: Gruppo Trattato Controllo 18 40 43 54 n. parassiti gastrici 28 50 16 26 63 21 39 32 37 13 39 Ovviamente, la casa farmaceutica si aspetta che il numero medio di parassiti sia minore nelle pecore del gruppo trattato rispetto a quelle del gruppo di controllo. L’osservazione delle medie dei due campioni (statistiche) sembrerebbe confermare questa ipotesi, infatti, dato che Trattato 28,57 Controllo 40 il valore medio dei parassiti gastrici del gruppo delle pecore trattate è decisamente inferiore a quello del gruppo di controllo. In precedenza si è visto però come il semplice raffronto dei valori medi non consenta di evidenziare in maniera precisa le differenze fra due insiemi di dati. Nel caso in esame, anche se le medie dei due gruppi di pecore sono piuttosto diverse, esiste una variabilità elevata entro ciascun gruppo: si può notare infatti come nel gruppo trattato ci siano alcune pecore (ad esempio la quarta) con un numero di parassiti gastrici notevolmente elevato (50), addirittura molto più alto della media del gruppo di controllo. Tale forte variabilità entro gruppi può essere evidenziata con l’uso del coefficiente di variabilità, il cui valore risulta elevato in entrambi i gruppi: 50% per il trattato e 37% per il controllo. Da ciò si evince come la semplice comparazione delle medie dei campioni non sia sufficiente ad affermare che le medie delle due popolazioni da cui i campioni sono stati estratti siano differenti in maniera statisticamente significativa. Occorre infatti sempre ricordare che l’interesse della ricerca non è volto ai campioni ma alle popolazioni da cui essi provengono: la casa farmaceutica non ha alcun interesse a produrre un farmaco in grado di ridurre il numero dei parassiti gastrici in quelle particolari sette pecore del gruppo trattato (campione), ma vuole produrre un farmaco che sia efficace per gli ovini in genere (popolazione). Vediamo ora come un test statistico affronta il problema. 1. Ipotesi nulla (H0 ): Il numero medio dei parassiti gastrici nel gruppo di pecore trattate con il farmaco (Xtratt) non è inferiore a quello del gruppo delle pecore di controllo (X ) . Espresso in termini formali: tontr Xtratt − Xcontr = 0 40 Nella logica dei test statistici, l’ipotesi nulla è quella che viene assunta come valida a priori e che rimane tale, a meno che i risultati dell’esperimento non consentano di rigettarla a favore dell’ipotesi di ricerca. Nell’esempio, l’ipotesi nulla afferma che il farmaco che stiamo testando non è in grado di ridurre il numero medio di parassiti gastrici (cioè non funziona). 2. Ipotesi alternativa (Ha) Il numero medio di parassiti gastrici nel gruppo di pecore trattate con il farmaco è inferiore a quello del gruppo delle pecore di controllo. Espresso in termini formali: Xtratt − Xcontr < 0 Come detto in precedenza, questo è il risultato che la casa farmaceutica si aspetta ed è l’idea per verificare la quale è stato progettato l’esperimento. Poiché l’ipotesi di ricerca può essere accolta solamente se quella nulla viene rigettata, il problema fondamentale del test è quello di decidere se rigettare o meno H0. Gli elementi per prendere questa decisione li fornisce la statistica del test. 3. Statistica del test Valore numerico ricavato dai dati del campione, sulla base del quale si decide se accettare l’ipotesi nulla o rigettarla a favore dell’ipotesi di ricerca. Esistono diverse statistiche del test. Quella più comunemente usata per il confronto fra medie utilizza nuovamente la distribuzione t di Student. Nel caso della differenza fra le medie di due gruppi, 1 e 2, la statistica t viene calcolata con la formula: t= X1 − X 2 1 1 Sp + n1 n 2 dove X1 e X2 sono le medie dei due gruppi n1 e n2 sono le numerosità dei due gruppi 41 [13] Sp è la deviazione standard comune dei due gruppi (p sta per pooled, che in inglese vuol dire raggruppato) calcolata con la formula: Sp = (n1 − 1)s 2 1 + (n2 −1)s 2 2 n1 + n2 − 2 [14] dove S2 1 e S22 sono le varianze dei due gruppi. Il termine n1 + n2 -2 rappresenta i gradi di libertà dell’esperimento. L’utilizzo della formula [13] per il calcolo della statistica t con i dati del nostro esempio presuppone che l’esperimento abbia alcune caratteristiche ben precise: • I campioni debbono essere indipendenti. Nel nostro caso tale ipotesi è rispettata in quanto le 7 pecore del gruppo trattato sono diverse dalle 7 del gruppo di controllo. Ma vi possono essere situazioni in cui questa condizione non è rispettata: ad esempio nel caso di un farmaco che controlla l’ipertensione, la pressione viene misurata sugli stessi pazienti prima (controllo) e dopo (trattato) la somministrazione del farmaco. In questi casi i campioni si dicono appaiati e la verifica di ipotesi si sviluppa in modo diverso, come vedremo. • I campioni debbono essere estratti da popolazioni di varianza identica (test omoscedastico) Come regola pratica si può dire che, calcolate le varianze dei due campioni, si fa il rapporto fra la varianza maggiore e que lla minore. Se questo rapporto è minore di tre, le varianze delle popolazioni corrispondenti possono considerarsi identiche. Altrimenti il test si dirà eteroscedastico. Nell’esempio le varianze dei due gruppi sono 198,62 e 215,33 per cui il test si può considerare omoscedastico. Vediamo ora i dati del nostro esempio. Prima si calcola deviazione standard comune ai due gruppi con la formula [14]. Sp = (7 − 1)198, 62 + (7 − 1)215,33 = 14,39 14 − 2 Sostituiamo ora il valore trovato nella [13] 42 t= 28,57 − 40 = −1, 49 1 1 14,39 + 7 7 Il valore -1,49 rappresenta il test calcolato sulla base del nostro esperimento. Come va interpretato questo numero? Dice che H0 può essere rigettata e quindi Ha accettata, oppure che non si hanno elementi sufficienti per rigettare H0 ? La risposta a questa domanda viene dal punto successivo. 4, Regione di rigetto Zona della distribuzione di probabilità della statistica del test dove ricadono i valori che consentono di rigettare l’ipotesi nulla a favore di quella di ricerca Nel paragrafo precedente si è visto come l’errore rappresenti un elemento fondamentale dell’inferenza statistica. Nel condurre un test statistico si possono commettere due tipi di errore: Errore di tipo I Rigettare l’ipotesi nulla quando questa è vera. La sua probabilità è indicata con α Errore di tipo II Accettare l’ipotesi nulla quando questa è falsa e quella di ricerca è vera. La sua probabilità è indicata con β Possibilità Se H0 è vera Se H0 è falsa (e Ha vera) Decisione Accettare H0 Decisione corretta La probabilità 1 – α corrisponde al “livello di fiducia” Errore di II tipo Probabilità β Rifiutare H0 Errore di tipo I La probabilità α è anche chiamata “livello di significatività” del test Decisione corretta La probabilità 1 – β è anche chiamata “potenza” del test Nella maggioranza delle applicazioni dei test statistici viene tenuto in considerazione solamente l’errore di tipo I, in quanto si ritiene che la cautela maggiore debba essere quella di evitare di affermare che l’ipotesi di ricerca è vera quando invece è falsa. A tale scopo si fissa preliminarmente la probabilità dell’errore di tipo I, cioè α, che si è disposti ad accettare: i valori solitamente considerati come limite massimo di errore tollerabile sono 5% o, nel caso di una maggiore severità, 43 l’1%. Una volta fissato α , bisogna cercare tra i valori tabulati di t, quello che lascia alla sua destra un un’area pari ad α. La tabella A-2 va letta in maniera differente da quella relativa alla distribuzione Normale: la prima colonna riporta i gradi di libertà, mentre le altre 6 contengono i valori di t che lasciano a destra un’area pari al 10% (la prima) sino al 0.01% (l’ultima). Se, per l’esempio considerato, si fissa α al 5%, allora si dovrà cercare nella colonna di α = 0,05 in corrispondenza della riga di 12 gradi di libertà. Il valore cercato è 1,782. Il valore trovato nella tabella rappresenta il valore critico di t e deve essere messo a confronto con il valore di t calcolato sul campione per pervenire al punto finale del test statistico. 5. Conclusione del test In base al valore della statistica del test calcolata a partire dai dati del campione ed al valore critico si decide se rigettare o meno l’ipotesi nulla a favore dell’ipotesi di ricerca Il confronto tra i due valori dipende da come è stata formulata l’ipotesi di ricerca. Nel caso del confronto fra due medie infatti esistono 3 possibili alternative 1. X1 − X 2 ≠ 0 2. X1 − X 2 > 0 3. X1 − X 2 < 0 Per i tre casi, considerando una probabilità di errore di tipo I pari ad α e gradi di libertà pari n1 + n2 2, la regole per arrivare alla conclusione del test sono: 1. X1 − X 2 ≠ 0 rigettare H0 se ¦ t¦ > tα/2 2. X1 − X 2 > 0 rigettare H0 se t > tα 3. X1 − X 2 < 0 rigettare H0 se t < - tα dove t è il valore di t calcolato sui dati del campione mentre tα e tα/2 rappresentano il valore critico di t, cioè quello riportato in tabella. Nell’esempio, l’ipotesi di ricerca è Xtratt − Xcontr < 0 , per cui siamo nel caso n. 3. Quindi dobbiamo confrontare il t calcolato, -1,49, con quello teorico con il meno davanti. Poiché la condizione t < - tα non è rispettata, in quanto -1,49 non è minore di -1,782, 44 sulla base dei risultati dell’esperimento non è possibile rigettare l’ipotesi nulla e accogliere l’ipotesi di ricerca. La conclusione del test statistico sarà pertanto: Il numero medio dei parassiti gastrici nel gruppo di pecore trattate con il farmaco non è inferiore a quello del gruppo delle pecore di controllo, almeno per un livello di significatività statistica del 5%. Riassumendo brevemente il test Ipotesi nulla (H0 ) Xtratt − Xcontr = 0 Ipotesi alternativa o di ricerca (Ha) Xtratt − Xcontr < 0 Statistica del test t= 28,57 − 40 1 1 14,39 + 7 7 = −1, 49 Regione di rigetto Per α = 0,05 , t critico = 1,782 Conclusione del test Poiché -1,49 non è minore di -1,782 l’ipotesi nulla non può essere rigettata E’ importante che nelle conclusioni di un test sia riportato il livello di significatività statistica. Come detto in precedenza, nella stragrande maggioranza degli studi scientifici che riportano delle elaborazioni statistiche, i livelli di errore solitamente tollerati sono l’1% o al massimo il 5%. E’ però buona norma che chi compie l’elaborazione statistica fissi il margine di errore non secondo le consuetudini, ma ragionando sul tipo di esperimento di cui si sta occupando. Nel nostro esempio abbiamo posto il limite massimo di errore pari al 5%: questo perché, se avessimo trovato che la media delle pecore trattate era inferiore a quella delle pecore di controllo volevamo sbagliare al massimo del 5%. In termini probabilistici un po’ grossolani, un errore del 5% vorrebbe dire che trattando con il farmaco 100 pecore, in media questo sarebbe efficace su 95 di esse. Se però il parassita che stiamo trattando è molto dannoso per gli ovini e la sua presenza causa perdite economiche rilevanti agli allevatori, il farmaco che vogliamo proporre è l’unico sinora prodotto contro quel parassita, è economico, facile da somministrare, allora potremmo accontentarci anche di 45 un margine di sicurezza minore, ed essere disposti a tollerare un errore di tipo I anche sino al 10%. In questo caso il t critico è pari a 1.356. Allora poiché -1,49 è più piccolo di -1,356 la conclusione del test sarebbe: Il numero medio dei parassiti gastrici nel gruppo di pecore trattate con il farmaco (Xtratt) è inferiore a quello del gruppo delle pecore di controllo (X ) , tontr almeno per un livello di significatività statistica del 10% (P<0,10). Lo sviluppo dell’esempio sull’esperimento del farmaco negli ovini è stato piuttosto lungo ma ha permesso di descrivere la logica (un po’ bizantina per la verità) di funzionamento di un test statistico. Questo sforzo ne risparmierà però degli altri perchè la gran parte dei test statistici segue la medesima logica. La funzione TEST.T di Excel consente di sviluppare il confronto fra medie. La finestra del test chiede: matrice 1 bisogna selezionare l’intervallo che contiene i dati del primo gruppo (ad es. le pecore trattate) matrice 2 bisogna selezionare l’intervallo che contiene i dati del secondo gruppo (ad es. le pecore di controllo) coda un test statistico può essere ad una o a due code, a seconda di come è formulata l’ipotesi di ricerca. Se è del tipo X1 − X2 ≠ 0 allora il test è a due code, mentre per gli altri due casi, X1 − X 2 > 0 e X1 − X 2 < 0 il test è a una coda. Quindi nel nostro esempio il test è a una coda. tipo ci sono tre possibilità. Il nostro esempio è quello contrassegnato con il numero 2 cioè due campioni estratti da popolazioni con uguali varianze. Il risultato che produce Excel è 0,0815. Questo risultato è il valore di α, cioè è la esatta probabilità di errore associata al valore di t calcolato sui dati del campione (nel nostro caso -1,49). E’ ovvio che se ci si era ripromessi di non sbagliare più dello 0,05, essendo l’errore 0,08 concluderemo che 46 l’ipotesi nulla non può essere rigettata a favore di quella di ricerca. I softwares statistici non mostrano lo sviluppo della complessa sequela di punti, qui seguita per scopi essenzialmente didattici, ma forniscono direttamente il valore della probabilità di errore di tipo I (α) o livello di significatività statistica del test, associata al valore della statistica del test calcolato sulla base dei dati del campione. Seguono altri due esempi di confronto fra medie di due gruppi. Confronto tra il contenuto proteico medio del latte di due razze bovine, Frisona e Bruna. Due gruppi di 25 vacche ciascuno Bruna 3,44 3,67 3,57 3,45 3,61 3,53 3,89 3,47 3,31 3,48 3,51 3,49 3,67 3,67 3,45 3,82 3,33 3,55 3,48 3,51 3,49 3,67 3,67 3,45 3,82 Frisona 3,14 3,08 3,25 3,33 3,22 3,13 3,32 3,22 3,26 2,99 3,19 3,21 3,28 3,16 3,12 3,22 3,22 3,37 3,10 3,19 3,00 2,59 2,99 3,14 3,29 Media Deviazione standard Bruna 3,6 0,14 Frisona 3,20,15 47 Domanda: il contenuto medio in proteina del latte della Bruna è maggiore di quello della Frisona? Riassumendo brevemente il test Ipotesi nulla (H0 ) XBruna − XFrisona = 0 Ipotesi alternativa o di ricerca (Ha) XBruna − XFrisona > 0 Statistica del test t= Regione di rigetto Per α = 0,01 , e 48 gradi di libertà, t critico = 2,406 Conclusione del test Poiché 9,43 è notevolmente maggiore di 2,406, l’ipotesi nulla 3,6 − 3, 2 = 9,43 1 1 0,0229 + 25 25 può essere rigettata e quella di ricerca può essere accolta. Quindi il contenuto medio in proteina del latte di Bruna è superiore a quello del latte di Frisona Esempio di un test appaiato E’ stato condotto un esperimento per verificare l’effetto della benzedrina sul battito cardiaco dei cani. Si ritiene che tale sostanza abbia il potere di aumentare la frequenza del battito: è stato misurato il battito cardiaco di 14 cani sia prima che dopo la somministrazione del farmaco. Domanda: la frequenza media del battito cardiaco dopo la somministrazione di benzedrina è superiore a quella che gli animali avevano prima della somministrazione del farmaco? 48 Cane 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Prima 250 271 243 252 266 272 293 296 301 298 310 286 306 309 Dopo 258 285 245 250 268 278 280 305 319 308 320 293 305 313 In questo caso si deve applicare un test t per dati appaiati poiché le unità sperimentali dei due gruppi sono le stesse (sono gli stessi 14 cani prima e dopo la somministrazione del farmaco). Utilizzando la funzione TEST.T di Excel matrice 1. colonna che contiene i dati del gruppo prima ; matrice 2. colonna che contiene di dati del gruppo dopo; coda una coda poiché l’ipotesi è che la media prima della somministrazione del farmaco sia inferiore alla media dopo la somministrazione, cioè Xprima − Xdopo < 0 Tipo appaiato, cioè 1; Risultato 0,011. Questa è la probabilità di errore di tipo I (a). Quindi possiamo dire che la frequenza media del battito cardiaco dopo la somministrazione di benzedrina è superiore a quella di prima con un livello di significatività di 0,011%. Test di ipotesi su variabili qualitative: uso del test χ2 per il confronto fra le frequenze di due gruppi Consideriamo una situazione per certi versi analoga all’esempio del farmaco contro il parassita gastrico degli ovini riportato nel paragrafo precedente. Anche in questo caso si vuole verificare l’efficacia di un nuovo farmaco su una malattia e a tal fine si costituiscono due gruppi di 20 pecore ciascuno, uno trattato con il farmaco (gruppo trattato) e l’altro non trattato (controllo). La presenza (o l’assenza) della malattia non è però rilevata in forza del conteggio dei parassiti gastrici presenti nello stomaco di ciascun animale (come nel caso precedente), ma con un esame diagnostico che può essere eseguito sugli animali vivi e che fornisce una risposta dicotomica del tipo POSITIVO o 49 NEGATIVO. I risultati dell’esperimento sono espressi in termini di frequenze assolute (cioè di numero di animali che risultano affetti dalla parassitosi in ciascun gruppo) (tabella 8). Tabella 8 . Tavola di contingenza delle frequenze osservate nell’esperimento. Gruppo Trattato 15 5 20 Diagnosi Negativo Positivo Totale Controllo 7 13 20 Totale 22 18 40 La tabella, che riporta il numero degli animali positivi e negativi rilevati nei due gruppi sperimentali, cioè le frequenze osservate, ed anche i totali di riga, di colonna ed il totale generale è conosciuta come Tavola di contingenza. Poiché la variabile misurata nell’esperimento (positività, negatività) è di tipo qualitativo il test t (valido solo per le variabili di tipo quantitativo) non è applicabile. Il test specifico è invece il cosiddetto test di indipendenza del χ 2 (chi-quadrato), fondato direttamente sul calcolo delle probabilità. Si analizza il problema in termini di eventi: il primo evento è il trattamento sperimentale che può avere due uscite (trattato o controllo), il secondo è l’esito all’esame parassitologico, anch’esso con due uscite possibili (positivo e negativo). Ipotesi nulla (H0 ) Il fatto che un animale sia risultato positivo o negativo all’esame parassitologico non dipende dal fatto che sia stato trattato o meno dal farmaco. Cioè l’esito all’esame diagnostico ed trattamento con il farmaco sono due eventi tra loro indipendenti. Ipotesi di ricerca (Ha ) Il fatto che un animale sia risultato positivo o negativo all’esame parasitologico dipende dal fatto che sia stato trattato o meno dal farmaco. In particolare, la frequenza degli animali negativi al test è maggiore per quelli del gruppo trattato rispetto a quello di controllo, pertanto l’esito all’esame diagnostico ed il trattamento con il farmaco sono due eventi tra loro collegati (non indipendenti). (Osservateij − Atteseij ) χ = ∑ ij Atteseij 2 Statistica del test 2 50 [15] Dove Osservate sono le frequenze osservate, cioè i numeri di animali effettivamente conteggiati in ciascuna cella della tavola di contingenza. Attese sono le frequenze teoriche, che ci si sarebbe attesi in ciascuna cella della tavola di contingenza, nel caso in cui l’ipotesi nulla fosse valida (risultato dell’esame diagnostico indipendente dal trattamento col farmaco). Vediamo ora come si calcolano le frequenze attese. Bisogna riprendere il concetto della probabilità in senso frequentista ed applicarlo al caso in esame. Ci troviamo di fronte a 40 pecore, 20 trattate con il farmaco e 20 no. Quale è la frequenza (e quindi la probabilità) delle pecore trattate? f t (trattate) = 20 = 0,5 40 Quale è la frequenza delle non trattate (o gruppo di controllo)? f c ( controllo ) = 20 = 0,5 40 Alla fine dell’esperimento è stato fatto il test parassitologico. Quale è la frequenza delle positive? su f p ( positive) = 18 = 0,45 40 Quale è stata la frequenza delle negative? f n ( negative) = 22 = 0,55 40 Le frequenze attese sono quelle che ci si aspetterebbe nel caso in cui i due eventi fossero tra loro indipendenti (come nel caso del lancio di due monete, una con la mano destra e l’altra con la mano sinistra). La regola per il calcolo delle frequenze attese di una tavola di contingenza dice che: Due variabili rappresentate in una tavola di contingenza sono dette indipendenti se la probabilità che una misura sia classificata in una cella della tavola è pari al prodotto della probabilità di 51 essere classificata in quella riga per il prodotto di essere classificata in quella colonna. Ciò deve essere valido per tutte le celle della tavola . Quindi per il loro calcolo possiamo utilizzare la formula [8]. Ad esempio la frequenza attesa delle pecore negative del gruppo di controllo sarà: f a (negative del gruppo di controllo) = f(negative) x f(controllo) = = 22 20 × = 0,27 40 40 Per il calcolo della statistica chi-quadrato con la formula [15] occorrono le frequenze assolute (cioè il numero di animali) mentre nella tabella sopra riportata sono state ottenute le frequenze relative (espresse cioè in %). Per passare dalle frequenze relative a quelle assolute dovremmo moltiplicare quelle relative per la numerosità totale, cioè 40. Così, ad esempio, la frequenza attesa assoluta delle negative trattate diventa f ( negativetrattate) = 22 20 22 * * 40 = * 20 = 11 40 40 40 Per semplicità espositiva, il calcolo delle frequenze attese si illustra direttamente all’interno della tavola di contingenza Tabella 9. Tavola di contingenza delle frequenze attese nell’esperimento. Diagnosi Negativo Positivo Totale Gruppo Trattato Controllo 22 f (negative ) * f (trattate ) = * 20 = 11 40 18 f ( positive) * f (trattate ) = * 20 = 9 40 22 f (negative ) * f ( controllo ) = * 20 = 11 40 18 f ( positive) * f (controllo ) = * 20 = 9 40 20 20 Totale 22 18 40 Una volta ottenute le frequenze assolute bisogna calcolare il valore della statistica del test con la formula [15] 52 χ = 2 (15 − 11) 2 11 (7 − 11) 2 + Regione di rigetto 11 (5 − 9) 2 + 9 (13 − 9) 2 + 9 = 1, 454 + 1. 454 + 1,777 + 1 .777 = 6 ,465 Bisogna cercare sulle tabelle della distribuzione del χ 2 il valore critico per la probabilità di errore di tipo I che ci si è prefissata. Anche per il χ2 esistono diverse distribuzioni in base ai gradi di libertà. Il calcolo dei gradi di libertà viene fatto con la formula: (numero righe della tavola di contingenza-1) x(numero colonne della tavola di contingenza-1) nel nostro caso sarà (2-1) x (2-1) = 1 Ponendo α=0,05, per 1 grado di libertà, il valore critico di χ 2 è 3,841. Conclusione del test Poiché il valore di χ 2 calcolato sui dati del campione è maggiore del χ 2 tabulato, possiamo rigettare l’ipotesi nulla ed accettare l’ipotesi di ricerca con un livello di confidenza del test minore del 5% (P<0,05): l’esito del test sierologico ed il trattamento con il farmaco non sono due eventi indipendenti. Il farmaco quindi funziona. La funzione TEST.CHI di excel permette di svolgere un test del chi quadrato: gli input richiesti Int_effettivo sono le frequenze osservate Int_previsto sono le frequenze attese Il risultato che fornisce excel è 0.01154., Come visto in precedenza nel caso del test t, il programma fornisce direttamente il valore dell’errore associato al valore della statistica calcolato suo campione. 53 Infatti si nota anche dalla tabella come il valore del calcolato sul campione è di pochissimo inferiore al t critico per α=0,01. Altro esempio di test del chi-quadrato. E’ stato condotto un esperimento per studiare la relazione esistente tra la coagulabilità del latte, caratteristica tecnologica di grande importanza ai fini della trasformazione casearia, ed età degli animali. Su 168 campioni individuali di latte ovino, 84 provenienti da pecore di 2 anni e 84 di pecore di 3 anni, è stata misurata la capacità di coagulazione, con uno strumento che consente di stabilire se il latte coagula entro un determinato tempo dall’aggiunta del caglio oppure no. I risultati sono riportati nella seguente tavola di contingenza,. 2 anni non coagula coagula Totale 3 anni 3 81 84 Totale 22 62 84 25 143 168 Domanda: esiste una relazione fra coagulabilità del latte ed età degli animali? Calcolo delle frequenze attese non coagula coagula Totale 2 anni 3 anni Totale 84 × 25 = 12.5 168 84 × 143 = 71.5 168 84 × 25 = 12.5 168 84 × 143 = 71.5 168 84 84 25 143 168 Calcolo della statistica del test (3 − 12,5) = 2 χ 2 12,5 (22 − 12,5) + 2 12,5 (81 − 71,5) + 71,5 2 (62 − 71,5) + 71,5 gradi di libertà (nrighe-1) x (ncolonne-1)=(2-1)x(2-1)=1 54 2 = 17, 22 + 7,22 + 1, 262 + 1,262 = 16,964 Per α=0,01 e 1 grado di libertà il valore critico di χ 2 è 6,635. Conclusione del test Poiché 16,694>6,635, si può concludere che la coagulabilità del latte e l’età degli animali non sono dei fattori tra loro indipendenti. Esiste infatti una relazione fra i due con un livello di significatività statistica minore dell’1% (P<0,01). La funzione TEST.CHI di excel fornisce direttamente la probabilità di errore associata al valore di χ2 calcolato ( 6,635), che è 0,0000038. 55 STUDIO DELLE RELAZIONI FRA DUE VARIABILI Le tecniche di analisi statistica trattate nei capitoli precedenti sono dette di tipo univariato, in quanto sviluppano lo studio di una singola variabile. Nella pratica scientifica, però, è frequente il caso in cui sulle unità sperimentali vengono misurate più variabili contemporaneamente: su un bovino si può misurare la produzione di latte, ma anche il peso o la concentrazione ematica di glucosio; sul latte si può determinare il contenuto in grasso ma anche il pH, l’indice crioscopico; su un vino il grado alcolico ma anche il contenuto in tannini, etc. Il poter disporre di più variabili misurate sulle stesse unità sperimentali può rappresentare un notevole vantaggio ai fini della comprensione del processo che si sta studiando. Ciò dipende dal grado di relazione che esiste tra le variabili in esame. Due variabili si dicono statisticamente correlate quando la variazione dell’una non è indipendente dalla variazione dell’altra, cioè quando esse in qualche misura covariano. Il termine correlazione, ampiamente utilizzato anche nel linguaggio comune per indicare l’esistenza di una relazione fra più aspetti degli stessi oggetti, assume quindi nel campo statistico un significato ben preciso ed introduce al concetto di una variazione comune a due variabili cioè della loro covariazione. Nella tabella seguente sono riportati i valori di due variabili somatiche, peso corporeo e altezza al garrese, misurate su 20 pecore di razza Gentile di Puglia. Tabella 10. Peso corporeo e altezza al garrese di 20 pecore di razza Gentile di Puglia Pecora 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Peso (cm) 52 47 51 49 39 48 43 53 52 48 55 47 40 57 42 52 45 44 53 50 Altezza al garrese (cm) 85 85 89 84 75 83 80 85 85 85 86 85 80 89 79 87 84 80 85 87 56 Una prima valutazione, qualitativa ma efficace, del grado di relazione esistente tra due variabili viene fornita dalla loro rappresentazione grafica. A tale riguardo, nel grafico seguente vengono riportati i dati della tabella 10, ponendo in ascisse il peso corporeo degli animali ed in ordinate l’altezza al garrese. Ogni punto rappresenta una pecora. 90 altezza al garrese(cm) 88 86 84 82 80 78 76 74 35 40 45 50 55 60 peso corporeo (kg) Figura 12. relazione fra peso corporeo ed altezza al garrese in pecore di razza Gentile di Puglia. L’osservazione della figura 12 suggerisce immediatamente l’esistenza di una relazione tra le due variabili considerate: in particolare, all’aumentare del peso corporeo aumenta l’altezza al garrese degli animali. Cioè le due variabili almeno in parte variano assieme. Nel caso in esame, la natura di tale relazione è ben nota ed ha un fondamento biologico: individui più alti tendono pesare di più perchè, a parità di costituzione, hanno una mole maggiore. E’ sempre buona norma, però, una volta evidenziata l’esistenza di una correlazione fra due variabili, verificare se questa ha una giustificazione razionale o se è semplicemente frutto del caso. Altrimenti si corre il rischio di incappare in conclusioni errate come quella che aveva messo in relazione il consumo di liquori con lo stipendio dei professori universitari, e che i testi di statistica citano spesso come esempio di assurdità. Tornando alla figura 12, si nota come la variazione del peso e dell’altezza al garrese avvengano nello stesso senso: all’aumentare dell’una cresce anche l’altra. Si possono avere casi in cui alla variazione di una variabile l’altra risponda con una variazione opposta. Un esempio classico è la relazione che esiste tra quantità di latte prodotto e contenuto lipidico (figura 13). 57 Contenuto lipidico (%) 11 10 9 8 7 6 5 4 3 2 400 900 1400 1900 2400 produzione di latte (g) Figura 13. Relazione fra produzione di latte e contenuto lipidico in pecore di razza Valle del Belice Anche se la tendenza è meno netta di quella evidenziata nella figura precedente, si nota chiaramente come all’aumento della produzione di latte corrisponda una diminuzione del suo contenuto lipidico. Questa relazione ha anch’essa una spiegazione biologica, nota come effetto di diluizione: l’aumento della produzione del latte è dovuto in massima parte alla maggior quantità di acqua secreta dall’animale per cui il grasso presente nel latte, che aumenta anch’esso ma in minor misura meno rispetto all’acqua, risulta maggiormente diluito. Nel capitolo che trattava le misure di variabilità di una singola variabile abbiamo visto come questa potesse essere espressa dalla varianza [1]. Per la descrizione della variazione comune di due variabili esiste una misura analoga, la covarianza. La covarianza tra due variabili x e y, che si indica con il simbolo Sxy , viene calcolata con la formula: Sxy = ∑ (x − x )⋅ (y − y) n −1 [16] Essa esprime la quota di variabilità comune che presentano due variabili. Maggiore è la covarianza tra le due variabili, più stretta sarà la relazione fra le due. Di seguito è riportato lo schema di calcolo della covarianza per le due variabili riportate in tabella 10. 58 media x y x- x y- y 52 47 51 49 39 48 43 53 52 48 55 47 40 57 42 52 45 44 53 50 48,35 85 85 89 84 75 83 80 85 85 85 86 85 80 89 79 87 84 80 85 87 83,9 3,65 -1,35 2,65 0,65 -9,35 -0,35 -5,35 4,65 3,65 -0,35 6,65 -1,35 -8,35 8,65 -6,35 3,65 -3,35 -4,35 4,65 1,65 1,1 1,1 5,1 0,1 -8,9 -0,9 -3,9 1,1 1,1 1,1 2,1 1,1 -3,9 5,1 -4,9 3,1 0,1 -3,9 1,1 3,1 somma covarianza (x- x ) x (y- y ) 4,015 -1,485 13,515 0,065 83,215 0,315 20,865 5,115 4,015 -0,385 13,965 -1,485 32,565 44,115 31,115 11,315 -0,335 16,965 5,115 5,115 287,7 287,7/19 = 15,142 La covarianza può essere calcolata anche con la funzione COVARIANZA di Excel. Il risultato trovato è però diverso, 14,385. Ciò è dovuto al fatto che Excel nell’applicare la formula 16 non divide per n-1 ma per n. Tale differenza, all’aumentare della numerosità del campione diventa trascurabile. Paradossalmente, la grandezza fondamentale è la covarianza, perché la varianza altro non è che a covarianza di una variabile con sé stessa: il lettore potrà infatti facilmente verificare come sostituendo y con x nella formula [16] si ottiene la formula del calcolo della varianza [1]. IL COEFFICIENTE DI CORRELAZIONE Analogamente a quanto detto per la varianza, anche la covarianza, essendo un prodotto di differenze, ha la caratteristica di non essere immediatamente interpretabile. Una misura di più facile lettura che esprime l’intensità con la quale due variabili x e y sono legate è il coefficiente di correlazione (r) r = xy S xy S ⋅S 2 x [17] 2 y 59 dove Sxy = covarianza di x e y Sx 2 = varianza di x S y2 = varianza di y Il coefficiente di correlazione può assumere valori compresi tra –1 e 1. Il significato dei diversi intervalli di valori del coefficiente di correlazione è riportato nello schema seguente. r>0 → Relazione lineare positiva fra le → Al variare dell’una l’altra varia nello stesso due variabili senso Esempio: Altezza al garrese e peso corporeo r<0 → Relazione lineare negativa fra → Al variare dell’una l’altra varia in senso le due variabili opposto Esempio: Produzione di latte e contenuto % in grasso r =0 Assenza di relazione fra le due → La variazione dell’’una è indipendente dalla variabili variazione dell’altra Esempio: Produzione di latte e lunghezza della coda Nel caso dei dati riportati in tabella 10, il coefficiente di correlazione è: rpesohg = Spesohg S 2 peso ⋅S = 2 hg 14,385 = 0,8655 23,6275 *11,69 Il coefficiente di correlazione può essere calcolato con la funzione CORRELAZIONE di Excel. Esiste una classificazione di riferimento per i valori del coefficiente di correlazione. In generale se r < 0,4 La correlazione è detta debole 60 0,4 < r < 0,6 La correlazione è detta media r > 0,6 La correlazione è detta forte Nel paragrafo precedente si è detto che un’eventuale correlazione fra variabili potrebbe essere anche frutto del caso. Al fine di prevenire conclusioni errate, si può applicare un test statistico che consente di dire se il coefficiente di correlazione trovato è statisticamente diverso da zero, cioè se la relazione che è stata trovata tra le variabili oggetto di studio esiste realmente. Vediamo come si sviluppa il test. Ipotesi nulla r = 0, cioè non esiste relazione fra le due variabili Ipotesi alternativa r ≠ 0, cioè esiste relazione fra le due variabili Statistica del test t= (r − 0) (1 − r ) [18] 2 ( n − 2) Nel caso dei dati della tabella 10 t= 0,8655 = 7,33 (1 − 0,749182) (18) Poiché il valore di t trovato è maggiore del valore tabulato di t (tabella A-2) per un valore di α = 0,001 e 18 gradi di libertà, il coefficiente di correlazione è diverso da zero con un livello di significatività di 0,001. 61 REGRESSIONE Come si è detto nel paragrafo precedente, il fatto di avere di avere più variabili misurate sulla stessa unità sperimentale può rappresentare un vantaggio ai fini della comprensione del fenomeno oggetto di studio. Vediamo ora come questa opportunità può essere sfruttata in pratica. La tabella 11 riporta i risultati di un esperimento in cui sono stati misurati il peso corporeo e l’ingestione alimentare (quantità di alimento ingerita nelle 24 ore espressa in kg di sostanza secca) di 20 pecore di razza Sarda nel periodo di asciutta. Tabella 11. Peso corporeo e ingestione alimentare di 20 pecore di razza Sarda in asciutta Peso corporeo (kg) Ingestione alimentare (kg) 45,0 1,189 44,0 1,151 35,0 0,915 41,0 0,944 42 1,127 43,4 1,031 46,9 1,223 45,2 1,129 39,8 0,888 50,1 1,193 49,2 1,194 45,3 1,095 46,2 1,146 44,2 1,189 41,2 1,045 52,1 1,308 47,7 1,185 48,2 1,202 38,1 0,843 49,0 1,270 La relazione esistente tra queste due variabili può essere desunta dall’osservazione della figura 14, che riporta i dati della tabella 11: all’aumentare del peso corporeo aumenta l’ingestione alimentare. Le due variabili quindi sono positivamente correlate, come confermato dal valore del coefficiente di 62 correlazione (r = 0,894). Questa relazione ha una grande importanza dal punto di vista pratico. L’ingestione alimentare è infatti una variabile di notevole interesse tecnico per chi si occupa della formulazione della razione degli animali di interesse zootecnico ma presenta il grosso problema di essere molto difficile da misurare nelle condizioni normali di allevamento. Poiché invece il peso può essere misurato in maniera relativamente semplice, può essere assai utile un modello statistico che, sfruttando la correlazione esistente fra le due variabili, consenta di stimare l’ingestione sulla ingestione alimentare (kg) base del peso corporeo degli animali. 1.4 1.3 1.2 1.1 1 0.9 0.8 0.7 0.6 35 40 45 50 55 peso corporeo (kg) Figura 15. Relazione fra peso corporeo e ingestione alimentare in pecore di razza Sarda. La tecnica statistica che consente di arrivare ad una tale relazione è nota come Regressione. Il modello matematico più semplice per la previsione del valore di una variabile dipendente (y) sulla base del valore di una variabile indipendente (x) è l’equazione di una retta : y = bx + a Nel nostro caso però non è possibile prevedere esattamente il valore dell’ingestione alimentare (y) corrispondente ad un determinato valore di peso corporeo (x) poiché i punti non giacciono su una retta (figura 15). Quindi i valori della y sono legati ai valori di x da una relazione più complicata, del tipo: y = bx + a + ε [19] dove: 63 a è l’intercetta della retta, cioè il valore di y in corrispondenza del quale la retta di regressione interseca l’asse delle ordinate b è il coefficiente angolare o di regressione (fornisce la pendenza della retta) ed esprime la ù variazione della variabile dipendente (y) al variare di una unità della variabile indipendente (x) ε è il residuo, cioè la differenza fra il valore di y stimato dall’equazione della retta ed il valore di y realmente osservato. I parametri della retta di regressione possono essere calcolati con le formule seguenti b = rxy Sy SX [20] dove rxy è il coefficiente di correlazione fra le due variabili, Sx e Sy sono le rispettive deviazioni standard a = y − bx [21] dove x e y sono le medie delle variabile x e y rispettivamente Applichiamo ora le formule [20] e [21] per il calcolo dei parametri della retta di regressione all’esempio del peso corporeo e della ingestione alimentare: b = 0,894 × 0,13 = 0,027 4, 26 a = 1,113 – 0,027*(44,68) = -0,0934 Quindi l’equazione della retta di regressione sarà: 64 y = 0,027x + 0,0934 + e [22] o, in altri termini ingestione (kg) = 0,027 x peso corporeo (kg) + 0,0934 + ε In precedenza si è detto che il coefficiente di regressione rappresenta la variazione della variabile dipendente al variare di una unità della variabile indipendente. Nel caso specifico della retta che ci siamo calcolati, quindi, il valore del coefficiente di regressione indica che l’ingestione alimentare aumenta di 27 grammi (0,027 kg) all’aumentare di 1 kg di peso corporeo. L’equazione [22] può essere adesso utilizzata per la stima dei valori dell’ingestione a partire dal peso corporeo. I valori della variabile dipendente stimati con la retta di regressione si indicano convenzionalmente ŷ Ad esempio, il valore stimato dell’ingestione alimentare per un animale che pesa 49 kg sarà ŷ = 0,027*(49) - 0,0934 = 1,23 Poiché però il vero valore di ingestione misurato sulla pecora che pesava 49 kg è di 1,27 (tabella 11), la differenza ŷ -y = 1,23-1,27 = 0,04 rappresenta il residuo dalla retta di regressione (ε) e, graficamente, costituisce la distanza dal punto sperimentale dalla retta di regressione. Allo stesso modo, utilizziamo l’equazione [22] per calcolare l’ingestione stimata delle 20 pecore del gruppo sperimentale: 65 Peso corporeo (kg) Ingestione vera Ingestione stimata Residuo 45,0 1,189 1,1216 -0,0674 44,0 1,151 1,0946 -0,0564 35,0 0,915 0,8516 -0,0634 41,0 0,944 1,0136 0,0696 42 1,127 1,0406 -0,0864 43,4 1,031 1,0784 0,0474 1,1729 -0,0501 46,9 1,223 45,2 1,129 1,127 -0,002 39,8 0,888 0,9812 0,0932 50,1 1,193 1,2593 0,0663 49,2 1,194 1,235 0,041 45,3 1,095 1,1297 0,0347 46,2 1,146 1,154 0,008 44,2 1,189 1,1 -0,089 41,2 1,045 1,019 -0,026 52,1 1,308 1,3133 0,0053 47,7 1,185 1,1945 0,0095 48,2 1,202 1,208 0,006 38,1 0,843 0,9353 0,0923 49,0 1,270 1,2296 -0,0404 Si possono ora aggiungere i dati dell’ingestione stimata al grafico riportato in figura 15 66 Ingestione alimentare (kg) 1.3 1.2 1.1 1 0.9 0.8 0.7 30 35 40 45 50 55 Peso corporeo (kg) Figura 16. Valori dell’ingestione osservata (♦) e stimata con la retta di regressione () [22]. Si può notare come i valori dell’ingestione stimata si trovino sulla retta di regressione. Le distanze fra i rombi (che rappresentano il valore realmente osservato dell’ingestione) ed il corrispondente valore sulla retta, rappresentano i residui. La retta di regressione è nota anche con il nome di retta dei minimi quadrati. Questo perché, dato un insieme di punti, la retta di regressione è quella retta che soddisfa la condizione matematica di minimizzare la somma dei quadrati delle distanze dei punti reali da essa. In altre parole, è la retta che passa più vicina a tutti i punti dell’insieme di dati. 67 APPENDICE Tabella A-1. Valori dell’integrale della distribuzione Normale (generata con la funzione distrib.norm di excel) z 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0 0.5000 0.4960 0.4920 0.4880 0.4840 0.4801 0.4761 0.4721 0.4681 0.4641 0.1 0.4602 0.4562 0.4522 0.4483 0.4443 0.4404 0.4364 0.4325 0.4286 0.4247 0.2 0.4207 0.4168 0.4129 0.4090 0.4052 0.4013 0.3974 0.3936 0.3897 0.3859 0.3 0.3821 0.3783 0.3745 0.3707 0.3669 0.3632 0.3594 0.3557 0.3520 0.3483 0.4 0.3446 0.3409 0.3372 0.3336 0.3300 0.3264 0.3228 0.3192 0.3156 0.3121 0.5 0.3085 0.3050 0.3015 0.2981 0.2946 0.2912 0.2877 0.2843 0.2810 0.2776 0.6 0.2743 0.2709 0.2676 0.2643 0.2611 0.2578 0.2546 0.2514 0.2483 0.2451 0.7 0.2420 0.2389 0.2358 0.2327 0.2296 0.2266 0.2236 0.2206 0.2177 0.2148 0.8 0.2119 0.2090 0.2061 0.2033 0.2005 0.1977 0.1949 0.1922 0.1894 0.1867 0.9 0.1841 0.1814 0.1788 0.1762 0.1736 0.1711 0.1685 0.1660 0.1635 0.1611 1 0.1587 0.1562 0.1539 0.1515 0.1492 0.1469 0.1446 0.1423 0.1401 0.1379 1.1 0.1357 0.1335 0.1314 0.1292 0.1271 0.1251 0.1230 0.1210 0.1190 0.1170 1.2 0.1151 0.1131 0.1112 0.1093 0.1075 0.1056 0.1038 0.1020 0.1003 0.0985 1.3 0.0968 0.0951 0.0934 0.0918 0.0901 0.0885 0.0869 0.0853 0.0838 0.0823 1.4 0.0808 0.0793 0.0778 0.0764 0.0749 0.0735 0.0721 0.0708 0.0694 0.0681 1.5 0.0668 0.0655 0.0643 0.0630 0.0618 0.0606 0.0594 0.0582 0.0571 0.0559 1.6 0.0548 0.0537 0.0526 0.0516 0.0505 0.0495 0.0485 0.0475 0.0465 0.0455 1.7 0.0446 0.0436 0.0427 0.0418 0.0409 0.0401 0.0392 0.0384 0.0375 0.0367 1.8 0.0359 0.0351 0.0344 0.0336 0.0329 0.0322 0.0314 0.0307 0.0301 0.0294 1.9 0.0287 0.0281 0.0274 0.0268 0.0262 0.0256 0.0250 0.0244 0.0239 0.0233 2 0.0228 0.0222 0.0217 0.0212 0.0207 0.0202 0.0197 0.0192 0.0188 0.0183 2.1 0.0179 0.0174 0.0170 0.0166 0.0162 0.0158 0.0154 0.0150 0.0146 0.0143 2.2 0.0139 0.0136 0.0132 0.0129 0.0125 0.0122 0.0119 0.0116 0.0113 0.0110 2.3 0.0107 0.0104 0.0102 0.0099 0.0096 0.0094 0.0091 0.0089 0.0087 0.0084 2.4 0.0082 0.0080 0.0078 0.0075 0.0073 0.0071 0.0069 0.0068 0.0066 0.0064 2.5 0.0062 0.0060 0.0059 0.0057 0.0055 0.0054 0.0052 0.0051 0.0049 0.0048 2.6 0.0047 0.0045 0.0044 0.0043 0.0041 0.0040 0.0039 0.0038 0.0037 0.0036 2.7 0.0035 0.0034 0.0033 0.0032 0.0031 0.0030 0.0029 0.0028 0.0027 0.0026 2.8 0.0026 0.0025 0.0024 0.0023 0.0023 0.0022 0.0021 0.0021 0.0020 0.0019 68 2.9 0.0019 0.0018 0.0018 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.0014 3 0.0013 0.0013 0.0013 0.0012 0.0012 0.0011 0.0011 0.0011 0.0010 0.0010 3.5 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 4 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 4.5 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 5 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 69 Tabella A-2. Valori critici del t di Student g.l. α = 0.10 α = 0.05 α = 0.025 α = 0.01 α = 0.005 α = 0.001 1 3.078 6.314 12.706 31.821 63.657 318.313 2 1.886 2.920 4.303 6.965 9.925 22.327 3 1.638 2.353 3.182 4.541 5.841 10.215 4 1.533 2.132 2.776 3.747 4.604 7.173 5 1.476 2.015 2.571 3.365 4.032 5.893 6 1.440 1.943 2.447 3.143 3.707 5.208 7 1.415 1.895 2.365 2.998 3.499 4.782 8 1.397 1.860 2.306 2.896 3.355 4.499 9 1.383 1.833 2.262 2.821 3.250 4.296 10 1.372 1.812 2.228 2.764 3.169 4.143 11 1.363 1.796 2.201 2.718 3.106 4.024 12 1.356 1.782 2.179 2.681 3.055 3.929 13 1.350 1.771 2.160 2.650 3.012 3.852 14 1.345 1.761 2.145 2.624 2.977 3.787 15 1.341 1.753 2.131 2.602 2.947 3.733 16 1.337 1.746 2.120 2.583 2.921 3.686 17 1.333 1.740 2.110 2.567 2.898 3.646 18 1.330 1.734 2.101 2.552 2.878 3.610 19 1.328 1.729 2.093 2.539 2.861 3.579 20 1.325 1.725 2.086 2.528 2.845 3.552 21 1.323 1.721 2.080 2.518 2.831 3.527 22 1.321 1.717 2.074 2.508 2.819 3.505 23 1.319 1.714 2.069 2.500 2.807 3.485 24 1.318 1.711 2.064 2.492 2.797 3.467 25 1.316 1.708 2.060 2.485 2.787 3.450 26 1.315 1.706 2.056 2.479 2.779 3.435 27 1.314 1.703 2.052 2.473 2.771 3.421 28 1.313 1.701 2.048 2.467 2.763 3.408 29 1.311 1.699 2.045 2.462 2.756 3.396 30 1.310 1.697 2.042 2.457 2.750 3.385 40 1.303 1.684 2.021 2.423 2.704 3.307 60 1.296 1.671 2.000 2.390 2.660 3.232 120 1.289 1.658 1.980 2.358 2.617 3.160 240 1.285 1.651 1.970 2.342 2.596 3.125 1.282 1.645 1.960 2.326 2.576 3.090 70 Tabella A – 3. Valori critici della distribuzione del chi-quadrato α=0.10 α=0.05 α=0.01 α=0.001 1 2.706 3.841 5.024 6.635 10.828 2 4.605 5.991 7.378 9.210 13.816 3 6.251 7.815 9.348 11.345 16.266 4 7.779 9.488 11.143 13.277 18.467 5 9.236 11.070 12.833 15.086 20.515 6 10.645 12.592 14.449 16.812 22.458 7 12.017 14.067 16.013 18.475 24.322 8 13.362 15.507 17.535 20.090 26.125 9 14.684 16.919 19.023 21.666 27.877 10 15.987 18.307 20.483 23.209 29.588 11 17.275 19.675 21.920 24.725 31.264 12 18.549 21.026 23.337 26.217 32.910 13 19.812 22.362 24.736 27.688 34.528 14 21.064 23.685 26.119 29.141 36.123 15 22.307 24.996 27.488 30.578 37.697 16 23.542 26.296 28.845 32.000 39.252 17 24.769 27.587 30.191 33.409 40.790 18 25.989 28.869 31.526 34.805 42.312 19 27.204 30.144 32.852 36.191 43.820 20 28.412 31.410 34.170 37.566 45.315 21 29.615 32.671 35.479 38.932 46.797 22 30.813 33.924 36.781 40.289 48.268 23 32.007 35.172 38.076 41.638 49.728 24 33.196 36.415 39.364 42.980 51.179 25 34.382 37.652 40.646 44.314 52.620 26 35.563 38.885 41.923 45.642 54.052 27 36.741 40.113 43.195 46.963 55.476 28 37.916 41.337 44.461 48.278 56.892 29 39.087 42.557 45.722 49.588 58.301 30 40.256 43.773 46.979 50.892 59.703 31 41.422 44.985 48.232 52.191 61.098 32 42.585 46.194 49.480 53.486 62.487 33 43.745 47.400 50.725 54.776 63.870 34 44.903 48.602 51.966 56.061 65.247 35 46.059 49.802 53.203 57.342 66.619 g.l α=0.025 71 36 47.212 50.998 54.437 58.619 67.985 37 48.363 52.192 55.668 59.893 69.347 38 49.513 53.384 56.896 61.162 70.703 39 50.660 54.572 58.120 62.428 72.055 40 51.805 55.758 59.342 63.691 73.402 50 63.167 67.505 71.420 76.154 86.661 60 74.397 79.082 83.298 88.379 99.607 70 85.527 90.531 95.023 100.425 112.317 80 96.578 101.879 106.629 112.329 124.839 90 107.565 113.145 118.136 124.116 137.208 100 118.498 124.342 129.561 135.807 149.449 72