Statistica La statistica riguarda la raccolta, presentazione, analisi (elaborazione) e utilizzazione di dati numerici allo scopo di effettuare inferenze, estrapolazioni, e di fornire indicazioni decisionali in situazioni che presentano un certo grado di aleatorietà. Essa è utilizzata in settori quali l’economia, le scienze sociali, le scienze fisiche, naturali, l’agronomia, la medicina, il controllo di qualità, ecc. Il materiale di base su cui opera la statistica è costituito dai dati, cioè da valori numerici. Se una determinata caratteristica può assumere diversi valori numerici si parla di una variabile. Le variabili possono essere di due tipi: 1) Variabili qualitative, quando la caratteristica non può essere misurata, ma solo classificata in base ad aspetti qualitativi. I dati numerici, in questo caso, consistono nelle frequenze degli elementi che possiedono le caratteristiche rilevate. Un esempio di variabile qualitativa può essere il numero di alberi di diverse specie presenti in una determinata area di un bosco, il numero di piante sane o con diversi livelli di sintomi di una malattia, il numero di individui con un determinato gruppo sanguigno, le preferenze elettorali, ecc. 2) Variabili quantitative quando è possibile effettuare una misurazione della caratteristica, ad esempio l’altezza delle piante, il peso specifico del legno, il diametro del tronco, la velocità di crescita, l’efficienza fotosintetica, ecc. La statistica si articola in due settori principali: descrittiva e inferenziale. La statistica descrittiva riguarda la descrizione sintetica di un insieme di dati mediante il calcolo di parametri statistici; questi si riferiscono all’intera popolazione che rappresenta l’universo statistico, cioè la totalità dei dati. Essa fa riferimento, inoltre, ai criteri per la presentazione dei dati sotto forma di tabelle e grafici. La statistica inferenziale consiste nell’insieme dei procedimenti che permettono di trarre inferenze (cioè di estrapolare dal particolare al generale) e formulare ipotesi sulla struttura della popolazione esaminando un campione, cioè un sottoinsieme, una parte di essa. Attraverso un ragionamento deduttivo è possibile dedurre le caratteristiche che avrà un campione estratto da una popolazione, mentre con il metodo induttivo (dal particolare al generale) è possibile estrapolare le caratteristiche di una popolazione analizzando un campione. Affinché l’inferenza o estrapolazione sulla struttura della popolazione sia valida è necessario che il campione esaminato sia rappresentativo e sia specificata la probabilità di errore derivante da tale inferenza. La statistica nacque come scienza puramente descrittiva, ma la sua componente inferenziale, sviluppatasi successivamente, è divenuta fondamentale a tutti i livelli e in tutti i settori nei processi decisionali. L’analisi statistica moderna, quindi, si riferisce prevalentemente all’analisi induttiva o inferenziale. I due aspetti, tuttavia, si complementano, infatti è necessario conoscere, sulla base del calcolo delle probabilità, la struttura dei campioni che si possono estrarre da una popolazione, prima di effettuare il procedimento inverso, di stima dei parametri della popolazione sulla base di un campione estratto da essa. Affinché l’inferenza sia valida è necessario che il campione sia rappresentativo. Per essere tale il campione deve essere casuale, cioè ciascuno degli elementi della popolazione deve avere la stessa probabilità di essere estratto. La possibilità dell’errore è intrinseca all’inferenza statistica, quindi le stime o i saggi (test) dei parametri statistici di una popolazione devono comprendere anche una valutazione della probabilità di errore. Statistica descrittiva 2.1 Distribuzioni di frequenza A volte può essere opportuno organizzare un insieme di dati in una distribuzione di frequenze, suddividendo i dati in gruppi o classi e indicando il numero di osservazioni in ciascuna classe. Dividendo il numero di osservazioni in ciascuna classe per il numero totale di osservazioni nell’insieme dei dati si ottiene una distribuzione di frequenze relative, la cui somma è uguale a uno. Un istogramma consiste in un grafico a barre, basato su una distribuzione di frequenza, nel quale le classi sono disposte lungo l’asse orizzontale e le frequenze lungo quello verticale. Un poligono di frequenze consiste in un grafico lineare ottenuto congiungendo le frequenze di ciascuna classe nel punto centrale dei valori della classe. Una distribuzione di frequenze cumulate comprende, per ciascuna classe, anche il numero totale di osservazioni in tutte le classi precedenti; quando viene tracciata si ottiene una curva di distribuzione od ogiva. Esempio 1. Uno studente ha ricevuto i seguenti voti (grades) da 0 a 10 nei 10 quiz svolti durante un semestre: 6, 7, 6, 8, 5, 7, 6, 9, 10 e 6. Questi voti possono essere organizzati in distribuzioni di frequenza (Tab. 2.1) e graficamente (Fig. 2.1). 1 Esempio 2. Venti barattoli (cans) di un campione contengono un peso netto variabile tra 19,3 e 20,9 once (1 oncia=28,35 g), come illustrato in Tab. 2.2. Raggruppando questi dati in sei classi si ottengono intervalli di classe di 0,3 once [(21,0-19,2)/6=0,3 once]. I pesi in Tab 2.2 sono organizzati in distribuzioni di frequenza in Tab. 2.3 e mostrati graficamente in Fig. 2.2. 2 2.2 Indici di tendenza centrale Gli indici o misure di tendenza centrale più importanti sono: 1) la media, 2) la mediana e 3) la moda. Essi possono essere determinati per la popolazione (o universo statistico, l’insieme di tutti gli elementi che vogliamo descrivere) o per campioni estratti da essa utilizzando dati aggregati (raggruppati) o disaggregati (non raggruppati). 1. La media aritmetica di una popolazione viene indicata con la lettera greca μ, quella di un campione con X (Esempio 3). Per dati disaggregati μ e X si calcolano con le seguenti formule: X e X X n N dove ΣX è la somma di tutte le osservazioni, mentre N e n si riferiscono, rispettivamente, al numero di osservazioni nella popolazione e nel campione. Per dati aggregati μ e X si calcolano con le seguenti formule: fX N e X fX n dove ΣfX si riferisce alla somma delle frequenze di ciascuna classe f moltiplicata per il valore centrale X della classe (Esempio 4). 2. La mediana per dati disaggregati rappresenta il valore dell’elemento centrale quando tutti gli elementi sono ordinati in termini di valori ascendenti o discendenti. Mediana = (N+1)/2 esimo elemento nella serie di dati. Per dati aggregati: n/2 F c fm Dove: L= limite inferiore della classe mediana, cioè della classe che contiene la mediana n= numero di osservazioni F= somma delle frequenze fino alla classe mediana esclusa f m=frequenza della classe mediana c= ampiezza dell’intervallo di classe. Mediana L La moda è il valore che presenta la massima frequenza nell’insieme di dati. Per dati aggregati: d1 Moda L c d1 d 2 dove L= limite inferiore della classe modale (classe con la massima frequenza) d1= frequenza della classe modale meno la frequenza della classe precedente d2= frequenza della classe modale meno la frequenza della classe successiva c= ampiezza dell’intervallo di classe. 3. 3 La media è la misura di tendenza centrale più comunemente utilizzata. La media, tuttavia, è influenzata dai valori estremi, mentre la mediana e la moda non lo sono. Altre misure di tendenza centrale sono la media ponderata, la media geometrica e la media armonica. 4. Media ponderata. Si calcola moltiplicando i singoli valori, prima di sommarli, per il loro peso, che, in genere, coincide con il numero di volte in cui quel dato è presente (frequenza). Esempio: Una ditta paga un salario orario di 4€ a 25 manovali, 6€ a 15 operai e 8€ a 10 operai specializzati, si vuol conoscere il salario medio (media ponderata) pagato dalla ditta. 4 25 6 15 8 10 25 15 10 w 100 90 80 50 270 50 5,40 5. Media geometrica. Si calcola con la radice n-esima del prodotto di tutti i valori. Si usa, ad esempio, per i tassi di crescita, d’interesse o d’inflazione. Esempio. Una nazione ha un tasso di inflazione del 2% il primo anno, 5% il secondo anno e 12,5% il terzo anno. Si vuol conoscere la media geometrica del tasso di inflazione. G XG n X1 X 2 3 Xn G 2 5 12,5 3 125 5% In pratica la media geometrica si calcola utilizzando i logaritmi: log log x G N Esempio 3. Calcolo del voto medio per la popolazione costituita dai voti dei 10 quiz dell’Esempio 1, usando la formula per dati disaggregati: X N 6 7 6 8 5 7 6 9 10 6 10 70 10 7 Per calcolare la mediana per i dati disaggregati prima si dispongono i dati in ordine crescente: 5, 6, 6, 6, 6, 7, 7, 8, 9, 10. Poi si calcola il valore dell’elemento centrale: (N+1)/2= (10+1)/2= 5,5 esimo valore. Quindi la mediana sarà data dalla media del 5° e 6° elemento della serie ordinata di dati: (6+7)/2= 6,5. Il valore della moda per questo insieme di dati è 6 (valore di massima frequenza). Esempio 4. E’ possibile stimare la media dei dati aggregati del campione in Tab 2.3 con l’aiuto della Tab. 2.4: fX 401,6 X 20,08 n 20 La mediana per gli stessi dati aggregati si calcola come segue: 4 dove: L= 19,8= limite inferiore dela classe mediana (classe 19,8-20,0 contenente la 10a e 11a osservazione) n= 20= numero di osservazioni o elementi F= 3= somma delle frequenze precedenti ma non comprendenti la classe mediana f m= 8= frequenza della classe mediana c= 0,3= ampiezza dell’intervallo di classe Analogamente per la moda: Esempio 5. I 25 lavoratori di un’azienda ricevono le retribuzioni orarie (wages) in dollari riportate in Tab. 2.10. a) Disporre i dati in ordine crescente. b) Raggruppare i dati in classi. c) Presentare i dati in forma di istogramma, istogramma delle frequenze relative. d) Calcolare la media utilizzando i dati singoli (disaggregati). e) Calcolare la media utilizzando i dati aggregati in classi di frequenza. a) b) I dati variano tra 3,55 e 4,26, quindi è opportuno suddividerli in 8 classi con ampiezza 0,1 (4,30-3,50)/8=0,1). Occorre calcolare anche il punto centrale di ciascuna classe. 5 c) d) X X n 3,65 3,78 3,85 25 4,05 98,65 25 3,95 e) X fX n 98,75 25 3,95 6 2.3 Indici di dispersione La dispersione si riferisce alla variabilità esistente nei dati. Gli indici o misure di dispersione più importanti sono: 1) la varianza e 2) la deviazione standard. Anche gli indici di dispersione possono essere calcolati per la popolazione o per un campione e per dati aggregati (raggruppati) o disaggregati (non raggruppati). 1. La varianza della popolazione si indica con σ2 (sigma), quella del campione con s2 e si calcolano come segue per dati disaggregati: )2 (X 2 e N X )2 (X s2 n 1 e per dati aggregati: 2 )2 f (X N e X )2 f (X s2 n 1 2. Le deviazioni standard della popolazione e del campione si ottengono estrendo la radice quadrata della varianza. Per dati disaggregati: (X )2 e N s (X X )2 n 1 e per dati aggregati: f (X )2 e N s f (X X )2 n 1 n-1= gradi di libertà. da usare per i campioni. Gli indici di dispersione più utilizzati sono la varianza e la deviazione standard. Altri indici sono il campo di variazione (range), la variazione interquartile e la deviazione quartile. 3. Il coefficiente di variazione CV (o V) misura la dispersione relativa: CV= / per le popolazioni; CV= s/ X per i campioni. Esempio 5. La varianza, la deviazione standard e il coefficiente di variazione dei dati in Tab. 2.1 dell’esempio 1 (dati disaggregati, popolazione) possono essere calcolati con l’aiuto della Tab. 2.5 ( = 7). 7 (X 2 N )2 22 10 N 1,48 7 CV )2 (X 2,2 ; 22 10 2,2 1,48 0,21 , o anche 21% Esempio 6. Varianza, deviazione standard e coefficiente di variazione per la distribuzione di frequenza dei pesi (dati aggregati, campione) in Tab. 2.3 possono essere calcolati con l’aiuto della Tab. 2.6 ( X =20,08). s2 f (X n 1 X )2 2,952 19 0,1554 ; CV s X f (X s 0,3942 20,08 X )2 n 1 2,952 19 0,1544 0,3942 0,0196 , o anche 1,96% 2.4 Forma delle distribuzioni di frequenza La forma delle distribuzioni di frequenza si riferisce 1) al grado di simmetria o asimmetria (skewness) e 2) al livello di compattezza (curtosi). 1. Simmetria/asimmetria (skewness). Una distribuzione ha asimmetria (skewness) zero se è simmetrica rispetto alla sua media. In una distribuzione simmetrica e unimodale media, mediana e moda coincidono. Una distribuzione è positivamente asimmetrica se la coda destra è più lunga (allora: media>mediana>moda); è negativamente asimmetrica se è più lunga la coda sinistra (allora: moda>mediana>media). L’asimmetria o skewness (Sk) si può calcolare con il coefficiente di asimmetria di Pearson: per le popolazioni: per i campioni: Per le distribuzioni simmetriche: Sk= 0. 2. Curtosi. Una curva ristretta e alta si definisce leptocurtica, una bassa e ampia platicurtica, in riferimento a una curva intermedia definita mesocurtica. 8 Esempio 7. Calcolo del coefficiente di asimmetria (skewness) di Pearson per i voti dell’esempio 1 ( = 7, mediana= 6,5 (Esempio 3) e = 1,48 (Esempio 5): Analogamente per i dati del campione in Tab 2.2 e la distribuzione di frequenza in Tab. 2.3 dell’esempio 2 ( X = 20,08, mediana= 20,06 (Esempio 4) e s= 0,39 (Esempio 6)): 2.5 Formula semplificata per il calcolo della varianza E’ possibile dimostrare che le formule per il calcolo della varianza viste in precedenza: )2 (X 2 (popolazione) N X )2 (X s2 e n 1 (campione) equivalgono a quelle seguenti, molto più semplici e comunemente utilizzate: ( X )2 N N X2 2 X2 (popolazione) s2 e ( X )2 n (campione) n 1 e per i dati aggregati: fX 2 ( fX ) 2 N 2 fX 2 (popolazione) N s2 e ( fX 2 ) n n 1 (campione) Dimostrazione: )2 (X 2 (X 2 N X 2 N N 2 2X X2 ) 2 N 2 X2 N( N X N X N )2 X2 ( N 2 X2 N 2 2 2 X )2 N N 9 Esempio 8. Calcolo della varianza, della deviazione standard e del coefficiente di variazione per una popolazione utilizzando la formula semplificata dei dati in Tab. 2.7 (Voti da 0 a 10 in una classe di 40 studenti). e per i dati aggregati in Tab. 2.20: CV= / =2,19/6=3,65 ovvero: 3,65% 10 Esempio 9. Calcolo della varianza, della deviazione standard e del coefficiente di variazione per un campione utilizzando la formula semplificata dei dati in Tab. 2.10 (Retribuzione oraria in dollari ($) di 25 operai). 2 2 2 2 2 2 X =3,65 +3,78 +3,85 +....................+4,18 +4,05 =390,13 X=3,65+3,78+3,85+.......................+4,18+4,05=98,65 X = X/n=98,65/25=3,95 X)2/n=98,652/25=389,27 ( X )2 X2 n = 390,13 389,27 =0,036 s2 24 n 1 s s 2 = 0,036 =0,19 CV=s/ X =0,19/3,95=0,048 ovvero: 4,8% 11 Probabilità e distribuzioni di probabilità 3.1 Probabilità di un evento singolo Se un evento A può verificarsi nA volte su un totale di N eventi possibili ed equiprobabili, la probabilità che si verifichi l’evento A sarà data da: P ( A) nA N La probabilità può essere visualizzata con un diagramma di Venn. In Fig. 3-1 il cerchio rappresenta l’evento A, mentre l’area totale del rettangolo rappresenta tutti i possibili eventi. P(A) varia tra 0 e 1. Se P(A)=0 l’evento A non può verificarsi, è impossibile. Se P(A)=1 l’evento A si verificherà certamente. Se P(A’) rappresenta la probabilità che non si verifichi A, allora: P(A)+P(A’)=1 Esempio 1. Lanciando una moneta bilanciata testa (T) e croce (C) sono due eventi con le stesse possibilità, Quindi: nC 1 ; nT 1 ; P(T ) P(C ) 1 P (T ) P (C ) N 2 N 2 Esempio 2. Lanciando un dado una volta sono possibili sei risultati ugualmente probabili: 1, 2, 3, 4, 5 e 6. Quindi: La probabilità di non ottenere 1 è: ne consegue: Esempio 3. Un mazzo da poker ha 52 carte con quattro colori (cuori, quadri, fiori, picche) e 13 carte per ciascun colore. Se il mazzo è ben mescolato esiste la stessa probabilità di estrarre una qualsiasi delle 52 carte. Poichè ci sono 4 jack (J), la probabilità di estrarne uno è: J nJ N 4 52 1 13 Poichè ci sono 13 quadri, indicati con Q; la probabilità di estrarre un quadri è P(Q), quella di estrarre una carta di versa è P(Q’): P (Q) 13 52 1 4 P (Q' ) 1 P (Q) 1 1 4 3 4 12 Esempio 4. Supponiamo che in 100 lanci di una moneta si ottengano 53 teste (H) e 47 croci (T). La frequenza relativa delle teste è 53/100, o 0,53. Questa è la frequenza relativa della probabilità empirica (osservata), che deve essere distinta dalla probabilità a priori o classica P(H)=0,5. All’aumentare del numero di lanci (limite che tende a infinito) la probabilità osservata converge verso la probabilità a priori. 3.2 Probabilità di eventi multipli 1. Regola dell’addizione per eventi non mutuamente esclusivi. Due eventi, A e B, non sono mutuamente esclusivi se il verificarsi di A non preclude il verificarsi di B, o viceversa. Quindi: P(A o B)=P(A)+P(B)-P(A e B) P( A B) ovvero: P( B) P( A B) P( A) si sottrae P(A e B) per evitare di conteggiare due volte la parte in comune. Il diagramma di Venn in Fig. 3.2 chiarisce meglio il motivo (se non si sottraesse P(AeB) la parte centrale del diagramma verrebbe conteggiata due volte, prima per A e poi per B). 2. Regola dell’addizione per eventi mutuamente esclusivi. Due eventi A e B sono mutuamente esclusivi se il verificarsi di A preclude il verificarsi di B, o viceversa. Quindi: P(A e B)=P(A)+P(B) P( A B) ovvero: P( A) P( B) 3. Regola del prodotto per eventi dipendenti. Due eventi sono dipendenti se il verificarsi di uno è connesso in qualche maniera con il verificarsi dell’altro. Quindi la probabilità congiunta di A e B è: P(A e B)=P(A)∙P(B/A) P( A B) ovvero: P ( A) P ( B / A) che va letto: “La probabilità che entrambi gli eventi A e B si verifichino è data dal prodotto della probabilità dell’evento A per la probabilità dell’evento B, posto che A si sia già verificato.” P(B/A)=probabilità condizionata dell’evento B, dato che l’evento A si sia già verificato; inoltre: cioè: P(A e B)=P(B e A) P( A B) P( A) P( B / A) P( B) P( A / B) 4. Regola del prodotto per eventi indipendenti. Due eventi A e B sono indipendenti se il verificarsi di A non è connesso in nessuna maniera al verificarsi di B. [P(B/A)=P(B)]. Quindi: P(A e B)=P(A)∙(P(B) cioè: P( A B) P ( A) P ( B ) 13 Esempio 5. (Regola 2) Con un singolo lancio di un dado possiamo ottenere 1, 2, 3, 4, 5 o 6. Questi sono eventi mutuamente esclusivi, quindi P(1)=P(2)=P(3)=P(4)=P(5)=P(6)=1/6. La probabilità di ottenere 2 o 3 in un singolo lancio sarà: P (2 3) P ( 2) 1 6 1 6 2 6 1 3 P (4) 1 6 1 6 1 6 P (3) e quella di ottenere 2 o 3 o 4: P (2 3 4) P ( 2) P(3) 3 6 1 2 Esempio 6. (Regola 1) Le probabilità di estrarre da un mazzo di carte una carta di picche (P) o un re (R) da un mazzo di carte da poker non costituiscono due eventi mutuamente esclusivi, perchè potrebbe essere estratto un re di picche. Quindi: P(P o R)=P(P)+P(R)-P(P e R) 13 52 Usando i simboli degli insiemi: 4 52 1 52 16 52 4 13 13 4 1 16 4 52 52 52 52 13 dove il simbolo di unione sostituisce “o” e il simbolo di intersezione sostituisce “e”. P( P R) P( P) P( R) P( P R) Esempio 7. (Regola 4) I risultati di due lanci successivi di una moneta sono eventi indipendenti. Il risultato del primo lancio non influenza quello del secondo lancio. Quindi (T=testa, C=croce): P(T e T)=P(T∩T)=P(T)∙P(T)= analogamente, per tre lanci: 1 1 2 2 1 4 0,25 P(T e T e T)= P(T∩T∩T)=P(T)∙P(T) P(T)= 1 1 1 2 2 2 1 8 0,125 Esempio 8. (Regola 3, probabilità condizionata) La probabilità di ottenere un re di quadri (Rq) alla prima estrazione è: 1 P ( Rq ) 52 Se la prima carta estratta è proprio il re di quadri e non viene reintrodotta, la probabilità di ottenere un altro re alla seconda estrazione sarà dipendente dalla prima estrazione, perchè ora ci sono tre re su 51 carte rimaste. La probabilità condizionata di estrarre un secondo re, dato che il re di quadri è stato già estratto e non reintrodotto, è: 3 P ( R / Rq ) 51 Quindi la probabilità di ottenere il re di quadri alla prima estrazione e, senza reintroduzione, di estrarre un secondo re sarà: P(Rq e R)=P(Rq)∙P(R/Rq)= 1 3 52 51 3 2652 14 3.3 Distribuzioni di probabilità discrete: la distribuzione binomiale Una variabile casuale o random o stocastica è una variabile i cui valori sono associati con una certa probabilità di essere osservata. Una variabile casuale discreta o qualitativa (in contrapposizione a una continua o quantitativa) può assumere solo valori finiti e distinti. Si definisce distribuzione di probabilità l’insieme di tutti i possibili valori di una variabile casuale e delle probabilità ad essa associate. La somma di tutte le probabilità ha valore 1 (uno). Una distribuzione di variabilità discreta è la distribuzione binomiale, che fornisce la probabilità che si verifichi X volte un evento o di successi di un evento, P(X), in n ripetizioni dello stesso esperimento. Le condizioni sono: 1) che ci siano due sole possibilità mutuamente esclusive (es. testa o croce), 2) che le n ripetizioni siano indipendenti (ogni lancio è indipendente dagli altri) e 3) che la probabilità di successo p rimanga costante in ciascuna ripetizione dell’esperimento. Quindi: n P( X ) x p X qn X n! p X qn X !(n X )! n! p X (1 p) n X !(n X )! X X dove n è il numero delle ripetizioni ed n fattoriale: n!=n∙(n-1)∙(n-2)∙∙∙∙∙∙∙∙∙3∙2∙1 e per definizione 0!=1; p= frequenza di un evento A (es. croce), q= frequenza di un evento alternativo B (es. testa), p+q=1. La media della distribuzione binomiale è: np 2 La varianza è: npq np(1 p) La deviazione standard è: npq np(1 p) Se p=q=1-p=0,5 la distribuzione binomiale è simmetrica; se p<0,5 è asimmetrica verso destra; se p>0,5 è asimmetrica verso sinistra. Esempio 9. Gli esiti possibili di due lanci di una moneta (T=testa, C=croce) sono: TT, TC, CT e CC. Quindi: P (0T ) 1 4 P (1T ) 1 2 P(2T ) 1 4 Il numero di teste è quindi una variabile casuale discreta e l’insieme di tutti gli eventi possibili con le loro probabilità associate costituisce una distribuzione di probabilità discreta (nella tabella e nel grafico seguenti H (Head)=T e T (Tail)=C). Esempio 10. Usando la distribuzione binomiale possiamo calcolare la probabilità di ottenere 4 teste in 6 lanci di una moneta: 15 Il numero atteso di teste in 6 lanci sarà: np 6 1 2 3 e la deviazione standard della distribuzione di probabilità di 6 lanci sarà: np(1 p) 6 1 1 2 2 6 4 1,5 1,22 Poichè p=0,5 la distribuzione di probabilità è simmetrica. Esempio 11. a) Calcolare la probabilità di ottenere 3 teste in 5 lanci di una moneta. b) Calcolare la probabilità di ottenere meno di 3 teste. P( X ) n x p X qn X n! p X qn X ! (n X )! X n! p X (1 X !(n X )! p) n X a) n=5; X=3; p=0,5. P(3) 5! 0,530,52 3!(5 3)! 120 5 0,5 12 0,3125 b) P( X 3) P(0) P(1) P(2) 5! 5 P(0) 0,500,55 0,03125 0,03125 0!5! 5 5! 120 P(1) 0,510,54 0,5 0,0625 0,15625 1!(5 1)! 24 5! 120 P(2) 0,520,53 0,25 0,125 0,3125 2!(5 2)! 12 P( X 3) P(0) P(1) P(2) 0,03125 0,15625 0,3125 3.4 0,5 La distribuzione di Poisson La distribuzione di Poisson è un’altra distribuzione di probabilità discreta. E’ utilizzata per determinare la probabilità di un determinato numero di successi per unità di tempo, posto che gli eventi o successi siano indipendenti e che il numero medio di successi per unità di tempo rimanga costante. Allora: X P( X ) e X! dove: X= numero designato di successi P(X)= probabilità di ottenere X successi = numero medio di successi per unità di tempo e= base dei logaritmi naturali (2,71828) Esempio 11. Un dipartimento di polizia riceve una media di 5 chiamate all’ora. La probabilità di ricevere 2 chiamate in un’ora selezionata a caso è: X P( X ) e X! 52 e 5 2! 25 0.00674 2 0,08425 La distribuzione di Poisson può essere usata come un’approssimazione della distribuzione binomiale quando n è elevato e p o 1-p sono piccoli. 3.5 Distribuzioni di probabilità continue Una variabile casuale continua X può assumere un numero infinito di valori in ogni intervallo dato. La probabilità che X ricada entro ciascun intervallo è data dall’area sottostante la distribuzione di probabilità (o funzione di densità). L’area totale (probabilità) sottostante la curva è 1 (uno). La distribuzione normale è la distribuzione di probabilità continua più comunemente utilizzata nell’analisi statistica. La curva normale ha forma a campana ed è simmetrica rispetto alla media. Essa si 16 estende indefinitamente (asintoticamente) in entrambe le direzioni, ma gran parte dell’area (probabilità) si addensa intorno alla media; il 68,26% dell’area (probabilità) al di sotto della curva normale è compreso entro una deviazione standard dalla media in entrambe le direzioni (cioè entro µ±1σ), 95,44% entro µ±2σ e 99,74% entro µ±3σ. La distribuzione normale standard è una distribuzione normale con media 0 e deviazione standard 1 (cioè µ=0 e σ=1). Qualsiasi distribuzione normale (X scale in Fig. 3-4) può essere convertita, mediante una trasformazione lineare, in una distribuzione normale standard ponendo µ=0 ed esprimendo le deviazioni dalla media in unità di deviazione standard (scala z). Per trovare le probabilità (aree) per problemi inerenti la distribuzione normale, occorre prima convertire il valore X nel valore z corrispondente (trasformazione lineare) come segue: z X In appendice 3 sono riportati i valori di z. La tabella riporta la proporzione dell’area (probabilità) sotto la curva compresa tra la media e il valore z. Una distribuzione di probabilità continua si riferisce all’intervallo di tutti gli infiniti valori che possono essere assunti da una variabile casuale continua, insieme alle probabilità ad essi associate. La distribuzione di probabilità di una variabile casuale continua può essere definita come una funzione di densità di probabilità o, più semplicemente, una funzione di probabilità. Essa è data da una curva a campana tale che l’area totale (probabilità) sotto la curva assuma valore 1. Poichè una variabile casuale continua può assumere un numero infinito di valori all’interno di ogni intervallo definito, la probabilità di ogni valore specifico è pari a 0. E’ possibile, tuttavia, misurare la probabilità che una variabile casuale continua X assuma qualsiasi valore entro un dato intervallo (ad esempio tra X1 e X2) calcolando l’area sottostante la curva e compresa in quell’intervallo, cioè dall’integrale definito: X2 P( X 1 X X2) f ( X )dX X1 dove f(X) è l’equazione della funzione di densità di probabilità. Una distribuzione normale è una funzione di probabilità continua con forma a campana, simmetrica rispetto alla media e mesocurtica. Allontanandosi dalla media in entrambe le direzioni, la curva normale si avvicina asintoticamente all’asse orizzontale, senza mai toccarlo. L’equazione della funzione di probabilità normale è data da: f (X ) 2 )2 (X 1 2 e 2 2 1 e 2 1 X ( 2 )2 dove: f(X)= ordinata (altezza) della curva normale; e= 2,7183 = 3,1426 = media della distribuzione = deviazione standard della distribuzione 17 X e poichè: z l’equazione della variabile normale standardizzata sarà: f ( z) l’area totale da a z2 2 1 e 2 racchiusa dalla curva normale è: 1 2 2 e (X 2 )2 2 dX 1 La distribuzione normale standard è una distribuzione normale con =0 e =1. Qualsiasi distribuzione normale (definita da un determinato valore di e può essere trasformata in una distribuzione normale standard ponendo =0 ed esprimendo le deviazioni da in unità di deviazione standard. E’ possibile calcolare le aree (probabilità) convertendo i valori X nei corrispondenti valori z (trasformazione lineare: z=(X- )/ ) e cercando i valori calcolati nella tabella di z. Esempio 12. L’area (probabilità) sottostante la curva normale standard e compresa tra z= 0 e z= 1,96 si ottiene in corrispondenza del valore di 1,96 in App. 3. Il valore z=0.4750 significa che il 47,50% dell’area totale sotto la curva è compreso tra 0 e 1,96. Ovviamente, essendo la curva simmetrica, anche l’area compresa tra -1,96 e 0 è del 47,50%. Quindi l’area totale compresa tra -1,96 e +1,96 è 0,95, cioè comprende il 95% dell’area totale sottesa dalla curva normale. Esempio 13. Supponiamo che X sia una variabile casuale distribuita normalmente con = 10 e 2= 4 e che si voglia conoscere la probabilità che X assuma un valore tra 8 e 12. Prima si calcolano i valori z corrispondenti ai valori 8 e 12 di X, quindi si cercano i valori z ottenuti in tabella. z1 X1 8 10 2 1 z2 X2 12 10 2 1 Per z=1 si ottiene un valore di 0,3413, quindi z= ±1 equivale a 2(0,3413)= 0,6826. Ciò significa che la probabilità che X assuma un valore tra 8 e 12 [P(8<X<12)] è 68,26% (Fig. 3-4). Esempio 14. Supponiamo ancora che X sia una variabile casuale distribuita normalmente con = 10 e La probabilità che X assuma un valore tra 7 e 14 è: z1 X1 7 10 2 1,5 z2 X2 14 10 2 2 =4. 2 In tabella per z1= -1,5 otteniamo 0,4322 e per z2= 2 otteniamo 0,4772. Perciò P(7<X<14)= 0,4332+0,4772=0,9104, ovvero 91,04% (Fig. 3-5). Quindi la probabilità che X assuma un valore inferiore a 7 o superiore a 14 è di 1-0,9104= 0,0896, cioè 8,96%. La distribuzione normale approssima la distribuzione binomiale quando n≥30, np>5 e n(1-p)>5, mentre approssima la distribuzione di Poisson quando ≥10. 18 Inferenza statistica: Stima 4.1 Campionamento L’inferenza statistica è uno degli aspetti più importanti e cruciali nel processo decisionale in ambito scientifico, economico e finanziario. Attraverso un procedimento induttivo essa permette di definire le caratteristiche di una popolazione dall’osservazione di una parte di essa, detta campione. La popolazione consiste in tutti gli elementi dell’insieme oggetto di studio, mentre il campione consiste in una porzione di elementi estratti dalla popolazione. L’analisi dell’intera popolazione può essere impossibile o antieconomica, ad esempio per le sue dimensioni o perchè l’acquisizione dei dati comporta la distruzione degli elementi studiati. Queste difficoltà possono essere superate estraendo un campione rappresentativo, cioè casuale, dalla popolazione. L’inferenza statistica si riferisce alla stima e al saggio (test) delle ipotesi. La stima consiste nel processo di inferenza o stima di un parametro di una popolazione dalle statistiche (stimatori) corrispondenti relative a un campione estratto dalla popolazione. Un parametro consiste in una caratteristica descrittiva (ad esempio la media e la deviazione standard) di una popolazione; una statistica o stimatore è una caratteristica descrittiva di un campione. L’inferenza statistica può quindi essere di due tipi: 1) stima e 2) saggio (o test) delle ipotesi. La stima consiste nell’inferire o stimare un parametro della popolazione dalla statistica corrispondente del campione. Ad esempio, possiamo stimare la media e la deviazione standard di una popolazione dalla media e dalla deviazione standard di un campione da essa estratto. Il saggio o test dell’ipotesi prevede di determinare, sulla base delle informazioni rilevate dal campione, se accettare o rigettare un’ipotesi o un assunto con riferimento al valore di un parametro. Per essere validi la stima e il saggio dell’ipotesi devono essere basati su un campione rappresentativo, che per essere tale deve essere ottenuto mediante un campionamento casuale (random), nel quale ciascuno dei componenti della popolazione deve avere la stessa possibilità di essere incluso nel campione. Esistono diversi tipi di campionamento casuale. Nel campionamento casuale semplice non solo ciascun elemento, ma anche ciascun campione ha la stessa probabilità di essere estratto. Nel campionamento sistematico gli elementi estratti sono selezionati dalla popolazione a intervalli uniformi di tempo, ordine o spazio (ad esempio estraendo ogni centesimo nome da una rubrica telefonica). Il campionamento sistematico spesso può determinare campioni sbilanciati, non rappresentativi, ad esempio rilevando il volume di rifiuti ogni lunedì, quando si accumulano i rifiuti del fine settimana. Nel campionamento per raggruppamenti stratificato e cluster (grappolo) la popolazione è suddivisa in strati (ad esempio per gruppi di età) e cluster (ad esempio gli isolati di una città), dai quali si estrae casualmente un numero proporzionale di elementi da ciascuno strato e cluster. Il campionamento stratificato si usa quando le variabilità entro ciascuno strato sono piccole in relazione alle variabilità tra strati, quello cluster nel caso opposto. Esempio 1. Un campione casuale di 5 degli 80 operai di un’azienda può essere ottenuto scrivendo il nome degli 80 elementi su un foglietto e poi estraendone casualmente 5. Più semplicemente è possibile usare una tabella di numeri casuali. In questo caso si assegna un numero da 1 a 80 ad ogni operaio, poi si selezionano 5 numeri di seguito, verticalmente od orizzontalmente. 4.2 Distribuzione campionaria della media Se si estraggono più campioni casuali da una popolazione e si calcola la media di ciascun campione, si otterranno altrettante medie campionarie X , che saranno diverse tra loro. La distribuzione di probabilità di queste medie di campioni si definisce distribuzione campionaria della media. Anche la distribuzione campionaria della media ha a sua volta una propria media, che si indica con il simbolo X , e una deviazione standard della media o errore standard, che si indica con X Le seguenti due caratteristiche importanti collegano la distribuzione campionaria della media alla popolazione di origine. 1) Se si estraggono ripetutamente campioni casuali di dimensione n da una popolazione: X X n e per popolazioni finite di dimensione N, quando n≥0,05N: X n N n N 1 19 2) Teorema centrale del limite. All’aumentare della dimensione del campione ( n ) la distribuzione campionaria della media si avvicina alla distribuzione normale, indipendentemente dalle caratteristiche della popolazione di provenienza, quindi anche quando questa non è distribuita normalmente. L’approssimazione alla normalità è adeguata per n≥30. E’ possibile calcolare la probabilità che un campione casuale abbia media X in un determinato intervallo calcolando i valori z per l’intervallo: z X X X e poi cercando i valori nella tabella di z. Esempio 2. In Fig. 4-1 la media della distribuzione campionaria della media X è uguale alla media della indipendentemente dalla dimensione n del campione. All’aumentare di n, popolazione di partenza tuttavia, si riduce l’ampiezza dell’errore standard della media X . Se la popolazione di partenza è normale anche le distribuzioni campionarie della media saranno distribuite normalmente, anche nei piccoli campioni. Secondo il teorema centrale del limite, anche se la popolazione di partenza non è distribuita normalmente, le distribuzioni campionarie della media saranno approssimativamente normali per n≥30. Esempio 3. Supponiamo che una popolazione sia costituita da 900 elementi, con media 20 e deviazione standard 12. La media e l’errore standard della distribuzione campionaria della media per un campione di 36 elementi è: 12 2 20 X X n 36 Se la dimensione del campione n=64 anziché 36 (quindi n>0,05N): X invece di X n N n N 1 12 64 900 64 900 1 12 836 8 899 (1,5)(0,96) 1,44 =1,5, senza il fattore di correzione per popolazioni finite. Esempio 4. La probabilità che la media X di un campione casuale di 36 elementi estratti dalla popolazione dell’esempio 3 sia compresa tra 18 e 24 si calcola: z1 X1 18 20 2 X X 1 z2 X2 X X 24 20 2 2 Cercando z1 e z2 nella tabella di z troviamo: P(18 X 24) 0,3413 0,4772 0,8185 ; ovvero 81,85% 20 4.3 Stima usando la distribuzione normale Per il parametro statistico di una popolazione possiamo effettuare una stima puntuale o una stima per intervallo. La stima puntuale consiste, ovviamente, in un numero singolo, la cui stima è corretta e obiettiva (unbiased) se in ripetuti campionamenti casuali dalla popolazione il valore atteso o medio del parametro statistico corrispondente (stimatore) è uguale al parametro della popolazione. X , ad esempio, rappresenta una stima puntuale corretta di , perchè X , dove X è il valore atteso di X . La deviazione standard campionaria s rappresenta una stima corretta di e la proporzione p del campione è una stima corretta della proporzione p, per una determinata caratteristica, della popolazione. La stima per intervallo si riferisce ad un intervallo di valori insieme alla probabilità, o livello di confidenza o fiduciale, che tale intervallo comprenda il parametro sconosciuto della popolazione. Data la deviazione standard della popolazione o la sua stima e assumendo che la popolazione sia normale o che il campione casuale abbia dimensione uguale o maggiore di 30, è possibile calcolare l’intervallo di confidenza al 95% per la media sconosciuta della popolazione: P( X 1,96 X X 1,96 X ) 0,95 Ciò significa che in un campionamento casuale ripetuto ci aspettiamo che 95 volte su 100 l’intervallo definito da tale equazione comprenderà la media sconosciuta della popolazione. Analogamente è possibile ricavare l’intervallo di confidenza per la proporzione di una popolazione (esempio 7): p (p= proporzione di successi relativi a un fenomeno nella popolazione) p n p(1 p) n p (errore standard della proporzione) Esempio 5. Da una popolazione di 1.000 elementi si estrae un campione casuale di 144 con media 100 e deviazione standard 60. L’intervallo di confidenza della media sconosciuta della popolazione sarà: X 1,96 X X 1,96 n N n N 1 100 1,96 60 1000 144 144 1000 1 100 1,96(5)(0,93) 100 9,11 Quindi sarà compresa tra 90,89 (100-9,11) e 109,11 (100+9,11) con un livello di confidenza del 95%. Altri livelli di confidenza utilizzati frequentemente sono 90 e 99%, corrispondenti, rispettivamente, a valori di z di 1,64 e 2,58. Esempio 6. Un manager desidera stimare il numero medio di minuti impiegato dai lavoratori per completare un determinato lavoro entro ±3 minuti e con un livello di confidenza di 90%. In base all’esperienza pregressa il manager sa che la deviazione standard è di 15 minuti. Il manager vuol conoscere la dimensione minima del campione (n>30) necessaria per effettuare la stima richiesta. z X ; quindi: z X X e assumendo n<0,05N: 1,64 X poichè l’intervallo di confidenza ( X ) è di 3 min: 1,64 15 n 3 e n n 1,64 X 15 3 21 quindi: n= 67,24 e, arrotondando, n= 68. Esempio 7. In un campione casuale di 100 studenti universitari 40 conseguono la laurea. Si desidera calcolare l’intervallo di confidenza al 99% per la proporzione di studenti laureati sul totale. Innanzi tutto bisogna notare che si tratta di una distribuzione binomiale. Poichè n>30, np>5 e n(1-p)>5 la distribuzione binomiale approssima la distribuzione normale, più semplice da utilizzare. Quindi, per n<0,05N: p p z p p z p(1 p) n 0,4 2,58 (0,4)(0,6) 100 0,4 2,58(0,05) 0,4 0,13 Quindi p sarà compreso tra 0,27 e 0,53 con un livello di confidenza del 99%. 4.4 Intervalli di confidenza della media usando la distribuzione del t di Student Quando la popolazione è distribuita normalmente, ma è sconosciuta e n<30, non si può usare la distribuzione normale per determinare gli intervalli di confidenza per la media sconosciuta di una popolazione, invece occorre usare la distribuzione t di Student. Questa distribuzione è simmetrica rispetto alla media zero, ma è più piatta rispetto alla distribuzione normale, quindi un’area maggiore ricade nelle code della curva. Esiste una sola distribuzione normale standard, mentre c’è una distribuzione t differente per ciascuna dimensione n del campione (Fig. 4-3). All’aumentare di n, tuttavia, la distribuzione di t si avvicina alla distribuzione normale standard, diventando approssimativamente uguale quando n>30. Per i diversi gradi di libertà le tabelle della distribuzione di t forniscono i valori di t a destra dei quali si trovano 10, 5, 2,5, 1 e 0,5% dell’area totale sotto la curva. I gradi di libertà (df= degree of freedom in inglese) in questo caso sono n-1 (ovvero la dimensione del campione meno 1 per il singolo parametro che desideriamo stimare). Quando si usa la distribuzione di t l’intervallo di confidenza al 95% per la media sconosciuta della popolazione è dato da: P( X t s n X t s ) n 0,95 Esempio 8. Da una linea produttiva che produce batterie con durate distribuite normalmente si estrae un campione casuale di n= 10 batterie da torcia elettrica con una durata media X = 5 ore e una deviazione standard campionaria s= 1 ora. Per calcolare l’intervallo di confidenza al 95% della durata media sconosciuta dell’intera popolazione di batterie prima troviamo il valore di t0 , 025 , talché il 2,5% dell’area sia entro ciascuna coda, per n-1= 9 gradi di libertà. Nella tabella di t nella colonna 0,025 in corrispondenza di 9 gradi di libertà troviamo 2,262. Quindi: X e 2,262 s n 5 2,262 1 10 5 2,262(0,316) 5 0,71 è compresa tra 4,29 e 5,71, con livello di confidenza del 95% (Fig. 4-4). 22 Inferenza statistica: Saggio (test) delle ipotesi 5.1 Saggio delle ipotesi Il saggio o test delle ipotesi sulle caratteristiche (parametri) di una popolazione (es. e ) è un altro aspetto fondamentale dell’inferenza e dell’analisi statistica. Nel saggiare (valutare) un’ipotesi si comincia effettuando un assunto, una supposizione su una caratteristica sconosciuta (parametro) della popolazione. Successivamente si estrae un campione casuale dalla popolazione e sulla base della caratteristica corrispondente del campione (stimatore o statistica campionaria) si accetta o si rigetta l’ipotesi formulata con un determinato livello di confidenza. Nel saggio dell’ipotesi è possibile effettuare due tipi di errore. Se sulla base dell’informazione campionaria si rigetta un’ipotesi che era corretta si commette un errore di primo tipo (I); se invece si accetta un’ipotesi errata si commette un errore di secondo tipo (II). E’ possibile controllare o determinare la probabilità di effettuare un errore di I tipo, indicato con . Riducendo , tuttavia, si accetta una probabilità più elevata di effettuare un errore di II tipo, indicato con , altrimenti si dovrà aumentare la dimensione del campione. La probabilità di errore di I tipo, cioè , si definisce livello di significatività, mentre 1- è il livello di confidenza del saggio. Esempio 1. Supponiamo che una ditta che produce lampadine desideri conoscere se può affermare che le sue lampadine durano in media =1000 ore. Occorre estrarre un campione casuale di 100 lampadine, ad esempio, e valutare la loro vita media X . Quanto più è piccola la differenza tra X e , tanto più elevata sarà la probabilità di accettare l’ipotesi =1000 ore di durata a un determinato livello di significatività. Fissando 5% la ditta accetta il rischio calcolato di rigettare un’ipotesi corretta nel 5% dei casi. Fissando = 1% la ditta correrebbe un rischio più elevato di accettare un’ipotesi falsa, cioè di commettere un errore di II tipo . 5.2 Saggio delle ipotesi su media e proporzione della popolazione Il saggio delle ipotesi sulla media (o proporzione) della popolazione prevede le seguenti fasi: 1) Si ipotizza che assuma un valore ipotetico 0. Ciò è rappresentato da H0: = 0 e si definisce ipotesi nulla. L’ipotesi alternativa è H1: ≠ 0, cioè, a seconda dei casi, H1: 0 o H1: 0. 2) Si fissa il livello di significatività del saggio (solitamente 5%, ma a volte 1%) e, usando la distribuzione appropriata, si definisce la regione di accettazione e la regione di rigetto del saggio. 3) Si estrae un campione casuale dalla popolazione e si calcola X . Se X ricade nella regione di accettazione si accetta H0, altrimenti si rigetta H0 in favore di H1. Esempio 2. Supponiamo che la ditta dell’esempio 1 desideri saggiare se può affermare correttamente che le lampadine durano 1000 ore. La ditta estrae un campione casuale di n= 100 lampadine e rileva che il campione ha media X = 980 ore e deviazione standard s= 80 ore. Supponiamo che la ditta voglia condurre il saggio al 5% di significatività. Poichè potrebbe essere uguale, maggiore o inferiore a 1000, la ditta dovrebbe fissare l’ipotesi nulla e quella alternativa: H1: ≠ 1000 H0: = 1000 Poichè n>30, la distribuzione campionaria della media è approssimativamente normale (e possiamo usare s come una stima di ). La regione di accettazione del saggio al 5% di significatività si trova entro ±1,96 sotto la curva normale standard e la regione di rigetto al di fuori (Fig. 5-1). Poichè la regione di rigetto si trova in entrambe le code, effettuiamo un saggio a due code. La terza fase consiste nel trovare il valore di z corrispondente a X : z X 0 X X 0 / n X 0 s/ n 980 1000 80 / 100 20 8 2,5 23 Poichè il valore calcolato di z ricade nella regione di rigetto, al 5% di significatività la ditta dovrebbe rigettare l’ipotesi nulla H0, cioè = 1000, e accettare l’ipotesi H1, cioè ≠ 1000. Esempio 3. Una ditta vuol determinare al livello di confidenza del 95% se può affermare che le scatole di detersivo vendute contengono più di 500 g di prodotto. Dall’esperienza precedente la ditta conosce che la quantità di detersivo nelle scatole è distribuita normalmente. La ditta estrae un campione casuale di n= 25 e trova X = 520 g e s= 75 g. Poichè la ditta desidera saggiare se >500 g, si ha: H0: = 500 H1: >500 La popolazione è distribuita normalmente, ma n<30 e è sconosciuta, perciò si deve usare la distribuzione di t (con n-1=24 gradi di libertà) per definire la regione critica (o di rigetto) del saggio al livello 5% di significatività (Tabella di t e fig. 5-2; t=1,711). In questo caso dobbiamo effettuare un saggio sulla coda destra. X s/ n t 520 500 75 / 25 20 15 1,33 Il valore di t ricade nella regione di accettazione, quindi accettiamo l’ipotesi nulla H0 che =500 g al 5% di livello di significatività, ovvero con un livello di confidenza del 95%. Esempio 4. Negli anni precedenti il 60% degli iscritti a un’università hanno conseguito la laurea in 4 anni. Per i 36 immatricolati nel 1980 solo 15 hanno conseguito la laurea nel 1984. Per valutare se gli immatricolati del 1980 sono stati peggiori rispetto a quelli degli anni precedenti occorrerebbe usare la distribuzione binomiale, tuttavia è possibile utilizzare la distribuzione normale perchè n>30 e np e n(1-p)>5 (vedere Sez. 3.5), con p= 0,60 (proporzione di successi). Per gli immatricolati del 1980 la proporzione di successi è: p 15 / 36 0,42 e l’errore standard è: p p(1 p) n (0,6)(0,4) 36 0,08 . Poichè vogliamo saggiare se gli immatricolati nel 1980 hanno conseguito risultati peggiori avremo: H0: p= 0,60 Quindi: z H1: p< 0,60 p p p 0,42 0,60 0,08 2,25 Poichè si tratta di un saggio sulla coda sinistra e il 5% dell’area sotto la curva normale standard si trova a sinistra di -1,64 rigettiamo l’ipotesi nulla H0 e concludiamo che, al livello 5% di significatività, gli immatricolati 24 del 1980 hanno conseguito risultati peggiori rispetto agli anni precedenti. Se critica a sinistra sarebbe stata z= -2,33 e avremmo accettato l’ipotesi nulla H0. = 1%, tuttavia, la regione 5.3 Saggio delle ipotesi per differenze tra due medie o proporzioni In molte situazioni che richiedono una decisione è importante determinare se le medie o proporzioni di due popolazioni sono uguali o differiscono. Occorre estrarre un campione casuale da ciascuna popolazione e solo se la differenza tra le medie o proporzioni dei campioni può essere attribuita al caso accettiamo l’ipotesi che le due popolazioni abbiano medie o proporzioni uguali. Se le due popolazioni sono distribuite normalmente (o se per entrambe n1 e n2≥ 30) e indipendenti, allora anche la distribuzione campionaria della differenza tra le medie o proporzioni dei campioni è normale o approssimativamente normale, con errore standard dato da: X1 X 2 e 2 2 n1 n2 p (1 p ) n1 p1 p 2 per saggiare se 1 = 2 (confronto tra medie) p (1 p ) per saggiare se p1 = p2 (confronto tra proporzioni) n2 n1 p1 n2 p2 n1 n2 p dove: 2 1 p1 e p2 ) (media ponderata di Esempio 5. Un manager desidera determinare al livello di significatività 5% se le retribuzioni orarie degli operai sono le stesse in due città. Occorre estrarre un campione casuale di retribuzioni orarie in entrambe le città e trova che X 1 sono: €6,00 , X 2 H0: H1: = 1 ≠ 1 €5,40 ; s1= €2,00, s2= €1,80; n1= 40, n2= 54. Le ipotesi da saggiare ovvero ovvero 2 2 H0: H1: – – 1 1 2= 0 ≠ 0 2 Questo è un test a due code e la regione di accettazione dell’ipotesi nulla H0 è compresa entro ±1,96 al di sotto della curva normale (Fig. 5-1). X1 X 2 2 1 2 2 n1 n2 z ( X1 s12 n1 s22 n2 X2) ( 1 X1 X 2 2,002 40 2 ) ( X1 1,802 54 X2) 0 X1 X 2 0,1 0,06 0,6 0,4 0.16 0,4 1,5 Poichè il valore calcolato di z rientra nella regione di accettazione, si accetta l’ipotesi nulla H 0: 1= 2 al livello di significatività del 5%. Se entrambe le popolazioni fossero state distribuite normalmente, ma con n 1 e n2 minori di 30 e posto che σ12= σ22 (ma sconosciute), allora la distribuzione campionaria della differenza tra le medie avrebbe avuto una distribuzione t, con n1+n2-2 gradi di libertà. Esempio 6. Una ditta desidera determinare con livello di significatività 1% se la proporzione p1 di componenti elettronici validi di un fornitore straniero supera quella p2 di un fornitore locale. La ditta estrae un campione casuale dalla fornitura di ciascun fornitore e rileva che p1 = 0,9 e p2 = 0,7 per n1= 100 e n2= 80. La ditta definisce le due ipotesi seguenti: H0: p1=p2 H1: p1>p2 Questo è un saggio sulla coda destra della curva e la regione di rigetto dell’ipotesi nulla H0 giace alla destra di 2,33 sotto la curva normale standard. p n1 p1 n2 p2 n1 n2 (100)( 0,9) (80)(0,7) 180 146 180 0,8 25 p1 p 2 p (1 p ) n1 p (1 p ) n2 ( p1 z (0,8)(0,2) 100 p2 ) ( p1 p2 ) p1 p 2 (0,8)(0,2) 80 (0,9 0,7) 0 0,06 0,0016 0,002 0,2 0,06 0,0036 0,06 3,33 Quindi rigettiamo l’ipotesi nulla H0 e accettiamo l’ipotesi che p1>p2 al livello di significatività di 1%. 5.4 Saggio (test) del chi quadrato di congruità e indipendenza 2 La distribuzione del (chi quadrato) è usata per saggiare se: 1) le frequenze osservate differiscono significativamente dalle frequenze attese quando sono possibili più di due esiti (risultati); 2) la distribuzione del campione è binomiale, normale o altro; 3) due variabili sono indipendenti. La statistica 2 si calcola dai dati del campione come segue: 2 f a )2 ( fo fa dove f o indica le frequenze osservate e f a le frequenze attese. 2 Se il valore calcolato di supera il valore tabulare corrispondente al livello di significatività stabilito e ai gradi di libertà, allora si rigetta l’ipotesi nulla H0 in favore dell’ipotesi alternativa H1. I gradi di libertà (gl) per le applicazioni 1) e 2) sono dati da: gl= c-m-1 dove c rappresenta il numero di categorie e m il numero di parametri della popolazione stimati dai corrispondenti stimatori (statistiche) del campione. I gradi di libertà per le applicazioni 3), relative ai saggi di indipendenza delle tabelle di contingenza, sono dati da: gl= (r-1)(c-1) dove r indica il numero di righe e c il numero di colonne della tabella di contingenza. La frequenza attesa f a per ciascun dato di una tabella di contingenza è data da: fa r fo c fo n dove r e c indicano rispettivamente la somma delle righe e delle colonne di ciascun dato osservato e n rappresenta la dimensione del campione totale. Esempio 7. In passato i televisori venduti da un negozio potevano essere ripartiti, in base alle dimensioni dello schermo, nelle seguenti categorie: 30% con schermo piccolo, 40% medio e 30% grande. Il gestore decide di determinare se le vendite più recenti rispecchiano la situazione del passato ed estrae un campione casuale relativo a 100 vendite recenti, osservando che 20 erano televisori con schermo piccolo, 40 con schermo medio e 40 grande. Per saggiare al livello di significatività del 5% l’ipotesi nulla H 0 che l’andamento delle vendite recenti sia simile a quello del passato, il gestore deve procedere come segue (Tab. 5.1): 2 gl (20 30) 2 fa 30 c m 1 3 0 1 2 ( fo f a )2 (40 40) 2 40 (40 30) 2 30 102 30 02 40 102 30 100 30 100 30 6,67 Poichè non si stimano parametri della popolazione m=0. Il valore calcolato di χ2= 6,67 supera il valore della distribuzione teorica χ2= 5,99 riportato in tabella, con = 5% e gl= 2, quindi si rigetta l’ipotesi nulla H0 e si conclude che l’andamento delle vendite recenti differisce da quello del passato con livello di significatività del 5%. 26 Esempio 8. Un rivenditore di automobili ha raccolto i dati in Tab. 5.2 sul numero di automobili di produzione estera e nazionale acquistate da clienti con meno di 30 anni e con più di 30 anni. Per saggiare con livello di significatività 1% se il tipo di auto acquistata (straniera o nazionale) è indipendente dall’età dell’acquirente, il rivenditore compila una tabella delle frequenze attese (Tab. 5.3), calcolata in base alla Tab. 5.2. Per la prima casella: f a ,11 per la terza: f a , 21 (100)(50) 170 fo r c fo n (70)(50) 170 29 ; per la quarta: f a , 22 21 ; per la seconda: f a ,12 (100)(120) 170 (70)(120) 170 49 71 Tab. 5.2 Tabella di contingenza per acquirenti di automobili Età <30 >30 Totale Tipo di automobili Straniere Nazionali 30 40 20 80 50 120 Totale 70 100 170 Tab. 5.3 Tabella delle frequenze attese per le frequenze osservate in Tab. 5.2 Età <30 >30 Totale gl 2 (r 1)(c 1) f a )2 ( fo fa Tipo di automobili Straniere Nazionali 21 49 29 71 50 120 Totale 70 100 170 (2 1)( 2 1) 1 (30 21) 2 21 (40 49) 2 49 (20 29) 2 29 (80 71) 2 71 9,44 Il valore calcolato di χ2 supera quello riportato in tabella con = 0,01 e gl= 1 (χ2= 6,63), quindi rigettiamo l’ipotesi nulla H0 che il tipo di auto acquistata sia indipendente dall’età e concludiamo che i giovani hanno una maggiore propensione ad acquistare automobili straniere 5.5 Analisi della varianza a una via Se è stato effettuato un esperimento con più trattamenti (campioni) sperimentali e relative medie da confrontare dovremmo utilizzare una serie di test del t di Student per verificare la significatività di tutte le possibili coppie di trattamenti. Con tre trattamenti (A, B e C) si dovrebbero effettuare tre diversi confronti (A con B, A con C e B con C), ma sette trattamenti richiederebbero 21 confronti con il saggio t! A prescindere dalla complessità richiesta dai confronti multipli, ciò sarebbe scorretto perchè, se adottassimo un livello di significatività =0,05, su 21 saggi t sarebbe atteso, probabilisticamente, un risultato falso su 21. Per superare questo inconveniente si utilizza l’analisi della varianza, un metodo di analisi statistica messo a punto da R.A. Fisher. L’analisi della varianza richiede, se possibile, campioni della stessa dimensione, cioè con lo stesso numero di repliche per ciascun trattamento sperimentale. Altrimenti occorrono procedimenti più complessi per ricostruire i dati mancanti. L’analisi della varianza (ANOVA) si utilizza per saggiare l’ipotesi nulla H0, in base alla quale le medie di due o più popolazioni sono uguali, rispetto all’ipotesi alternativa che almeno una delle medie sia differente. Si assume che le popolazioni siano distribuite normalmente, indipendenti e che abbiano varianza simile. Esistono opportuni test per verificare l’omogeneità (omoscedasticità) delle varianze, ad 27 esempio il test di Bartlett. In alcuni casi è possibile ovviare a questo inconveniente attraverso la trasformazione dei dati, ad esempio con la trasformazione logaritmica. L’analisi della varianza prevede le seguenti fasi: 1. Stima della varianza della popolazione dalla varianza tra le medie dei campioni (st2= varianza tra trattamenti o tesi, Tab. 5.4). 2. Stima della varianza della popolazione dalla varianza entro i campioni (se2= varianza entro trattamenti o varianza dell’errore, Tab. 5.4) 3. Calcolo del rapporto F (st2/se2 in Tab. 5.4). F= varianza tra le medie dei campioni/varianza entro campioni 4. Se il rapporto F calcolato supera il valore di F riportato in tabella, in corrispondenza del livello desiderato di significatività e dei gradi di libertà, si rigetta l’ipotesi nulla H0, che assumeva medie di popolazioni uguali, in favore dell’ipotesi alternativa H1. Tab. 5.4 Tabella di analisi della varianza (ANOVA) Fonte di variazione Devianza (somma dei quadrati degli scarti) Tra le medie (trattamenti) Devt Entro campioni (errore) Deve Totale Dove: - r Devtot ( xij (x j x )2 ( xij x j )2 x )2 Devt Gradi di libertà t 1 (r 1)t Deve rt 1 Varianza st2 Devt t 1 se2 Deve (r 1)t Devtot rt 1 2 stot F F st2 se2 j= campioni i= osservazioni t= numero di campioni (trattamenti o tesi); r= numero di osservazioni per ciascun campione (repliche o ripetizioni); - xj - x - Devt i xij (media del campione j con i osservazioni); r i j xij rt r (x j (media generale di tutte le osservazioni); x )2 (devianza dei trattamenti, somma dei quadrati degli scarti dovuti ai trattamenti, cioè alla differenza tra campioni); - Deve ( xij x j )2 (devianza dell’errore o residua, somma dei quadrati degli scarti dovuti a fattori diversi dalla differenza tra campioni); - Devtot ( xij x )2 (devianza totale, somma dei quadrati degli scarti riferiti a tutte le osservazioni). La significatività di F per = 0,05 e per = 0,01 può essere saggiata rispetto ai valori riportati nella tabella della distribuzione di F, in corrispondenza delle coppie di gradi di libertà: - gl del numeratore= t-1, dove t è il numero di campioni o trattamenti; - gl del denominatore= (r-1)t, dove r è il numero di osservazioni entro ciascuna campione o trattamento. 28 Esempio 9. Una ditta vende la stessa quantità dello stesso sapone allo stesso prezzo in tre diverse confezioni. La Tab. 5.5 riporta le vendite in un periodo di 5 mesi. Mesi 1 2 3 4 5 Totale Media Confezione1 87 83 79 81 80 410 (TC1) 82 Confezione 2 78 81 79 82 80 400 (TC2) 80 Confezione 3 90 91 84 82 88 435 (TC3) 87 1245 (TG) 83 I dati di vendita sono distribuiti normalmente, con varianza simile. Per saggiare al 5% di significatività se le vendite medie di sapone per i tre tipi di confezione sono uguali o differiscono (H0: 1= 2= 3 oppure H1: 1, 2 e 3 non sono uguali) si procede come segue: x1 410 5 Devt r Deve 82, x2 400 5 80, 435 5 410 400 435 (5)(3) x 87, 83 ( x j x )2 5[(82 83)2 (80 83)2 (87 83)2 ] 130 x )2 ( xij [(87 82)2 (83 82)2 [78 80)2 (81 80)2 [(90 87) 2 Devtot x3 ( x ij x )2 (87 83) 2 (91 87)2 (79 82)2 (79 80)2 (84 87) 2 (83 83) 2 (81 82)2 (80 82)2 ] (82 80)2 (80 80)2 ] (82 87) 2 (82 83) 2 (88 87)2 ] 110 (88 83) 2 240 Metodo semplificato per il calcolo delle devianze (Sez. 2.5, pag. 7): Fattore di correzione (FC)= TG2/rt= 12452/15= 103335 2 2 2 2 2 2 Dev t= (TC1 +TC2 +TC3 )/r-FC= (410 +400 +435 )/5-103335= 103465-103335= 130 Dev tot= x2-FC= (872+832+792+∙∙∙∙∙∙∙∙+842+822+882)-103335= 103575-103335= 240 Dev e= Devtot-Devt= 240-130= 110 La devianza dell’errore si può calcolare anche direttamente: Dev e= [(872+832+∙∙∙∙+802)-4102/5]+[(782+812+∙∙∙∙+802)-4002/5]+[(902+912+∙∙∙∙+882)-4352/5]= 40+10+60= 110 Tab. 5.6 ANOVA per le confezioni di sapone Fonte di variazione Tra confezioni (trattamenti) Entro confezioni (errore) Totale Devianza (somma quadrati scarti) Dev t= 130 Gradi di libertà t-1= 2 Dev e= 110 Dev tot= 240 Varianza st2 130 / 2 65 (r-1)t= 12 se2 110 / 2 9,17 rt-1= 14 2 stot F F= 65/9,17= 7,09 240 / 14 17,14 Il valore calcolato di F supera il valore tabulare di F= 3,88 per =0,05 e 2 e 12 gradi di libertà, quindi rigettiamo l’ipotesi nulla H0, che le vendite medie di sapone siano le stesse per i tre tipi di confezione, e accettiamo l’ipotesi alternativa H1, cioè che le medie differiscono. Quella illustrata è la forma più semplice di analisi della varianza, detta a una via o a un fattore; esistono numerosi schemi sperimentali che richiedono analisi della varianza più complesse, che permettono di ripartire la varianza tra più fattori e di determinarne le interazioni. Uno degli schemi sperimentali più semplici e più utilizzati nella sperimentazione agraria e forestale è lo schema a blocchi randomizzati. 29 Esempio 10. Vogliamo confrontare la crescita in coltura (biomassa in mg) di tre ceppi batterici, utilizzando tre repliche per ciascuno dei tre ceppi. Replica 1 2 3 x ij Ceppo A 12 15 9 36 Ceppo B 20 19 23 62 Ceppo C 40 35 42 117 3 12,00 3 20,67 3 39,00 450 1290 4589 n x F.C.= xij ) 2 ( 72 69 74 215 23,89 5136,11 2 (215 /9) rt x2 x2 Devtot Totale 6329 1192.89 F .C. (6329-5136,11) ( Devt j ( xi ) 2 xi ) 2 432,00 1281,33 4563,00 r F .C. 6276,33 1140,22 (6276,33-5136,11) Deve x ( 2 j 18 xi ) 2 r 8,67 26 52,67 (6329-6276,33) Fonte variazione Trattamenti Errore (residua) Totale GL 2 (t-1) 6 (t(r-1)) 8 (tr-1) Devianze 1140,22 52,67 1192,89 Varianze 570,11 8,78 F 64,93 Il valore calcolato di F 64,93 supera abbondantemente il valore tabulare di F (gl= 2 e 6) con α=0,05 (5,14) e α=0,01 (10,93) quindi la differenza tra le medie dei trattamenti è altamente significativa. Differenze minime significative (LSD) L’analisi della varianza ci dice, tuttavia, se esistono differenze tra i trattamenti nel loro insieme, ma spesso si desidera conoscere se esistono differenze significative tra le singole coppie di trattamenti. Se si vogliono confrontare singole coppie di trattamenti, come accade, ad esempio, quando si confrontano i singoli trattamenti sperimentali con un trattamento di controllo, è possibile utilizzare il metodo delle differenze minime significative (in inglese LSD= Least Significant Differences), che è simile al test t di Student. 1 ) (dove nA e nB sono i numeri di dati delle medie A e B da confrontare). nB 2 LSD t0, 025 se2 n Poichè, in genere, nA = nB: LSD t0,025 se2 ( 1 nA Nell’esempio precedente: n=3; GLe=6; t0 , 025 2,447 ; se2 8,78 ; LSD5% 2,447 8,78 2 3 5,92 30 Le differenze tra le medie dei tre ceppi di batteri (tra i ceppi A e B: 8,67; tra B e C: 18,33; tra A e C: 27) superano il valore di LSD, quindi possiamo affermare che i tre ceppi differiscono significativamente ( =0,05) nella produzione di biomassa. Confronti multipli e test di Tukey Le differenze minime significative possono essere utilizzate per verificare la significatività delle differenze tra medie quando si effettuano confronti tra coppie di dati, ad esempio quando si confrontano diversi trattamenti con un unico trattamento di controllo. Nella maggior parte degli esperimenti, dopo aver rilevato differenze significative tra l’insieme dei trattamenti sperimentali utilizzando l’analisi della varianza, si vogliono confrontare le singole medie, identificando quelle che differiscono significativamente, cioè si effettuano confronti multipli. In questo caso sarebbe scorretto utilizzare le differenze minime significative, perchè al crescere del numero dei confronti varierebbe il livello di significatività, perchè aumenterebbe la probabilità di rilevare differenze significative. Per ovviare a questo problema sono stati messi a punto una serie di test da utilizzare nei confronti multipli, che compensano le variazioni nel livello di significatività (test di Bonferroni, Scheffé, Tukey, Duncan, ecc.). Il test di Tukey è uno dei più semplici e utilizzati tra i test per confronti multipli. I requisiti per l’applicazione del test di Tukey sono gli stessi richiesti per l’analisi della varianza: 1) indipendenza delle osservazioni da confrontare; 2) medie derivanti da popolazioni con distribuzione normale; 3) omogeneità delle varianze (omoscedasticità). Il test di Tukey si basa su una distribuzione Q di intervalli studentizzati, simile alla distribuzione di t, ma con i valori che variano in base al numero di confronti tra le medie dei trattamenti (campioni) da confrontare. La procedura prevede le seguenti fasi. 1) Calcolo dell’errore standard dalla varianza dell’errore (residua) ottenuta dall’analisi della varianza: se2 n ES 2) Elenco delle medie dei trattamenti sperimentali dal valore più alto al più basso. 3) Calcolo delle differenze tra le coppie di medie ( X n Xk). 4) Calcolo del valore di Q moltiplicando il valore tabulare di Q (numero di medie che si stanno confrontando; gradi di libertà dell’errore nell’ANOVA) per l’ES. 5) Confronto della differenza tra le medie confrontate con il valore Q: se la differrenza tra le medie supera il valore di Q esse differiscono significativamente con = quello riportato nella tabella di Q. Esempio 11. Applicazione del test di Tukey all’esperimento di confronto fra tre ceppi batterici. Ceppo C B A se2 GL 1) Calcolo dell’errore standard: ES se2 n Media 39 20,67 12 8,78 a b c 6 8,78 3 1,71 2) Valore tabulare di Q (5%, 3 medie, 6 GL)= 4,34. Q 4,34 1,71 7,42 3) Confronti: C-B= 39-20,67=18,33>7,42; quindi C e B differiscono significativamente. C-A= 39-12=27>7,42; quindi A e C differiscono significativamente. B-A= 20,67-12=8,67>7,42; quindi A e B differiscono significativamente. Le lettere a destra della tabella indicano le medie significativamente diverse: lettere uguali (in questo caso assenti) indicano l’assenza di significatività. 31 Esempio 12. ANOVA e test di Tukey Replica 1 2 3 4 5 xi Ceppo A 27.0 26.2 28.8 33.5 28.8 144.3 Ceppo B 22.8 23.1 27.7 27.6 24.0 125.2 Ceppo C 21.9 23.4 20.1 27.8 19.3 112.5 Ceppo D 23.5 19.6 23.7 20.8 23.9 111.5 5 28.86 5 25.04 5 22.5 5 22.3 4196.57 3158.5 2576.51 2501.95 4164.49 3135.01 2531.25 2486.45 n x F.C.= ( x) 2 Totale 72 69 74 493.5 24.68 12177,11 (493.52/20) rt x2 Devtot x 2 F .C. 12433.53 256.42 (12433.53-12177.11) ( Devt j ( xi ) 2 xi ) 2 r F .C. 140.10 (12317.21-12177.11) Deve x ( 2 j xi ) 2 r (256.42-140.09) 32.072 23.492 Fonte variazione Trattamenti Errore (residua) Totale GL 3 (t-1) 16 (t(r-1)) 19 (tr-1) Devianze 140.10 116.32 256.42 I valori tabulari di F sono: 3,24 per =0,05 e 5,29 per significative tra le medie dei trattamenti. Ceppo A B C D se2 GL Calcolo dell’errore standard: ES se2 n 7,27 5 Media 28,86 25,04 22,50 22,30 7,27 45.26 Varianze 46.70 7.27 15.5 116.32 F 6.42 =0,01, quindi esistono differenza altamente a ab b b 16 1,21 Valore tabulare di Q (5%, 4 medie, 16 GL)= 4,05. Q 4,05 1,21 4,88 Valore tabulare di Q (1%, 4 medie, 16 GL)= 5,2. Q 5,2 1,21 6,27 Confronti: 1) A-B= 28,86-25,04=3,82<4,88; quindi A e B non differiscono significativamente. 2) A-C= 28,86-22,5=6,36>6,27; quindi la differenza tra A e C è altamente significativa (1%). 3) A-D= 28,86-22,3=6,56>6,27; quindi la differenza tra A e D è altamente significativa (1%). 32 4) B-C= 25,04-22,5=2,54<4,88; quindi B e C non differiscono significativamente. 5) B-D= 25,04-22,3=2,74<4,88; quindi B e D non differiscono significativamente. 5) C-D= 22,5-22,3=0,2<4,88; quindi C e D non differiscono significativamente. Analisi della regressione 6.1 Modello lineare con due variabili Il modello lineare con due variabili, o analisi della regressione semplice, è utilizzato per saggiare ipotesi sulla relazione esistente tra una variabile dipendente Y e una variabile indipendente X e per effettuare previsioni. Una valutazione preliminare della regressione lineare può essere effettuata inserendo i dati corrispondenti ai valori X e Y in un diagramma cartesiano e rilevando se esiste una relazione lineare approssimativa: Yi b0 b1 X i dove b0 è l’intercetta e b1 il coefficiente angolare della retta. E’ improbabile che tutti i punti siano situati esattamente sulla retta corrispondente all’equazione, quindi la relazione lineare deve essere modificata introducendo un ulteriore elemento, l’errore o elemento stocastico ui: Yi b0 b1 X i ui L’errore inserito nell’equazione ha le seguenti caratteristiche: 1) è distribuito normalmente, 2) ha valore atteso o media zero; 3) la varianza è costante; 4) gli errori ui sono indipendenti, non sono correlati tra loro; 5) la variabile indipendente Xi e l’errore ui non sono correlati. Esempio 1. La tab. 6.1 riporta la produzione di mais Y nei dieci anni tra 1971 e 1980, espressa in bushel (1 bushel di mais≈ 25 kg) per acro (1 acro≈ 4000 m 2), derivante dall’uso di quantità crescenti di fertilizzante X, espresse in libbre (1 libbra≈450 g) per acro. I dati sono riportati nel diagramma sottostante. La relazione tra la variabile indipendente X e la variabile dipendente Y è approssimativamente lineare. 33 6.2 Metodo dei minimi quadrati Il metodo dei minimi quadrati consiste in una tecnica che permette di adattare la migliore linea retta al campione di osservazioni XY e prevede di minimizzare la somma delle deviazioni dalla retta (secondo l’asse verticale, delle ordinate) al quadrato: (Yi Yˆi ) 2 Min dove Yi si riferisce ai valori osservati per la variabile dipendente, mentre Yˆi si riferisce ai valori corrispondenti adattati, il valore Yi Yˆi ei si definisce residuo. Si possono definire due equazioni normali: Yi nb0 bˆ1 Xi X iYi e bˆ0 Xi bˆ1 X i2 Risolvendo simultaneamente le due equazioni si ottiene: bˆ1 Xi X iYi X i2 ( Yi n X i )2 n 34 Il valore dell’intercetta b̂0 è dato da: bˆ0 Y bˆ1 X E l’equazione della retta di regressione stimata sulla base dei minimi quadrati è: Yˆi bˆ0 bˆ1 X i Esempio 2. Calcolo della retta di regressione relativa alla relazione tra concimazione e produzione di mais in tab. 6.1. Tab. 6.2 Dosi di fertilizzante e produzione di mais 2 n Yi Xi XiYi Xi mais fert. 1 40 6 240 36 2 44 10 440 100 3 46 12 552 144 4 48 14 672 196 5 52 16 832 256 6 58 18 1044 324 7 60 22 1320 484 8 68 24 1632 576 9 74 26 1924 676 10 80 32 2560 1024 2 n= 10 Yi 570 X i 180 X iYi 11216 X i 3816 Y 57 X 18 X i Yi / 10 10260 ( X i )2 / 10 3240 Xi X iYi bˆ1 X 2 i bˆ1 X ( Yi n X i )2 11216 10260 3816 3240 956 576 1,66 (coefficiente angolare della retta di regressione) n bˆ0 Y Yˆi 27,12 1,66 X i (equazione della retta di regressione stimata) 57 (1,66)(18) 57 29,88 27,12 (intercetta sull’asse Y) 35 6.3 Saggi di significatività delle stime dei parametri Per saggiare la significatività delle stime dei parametri della regressione occorre calcolare la varianza di b̂0 e di b̂1 : è possibile dimostrare che: Var bˆ0 2 u X i2 n X 2 i ( Xi ) Var bˆ1 e 2 2 u X 2 i 1 ( X i )2 2 La varianza dell’errore attribuibile alla relazione tra Xi e Yi, u , non è conosciuta, ma la varianza residua s2 può essere usata come sua stima puntuale (valore più plausibile del parametro varianza calcolato dal campione): s2 2 u ei2 n k ˆ Yi rappresenta l’errore (definito anche disturbo o termine stocastico) e misura la deviazione dove ei Yi di ciascun valore Y osservato della variabile dipendente dal valore vero ma non osservato situato sulla retta di regressione; Yˆi è il valore calcolato in corrispondenza di ciascun X Y sulla retta di regressione; n è il numero di osservazioni e k è il numero di parametri stimati, che nella regressione semplice sono 2, l’intercetta e il coefficiente angolare). ei2 2 bˆ0 s Quindi: 2 dove sbˆ 0 n 2n X i2 X 2 i ( Xi ) 2 ; 2 bˆ1 s ei2 n 2 X 2 i 1 ( X i )2 2 e sbˆ sono gli errori standard delle stime. Poichè l’errore ui è distribuito normalmente, lo sono 1 ancheYi, b̂0 e b̂1 , quindi è possibile utilizzare la distribuzione di t con n-k gradi di libertà per saggiare le ipotesi e ricavare gli intervalli di confidenza per b̂0 e b̂1 . Esempio 3. In tab. 6.3 sono riportati i calcoli richiesti per valutare la significatività di b̂0 e b̂1 . I valori di Yˆi (valori attesi di Y) sono stati ottenuti introducendo i valori di Xi nell’equazione di regressione trovata nell’esempio 2 ( Yˆi 27,12 1,66 X i ). n 1 2 3 Yi mais 40 44 46 4 48 5 52 6 7 58 60 8 9 10 68 74 80 Somme 570 ( Yi ) 2 32490 Tab. 6.3 Dosi di fertilizzante e produzione di mais Xi ei ei2 Xi2 Yi2 Yˆi fert. 6 37,80 2,92 8,53 36 1600 10 43,72 0,28 0,08 100 1936 12 47,04 1,08 144 1,04 2116 14 50,36 5,56 196 2,36 2304 16 53,68 2,82 256 1,68 2704 18 57,00 1.00 1,00 324 3364 22 63,64 13,25 484 3,64 3600 24 66,96 1,04 1,08 576 4624 26 70,28 3,72 13,84 676 5476 32 80,24 0,06 1024 0,24 6400 180 47,3056 3816 34124 ( X i )2 3240 36 sb2ˆ 0 2 bˆ1 s ei2 n 2n X i2 X ei2 n 2 X 2 i 2 i ( 1 ( Xi ) Xi ) 47,3056 3816 10 2 10(576) 2 2 47,3056 (10 2)576 sb̂ 3,92 ; 3,92 1,98 0 sb̂ 0,01 ; 0,01 0,1 1 Ipotesi nulla H0: b0=0; b1=0 t0 bˆ0 b0 sbˆ 27,12 0 13,7 ; 1,98 bˆ1 b1 sbˆ t1 0 1,66 0 16,6 0,1 1 poichè entrambi t0 e t1 superano il valore di t=2,306 (8 g.l., statisticamente significativi al livello del 5%. =5%), concludiamo che sia b0 sia b1 sono Correlazione La conoscenza del rapporto di causa/effetto tra la variabile indipendente (X) e quella dipendente (Y) è un requisito essenziale dell’analisi di regressione. Un esempio tipico nell’uomo è la relazione tra altezza e peso, perchè è ovvio che il peso, salvo situazioni anomale di magrezza o obesità, è funzione dell’altezza, ma non l’altezza del peso; nelle piante l’altezza è funzione dell’età. Altri esempi possono essere la quantità e la qualità del cibo consumato e il peso nell’uomo, o la quantità di fertilizzante e la produzione di granella nelle piante. In altri casi, invece, non esiste o non è possibile determinare la relazione di causa effetto tra due variabili, ma si vuol determinare se tra di esse esiste una correlazione diretta o inversa, cioè se all’incremento di una delle variabili corrisponde un incremento o un decremento dell’altra. Un esempio può essere la relazione tra altezza della pianta e circonferenza del tronco: non esiste una relazione di causa/effetto tra le due variabili, ma entrambe dipendono da una terza variabile, l’età della pianta. Un altro esempio potrebbe essere lo sviluppo dell’apparato radicale e della chioma: sono correlati, ma non è possibile determinare il rapporto di causa/effetto. In questi casi si utilizzano due parametri statistici: il coefficiente di correlazione r e il coefficiente di determinazione R2 (indicato anche con r2). Il calcolo di questi coefficienti è utile anche quando è stata determinata la retta di regressione che interpola i punti che mettono in relazione due variabili collegati da una chiara relazione di causa/effetto. Coefficiente di correlazione: r cov( X , Y ) X Xi X iYi Y ( X 2 i ( Xi ) N Yi N 2 )( Yi ( Yi ) 2 N ) Coefficiente di determinazione: R2 r2 Il coefficiente di correlazione r può assumere valori compresi tra -1 e +1; il valore -1 indica una perfetta correlazione negativa tra le due variabili, il valore +1 una perfetta correlazione positiva, mentre il valore 0 indica assenza di correlazione. I valori intermedi indicano diversi livelli di correlazione positiva o negativa. Il coefficiente di determinazione R2 può assumere valori positivi compresi tra 0 e +1 e indica la forza, l’entità della correlazione tra le due variabili, ma non ci dà alcuna indicazione sulla direzione, positiva o negativa, della correlazione. Il coefficiente di determinazione, in associazione con la regressione, ci fornisce una misura della frazione della variabilità totale della variabile dipendente Y spiegata, giustificata dalla regressione tra X e Y. Esempio 4. Calcolare i coefficienti di correlazione e di determinazione dei dati riguardanti la concimazione di mais (Tab. 6.3). 37 Xi X iYi r ( X i2 ( Xi ) N Yi N 2 )( Yi 2 R2 ( Yi ) N r2 2 ) 11216 10260 (3816 3240)(34124 32490) 956 970,15 0,9854 0,9854 2 0,9710 (ovvero r2= 97,1%) In questo esperimento, quindi, l’equazione di regressione giustifica, spiega circa il 97% della variabilità totale riscontrata nella produzione di mais, mentre il 3% residuo può essere attribuito a fattori inclusi nell’errore, cioè a deviazioni dalla retta di regressione. Il valore positivo di r=0,9854 indica che la correlazione tra le variabili X e Y è positiva. La Fig. 6-3 illustra la variazione di Y totale, spiegata dalla regressione e residua. 38