COMPLEMENTI DI PROBABILITA’ E STATISTICA 3 Crediti Docente : Elvira Di Nardo ([email protected], 0971-205890) Modalità di esame: 1 Prova scritta alla fine del corso + 1 Tesina (facoltativa) Testi consigliati: Manuale on-line di statistica Informazioni: http://www.unibas.it/utenti/dinardo/didattica.html Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica 1 Statistica Descrittiva Indici di posizione, di asimmetria e di dispersione Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica 2 1 Costruzione di un istogramma Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica 3 Costruzione di un Box-Plot Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica 4 2 60 50 40 30 20 10 0 q1 min mediana max q3 1 Cliccare sul singolo dato due volte in modo da ottenere la finestra Formato serie dati Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica 5 http://cirdis.stat.unipg.it/files/Sperimentazione/Box-Plot-in-Excel.html Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica 6 3 Costruzione di un Q-Q plot Assegnato un campione casuale ORDINATO è il grafico delle coppie (x( ) , z( ) ) dove P(Z < z( ) ) = i − 0,5 i i i n Viene anche usato per verificare se due campioni casuali provengono dalla stessa popolazione. Compl. Prob & Stat. a.a. 04/05 7 Statistica non parametrica Statistica Inferenziale per un campione casuale • test sulla media – popolazione normale con varianza nota • test sulla media – popolazione normale con varianza incognita • test sulla media – popolazione non normale, taglia maggiore di 30 • test sulla varianza – popolazione normale Cosa accade per popolazioni non normali e/o taglie inferiori a 30? TEST NON PARAMETRICI (distribution free) Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica 8 4 I test non parametrici sono meno potenti, per cui è più difficile rifiutare l’ipotesi nulla, ma quando l’ipotesi nulla è rifiutata, generalmente le conclusioni non possono essere sospettate di invalidità Test sulla mediana (test dei segni) Test sulla media Test sulla varianza Test di intervallo interquartile di Westenberg In fase ancora sperimentale Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica 9 Test dei segni (test mediana) Scopo: verifica di ipotesi sulla tendenza centrale H0 : M = M0 H1 : M ≠ M 0 Procedura • Si confronta ogni elemento del campione con il valore di riferimento trasformando il campione casuale in una sequenza di segni + e -. NB: eventuali differenze nulle non vengono riportate • Si contano il numero di segni positivi: r+ • Se fosse vera l’ipotesi nulla, la v.a. R+ che conta il numero di segni positivi risulterebbe binomiale di parametri (taglia, 0.5). • Vale che P( R + ≥ r + ) = P( R + ≤ n − r + ) Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica 10 5 • Risultano sospetti sia valori troppo alti di r+ che valori troppo bassi (indice di sbilanciamento nella distribuzione dei segni). p = 2 P (R + ≥ r + ) se r + ≥ n / 2 + + + p = 2 P (R ≤ r ) se r ≤ n / 2 • Se p<Hsi rifiuta l’ipotesi nulla, se p> Hnon si rifiuta l’ipotesi nulla Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica 11 Esempio: Da una serie di rilevazioni sulla quantità di specie presenti in alcuni ambienti, sono stati rilevati i seguenti 20 valori di biodiversità (vedi tabella). Si valuti se la tendenza centrale di questa serie è significativamente differente da 6.5, valore centrale dell’area in studi precedenti. 2,5 4,5 2,7 4,9 2,9 5,3 2,9 6,5 3,1 6,5 3,1 8,9 3,1 9,7 3,8 11,7 3,9 15,7 4,2 18,9 - 0 0 + + + + + N=18, r+=5 0,096252 Si rigetta l’ipotesi nulla. Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica 12 6 Riconoscere la legge di distribuzione di un campione casuale TEST CHI-QUADRATO Da Analisi Dati -> Istogramma Classe Frequenza 50 0 75 2 100 2 125 2 150 2 Altro 2 Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica 13 Costruzione delle frequenze attese Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica 14 7 Classe Frequenza 50 0 75 2 100 2 125 2 150 2 Altro 2 10 Freq attese 3,9346934 1,3416411 1,0448711 0,8137464 0,6337464 2,2313016 10 Differenze 15,48181 0,433436 0,912271 1,407198 1,866649 0,0535 Diff.divise 3,934693 0,323064 0,873094 1,729283 2,94542 0,023977 9,829532 = INV.CHI(0,05;5) = 11.07 Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica 15 Test di Kolmogorov-Smirnov Scopo: verificare se esiste una differenza significativa tra la funzione di ripartizione empirica costruita per il campione casuale e la funzione di ripartizione di un modello teorico. FX ( xi ) − Fˆ ( xi ) Statistica: D = i =max 1, 2 ,..., n # di elementi del campione ≤ xi Fˆ ( xi ) = n Per n ≤ 35 si usano le tavole, per n > 35 si usano i valori D= 1.36 n per α = 0.05 e D= 1.63 n per α = 0.01 NB: questo test è più potente del test chi-quadrato. Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica 16 8 Esercizio: Supponiamo di voler verificare l’ipotesi che una certa popolazione abbia distribuzione esponenziale con legge x F ( x) = 1 − exp − , x > 0 100 Che conclusioni si possono trarre se un campione ordinato di numerosità 10 mostra i seguenti valori? 66 72 81 94 112 116 124 140 145 155 66 72 81 94 112 116 124 140 145 155 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 0,483149 -0,38315 0,513248 -0,31325 0,555142 -0,25514 0,609372 -0,20937 0,67372 -0,17372 0,686514 -0,08651 0,710616 -0,01062 0,753403 0,046597 0,76543 0,13457 0,787752 0,212248 Stat. test Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica 17 Test Kolmogorov-Smirnov (in EXCEL) Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica 18 9 Si sceglie la funzione distribuzione teorica tra le funzioni statistiche di Excel Si determina il valore della statistica Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica 19 Statistica Inferenziale per due campioni casuali • test Z sulla differenza tra medie, varianze note, popolazioni normali Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica 20 10 • test T sulla differenza tra medie per dati accoppiati Questa forma del test t non presuppone che le varianze delle due popolazioni siano uguali. È possibile utilizzare un test accoppiato quando vi è un naturale appaiamento tra le osservazioni dei campioni, come nel caso di una duplice verifica di un gruppo campione, prima e dopo un esperimento. Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica 21 • test T sulla differenza tra medie, popolazioni normali, varianze incognite ma uguali Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica 22 11 • test T sulla differenza tra medie, popolazioni normali, varianze incognite e diverse Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica 23 • test F sul rapporto tra varianze, popolazioni normali Ipotesi fondamentale: Indipendenza dei campioni Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica 24 12 Test chichi-quadrato (2 classificazioni) I classificazione II classificazione R1 C1 O11 C2 O12 R2 O21 O22 K O2 m M M Rs Os1 L Cm K O1m M O Tavola di contingenza M Os 2 K Osm frequenza assoluta attesa relativa al livello j Eij = per la I classificazione e al livello i per la II = n pij = n u i v j classificazione uˆ i = 1 m ∑ Oij n j =1 1 s vˆ j = ∑ Oij n i =1 Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica 25 Test chichi-quadrato (2 classificazioni) s m χ 2 = ∑∑ (O i =1 j =1 ij − Eij ) 2 E ij ≥ χ α2 ,( s −1)( m −1) Esempio: Una compagnia deve scegliere tra 3 diversi progetti di pensionamento. I direttori vogliono sapere se la preferenza espressa per uno dei tre progetti è indipendente dalla categoria di lavoro. Effettuano una indagine tra 500 lavoratori e i risultati sono riportati in tabella: Categoria lavorativa Lav. fissi Lav. ad ore Totale 340 Categoria lavorativa Lav. fissi 136 136 68 340 60 160 Lav. ad ore 64 32 160 200 200 100 500 Totale 200 200 100 500 1 2 160 140 40 60 3 Totale 40 Frequenze osservate 1 2 64 3 Totale Frequenze attese χ 2 = 49.63 > χ 02.05, 2 = 5.99 Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica 26 13 Test chi-quadrato per l’indipendenza (in EXCEL) 160 40 140 60 136 64 40 60 136 64 68 32 1,66906E-11 Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica 27 Test di Fisher Scopo: verificare se due fattori A e B hanno influito sulla presenza Di un certo carattere. + indica la presenza del carattere - indica l’assenza del carattere A B + a b a+b c d c+d a+c b+d n La probabilità di osservare questo tipo di configurazione è data da una v.a. ipergeometrica a + b c + d a c P( R + = a) = a + b + c + d a+c Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica 28 14 Il metodo di Fisher si basa sul concetto che tenendo fissi i totali i numeri a,b,c,d possono assumere a caso qualsiasi valore. Procedura: • si riduce di 1 il numero di osservazioni nella casella con il numero minore modificando gli altri valori in modo da mantenere i marginali costanti (fino a 0); • si calcolano le probabilità ipergeometriche associate alle tabelle così costruite (e si sommano); • se il valore ottenuto è piuttosto basso (inferiore a 0.10 o 0.05) si rigetta l’ipotesi nulla di indipendenza (altrimenti si andrebbe contro il principio zero della statistica) Per campioni di taglia elevata si può usare il test chiquadrato per l’indipendenza. Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica 29 Esercizio: Vengono esaminati un lotto di 18 esemplari di uno stesso prodotto industriale, ottenuti in parte col processo di lavorazione A e in parte col processo di lavorazione B. I 18 esemplari vengono classificati in base al numero di difetti: C=“≤ 3” e C D D=“>3”. Si determini se il processo di produzione ha A 2 8 10 influito sulla presenza dei difetti B 5 7 3 11 8 18 10 8 2 5 P (2) = = 0.079 P(0) = 18 7 10 8 0 7 = 0.000251 18 7 Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica 10 8 1 6 P (1) = = 0.0087 18 7 30 15 Test di Mc Nemar Scopo: verificare l’esistenza di differenze tra prima e dopo un certo trattamento. Necessari: dati appaiati, risposte nominali binarie dopo + + b prima a - c d b e c rappresentano gli elementi su cui c’è stata una modifica del carattere; Se fosse vera l’ipotesi nulla (il trattamento non determina un mutamento significativo), coloro che sono passati da + a – (e viceversa) dovrebbero aver scelto a caso: il numero dei cambi da + a - = numero dei cambi da – a +. Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica 31 se il trattamento fosse inefficace, il numero medio di cambiamenti: (b+c)/2=E Statistica: K = (b − E )2 + (c − E )2 E E ≈ χ 12 • Il test chi-quadrato (a due vie) si applica a campioni potenzialmente indipendenti • Il test di McNemar si applica a campioni DIPENDENTI! Esercizio: 25 soggetti di cui 18 fumatori e 7 non fumatori furono immessi in stesso ambiente lavorativo in cui predominavano i fumatori incalliti. Dopo 3 mesi di attività lavorativa dei 18 fumatori, 4 avevano smesso di fumare, e dei 7 non fumatori, 4 avevano cominciato a fumare. Il “trattamento” era stato efficace? Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica 32 16 Esercizi 1. Una compagnia effettua 3 turni su 4 macchine ogni giorno. Per ogni macchina sono stati registrati i numeri di guasti per ogni turno (in tabella). Verificare l’ipotesi che i gustai sono indipendenti dai turni. Turni 1 2 3 A 41 31 15 B 20 11 17 C 12 9 16 D 16 14 10 2. Verificare con un test di Kolmogorov e con un test chi-quadrato se il seguente campione casuale può ritenersi distribuito secondo un modello binomiale. 5 9 6 4 8 5 3 4 4 3 6 5 2 4 4 4 Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica 33 Esercizi 1. Esaminando uno stesso campione prima e dopo un certo trattamento, sono state riscontrate le frequenze di cambiamenti (in entrambi i versi dal + al - o dal - al +) e di assenza dei medesimi (dal - al - o dal + al +) riportate in tabella. Il trattamento ha influito nel determinare un verso prevalente dei cambiamenti? + tot 2. Verificare se per il seguente campione si può assumere che la mediana è 0. + 22 15 37 -0,30 -1,28 0,24 1,28 1,20 2 2 4 tot 24 17 41 1,73 -2,18 -0,23 1,10 -1,09 3. Gli alberi da frutta sono spesso soggetti a malattie causate Morti Vivi da batteri che prendono il nome di ruggine da fuoco, per il Tratt. A 7 12 19 fatto che i rami degli alberi affetti da tale malattia appaiono Tratt. B 0 5 5 bruciacchiati. 24 alberi con questa malattia sono stati sud7 17 24 divisi in due gruppi: a 19 alberi non è stata applicata alcuna terapia (e di questi 7 sono morti entro l’anno e 12 sono sopravvissuti per altri 4 anni), mentre a 5 alberi sono stati tagliati i rami che sembravano affetti da batteri (e di questi tutti sono sopravvissuti per altri 4 anni). Verificare se è utile intervenire sugli alberi ammalati. Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica 34 17