05 - Statistiche Inferenziali - www3

5
Statistiche
Inferenziali
introduzione
(non per statistici!)
Vittorio Maniezzo – Università di Bologna
Ringraziamenti
Questi lucidi derivano da adattamenti personali di materiale
prodotto (fornitomi o reso scaricabile) da:
C. O’Dushlaine, S. Yule, I. Milošev, A. Valbonesi, F. Ronzon
… e da wikipedia.
Vittorio Maniezzo – Università di Bologna
2
Popolazione e campione
Popolazione: l’intero insieme dei dati, individui, oggetti o
risultati di interesse.
• Spesso troppo grande per essere analizzato completamente
• Può essere reale o ipotetica (es. i risultati di un esperimento ripetuto
infinite volte)
Campione: un sottinsieme della popolazione.
• Un campione può essere casuale (ogni membro ha la stessa
probabilità di essere estratto dalla popolazione) o a scelta ragionata
(non probabilistica).
• La selezione casuale cerca di assicurare che il campione sia
rappresentativo della popolazione.
Vittorio Maniezzo – Università di Bologna
3
Variabili
Le variabili sono le quantità misurate in un campione. Possono essere:
• Quantitative (numeriche)
•Continue: Quantificate su scala continua (es. altezza delle
persone nell’aula). Comunque si fissino due valori, tutti i valori
intermedi potrebbero essere assunti.
•Discrete: quantificate con conteggi (es. numero di persone
nell’aula). Per qualunque valore, esiste tutto un intervallo con il
valore è il centro, in cui nessun altro valore può essere assunto.
• Categoriche
•Nominali: i valori identificano le categorie, ma le quantità non
hanno senso (es. genere, nazionalità).
•Ordinali I valori permettono un ordinamento, ma gli intervalli fra
valori possono essere variabili (es. livelli occupazionali, gerarchie
al lavoro).
Vittorio Maniezzo – Università di Bologna
4
Livelli di misura
Scale nominali: i valori indentificano le categorie, le quantità non
hanno senso. Unica relazione: l’identità, unica operazione
ammessa: il conteggio
Scale ordinali: i valori permettono un ordinamento, ma gli intervalli
fra valori possono essere variabili. Relazione d’ordine asimmetrica
e transitiva, non è possibile quantificare le differenze di intensità
tra le osservazioni.
Scale a intervalli: le misure sono continue con intervalli uguali fra i
punti; lo zero è arbitrario (es. tempo, temperatura Fahrenheit o
Celsius). Lo zero non indica l’assenza totale della quantità che si sta
misurando, non è possibile il rapporto tra coppie di valori (una
temperatura di 80 gradi non è il doppio di una di 40 gradi)
Scale di rapporti: tutte le proprietà precedenti e anche uno zero
naturale (es. altezza, distanza, velocità, età, peso, reddito,
temperatura Kelvin).
Vittorio Maniezzo – Università di Bologna
5
Parametri e statistiche
Parametri: quantità che descrivono le caratteristiche di una
popolazione. Di solito non sono note e vogliamo fare una
inferenza statistica sui parametri.
Statistiche descrittive: quantità e tecniche usate per
descrivere le caratteristiche di un insieme di dati, es.
media, deviazione standard, box-plot, …
Statistica inferenziale: tecniche per analizzare i campioni e
generalizzarli alla popolazione
Errore campionario: differenza fra le statistiche
campionarie e i valori dei corrispondenti parametri della
popolazione
Vittorio Maniezzo – Università di Bologna
6
Statistiche
descrittive
Vittorio Maniezzo – Università di Bologna
7
Distribuzioni di frequenza
Una Distribuzione di Frequenza (empirica) o Istogramma per
una variabile continua presenta un conteggio delle
osservazioni, raggruppate in classi o gruppi predefiniti
Una Distribuzione di Frequenza Relativa presenta le
corrispondenti proporzioni di osservazioni all’interno delle
classi
Un grafico a barre (barchart) presenta le frequenze per una
variabile categorica
Vittorio Maniezzo – Università di Bologna
8
Esempio – Velocità autostradali
Rilevazioni autovelox di velocità di autoveicoli che
percorrono un tratto autostradale, misurate in Km/h.
121
82
100
151
68
58
95
145
64
201
101
163
84
57
139
60
78
94
119
62
104
83
110
67
113
93
118
92
203
110
25
123
70
48
95
42
Vittorio Maniezzo – Università di Bologna
9
Tabella frequenze relative
Velocità (Km/h)
Frequenza
Frequenza
Relativa
Frequenza rel.
cumulata
20-39
1
0.028
0.028
40-59
4
0.111
0.139
60-79
7
0.194
0.333
80-99
8
0.222
0.555
100-119
8
0.222
0.777
120-139
3
0.083
0.860
140-159
2
0.056
0.916
160-179
1
0.028
0.944
180-199
0
0.000
0.944
200-219
2
0.056
1.000
Totale
36
1.000
Vittorio Maniezzo – Università di Bologna
10
Distribuzione di frequenza
Vittorio Maniezzo – Università di Bologna
11
Misure di tendenza centrale
Le misure di tendenza centrale indicano in che zona
dell’intervallo dei valori ammissibili si trovano i dati. Misure
comuni sono:
1. La media aritmetica
2. La mediana
3. La moda
Vittorio Maniezzo – Università di Bologna
12
La media
Siano x1,x2,x3,…,xn i valori misurati di una variabile casuale
X, da un campione di cardinalità n.
La media aritmetica è definita come:
In Excel: MEDIA(dati)
In Octave: mean(X)
Vittorio Maniezzo – Università di Bologna
13
Esempio
Alcune delle velocità rilevate su un tratto autostradale sono:
151, 124, 132, 170, 146, 124, 113.
La media è
Vittorio Maniezzo – Università di Bologna
14
Mediana e Moda
• Si organizzano n dati campionari per valori crescenti, poi
la mediana è
•
Il valore di mezzo se n è dispari
•
La media fra i due valori di mezzo se n è pari
In Excel: MEDIANA(dati)
In Octave: median(X)
• La moda è il valore rilevato più di frequente.
In Excel: MODA(dati)
In Octave: mode(X)
Vittorio Maniezzo – Università di Bologna
15
Esempio
N dispari
Le velocità viste prima, ordinate, sono:
113, 124, 124, 132, 146, 151, 170.
La mediana è il valore di mezzo: 132.
Due viaggiatori guidavano a 124 Km/h, quindi la moda è 124.
N pari
Volendo prenotare l’albergo per una settimana bianca in montagna si
chiedono i preventivi a sei alberghi. I preventivi sono:
366, 327, 274, 292, 274, 230.
Riorganizzati per ordine crescente: 230, 274, 274, 292, 327, 366.
La mediana è a metà fra i due valori centrali: (274+292) ÷ 2 = 283.
Due alberghi hanno chiesto la stessa cifra, la moda è 274.
Vittorio Maniezzo – Università di Bologna
16
Media e mediana
Se il campione contiene dei valori molto alti o molto bassi,
la media tende a venirne distorta.
La mediana non è influenzata da valori molto grandi (o
molto piccoli), per cui è una misura migliore si centralità
quando la distribuzione è distorta.
Se media=mediana=moda allora i dati sono detti simmetrici.
Vittorio Maniezzo – Università di Bologna
17
Quartili e percentili
Utilizzando lo stesso principio dell’ordinamento crescente dei dati e
della loro posizione, è possibile definire vari quantili (per esempio,
dividendo in 4 intervalli si ottengono i quartili, e così via).
Se si divide in 100 intervalli, si ottengono i percentili.
Per esempio, il 75° percentile è il valore del dato che, nell’ordinamento
crescente, ha un posizione tale che:
• il 75% dei dati ha un valore inferiore (cioè rimane a sinistra
nell’ordinamento)
• il 25% dei dati ha un valore superiore (cioè rimane a destra
nell’ordinamento)
Nota: la mediana è il 2° quartile e il 50° percentile
Vittorio Maniezzo – Università di Bologna
18
Quartili e IQR
La mediana divide una distribuzione in due metà.
Il primo e terzo quartile (denotati Q1 e Q3) sono definiti come:
• 25% dei dati sono sotto Q1 (e 75% sopraQ1),
• 25% dei dati sono sopraQ3 (e75% sottoQ3)
L’inter-quartile range (IQR) è la differenza fra il primo e il terzo
quartile: IQR = Q3- Q1
Esempio velocità ordinate:
113
124
124
Q1
132
146
151
Q3
Inter Quartile Range (IQR): 151-124 = 27
170
In Excel: manuale
(diff. Fra quartili)
In Octave: iqr(X)
Vittorio Maniezzo – Università di Bologna
19
Misure di dispersione
Le misure di dispersione caratterizzano quanto il campione
è distribuito, quanto sono variabili i dati.
Misure di dispersione di uso comune sono:
1. Range
2. Varianza e deviazione standard
3. Coefficiente di variazione (o deviazione standard
relativa)
4. Inter-quartile range (visto prima)
Vittorio Maniezzo – Università di Bologna
20
Range (campo di variazione)
Il Range del campione è la differenza fra il valore più grande
e il più piccolo nel campione.
Facile da calcolare:
•
Esempio velocità: min=25, max=203, quindi
range=178 Km/h
Utile per definire scenari, il migliore o il peggiore
Molto sensibile ai valori estremi.
In Excel: MAX(dati)-MIN(dati),
RANGE (ingl) è un'altra cosa
In Octave: range(X)
Vittorio Maniezzo – Università di Bologna
21
Varianza
La varianza, s2, è la media aritmetica del quadrato delle
deviazioni rispetto alla media:
Nota: un altro stimatore della varianza prevede di dividere per n-1 e non per n. La
formula precedente è corretta se la media della popolazione è nota.
>
In Excel: VAR.P(dati), VAR.C(dati)
In Octave: var(x [,opt] )
Vittorio Maniezzo – Università di Bologna
22
Deviazione standard
La deviazione standard (o scarto quadratico medio), s, è la
radice quadrata della varianza
s ha il vantaggio di avere la stessa unità di misura
della varibile originaria x
In Excel: DEV.ST.P(dati), DEV.ST.C(dati)
In Octave: std(x [,opt] )
Vittorio Maniezzo – Università di Bologna
23
Esempio
Dati
Deviazione
Deviazione2
151
13.86
192.02
124
-13.14
172.73
132
-5.14
26.45
170
32.86
1079.59
146
8.86
78.45
124
-13.14
172.73
113
-24.14
582.88
Somma= 960.0
Vittorio Maniezzo – Università di Bologna
Somma= 0.00
Somma= 2304.86
24
Coefficiente di Variazione
Il coefficiente di variazione (CV) o deviazione standard relativa (RSD)
è la deviazione standard espressa come percentuale della media:
Il CV non è influenzato da variazioni moltiplicative dalla scala, quindi è
utile quando si vogliono confrontare dispersioni di variabili misurate
su scale diverse
Esempio:
Vittorio Maniezzo – Università di Bologna
25
Box-plot
Un box-plot è una rappresentazione visiva di una
distribuzione basata su:
Valore max.
• Minimo
• Q1
III quartile
• Mediana
Mediana
• Q3
I quartile
• Massimo
Utile per confrontare grossi insiemi di dati
Valore min.
In Octave: boxplot(data, notched, symbol, vertical, …)
Vittorio Maniezzo – Università di Bologna
26
Esempio
Velocità su strada extraurbana:
62, 64, 68, 70, 70, 74, 74, 76, 76, 78, 78, 80
Q1=(68+70)÷2 = 69,
Q3=(76+78)÷2 = 77
IQR = (77 – 69) = 8
Vittorio Maniezzo – Università di Bologna
27
Esempio: confronto fra box-plot
Vittorio Maniezzo – Università di Bologna
28
Outlier
Un outlier (estremo, esterno) è una osservazione con valore molto
diverso da quelli degli altri dati.
Un outlier può essere dovuto a un problema di misura o può essere
indicativo di una sotto/popolazione con valori anormalmente alti o
bassi.
Per rappresentarli in un box-plot, si ridefiniscono
i limiti inferiori e superiori (delle linee) come:
Limite inferiore= Q1-1.5×IQR
Limite superiore= Q3+1.5×IQR
outlier
Le linee potrebbero non arrivare a
raggiungere questi valori!
Se ci sono dati < limite inf. o > limite sup., sono considerati outlier.
Vittorio Maniezzo – Università di Bologna
29
Outlier
Gli outlier possono disturbare le descrizioni:
• Distorcendo la media.
• Aumentando la variabilità.
Eliminazione degli outlier:
• In un campione *normale* i valori campionari
dovrebbero essere sempre entro 3 SD dalla media.
• Spesso i valori esterni a 1.5-2 SD sono scartati a priori.
Vittorio Maniezzo – Università di Bologna
30
Scatter-plot
Rappresenta la relazione fra due variabili continue
Utile nelle prime fasi di un’indagine, per stabile se può
esserci alta correlazione fra le due
Rende evidenti gli outlier
Vittorio Maniezzo – Università di Bologna
31
Statistiche
inferenziali
Vittorio Maniezzo – Università di Bologna
32
Campionamento
Problema: come raccogliere solamente un numero limitato
di dati, un campione, e attraverso la loro analisi pervenire a
conclusioni generali, che possano essere estese a tutta la
popolazione.
Per giungere a queste conclusioni si deve ricorrere
all’inferenza: alla capacità di trarre conclusioni generali
(sulla popolazione od universo) utilizzando solo un numero
limitato di dati variabili (campione).
Vittorio Maniezzo – Università di Bologna
33
Stima statistica
Politica di
campionamento
Popolazione
Parametri
stima
campione
Statistiche
Vittorio Maniezzo – Università di Bologna
34
Stima statistica
Stima
Stima puntuale
media campionaria
proporzioni (quantili)
Stima a intervalli
intervallo di confidenza della media
Intervallo di confidenza delle proporzioni
Le stime puntuali cadono sempre all’interno della stima
degli intervalli corrispondenti
Vittorio Maniezzo – Università di Bologna
35
Stimatore e stima
Esempio: Quale stipendio si può aspettare un neolaureato al
primo impiego?
Si sceglie un campione casuale ad es. di n=5 neolaureati già
assunti (a tempo indeterminato!) e si calcola il valore atteso
della loro retribuzione. Sia ad esempio stipendio medio in
busta paga = € 1100 / mese.
Questa è una stima del salario ipotetico, la media
campionaria è uno stimatore del salario.
La stima è il valore assunto dallo stimatore per un campione,
cioè in uno specifico punto dell’universo dei campioni
Vittorio Maniezzo – Università di Bologna
36
Distribuzione degli stimatori
Lo stimatore è una variabile casuale connessa all’estrazione casuale di
un campione, la stima ottenuta da un campione può essere diversa da
quella ottenuta con un altro campione
La stima tende differire dal parametro da stimare, ma se conosciamo
la distribuzione campionaria dello stimatore possiamo quantificare
probabilisticamente l’errore.
Conoscere la distribuzione serve per descrivere l’andamento dei
risultati che si possono osservare replicando il piano di
campionamento.
Degli stimatori (distribuzioni) interessa soprattutto valore atteso
(media) e varianza.
Vittorio Maniezzo – Università di Bologna
37
Media del campione e media della
popolazione
Se da una stessa popolazione si ripete 20 volte un'operazione
di campionamento, ogni volta con un diverso campione
casuale, si otterranno 20 medie diverse e 20 DS diverse.
Risultato fondamentale: l’insieme di queste medie dei
campioni tende ad assumere una distribuzione particolare,
detta normale, anche se la popolazione di origine non è
distribuita normalmente.
Il processo di campionamento casuale è di per sé un fenomeno
che si distribuisce normalmente.
Vittorio Maniezzo – Università di Bologna
38
Teorema del limite centrale
Il teorema del limite centrale afferma che, data una certa
popolazione con media μ e DS σ, da cui si estrae un numero infinito di
campioni casuali di numerosità n, man mano che n aumenta la
distribuzione delle medie dei campioni tende a una distribuzione
normale, con media μ uguale a quella della popolazione di origine) e
DS =
.
Qualunque sia la forma della distribuzione della popolazione originale,
la distribuzione delle medie dei campioni tende alla distribuzione
normale.
Spesso la distribuzione normale viene raggiunta rapidamente, anche
per valori non molto grandi di n.
Vittorio Maniezzo – Università di Bologna
39
La distribuzione normale
Una distribuzione normale in una variabile X con media µ e
varianza σ è una distribuzione statistica con funzione di
probabilità:
1
/
2
definita sul dominio x ∈(∞, ∞).
Statistici e matematici usano il termine “distribuzione normale”, i
fisici talvolta la chiamano “distribuzione Gaussiana” e gli studiosi di
scienze sociali si riferiscono ad essa come “curva a campana”.
Vittorio Maniezzo – Università di Bologna
40
Distribuzione normale (z)
• L’ascissa rappresenta i valori. L’ordinata rappresenta la densità di
probabilità dei valori. L’area sotto la curva rappresenta l’insieme di
tutti i casi possibili, cioè la probabilità totale.
• Le probabilità non sono mai riferite a un punto, ma a un intervallo, e
rappresentano il rapporto fra tutti i casi che rientrano in
quell’intervallo e il totale dei casi
Vittorio Maniezzo – Università di Bologna
41
Distribuzione normale (z)
In una distribuzione normale :
68.26% dei casi sono compresi fra -1 e +1 DS attorno alla media
95.46% dei casi sono compresi fra -2 e +2 DS attorno alla media
99.74% dei casi sono compresi fra -3 e +3 DS attorno alla media
Vittorio Maniezzo – Università di Bologna
42
Z score
Lo z-score (standard score, normal score) è un modo di trasformare un
singolo valore di una distribuzione normale nel suo equivalente
standardizzato, specificando di quante DS il valore dista dalla media
della popolazione.
Vittorio Maniezzo – Università di Bologna
43
Stima di intervalli
Intervallo di confidenza (IC)
Fornisce un intervallo di valori al cui interno crediamo, con
un certo livello di confidenza, che cada il valore vero
IC per medie di popolazione
Vittorio Maniezzo – Università di Bologna
44
Stima di intervalli
Intervallo di confidenza (CI)
2%
14%
34%
34%
14%
2%
z
-3.0 -2.0
-2.58
Vittorio Maniezzo – Università di Bologna
-1.0
-1.96
0.0
1.0
2.0
1.96
3.0
2.58
45
Stima statistica: il ruolo del caso
Errore sistematico
Ipotesi
Dati per verifica
delle ipotesi
CASO
Accetta ipotesi
Rifiuta ipotesi
L’errore casuale (il caso) può essere controllato gestendo la
significatività statistica o gli intervalli di confidenza
Vittorio Maniezzo – Università di Bologna
46
Test di verifica delle ipotesi
• Il test statistico della verifica delle ipotesi è un processo
logico-matematico che porta alla conclusione di non
poter respingere oppure di poter respingere l'ipotesi
della casualità, mediante il calcolo di probabilità di
commettere un errore con queste affermazioni.
• L’ipotesi che il risultato ottenuto con i dati sperimentali
sia dovuto solo al caso è chiamata ipotesi nulla ed è
indicata con H0. Di norma, con essa si afferma che le
differenze tra due o più gruppi, quelle tra un gruppo e il
valore atteso oppure le tendenze riscontrate siano
imputabili essenzialmente al caso.
Vittorio Maniezzo – Università di Bologna
47
Test
Ci si pone il quesito:
Nell'ipotesi che le differenze fra gruppi di osservazioni empiriche siano
dovute a fattori esclusivamente casuali, quale è la probabilità che fra
tutte le alternative possibili si presenti proprio la situazione descritta
dai dati raccolti (o una ancora più estrema)?
Se tale probabilità risulta (relativamente) alta, convenzionalmente
uguale o superiore al 5%, si imputeranno le differenze a fattori
puramente casuali (accettazione dell’ipotesi nulla).
Al contrario, se la probabilità risulta bassa, inferiore al valore
prefissato, si accetta come verosimile che le differenze siano dovute a
fattori non casuali (non accettazione dell’ipotesi nulla).
Vittorio Maniezzo – Università di Bologna
48
Esempio
Se gettiamo in aria una moneta per 10 volte consecutivamente
abbiamo le seguenti probabilità che esca testa:
testa croce
10
0
9
1
8
2
7
3
6
4
5
5
4
6
3
7
2
8
1
9
0
10
Vittorio Maniezzo – Università di Bologna
tot. lanci
10
10
10
10
10
10
10
10
10
10
10
P (%)
0,10
0,98 Ipotesi nulla respinta
4,39
11,72
20,51
24,61 Ipotesi nulla accettata
20,51
11,72
4,39
0,98 Ipotesi nulla respinta
0,10
100
49
Errori di tipo 1 e di tipo 2
•
Si commette un errore di tipo 1, quando si respinge un ipotesi
nulla che in effetti è vera;
•
si commette un errore di tipo 2, quando si accetta un ipotesi nulla
che in effetti è falsa.
•
La probabilità di commettere un errore di tipo 1 viene indicata con
α e quindi la situazione complementare (ovvero di non sbagliare,
accettando un ipotesi nulla che è vera) ha probabilità (1 - α).
•
La probabilità di commettere un errore di tipo 2, viene invece
indicata con β e quindi la situazione complementare (ovvero di
non sbagliare, scartando un ipotesi nulla che è falsa) ha probabilità
(1 - β).
Vittorio Maniezzo – Università di Bologna
50
Errori di tipo 1 e di tipo 2
• Errore di tipo 1 è l’errore che si commette rifiutando l’ipotesi nulla
quando è vera
È un risultato Falso positivo
La probabilità di commettere un tale errore è data dal livello di
significatività statistica α
• Errore di tipo 2 è l’errore che si commette accettando l’ipotesi
nulla quando è falsa
È un risultato Falso negativo
La probabilità di commettere un tale errore è indicata con β.
La probabilità di prendere una decisione corretta rifiutando l’ipotesi
nulla quando è falsa è 1- β e si chiama potenza del test
Vittorio Maniezzo – Università di Bologna
51
Test di ipotesi: errori di tipo I e II
α: livello di significatività
Vittorio Maniezzo – Università di Bologna
1-β: potenza del test
52
Test di ipotesi: errori di tipo I e II
La probabilità di commettere un errore di tipo I (α) può essere ridotta
cambiando il livello di significatività.
Ci sono solo 5 possibilità su 100 che il risultato sia
classificato come "significativo" per puro caso
α =0.05
sarà più difficile avere un risultato significativo
la potenza del test verrà ridotta
Il rischio di un errore di tipo II crescerà
La probabilità di commettere un errore di tipo II (β) può essere
ridotta aumentando il livello di significatività.
Aumenterà la probablità di un errore di tipo I
Vittorio Maniezzo – Università di Bologna
53
Errori
Vittorio Maniezzo – Università di Bologna
54
Errori
• Se l’ipotesi nulla è falsa allora qualche altra ipotesi, H1, deve essere
vera. Se non siamo in grado di specificare questa ipotesi alternativa,
non è possibile determinare la probabilità di commettere un errore
di tipo II.
• Spesso non è possibile individuare una unica ipotesi alternativa, per
cui si considera solo il livello di significatività α, senza fissare β: si
ritiene più opportuno cautelarsi nei confronti del tipo di errore più
grave, quello di tipo I.
• Questo valutazione è motivata dal fatto che mentre il rifiuto di H0
implica che sia vera l’ipotesi alternativa, la sua accettazione implica
che “non ci sono elementi sufficienti per rifiutarla”.
Vittorio Maniezzo – Università di Bologna
55
Conservatività
Nessun risultato è in assoluto impossibile nei confronti di H0 (ma solo
più o meno probabile), quindi ogni volta che la si rifiuta si corre il
rischio di fare un errore di tipo I con una probabilità α, livello di
significatività di solito fissato al 5% (0,05) o al 1% (0,01), e per la stessa
ragione ogni volta che si accetta si corre il rischio opposto (errore di
tipo II).
I test di verifica dell’ipotesi ci consentono di prendere una decisione
con una predeterminata probabilità di sbagliare (livello di
significatività β, o di non sbagliare, livello di protezione 1 - β ).
Test con alto livello di protezione sono anche detti più conservativi.
Vittorio Maniezzo – Università di Bologna
56
Procedura per un test d’inferenza
I – IPOTESI
Ipotesi nulla, ipotesi alternativa
II - RACCOLTA DEI DATI
Tipo di scala; caratteristiche della distribuzione dei dati
III - SCELTA DEL TEST
Sulla base dell'ipotesi, del tipo di scala e delle caratteristiche dei
dati
IV - RISULTATO DEL TEST- PROBABILITA'
Probabilità di ottenere quel risultato, nella condizione espressa
dall'ipotesi nulla
V – DECISIONE - SCELTA TRA LE DUE IPOTESI
Probabilità α
VI – ANALISI DEL TEST E DEI DATI PER UN NUOVO ESPERIMENTO
Potenza a posteriori e a priori, probabilità β
Vittorio Maniezzo – Università di Bologna
57
Test: relazioni fra variabili
1) Relazioni fra variabili:
Esempi: correlazione, regressione.
2) Differenze fra variabili:
es. Test su differenza di efficacia di approcci risolutivi
diversi
Esempi: t-test; Analysis of Variance (ANOVA), Wilcoxon,
...
Vittorio Maniezzo – Università di Bologna
58
Test: tipi di test
Principale distinzione fra test parametrici i non-parametrici
Test Parametrici sono basati su assunzioni sulla distribuzione dei
parametri della popolazione. Di solito si assume una distribuzione
normale (Gaussiana). I test parametrici sono i più potenti, ma
possono essere fuorvianti se le ipotesi di base non sono
soddisfatte.
Test non-parametrici non fanno assunzioni sulla distribuzione della
popolazione (sono anche chiamati test liberi da distribuzione,
distribution free tests). Di solito basati sui ranghi delle
osservazioni, cioè sul loro numero d'ordine invece che sulle
osservazioni in se'.
Hanno minore potenza e sono meno flessibili dei test parametrici.
Vittorio Maniezzo – Università di Bologna
59
Test: tipi di test
Test non parametrici sono giustificati quando:
1) le variabili hanno evidenti scostamenti dalla normalità (o
sono fortemente asimmetriche o presentano più di un
picco);
2) quando il campione è troppo piccolo per comprendere
se esiste una distribuzione normale dei dati;
3) quando le osservazioni sono rappresentate da classifiche
ordinali (es. gravità di una malattia da 1 a 4).
Vittorio Maniezzo – Università di Bologna
60
Scelta di un test statistico
Griglia per la scelta:
1. Tipo di dati:
2. Se dati di frequenza, allora test della famiglia del Chi-quadro.
3. Altrimenti, interessano relazioni fra variabili o differenze fra
gruppi?
4. Se relazioni fra variabili, allora test di correlazione.
5. Se differenze fra gruppi, allora ANOVA. t di Student, ….
6. In ogni famiglia, ci sono test equivalenti parametrici e non
parametrici.
Vittorio Maniezzo – Università di Bologna
61
START
Flowchart
Frequency
Data?
Differences ?
1 or 2 sample
Chi-square
How many
variables?
One
Two
Same
How many
experimental
conditions?
Same or
Different
participants in each
condition?
Different
Parametric: Non-Param:
Related
Wilcoxon
t-test
Parametric:
Unrelated
t-test
Non-param:
Mann
Whitney
Vittorio Maniezzo – Università
di Bologna
Two or more
Same or
Different
participants in each
condition?
Non-param:
Friedman
or
Parametric:
Non-param:
Pearson's r
Spearman's r
Point biserial
Phi-coefficient
3 or more
Same
Parametric:
Oneway
Within Ss
(Repeated
measures)
ANOVA
Relationships ?
Page’s L
Trend Test
Same
Same or
Different
participants in
each condition?
Different
Factorial Within
Subjects (Repeated
Measures) ANOVA
Both True
Different
Parametric:
Oneway
Between
Group
ANOVA
Factorial Between
Groups ANOVA
Non-param:
KruskalWallis or
Jonckheere
Trend Test
Factorial Mixed
Design (Split-Plot)
ANOVA
62
Test di ipotesi: il valore p
95%
2.5%
2.5%
La probabilità di avere un valore all’esterno dell’intervallo delle linee verdi
se l’ipotesi nulla è vera è < 5%
Vittorio Maniezzo – Università di Bologna
63
Test di ipotesi: il valore p
p = probabilità di osservare un valore più estremo di
quello considerato, se l’ipotesi nulla è vera
Minore è il valore p, maggiore è la possibilità che l’ipotesi
nulla sia una spiegazione dei dati
Nell’esempio:
• Risultati esterni alle linee verdi: p<0.05,
• Risultati interni alle linee verdi: p>0.05
Vittorio Maniezzo – Università di Bologna
64
Test di ipotesi: intervalli di
confidenza e significatività
Accettata
l’ipotesi nulla
Il valore dell’ipotesi nulla
interno all’intervallo 95%
p > 0.05
Rifiutata
l’ipotesi nulla
Il valore dell’ipotesi nulla
esterno all’intervallo 95%
Vittorio Maniezzo – Università di Bologna
p < 0.05
65
Test di normalità: metodo 1 (rude)
1. Necessario un campione sufficientemente ampio, bene almeno
50 punti
2. Calcolare media (A), mediana (M), range (R), e deviazione
standard (σ) del campione.
3. A e M devono essere vicini, < 1% di R. (distrib. normale è
simmetrica, A = M). Se molto diversi, distribuzione non normale.
4. Regola 68-95-99.7: in una distribuzione normale, 68% dei dati
sono entro σ da A, il 95% entro 2σ, il 99.7% entro 3σ.
5. Se passi 3 e 4 soddisfatti, la distribuzione del campione potrebbe
essere normale.
6. Bisognerebbe usare test più affidabili, come i test di KolmogorovSmirnov, Anderson-Darling, o Shapiro-Wilk.
Vittorio Maniezzo – Università di Bologna
66
Test di normalità: metodo 2 (rude)
Altro modo immediato e rude: confronto dell'istogramma dei dati con
la curva normale. Facile da fare in Excel.
Si ordinano i dati, li si raggruppa arbitrariamente (in "bins"). In Excel
necessari i limiti inferiori di ogni bin.
In Excel bisogna attivare il componete aggiuntivo "Analisi dati", quindi
scegliere istogramma. Inserire la serie dati in "intervallo di input" e la
serie bins in "Intervallo della classe". Checkare "Grafico in output" e si
ha una cosa del tipo:
Confrontare con una normale con la stessa media e DS:
Vittorio Maniezzo – Università di Bologna
67
Test di normalità: metodo 3 (rude)
IDEA: i dati distribuiti normalmente hanno la stessa area compresa fra
due dati successivi. Es., 7 punti, l'area sotto la curva fra due punti
successivi è 1/7 dell'area totale.
Stessa area
sottesa
In Excel, si può avere l'area sottesa fino a un punto x usando la
Cumulative Distribution Function (CDF) :
CDF = DISTRIB.NORM.N(x, media, Standard Deviation, TRUE )
L’area nell'intervallo fra due punti successivi è la differenza delle relative
CDF.
Esempio, dati -4 -3 0.8 1.8 3.9 6.2 6.5 (ordinati!)
Vittorio Maniezzo – Università di Bologna
68
Test di normalità: metodo 3 (rude)
SI calcolano n (7), media (1.74), e DS (4.15) della colonna DATI.
• Si aggiunge una colonna CDFNORM con le CDF di n dati distribuiti
normalmente. La CDF della media vale 0.5 (ovviamente). Le CDF
degli altri dati sono centrate sulla media (0.5) e poi separate di 1/n
• Si aggiunge una colonna CDFNORMZ con le CDF dei dati in
CDFNORM trasformate in z score tramite:
INV.NORM.S(CDFNORM)
• Si aggiunge una colonna DATINORM, con i dati normali adattatati ai
parametri campionari:
INV.NORM.N(CDFNORM, media camp., dev.st. camp.)
Vittorio Maniezzo – Università di Bologna
69
Test di normalità: metodo 3 (rude)
Il test si effettua plottando in un grafico (a dispersione) i valori dei dati
reali (DATI) e quelli normali (DATINORM) verso gli z score
(CDFNORMZ).
Nel grafico, i DATI dovrebbero approssimare la retta generata dai
DATINORM.
Grafico: 1) inserisci grafico 2) mouse dx seleziona dati 3) voci aggiungi 4) modifica serie
Vittorio Maniezzo – Università di Bologna
70
Parametri caratterizzanti un test
Gradi di libertà
il numero di punteggi, elementi o altre unità nei dati in
ingresso, che sono liberi di variare,
Spesso pari al numero di osservazioni meno 1.
Test su una o due code
I test su una coda sono usati per ipotesi già orientate
I test su due code in tutti gli altri casi
Vittorio Maniezzo – Università di Bologna
71
Distribuzione t di Student
Famiglia di distribuzioni al variare di k = gradi di libertà
Vittorio Maniezzo – Università di Bologna
72
Distribuzione t di Student
Utilizzata se la varianza della popolazione non è nota (non lo
è quasi mai). La si stima con
∑
. Si passa da z a t.
La distribuzione t somiglia molto alla distribuzione Z, tranne
che ha le code un po’ più pronunciate, a riflettere
l’incertezza aggiunta dal processo di stima.
Maggiore è la dimensione del campione (quindi il numero di
elementi usati per stimare σ), e maggiore è la somiglianza di
t con Z.
Se n>50, t e Z sono molto simili.
Vittorio Maniezzo – Università di Bologna
73
Distribuzione t di Student
Nota: t
→
z se n cresce
Normale
Standard
(t con n = ∞)
t (n = 13)
Le distribuzioni t hanno forma a
campana, ma con code maggiori
di quelle della normale
t (n = 5)
0
Vittorio Maniezzo – Università di Bologna
t
74
Distribuzione t di Student
La distribuzione t:
• Approssima la normale se n>100.
• Può essere utilizzata al posto della normale se la
dimensione del campione è abbastanza ampia.
• Riflette l’incertezza introdotta dall’uso della deviazione
standard del campione, invece che di quella della
popolazione.
Vittorio Maniezzo – Università di Bologna
75
T test
Il test t di Student si usa per verificare se c'è stato effetto da una
operazione (dati accoppiati, misurando prima e dopo) o comunque
per verificare se due gruppi (campioni) sono diversi.
Confronta due medie e dice se sono significativamente diverse. Si
calcola un valore di t funzione della differenza di medie e varianze. Più
è alto t più è probabile che le medie siano diverse.
In generale
t = (differenza fra medie) / (Variabilità dei gruppi)
La specifica formula dipende dal tipo di test, ce ne sono molti
Vittorio Maniezzo – Università di Bologna
76
t-test a una o due code
Nel test ad una coda, la zona di rifiuto
è solamente da una parte della
distribuzione (a sinistra quando il
segno è negativo, a destra quando è
positivo)
Nel test a due code, la zona di rifiuto è
distribuita dalle due parti
Il test a due code è più conservativo (vi
si ricorre quando non si ha alcuna idea
sui possibili risultati) mentre il test ad
una coda è più potente
Vittorio Maniezzo – Università di Bologna
77
t di Student in Excel
DISTRIB.T.N(Z;gdl) coda sx, DISTRIB.T.DS(Z;gdl) coda dx
Es. = DISTRIB.T.DS(1.96;99999)=0,025
2 Code
DISTRIB.T.2T(Z;gdl)
Es. =DISTRIB.T.2T(1.96;99999)=0,05
α/2
α/2
-Z
Z
INVT(p;gdl), INV.T.2T(p;gdl)
Es. =INV.T.2T(0.05;9999)=1,96
Vittorio Maniezzo – Università di Bologna
78
Esempi valori critici di t
Coda di destra
gdl
.25
.10
.05
1
1.000
3.078
6.314
2
0.817
1.886
2.920
3
0.765
1.638
2.353
Le celle contengono
valori di t, non
probabilità
Vittorio Maniezzo – Università di Bologna
Dati:
gdl =
α=
α/2 =
n=3
n-1=2
0.10
0.05
α/2 = .05
0
2.920
t
79
Test parametrici: t-test fra un
gruppo e popolazione nota
Confronto fra una media campionaria e la media della
popolazione completamente nota.
Es., è noto che il peso di un maschio adulto ha una media di
70.0 kg e una deviazione standard di 4.0 kg (media della
popolazione µ= 70.0 e deviazione standard della popolazione
σ= 4.0).
Dati di un campione di 28 ragazzi presi a caso in spiaggia :
peso medio 67.0 kg e deviazione standard 4.2 kg.
Domanda: in spiaggia ci vanno i più magri?
Formula (gdl = n-1) t =
Vittorio Maniezzo – Università di Bologna
̅
80
t-test su un gruppo, in Excel
Media della popolazione,
µ= 70.0
Dev. standard popolazione, σ= 4.0
Dimensione campione
n= 28
Media campionaria,
̅ = 67.0
Dev. standard campione,
s= 4.2
Ipotesi nulla, H0 = non c’è differenza fra media campionaria e
media della popolazione.
Dalla formula (
̅ − /( ⁄ ) ), t = -3.77964, lo si
confronta con il valore critico INVT(0.05,27) = -1.703288446 (una
coda perché testo solo se più magri, entrambi negativi non
importa tanto distribuzione simmetrica)
L’ipotesi nulla è rifiutata con un livello di confidenza del 5%
Vittorio Maniezzo – Università di Bologna
81
t test fra due gruppi
Formula della distribuzione
t=
"#$%& $%''#(# )# '(& *+,,%#
-./01./ 22030 40 50/ 0
=
̅6
̅
(con
=
se appaiati)
67
6
Il valore di t è il valore della funzione di distribuzione calcolato in
corrispondenza dell'x di interesse.
Il test può essere a due code (più stringente, incertezza suddivisa) o a
una coda (meno stringente, incertezza tutta da una parte).
Vittorio Maniezzo – Università di Bologna
82
t test fra due gruppi
• Nel t-test per campioni indipendenti (unpaired) si
confrontano due campioni che si riferiscono a due gruppi
di soggetti diversi (per esempio risultati ottenuti su uno
stesso problema da algoritmo A o algoritmo B):
between-subject design.
• Nel t-test per campioni appaiati (paired) i due campioni
si riferiscono a due diverse misurazioni dello stesso
parametro nello stesso gruppo di soggetti (per esempio
una soluzione prima e dopo la ricerca locale). In questo
caso ci saranno due misurazioni per ogni soggetto, e
quindi la numerosità dei due campioni è
necessariamente uguale:
within-subject design.
Vittorio Maniezzo – Università di Bologna
83
Esempio: t test su due gruppi
Nel 1980, una ricerca ha riportato che “i maschi hanno maggiori
competenze matematiche delle femmine” come risulta dai dati SAT
(Scholastic Aptitude Test, v. http://www.erikthered.com/tutor/satact-history.html) del 1979, dove un campione 30 ragazzi ha avuto un
punteggio (media ± dev.st.) di 436±77, mentre 30 ragazze ha avuto
416±81.
Conclusioni corrette?
Metodologia:
• Tipo di variabile? Continua
• Distribuita (abbastanza) normalmente? Si
• Osservazioni correlate? No
• Numero di campioni da confrontare? due
t test su due campioni
Vittorio Maniezzo – Università di Bologna
84
t test
Ipotesi: H0: ♂-♀ SAT = 0, H1: ♂-♀ SAT ≠ 0 [due code]
Dalla formula: t = 0.980188051
t critico (gdl = 58, 60-2) = INV.T.2T(0.05,58) = 2.001717484
t < t critico, H0 accettata
Vittorio Maniezzo – Università di Bologna
85
t test appaiati: esempio 1 in excel
SI considera una ricerca locale su un problema di max. Prima della
ricerca (10, 3, 5, 6, 3, 5) dopo (12, 15, 9, 7, 9, 6)
Poi componente aggiuntivo -> strumenti di analisi -> test t, due
campioni accoppiati per medie
Media ipotizzata: 0 (ipotesi nulla, 0), alfa 0.05 (o 0.01).
Si ottiene
Vittorio Maniezzo – Università di Bologna
86
t test: esempio in excel
Risultati: il valore di t è 2.511.
Test a una coda
Il t è maggiore del t critico a una coda (2.015). Quindi con il 95% di
certezza la differenza è significativa.
Stessa conclusione via p-value, che per una coda è 0.027 (< 0.05).
Test a due code
Qui ciascuna delle code ha una regione critica pari al 2.5%
dell'area totale. Il t non è abbastanza grande per essere
posizionato nel 2.5% più esterno: t = 2.511 < 2.571 (valore critico a
due code).
Analogamente, p-value = 0.054 > 0.05 (alpha del test).
Vittorio Maniezzo – Università di Bologna
87
t test appaiati: esempio 2 in excel
Ancora confronto fra due algoritmi, qui uno provato su set di istanze
diverse (congruenti).
Alg. A
1
2
3
4
5
6
7
8
9
10
11 Medie
Alg. B
639
646
650
641
641
637
659
650
640
635
643.8
Vittorio Maniezzo – Università di Bologna
650
633
631
637
642
638
640
634
626
636
640
635.7
Test t: due campioni assumendo varianze diverse
Media
Varianza
Osservazioni
Differenza ipotizzata per le medie
gdl
Stat t
P(T<=t) una coda
t critico una coda
P(T<=t) due code
t critico due code
Alg. A
Alg. B
643.8
637
54.4
39.6
10
11
0
19
2.261646
0.018167
1.734064
0.036334
2.100922
88
t di Student in Excel
t = 2.261646.
• Confrontando t con il t critico per 19 gradi di libertà (gdl = num.
dati – num. gruppi; 21-2=19) il valore è superiore a quello della
colonna p=5%.
Si rifiuta l'ipotesi zero, la differenza è significativa per p<0.05. Ciò
significa che c'è una probabilità inferiore al 5% che la differenza sia
dovuta al caso.
• Inoltre p=0.036334 (due code). Ciò significa che c'è una probabilità
inferiore a 3.64% che la differenza sia dovuta al caso.
Si può affermare che la differenza sia significativa per p=0.0344,
quindi è significativa allo 0.05, ma non (ad. es.) allo 0.01.
Vittorio Maniezzo – Università di Bologna
89
Test non parametrici: dati ordinali
Gruppi correlati
• Wilcoxon matched-pairs signed rank test: confronto fra due gruppi
• Friedman matched samples: confronto fra due o più gruppi
Gruppi indipendenti
• Mann-Whitney U : confronto fra due gruppi
• Kruskal-Wallis H: confronto fra due o più gruppi
Vittorio Maniezzo – Università di Bologna
90
Test non parametrici:
Wilcoxon signed rank test
Domanda: c'è differenza di qualità fra i risultati prodotti da un
algoritmo A e quelli di un algoritmo B?
Tipo di variabile da confrontare? Continua
Se normale
Distribuita normalmente? No (e n piccola)
t di Student
Quanti gruppi sono coinvolti? due
Wilcoxon sum-rank test
Due variabili correlate, nessuna assunzione sulle loro distribuzioni.
Ipotesi nulla: le due variabili hanno la stessa distribuzione
Il test è basato sulla grandezza delle differenze fra coppie, e dà più
peso alle coppie che hanno una differenza grande.
Considera i ranghi dei valori assoluti delle differenze fra due variabili
Vittorio Maniezzo – Università di Bologna
91
Test di Wilcoxson
Test molto semplice: si ordinano i dati dei gruppi e si sommano le
posizioni (rank) di ciascuno quando è migliore.
Idea: si sommano a turno i rank degli ordinamenti in cui uno dei due
gruppi supera l'altro. Più le somme sono diverse, più i gruppi saranno
diversi. Se gruppi simili, le posizioni alte e basse nell’ordinamento
saranno equamente suddivise, se diversi uno tutte differenze basse e
uno tutte alte.
La statistica del test di Wilcoxon W è la più piccola delle due somme.
Più W è bassa meno è probabile che la differenza sia dovuta al caso.
Se bassa uno va sempre meglio.
Una tabella di valori critici indica la probabilità di ottenere ogni
particolare valore di W solo per caso. (Nota: Wilcoxon è atipico. Di
solito, maggiore è la statistica, minore è la prob. di averla avuta per
caso. Qui l’inverso).
Vittorio Maniezzo – Università di Bologna
92
Wicoxson
1. Calcola le differenze (col segno) dei valori in ogni coppia di dati
corrispondenti.
2. Ordina le differenze, ignorando il segno (val. assoluto). Ignora le
differenze pari a 0. Minimo = 1.
Differenze uguali hanno rank uguale alla media delle posizioni
corrispondenti. Somma i rank positivi (nell’es. = 22, A meglio di B) e
somma i rank negativi (es.= 6, B meglio di A).
3. W è la somma minima; es. W = 6. N è il numero di differenze, senza
considerare quelle nulle. Es. N = 8 - 1 = 7.
4. Usa la tabella per trovare il valore critico di W, dato N. Il valore di W
deve essere uguale o minore al valore critico per essere
statisticamente significativo.
Vittorio Maniezzo – Università di Bologna
93
Tabella
Se il campione più
alto contiene più di
venti elementi, la
distribuzione di W si
approssima alla
normale con questi
parametri:
Vittorio Maniezzo – Università di Bologna
94
Stessi dati, ricopiabili
Wilcoxon Signed-Ranks Table
Critical Vaues for 2-tail significance levels
n
Vittorio Maniezzo – Università di Bologna
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
0.10
0
2
3
5
8
10
13
17
21
25
30
35
41
47
53
60
67
75
83
91
100
alpha
0.05
0.02
0
2
3
5
8
10
13
17
21
25
29
34
40
46
52
58
65
73
81
89
0
1
3
5
7
9
12
15
19
23
27
32
37
43
49
56
62
69
77
0.01
0
1
3
5
7
9
12
15
19
23
27
32
37
42
48
54
61
68
95
Esempio, test di Wilcoxon
Due algoritmi che individuano quanti camion servono per
trasportare un insieme dato di bancali (soggetti a vincoli
operativi). 8 istanze diverse
Istanza
Alg. A
Alg. B
Differenza
Rank
1
15
10
5
4.5
2
12
14
-2
2.5
3
11
11
0
Ignora
4
16
11
5
4.5
5
14
4
10
6
6
13
1
12
7
7
11
12
-1
1
8
8
10
-2
2.5
Media: 12.5,
DS: 2.56
Mediana: 12.5
Vittorio Maniezzo – Università di Bologna
Mediana: 10.5
96
Esempio, test di Wilcoxon
Il valore critico di W per N = 7 è 2.
Il valore calcolato W = 6 è maggiore di quello critico.
I due gruppi non sono quindi significativamente diversi.
Conclusione: i due algoritmi hanno una efficacia equivalente.
Vittorio Maniezzo – Università di Bologna
97
Esempio 2
Confronto fra risultati ottenuti su 5 istanze da un algoritmo
che implementa una ricerca locale di raffinamento
Il valore di W è sufficiente per ritenere che vi sia un effetto
significativo della ricerca?
Vittorio Maniezzo – Università di Bologna
98
Test di significatività parametrici e
non parametrici
Vittorio Maniezzo – Università di Bologna
99