Confronto tra più di due
campioni
La matrice dei dati
Quando si esaminano più
di due popolazioni, le
informazioni sono usualmente organizzate
sotto forma di matrice.
(ω1 , ω2 ,…, ωn )
Pino, Maria,……,Giacomo
 x11

x
 21
 ⋮

 xn1
x12 ⋯ x1 p 

x22 ⋯ x2 p 
⋮ ⋱ ⋮ 

xn 2 ⋯ xnp 
altezza
peso
reddito
X 1 , X 2 ,… , X p
Le variabili aleatorie possono essere DIPENDENTI!!
Vettore delle medie
Matrice di dati
 x11

x
 21
 ⋮

 xn1
x12 ⋯ x1 p 

x22 ⋯ x2 p 
⋮ ⋱ ⋮ 

xn 2 ⋯ xnp 
 x11

x
 21
 ⋮

 xn1
x12 ⋯ x1 p 

x22 ⋯ x2 p 
⋮ ⋱ ⋮ 

xn 2 ⋯ xnp 
⇓
(x
•1
, x•2 ,… , x• p )
ESEMPIO:
Media
30.20
35,83
39.5
24.85
Emissione di CO2 in venti
vulcanici (in %)
 x11

x
 21
 ⋮

 xn1
x12 ⋯ x1 p 

x22 ⋯ x2 p 
⋮ ⋱ ⋮ 

xn 2 ⋯ xnp 
(s
2
•1
2
•2
2
•p
, s ,… , s
)
2
1 n
s =
xij − x• j )
(
∑
n − 1 i =1
2
•j
E’ possibile associare ad ogni colonna della matrice, la varianza campionaria.
LA MATRICE DI COVARIANZA
 s11

s
21

S=
 ⋮

 s p1
s12
s22
⋮
sp2
⋯ s1 p 

⋯ s2 p 
⋱ ⋮ 

⋯ s pp 
1 n
s jk =
xij − xi j ) ( xik − xi k )
(
∑
n − 1 i =1
I valori sulla diagonale
principale cosa rappresentano?
1
LA MATRICE DI CORRELAZIONE

r
21

R=
s jk
 ⋮
rjk =

s jj skk
 rp1
r12
1
⋮
rp 2
⋯ r1 p 

⋯ r2 p 
⋱ ⋮ 

⋯ 1 
IN STATVIEW
ANOVA = ANALYSIS OF VARIANCE (1-way)
L’ANOVA è una tecnica statistica che consente di confrontare medie di
più campioni casuali.
Differentemente dall’acronimo, l’ANOVA non è un test sulle varianze,
ma usa una particolare decomposizione della variabilità totale per confrontare medie.
Nell’esempio le ipotesi del test sono
µ1 = µ2 = µ3 = µ4
H0 :

 H1 : esiste almeno una media µi diversa dalle altre
Se non si rigetta l’ipotesi nulla, allora l’analisi si ferma.
Se si rigetta l’ipotesi nulla, è necessaria una analisi POST-HOC per
capire quali medie differiscono
SSTOT = SSTRAGRUPPI + SS NEIGRUPPI
Il rapporto tra queste due variabilità è distribuito secondo una legge di Fisher.
Il valore calcolato sui campioni vale all’incirca 1 quando l’ipotesi nulla è vera.
STATVIEW
Bisogna creare una variabile nominale per le
etichette e una continua per i dati.
STATISTICA DESCRITTIVA
PER I GRUPPI
ANALISI POST-HOC (1)
ANALISI DEI RISULTATI CON LO STRUMENTO BOX-PLOT
ANALISI DEI RESIDUI
xij = µ + τ j + ε ij
MODELLO MATEMATICO PER L’ANOVA
I residui sono osservazioni della variabile aleatoria ε che
si assume normale con media nulla e varianza prefissata.
• Bisogna verificare l’ipotesi che i residui provengono da una popolazione gaussiana.
• Le popolazioni da cui provengono i vari campioni hanno tutte la medesima varianza.
VALIDAZIONE DEL MODELLO
Per effettuare l’analisi dei residui è necessario sottrarre ad ogni dato
della matrice la media campionaria della colonna e poi effettuare un
KS test con popolazione gaussiana di media 0 e varianza stimata.
ESERCIZIO
ANOVA (2-ways)
I fattori esaminati sono due. Oltre a verificare che le medie di entrambi i fattori siano
statisticamente uguali, viene esaminata l’interazione tra i due fattori.
ESEMPIO: Selezionare il data-set car data dalla cartella template
•Aprire “New View” nel menu Analyze e sotto la voce “ANOVA” selezionare “ANOVA Table”
• Nel menu delle variabili, selezionare “Country” e “Type” come variabili
indipendenti, “Weight” come variabile dipendente.
• Selezionare “Create analysis”
Con la tavola ANOVA ancora selezionata, selezionare “Interaction line
plots”
In presenza di interazioni, l’ANOVA perde significato.
Con la tavola ANOVA ancora selezionata, selezionare “Interaction bar
plots”
ANOVA NON PARAMETRICO
Si tratta di una estensione del test di Mann and WhItney a più di 2 campioni casuali.
SI RIGETTA L’IPOTESI CHE LE MEDIANE
SONO UGUALI
ANOVA MISURE RIPETUTE
Si vuole testare la permeabilità direzionale (verticale/orizzontale)
in 4 regioni diverse.
Per effettuare l’analisi, bisogna “compattare” le variabili in una sola variabile.
Selezionare le
4 colonne di
Interesse e poi
Selezionare
“Compact”
•Aprire “New View” nel menu Analyze e sotto la voce “ANOVA” selezionare “ANOVA Table”
• Nel menu delle variabili, selezionare “Regioni” come variabile indipendente, “Group” come variabile dipendente.
ANOVA MISURE RIPETUTE (NON PARAMETRICA)
Il test di Friedman è l’analogo non parametrico dell’ANOVA – misure ripetute.
Selezionare le
variabili di interesse e poi “ADD”