Confronto tra più di due campioni La matrice dei dati Quando si esaminano più di due popolazioni, le informazioni sono usualmente organizzate sotto forma di matrice. (ω1 , ω2 ,…, ωn ) Pino, Maria,……,Giacomo x11 x 21 ⋮ xn1 x12 ⋯ x1 p x22 ⋯ x2 p ⋮ ⋱ ⋮ xn 2 ⋯ xnp altezza peso reddito X 1 , X 2 ,… , X p Le variabili aleatorie possono essere DIPENDENTI!! Vettore delle medie Matrice di dati x11 x 21 ⋮ xn1 x12 ⋯ x1 p x22 ⋯ x2 p ⋮ ⋱ ⋮ xn 2 ⋯ xnp x11 x 21 ⋮ xn1 x12 ⋯ x1 p x22 ⋯ x2 p ⋮ ⋱ ⋮ xn 2 ⋯ xnp ⇓ (x •1 , x•2 ,… , x• p ) ESEMPIO: Media 30.20 35,83 39.5 24.85 Emissione di CO2 in venti vulcanici (in %) x11 x 21 ⋮ xn1 x12 ⋯ x1 p x22 ⋯ x2 p ⋮ ⋱ ⋮ xn 2 ⋯ xnp (s 2 •1 2 •2 2 •p , s ,… , s ) 2 1 n s = xij − x• j ) ( ∑ n − 1 i =1 2 •j E’ possibile associare ad ogni colonna della matrice, la varianza campionaria. LA MATRICE DI COVARIANZA s11 s 21 S= ⋮ s p1 s12 s22 ⋮ sp2 ⋯ s1 p ⋯ s2 p ⋱ ⋮ ⋯ s pp 1 n s jk = xij − xi j ) ( xik − xi k ) ( ∑ n − 1 i =1 I valori sulla diagonale principale cosa rappresentano? 1 LA MATRICE DI CORRELAZIONE r 21 R= s jk ⋮ rjk = s jj skk rp1 r12 1 ⋮ rp 2 ⋯ r1 p ⋯ r2 p ⋱ ⋮ ⋯ 1 IN STATVIEW ANOVA = ANALYSIS OF VARIANCE (1-way) L’ANOVA è una tecnica statistica che consente di confrontare medie di più campioni casuali. Differentemente dall’acronimo, l’ANOVA non è un test sulle varianze, ma usa una particolare decomposizione della variabilità totale per confrontare medie. Nell’esempio le ipotesi del test sono µ1 = µ2 = µ3 = µ4 H0 : H1 : esiste almeno una media µi diversa dalle altre Se non si rigetta l’ipotesi nulla, allora l’analisi si ferma. Se si rigetta l’ipotesi nulla, è necessaria una analisi POST-HOC per capire quali medie differiscono SSTOT = SSTRAGRUPPI + SS NEIGRUPPI Il rapporto tra queste due variabilità è distribuito secondo una legge di Fisher. Il valore calcolato sui campioni vale all’incirca 1 quando l’ipotesi nulla è vera. STATVIEW Bisogna creare una variabile nominale per le etichette e una continua per i dati. STATISTICA DESCRITTIVA PER I GRUPPI ANALISI POST-HOC (1) ANALISI DEI RISULTATI CON LO STRUMENTO BOX-PLOT ANALISI DEI RESIDUI xij = µ + τ j + ε ij MODELLO MATEMATICO PER L’ANOVA I residui sono osservazioni della variabile aleatoria ε che si assume normale con media nulla e varianza prefissata. • Bisogna verificare l’ipotesi che i residui provengono da una popolazione gaussiana. • Le popolazioni da cui provengono i vari campioni hanno tutte la medesima varianza. VALIDAZIONE DEL MODELLO Per effettuare l’analisi dei residui è necessario sottrarre ad ogni dato della matrice la media campionaria della colonna e poi effettuare un KS test con popolazione gaussiana di media 0 e varianza stimata. ESERCIZIO ANOVA (2-ways) I fattori esaminati sono due. Oltre a verificare che le medie di entrambi i fattori siano statisticamente uguali, viene esaminata l’interazione tra i due fattori. ESEMPIO: Selezionare il data-set car data dalla cartella template •Aprire “New View” nel menu Analyze e sotto la voce “ANOVA” selezionare “ANOVA Table” • Nel menu delle variabili, selezionare “Country” e “Type” come variabili indipendenti, “Weight” come variabile dipendente. • Selezionare “Create analysis” Con la tavola ANOVA ancora selezionata, selezionare “Interaction line plots” In presenza di interazioni, l’ANOVA perde significato. Con la tavola ANOVA ancora selezionata, selezionare “Interaction bar plots” ANOVA NON PARAMETRICO Si tratta di una estensione del test di Mann and WhItney a più di 2 campioni casuali. SI RIGETTA L’IPOTESI CHE LE MEDIANE SONO UGUALI ANOVA MISURE RIPETUTE Si vuole testare la permeabilità direzionale (verticale/orizzontale) in 4 regioni diverse. Per effettuare l’analisi, bisogna “compattare” le variabili in una sola variabile. Selezionare le 4 colonne di Interesse e poi Selezionare “Compact” •Aprire “New View” nel menu Analyze e sotto la voce “ANOVA” selezionare “ANOVA Table” • Nel menu delle variabili, selezionare “Regioni” come variabile indipendente, “Group” come variabile dipendente. ANOVA MISURE RIPETUTE (NON PARAMETRICA) Il test di Friedman è l’analogo non parametrico dell’ANOVA – misure ripetute. Selezionare le variabili di interesse e poi “ADD”