Calcolo della Numerosità
Binomiale 5 prove
0.350
0.313
0.313
0.300
probabilità
0.250
0.200
0.156
0.156
0.150
0.100
0.050
0.031
0.031
0.000
0
1
2
3
successi
4
5
Calcolo della Numerosità
Binomiale 6 prove
0.350
0.313
0.300
0.234
probabilità
0.250
0.234
0.200
0.150
0.094
0.100
0.094
0.050
0.016
0.016
0.000
0
1
2
3
successi
4
5
6
Calcolo della Numerosità
Binomiale 12 prove
0,250
0,226
0,193
probabilità
0,200
0,193
0,150
0,121
0,121
0,100
0,054
0,054
0,050
0,016
0,016
0,000 0,003
0,003 0,000
0,000
0
1
2
3
4
5
6
successi
7
8
9
10
11
12
T-Test
test sulla media di un gruppo
1. H0:  = o
• ² nota viene utilizzata la distribuzione
normale N(o,²/n)
• ² ignota si utilizza
t=
x - o
2
s
n
T-Test
T-Test
confronto fra le medie di due gruppi
2. H0: 1 = 2
x
1 - x2
• 1² = 2² ignote si utilizza t =
1 1
2
sp( + )
n1 n2
n1
sp 
2
SSQ1 + SSQ 2

+
2
n1 n2
n2
2
(
+
(
)
)
x
x
x
x
1j
1
2j
2


1
2
1
n1 + n2 - 2
T-Test
osservazioni correlate
3. H0: d = 0
• Si calcolano per ogni soggetto le differenze d
t=
d
2
d
s
n
Analisi della Varianza
• Quando i gruppi sono più di due non è più
possibile applicare il t-test per il confronto fra
due medie
• Bisogna allora ricorrere all'analisi della varianza.
Il suo presupposto fondamentale è che, se è vera
l'ipotesi nulla che non vi sia differenza fra i
gruppi, la variabilità all'interno dei gruppi è
uguale alla variabilità fra i gruppi
Analisi della Varianza
• Si tratta quindi di un confronto di varianze che
può essere saggiato con la distribuzione F
• Per ciascun soggetto i del gruppo j lo scarto dalla
media generale può essere scomposto in uno
scarto dalla media di gruppo più uno scarto della
media di gruppo dalla media generale
Analisi della Varianza
• Vale cioè la relazione:
xij - x.. = (xij - x.j) + (x.j - x..)
• La stessa scomposizione può essere fatta anche
sulle somme degli scarti al quadrato (SSQ)
SSQtot = SSQintgr + SSQtragr
Analisi della Varianza
• La somma dei quadrati degli scarti totali è
calcolata sui valori di tutti i soggetti del campione
rispetto la media generale
• La somma dei quadrati degli scarti tra i gruppi si
ottiene attribuendo a ciascun soggetto il valore
medio del suo gruppo e calcolando gli scarti dei
valori così modificati dalla media generale
• La somma dei quadrati degli scarti all'interno dei
gruppi si ottiene per differenza
Analisi della Varianza
• Le relative varianze si ottengono dividendo le
somme dei quadrati degli scarti per i rispettivi
gradi di libertà. La varianza all'interno dei gruppi è
nota anche come varianza residua
• La variabile statistica su cui viene effettuato il test
è data dal rapporto:
F
VARIANZA TRA GRUPPI
VARIANZA INTERNO GRUPPI
Analisi della Varianza
Gruppo 1
16
14
17
13
14
16
15
17
14
15
Gruppo 2
12
14
11
13
14
12
15
12
11
13
N
Mean
Std.
Deviation
Std. Error
Mean
Gruppo 1
10
15.1
1.370
.433
Gruppo 2
10
12.7
1.337
.423
Analisi della Varianza
t-test
Punteggi
t
df
Sig (2tailed)
Mean
Difference
95% Confidence Interval
of the Difference
Equal
variances
assumed
3.963
18
.001
2.4
1.28
3.672
Equal
variances
not assumed
3.963
17.989
.001
2.4
1.28
3.672
ANOVA
Sum of
Squares
df
Mean
Square
F
Sig
Beteewn
Groups
28.8
1
28.800
15.709
.001
Within
Groups
33.0
18
1.833
Analisi della Varianza
• L'interazione rappresenta l'effetto di particolari
combinazioni degli effetti principali non
imputabili semplicemente alla somma degli effetti
componenti.
• Essa può anche essere vista come una mancanza di
parallelismo tra un fattore e l 'altro.
EFFETTI PRINCIPALI
E
INTERAZIONE
DISEGNO SPERIMENTALE
Definisce il modo di dividere in gruppi il campione sperimentale
Trattati
Trattati M
Trattati F
Controlli
Controlli M
Controlli F
EFFETTI PRINCIPALI
E
INTERAZIONE
CRITERI DI CLASSIFICAZIONE
Definiscono i modi di raggruppamento e quindi gli effetti studiati
M
F
Trattati
Controlli
31
39
35
41
34
43
32
38
36
40
36
41
37
36
38
35
33
41
38
38
EFFETTI PRINCIPALI
E
INTERAZIONE
Parametri descrittivi
Mean
Std.
deviation
n
M
33.6
2.074
5
F
36.4
2.074
5
M
40.2
1.924
5
F
38.2
2.775
5
37.1
3.227
20
Trattati
Controlli
Totale
EFFETTI PRINCIPALI
E
INTERAZIONE
Analisi della Varianza
Source
SS
df
MS
F
Sig
constant
27528.2
1
27528.2
5505.64
.000
trattamento
88.2
1
88.2
17.64
.001
sesso
.8
1
.8
.16
.694
Tratt x Sesso
28.8
1
28.8
5.76
.029
Within factor
80.0
16
5.0
Analisi della Varianza
Calcolo dell’interazione
Valori Sperimentali
trattati
controlli
Maschi
33.6
40.2
36.9
Femmine
36.4
38.2
37.3
media
35.0
39.2
37.1
effetti principali
M trattati
media
= y  ( yM  y )  ( y trattati  y )
scarto = y M trattati - effetti principali
M trattati
EFFETTI PRINCIPALI
E
INTERAZIONE
Interazione
45
40
M
F
35
30
Trattati
Controlli
Analisi della Regressione Lineare
• Permette di analizzare la relazione fra due o più
variabili quantitative gaussiane utilizzando un
modello di riferimento costruito a partire dai dati
sperimentali.
• Può essere Lineare semplice o Lineare Multipla
Analisi della Regressione Lineare
Nel caso in cui la variabile indipendente sia una sola
il modello utilizzato è di tipo lineare semplice e
l’equazione che lo determina e l’equazione della
retta:
y=a+bx
La determinazione dei parametri a e b è fatta con il
metodo dei minimi quadrati
Analisi della Regressione Lineare
s xy
b= 2
sx
a= y -b x
n
( x - x ) ( y - y )
i
Dove:
s xy =
i
1
n-1
Analisi della Regressione Lineare
Analisi della Regressione Lineare
• Coefficiente di Determinazione R2
SSQ modello
R2 =
SSQ totale
s xy
• Coefficiente di Correlazione
r=
• Parametro F
sx  s y
varianza modello
F=
varianza residua
Analisi della Regressione Lineare
30
Media Esami
29
28
27
SH
26
SV
DE
25
44
46
48
50
52
54
Voto Maturità
56
58
60
62
Modello Lineare Generale
(GLM)
yijk =  + i + j + ij + b·x + eijk
dove yijk rappresenta la variabile dipendente
misurata e  e  e  rappresentano i parametri
relativi agli effetti e all’interazione che
influenzano la variabile dipendente. Il coefficiente
b rappresenta la relazione fra x e y. Il parametro e
rappresenta il termine errore dovuto alla
variazione casuale dei dati.
Modello Lineare Generale
(GLM)
• Di ogni parametro viene data la
significatività
• I parametri vengono calcolati eliminando gli
effetti di tutti gli altri parametri
• Si possono calcolare contrasti multipli
ortogonali
Modello Lineare Generale
(GLM)
Permette:
• l’uso di fattori qualitativi e quantitativi
• il confronto fra prove ripetute, di dati
correlati
• l’uso di più variabili dipendenti (analisi
multivariata)
Modelli Non Parametrici
Accuracy and certainty are competitors:
The surer we want to be, the less we must
demand.
Basic Ideas of Scientific Sampling di Alan Stuart, Griffin,
London, 1968
Modelli Non Parametrici
Una serie di dati
- binomiale
- chi quadrato
- runs (numero di valori consecutivi superiori o inferiori a un valore
soglia)
Due serie di dati correlati
- McNemar (proporzioni)
- Sign (distribuzione dei valori)
- Wilcoxon
Più serie di dati correlati
- Friedman
Due serie di dati indipendenti
- Mann-Whitney
- Kolmogorov-Smirnov
Più serie di dati indipendenti
- Kruskall-Wallis
Modelli Non Parametrici
Misure di associazione
 Tavole di contingenza: associazione fra due variabili qualitative
 Modelli Log-Lineari: associazione fra più variabili qualitative
 Modelli Log-Lineari Gerarchici: associazione fra più variabili
qualitative
Modelli Regressivi
 Regressione Logistica: modello generale in cui è possibile esprimere
una variabile qualitativa (dicotomica) come funzione di una o più
variabili sia qualitative che quantitative.
Tavole di Contingenza
Permettono di analizzare la relazione fra due
variabili di tipo qualitativo.
L’ipotesi nulla (assenza di relazioni)
corrisponderà alla proporzionalità fra le
diverse condizioni delle variabili.
Tavole di Contingenza
Un esempio…
Soggetti
Risultato negativo
Risultato positivo
Gruppo A
41
216
257
Gruppo B
64
180
244
105
396
501
Totale
Totale
Tavole di Contingenza
Per confrontare le frequenze sperimentali con
l’ipotesi nulla si crea una corrispondente
tabella per l’H0 costituita dalle frequenze
teoriche che rappresentano la condizione di
proporzionalità.
In formule…
Tavole di Contingenza
Calcolo dei valori teorici Ti
nell’ipotesi di
proporzionalità (Ho)
Valutazione della differenza
fra i valori teorici e i valori
sperimentali applicando la
formula del 2
Ti =
totriga  tot colonna
 = i
2
totale
( T i - E i )2
Ti
Tavole di Contingenza
Calcolo i valori teorici T nell’ipotesi di
proporzionalità (Ho vera)
Ti=
totriga  tot colonna
totale
Risultato negativo
Risultato positivo
Totale
Gruppo A
41
53.9
216
203.1
257
Gruppo B
64
51.1
180
192.9
244
Totale
105
396
501
Tavole di Contingenza
Valuto l’entità della differenza fra i valori teorici
e i valori sperimentali applicando la formula
del 2 .
 = i
2
( T i - E i )2
Ti
2= (41-53.9)2 /53.9 + (64-51.1)2 /51.1 + (216-203.1)2 /203.1+
+ (180-192.9)2 /192.9 = 7.978
Tavole di Contingenza
• Valuto la significatività: se p<0.05 posso concludere che
c’è differenza nei due gruppi rispetto ai risultati
positivi/negativi.
• Confronto il valore di 2 ottenuto con il limite di
falsificazione per (r-1)(c-1) gradi di libertà che in questo
caso corrisponde a 2.05,1=3.84 < 7.978
Posso Respingere H0
Test del Segno
• Utilizzato per confrontare due serie di dati
correlati, ad esempio fra due prove misurate
con punteggi che vanno da 1 a 10.
• Il confronto si effettua sulle differenze fra
seconda e prima prova, applicando la
Distribuzione Binomiale per valutare la
diversità fra miglioramenti e peggioramenti.
Un esempio...
Escludendo le
situazioni di assenza
di differenze,
confronto i 7
miglioramenti sui 12
casi.
Attraverso il Test del
Segno la differenza
non è significativa in
quanto p=0.344.
Soggetti Prova1
1
6
2
5
3
5
4
6
5
4
6
7
7
6
8
7
9
6
10
5
11
4
12
6
Prova2
8
6
8
5
7
7
8
6
9
4
7
6
Differenza
2
1
3
-1
3
=
2
-1
3
-1
3
=
Se avessimo applicato il t-test per
prove ripetute...
t= 2.382 che, con 11 gradi di libertà, fornisce
una significatività di 0.036. Il valore del
parametro t viene calcolato dalla media
delle differenze e dalla loro deviazione
standard.
PROVA1
PROVA2
PROVA2 - PROVA1
Mean
5.58
6.75
1.17
N
12
12
12
Std. Deviation Std. Error Mean
0.996
0.288
1.422
0.411
1.697
0.490
Una soluzione alternativa: il Test
dei Ranghi di Wilcoxon
• Si basa sulla classificazione dei soggetti in base
alla differenza ottenuta nelle due prove e utilizza il
numero d’ordine (rango) dei soggetti come nuova
variabile da sottoporre a verifica statistica.
• Attraverso un’opportuna elaborazione di tale
variabile si ottiene un parametro con una
distribuzione prossima ad una distribuzione
normale standard che viene utilizzata per eseguire
il test.
Test dei Ranghi di Wilcoxon
• Per effettuare il test si parte mettendo i dati sia del
primo che del secondo gruppo in ordine crescente
in un unico elenco. Si associa a ogni dato il suo
numero d'ordine nella scala così ottenuta. L'ipotesi
nulla, come al solito, è che non vi sia differenza
fra i due gruppi. Se questo è verificato i dati del
primo gruppo saranno dispersi in modo uniforme
nella scala costruita. Se l'ipotesi nulla è falsa essi
saranno concentrati nella parte alta o bassa della
scala. Nel caso precedente p=0.039.
Test di McNemar
• Misura la concordanza fra due variabili.
METODO1 & METODO2
METODO1
ottimis ti
pessimisti
METODO2
ottimis ti
pessimisti
14
8
2
6
Test di McNemar
• Questo test considera solo le risposte discordanti
dei due metodi e formula l’ipotesi nulla che non vi
sia differenza fra i due metodi, nel senso che si
possono avere indifferentemente soggetti
classificati ottimisti dal primo metodo ma non dal
secondo o l’opposto di questo. Il test non
considera cioè quanto i due metodi sono concordi
ma solo se le discordanze hanno una direzione
preferenziale.
Test di McNemar
• Nell’esempio in corso abbiamo 10 soggetti
con risposta discorde. L’ipotesi nulla è che
di questi 5 siano ottimisti col primo metodo
ma non con il secondo e che 5 siano nella
situazione opposta. In realtà per questi due
gruppi abbiamo ottenuto 8 e 2.
Test di McNemar
• Utilizzando la distribuzione binomiale, valutiamo se i
valori ottenuti sono significativamente diversi dai
valori attesi. La distribuzione binomiale ci permette di
ottenere un test esatto e, data la bassa numerosità del
campione, rappresenta il metodo idoneo. Per
numerosità maggiori viene spesso utilizzata la
distribuzione 2 che, pur essendo un test
approssimato, necessita di calcoli più semplici.
• La significatività che si ottiene da questi dati è di
0.109 che non ci permette di falsificare l’ipotesi nulla
e di sostenere una reale differenza fra i due metodi.
Regressione Logistica
• Trasforma la variabile qualitativa dicotomica (evento, non
evento) in una variabile quantitativa utilizzando il
parametro odds
p(evento)
odds 
p(non evento)
• 1.Variabile
0,1
• 2.Probabilità 0
• 3.Odds
0
1

Regressione Logistica
ODDS
p(event | exposure )
p(event)
odds 

p(event | exposure ) p(non event)
p
odds 
 odds  odds  p  p  odds  p(1  odds)
1 p
odds
p
1  odds
Regressione Logistica
Per poter utilizzare una equazione nel campo dei
numeri reali si esegue una ulteriore trasformazione
logarimica che prende il nome di logit
Odds
logit
(valore - --- 0 --- +)
p(evento)
logit  log
p(nonevento)
Regressione Logistica
La variabile può essere vista come funzione dei
fattori in un modello regressivo:
logit (variabile)= b0 + b1  x1 + b2  x2 + b3  x3 ….
odds  e  e
b0
b1  x1

Regressione Logistica
Stima dei Parametri (b)
viene fatta con metodo a successive approssimazioni.
Il loro significato si può dedurre dall’odds ratio:
O.R. 
odds x1 1
odds x1 0
b1 1
e  e    b1

e
b0
e 
b0
Odds Ratio e Rischio relativo
Disease
Exposed
Non Exposed
OR= a/b
c/d
Non Disease
a b
c d
RR= a/(a+b)
c/(c+d)
Regressione Logistica
• La regressione logistica fornisce le
significatività per:
 il modello globale
 i singoli parametri, togliendo gli effetti dei
parametri già considerati
Analisi fattoriale
• ridurre il numero delle variabili in esame;
• trasformare le variabili in studio in variabili
mutuamente indipendenti;
• individuare le fonti delle variabili sperimentali;
• assegnare ad esse un significato reale.
Analisi fattoriale
Il punto di partenza dell’analisi fattoriale è la
matrice di correlazione delle variabili esaminate,
attraverso la quale vengono calcolate nuove
variabili, dette fattori, fra loro indipendenti. Vi
sono diversi metodi matematici per ottenere queste
nuove variabili. Un metodo, noto come metodo
delle componenti principali, si avvale del calcolo
degli autovalori e autovettori della matrice di
correlazione.
Analisi fattoriale
•
•
•
•
•
capacità argomentativa
desiderabilità sociale
coinvolgimento emotivo
ricerca della certezza
atteggiamento di intransigenza
Analisi fattoriale
Factor
1
2
3
4
5
Eigenvalue
1.58165
1.31683
.87879
.65468
.56805
Variable
argoment.
des.soc.
emotiv.
certezza
intrans.
Pct of Var
31.6
26.3
17.6
13.1
11.4
Factor
Cum Pct
31.6
58.0
75.5
88.6
100.0
1
.79211
-.06178
.00558
.63892
.73631
Factor
2
-.03512
.82247
.76485
.21603
-.08646
ND
D
TP/(TP+FN)
‘ND’
TN/(TN+FP)
‘D’
TP/(TP+FP)
TN/(TN+FN)
(TN+TP)/ALL
‘D’
‘ND’