statdott - Docenti.unina

La statistica è
difficile !
Ci vuole ‘un
esperto’ !
Una p veramente significativa !
Regions
Whole Brain
Septum
Thalamus
NARTpl
Amygdala
N.Ruber
1/s
Lycopodium Persicum Stimulation
2/s
3/s
4/s
0.0
±1
± ''3
456
3
A51
0.0
67
1&2
+2
3
???
4.2
875
41
-4
3.3
Ζ021
0.6
121
SG
55
333
§99
p
NS
0.001
ND
0.003
0.03333
0.E003
Perec G. Experimental Demonstration of the
Lycopodium organization in the Cantatrix sopranica
L. Am. J. Mus. Deficiency, 1999 : 7: 3-6.
• Statistical evaluation of the data was made
using an iterative
tennis-like algorithm
(Wimbledon 1974), that is, every time a
target was unbiasely centered, an inverse
YR/2 correction factor was added to the
regression analysis, including the dosage
effect (Throw Strenght) as a continuous
covariate correction.
Lycopodium persicum =
Pummarola Stimulation !
Ma che cosa è veramente questa ‘p’ ?
• Probabilità della
Ipotesi Nulla p di Ho
• ove Ho dice che :
- casi
= controlli
- placebo = farmaco
- test
= non test
• opposto di H1 che dice
che c’è una differenza
• Ma se abbiamo che le
probabilità sono
• p Ho= 0.5 p H1 = 0.5
• p Ho= 0.3 p H1 = 0.7
• p Ho= 0.2 p H1 = 0.8
• p Ho= 0.1 p H1 = 0.9
• p Ho= 0.07 p H1 = 0.93
• p Ho= 0.05 p H1 = 0.95
PERCHE’ NON MI BASTA LA ‘p’
• Il Disegno di uno studio NON parte da una
applicazione formale di statistica, bensì dal Giudizio
Clinico.
• Si definisce , in primis, un risultato, un punto d'arrivo,
un esito (end point)
• In secundis si definisce quale e quanta differenza
vogliamo essere capaci d'osservare tra i due gruppi
d'intervento (Differenza nell'esito tra trattati e
controlli), ancora Giudizio Sperimentale o Clinico
 Infine si chiede allo Statistico di calcolare il numero di casi
e di controlli necessari per rispondere ai quesiti di cui sopra
Ma quale pppp ci vuole ??
SCIENZA O CARTA STRACCIA ?
• Il doppio cieco ‘non è
etico’
• Proporre terapie senza
un trial controllato
• Piccoli numeri
• Fare sottogruppi
Errore di II tipo
• Valutare solo ‘p’
70
60
50
40
30
20
10
0
0,5
1
1,5
2
migliorato
non responder
guarito
La statistica comincia qui !
NOME___________________________________
Visita del: |_|_|_|_|_____| Sesso M/F 
Nato di |_|_|_|_|grammi a |_|_| sett. Al seno
per |_|_|_| giorni. Svezzato a |_|mesi
PESA |_|_|_|_|_| gr. cent |_|_| Alt. |_|_|_|, |_| cm
cent |_|_| Peso/Alt. C. |_______|
Cranio |_____| c.|_____| In un anno è cresciuto
di |____| cm c.|_____| e |______| gr. c.|____|
Archie Cochrane :
Doctors sit on a mine of data !
http://www.quadernodiepidemiologia.it/epi/campion/dimens.htm
Dimensione del
Campione
Potenza 1-β
Significatività α
Frequenza nei
controlli
N > 20/gruppo
Sample Size
on-line
Quattro tipologie di variabili o dati
• Variabili continue : da 0 a XXX
– Età, altezza, distanza, glicemia, pressione ecc
– Variabili categoriche o scalari : 1-2-3-4 + ++ +++
• Livello di istruzione, intensità del dolore, stadio
– Variabili Qualitative : 2 9 34 112
• Colore, lavoro, malattia, sintomi, provenienza
– Variabili Binomiali : Sesso, Positivo si/no,
Vero/Falso 1-2
Variabili Continue :
età, altezza, glicemia, ratio, distanza
• Controlliamo che la distribuzione sia
‘accettabilmente ‘ Normale’ e via :
– Media, Deviazione Standard, Errore Standard
della Media
– Differenza tra medie
– t di Student
– Analisi della Varianza
– Regressione e Correlazione r di Pearson
– Analisi multivariata
Variabili qualitative, binomiali, scalari
sesso, si/no, dolore, grado di 1-2-3-4,
• Differenza tra Percentuali
• Chi Quadrato – test esatto di Fisher
• Rank Test : test di posizione su scala
• (Wilcoxon – Mann-Whitney )
• Scalari : Correlazione di Spearman
– Chi Quadrato per il trend
Il dato più importante: quello che non c’è !!!
• Per avere "dati puliti“ bisogna avere una spiegazione certa sui dati mancanti,
(omessi, lasciati in bianco)
• La risposta può essere in bianco perché la domanda non è stata fatta, o non si
è avuta una risposta o la risposta è negativa (nessuna malattia ad es.)
• o per altre ragioni legate (domanda non applicabile al bimbo)….
• Dare un valore ai "casi mancanti".
• Potremo assegnare al mancante il valore di 0, perchè il dato è assente, 9
perchè "non si sa" e bianco per "domanda non posta".
• Dal momento che i calcolatori non distinguono lo 0 dal bianco,
• MAI MAI impiegare 0 e Bianco per i codici dei dati mancanti
• (preferire 9,8 99, a seconda della larghezza della casella dati, o -1 ecc.).
• Data nascita 99/99/9999 Sesso 9 Altezza 999,9 ecc
Strategia pratica in funzione della grandezza del
campione : per ‘n’ in ciascun gruppo
• < 10
• 10-20
: descrivere ‘con enfasi’ no ‘p’
: test non parametrici rank sum
• Chi Quadro, Wilcox, Mann-Whitney, Spearman
• > 20
: valutare la ‘normalità’
– Non accettabile : Test Non Parametrici
– Accettabile :
e… via !
• T-test , ANOVA, Regressione, Correlazione,
Multivariata
VARIABILI CONTINUE ‘NORMALI’
I dati si disperdono intorno ad un valore centrale,
mediano, più frequente (moda), media matematica
Il grafico delle frequenze cumulative permette una
facile visione dei percentili !
Gli Scarti : Non tutti i piedi sono uguali !
Gli scarti : tanti positivi, tanti negativi : la somma = 0
Basta elevare I valori al quadrato e la somma stimerà gli scarti
Dagli scarti dalla media: una facile derivazione
•
DEVIANZA = Σ (m-x)2
• Somma dei quadrati degli scarti dalla media
•
•
VARIANZA= Σ(m-x)2
n-l
• Somma dei quadrati degli scarti rispetto ai gradi di libertà
• Deviazione Standard = √ Σ (m-x)2
•
n-l
• La stessa somma dei quadrati degli scarti sotto radice quadrata
per riportarci alla unità di misura iniziale
Ma è molto importante controllare la distribuzione !
Deviazione Standard suoi effetti
s= 2
s =3
s =4
21
Francesco Ronzon
Lecco, 15 dic 2005
Media=Moda=Mediana ! Percentili ‘facili’
Percentili
3 5
25 50 75 90 95
ERRORE STANDARD DELLA MEDIA
•
Più valori medi, di una stessa popolazione, si distribuiscono intorno ad un valore medio
assoluto (e ignoto) con una distribuzione di tipo normale, è allora possibile avere una
stima di quanto tendono a discostarsi dal valore medio assoluto.
•
•
•
ERRORE STANDARD DELLA MEDIA = DEVIAZIONE STANDARD / √ n
Nella pratica clinica (specie in chimica clinica) è spesso usato il coefficiente di
variazione, che esprime il rapporto percentuale tra DS e media:
•
•
•
•
•
COEFFICIENTE DI VARIAZIONE = (Deviazione Standard/media) x 100
Una delle caratteristiche fondamentali della distribuzione normale è che il 95% di tutta
la popolazione è inclusa in un intervallo ottenuto sommando al valore medio 1.96 volte
le DS e sottraendo al valore medio 1.96 volte la DS (circa 2 volte), cioè il 95% dei valori
ricade tra x± 1.96 DS. L'intera popolazione può dunque essere descritta mediante la
media e l'intervallo che contiene i valori della media meno o più 1.96 volte la DS.
I limiti di confidenza della media (quei limiti che comprenderanno il 95% dei possibili
valori medi di quella popolazione) saranno ottenuti dal valore medio più o meno 1.96
volte l'ESM.
•
•
•
LIMITI DI CONFIDENZA (al 95%)= m ± 1,96 ESM
Ma è molto importante controllare la distribuzione !
Errore
Standard
della Media
DS= VARIABILITA TRA INDIVIDUI
ESM= PRECISIONE DELLA MEDIA DI UN CAMPIONE
Z-Score = m-x
DS
Altezza 124cm , media per l’età e sesso = 132cm, DS 4,5
Z-Alt = (132-124)/4,5 = - 1,77
La formulazione delle ipotesi
• La statistica non dice che “la popolazione A è certamente diversa da B"
bensì "quanto è improbabile" che la popolazione A sia identica a quella B.
• Si tratta di rifiutare l'ipotesi nulla (detta anche Hypotesis Zero: H0) che
sostiene che "non vi è alcuna differenza tra le due popolazioni":
• IPOTESI NULLA H0: A=B
• se l'ipotesi nulla ha meno del 5% di probabilità di essere vera, possiamo
rifiutarla. L'abbiamo rifiutata con una probabilità (il famoso "p") inferiore
al 5% (= 0.05).
• L'errore alfa o errore di primo tipo è l'area dei possibili risultati che ci
inducono a respingere l'ipotesi nulla, anche quando essa possa essere vera
• L'errore beta o errore di secondo tipo è l'inverso: è l'errore di non
respingere l'ipotesi nulla H0 quando infatti essa sia falsa, cioè l'incapacità a
documentare la reale differenza che esiste tra A e B per problemi legati al
metodo utilizzato
La differenza tra due medie: il t di Student
Per dati non appaiati, due medie diverse A e B
t = (mA-mB)
S
S= √( Devianza A+Devianza B)
nA+nB-2
Per dati Appaiati abbiamo solo la Media delle Differenze ‘d’
t=d ∙ √ DS diff.2
n
Vediamo se un polimorfismo del gene c-REL del tipo AA è più frequente nei 20
soggetti /182 che sviluppano una atrofia della mucosa intestinale
TABELLA DEI VALORI OSSERVATI
Genotipo del gene c-REL * Esito in celiaco
CELIACO
Totale
potenziale Atrofico
AA Osservato
91
8
99
%
56
40
AG Osservato
57
10
67
%
35
50
GG Osservato
14
2
16
%
9
10
Totale Osservato
%
162
100
20
100
182
100
Moltiplicando i totali di riga per quelli di colonna e dividendo per il gran
totale abbiamo le frequenze attese in base al caso
Genotipo del gene c-REL * Esito in celiaco
CELIACO
Total
AA
AG
GG
Total
Osservato
Atteso
%
Osservato
Atteso
%
Osservato
Atteso
%
Osservato
Atteso
%
potenziale Atrofico
91
8
88
11
56
40
57
10
60
7
35
50
14
2
14
2
9
10
162
20
162
20
100
100
99
99
54
67
67
37
16
16
9
182
182
100
La differenza
tra attesoosservato è
importante !
La statistica χ2
( fo  fa )
 
fa
2
2
2
(
Osserv

Atteso
)
2
 
Atteso
•
Quando i valori osservati sono lontani da quelli attesi il
valore di χ2 è elevato
•
Quando i valori osservati sono vicini a quelli attesi il
valore è basso
La distribuzione χ2
• La tabella della
distribuzione χ2 consente
di identificare la zona
critica per qualsiasi valore
di gradi di libertà e per
qualsiasi alfa (p)
• (Gdl= n. categorie – 1)
gdl
1
2
3
4
5
6
7
8
9
10
Alfa
0,05
3,84
5,99
7,81
9,49
11,07
12,59
14,07
15,51
16,92
18,31
0,01
6,63
9,21
11,34
13,28
15,09
16,81
18,48
20,09
21,67
23,21
Il test più comune ma …
• SE avete piccoli
numeri e solo 2x2
caselle usate il
• Test di Fisher p
esatta
Se avete più caselle
(n x n es. 3 x 5 )
attenti che in nessuna
vi sia un numero < 5
Se accade : accorpate
caselle vicine
Non vi siete ancora annoiati ???
European Laboratory for Food
Induced Research Federico II
La correlazione: rappresentazione grafica
– Ascisse: X
– Ordinate: Y
• Le osservazioni si
rappresentano come
punti sul piano
cartesiano
0,6
Velocità di reazione
• Le due variabili si
rappresentano come X
eY
0,5
0,4
0,3
0,2
0,1
0
0
10
20
30
40
50
60
Eta (anni)
Eta e velocità di reazione
La correlazione: caratteristiche /1
1,2
0,6
Velocità di reazione
Capacità richiamo
1
0,8
0,6
0,4
0,5
0,4
0,3
0,2
0,1
0,2
0
0
0
0
10
20
30
40
Eta
Correlazione Negativa
50
60
10
20
30
40
Eta (anni)
Correlazione Positiva
50
60
Forma della relazione
– a flessione
– logistiche
0
2000
4000
6000
8000
10000 12000 14000 16000 18000 20000
Errore dopo Sonno
Durata del sonno
70
60
50
Effetto
• Lineare (v. lucido
precedente)
• Forme non-lineari
0,42
0,415
0,41
0,405
0,4
0,395
0,39
0,385
0,38
0,375
40
30
20
10
0
0
20
40
60
80
100
120
Dose
Effetto di un farmaco anti-depressivo
Grado di correlazione
1,2
• Le relazioni si distinguono
a secondo del grado di
correlazione
Capacità richiamo
1
0,8
0,6
0,4
0,2
0
0
10
20
30
40
50
60
Eta
Elevato grado di correlazione
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
0
10
20
30
40
50
60
Basso grado di correlazione
– Elevato grado di
correlazione (punti vicini
alla “linea di regressione”)
– Basso grado di correlazione
(punti lontani dalla “linea di
regressione”)
Utilizzo della correlazione
• Previsione: previsione del valore di una variabile
target in base al valore di una variabile predittore
• Validazione: confronto fra i risultati di un test
nuovo e i test già noti
• Affidabilità: replicabilità degli esperimenti/test
• Verifica di previsioni teoriche: verifica di un
rapporto previsto fra due variabili
La correlazione di Pearson
variazioni di Y associate a variazioni di X
r
variazioni di Y indipenden ti rispetto a variazioni di X
covariabilità di X e Y

variabilit à di X  variabilit à di Y
Correlazione e verifica di ipotesi
• Obiettivo: determinare se esiste o non esiste una
correlazione nella popolazione
– H0: non esiste una correlazione fra la variabile X e la
variabile Y
– H1: esiste una correlazione statisticamente significativa
fra la variabile X e la variabile Y
– Quanto è ‘intensa ‘ la Correlazione ?
Correlazione e verifica di ipotesi
/2
• Il valore critico del
coefficiente di
correlazione per un
determinato valore di alfa
e un determinato valore di
GdL si determina in base
ad un’apposita tabella
• Se il valore di r è inferiore
al valore critico si accetta
H0
• Nel caso contrario si
accetta H1
Gdl=n-2
alfa=0,05
alfa=0,01
1
2
3
4
5
10
15
20
25
30
0,97
0,95
0,88
0,81
0,75
0,58
0,48
0,42
0,38
0,35
0,9999
0,99
0,96
0,92
0,87
0,71
0,6
0,54
0,49
0,45
La regressione /1
1,2
1
Capacità richiamo
• Tecnica per
l’individuazione di
un’equazione che descrive
una relazione lineare fra
due variabili
• Tale equazione è
rappresentabile come retta
(linea di regressione)
0,8
0,6
0,4
0,2
0
0
10
20
30
40
Eta
Retta di regressione y= a+bx
50
60
La regressione /2
• L’analisi di regressione consente
di:
Interpolazione
1,2
Capacità richiamo
1
0,8
0,6
0,4
0,2
0
0
10
20
30
40
50
Eta
Estrapolazione
(pericoloso!!)
60
– Visualizzare (facilitare la
comprensione) della relazione
fra due variabili
– Individuare la tendenza centrale
della relazione (così come la
media) individua la tendenza
centrale per un insieme di
osservazioni
– Prevedere il valore di Y per un
X ignoto
(interpolazione/estrapolazione)
Le equazioni lineari /1
7
6
Y  a  bX
5
Y
4
3
2
esempio
Y  2  0,5 X
1
0
0
1
2
3
4
5
6
7
X
“Inclinazione” della linea di
regressione, coefficiente b
Intercetta: Valore
di Y per X=0
8
9
…permettete ????
Se avete una idea sperimentale :….
Scrivete il lavoro,
Con le tabelle in bianco !!!
Legge di Cochrane
Cin

Statistica
Cout
considerate, con modestia :
- il campione necessario
- cosa volete misurare
- la tipologia di variabili + missing
- la precisione delle misure/dati
- Il tipo di risultati attesi
- i metodi descrittivi
- qualche analisi sheet&pencil
- Se volete lo statistico interpellatelo
PRIMA dell’inizio [email protected]