Il punto su
n. 1 / 2015
Significatività statistica.
È meglio spostare l’asticella verso l’alto?
Enrico Valletta1, Giorgia Vallicelli2
1. Dipartimento Materno-Infantile; 2. Dipartimento di Sanità Pubblica, AUSL della Romagna, Forlì
Within a randomised trial, the value of p indicates the probability with
which the observed difference may simply be attributed to chance.
A p ≥ 0.05 does not mean that an increase of the sample size will invariably
improve the p value or obtain the 5% level of significance. p-values from
0.05 to 0.01 represent a modest degree of evidence that could be
contradicted by subsequent trials. Setting to 0.005 the significance
threshold could provide greater evidence of the observed differences and
greater strength to the related conclusions.
In uno studio randomizzato, il valore della p indica la probabilità con
la quale la differenza osservata può essere semplicemente attribuita
al caso. Una p ≥ 0,05 non consente di affermare che un semplice
incremento della casistica sarà sufficiente per ottenere un miglioramento
(o per superare la soglia) della significatività. Valori di p tra 0,05 e
0,01 costituiscono un grado di evidenza modesto che potrebbe essere
contraddetto da studi successivi. Individuare la soglia di significatività
per p<0,005 garantirebbe una maggiore evidenza delle differenze
osservate e una maggiore forza delle conseguenti conclusioni.
I cultori della p statistica, coloro che
hanno portato la p della propria ricerca
appena sotto la soglia del 5% (p<0,05;
ovvero una probabilità <5% che la differenza osservata tra due gruppi o trattamenti sia dovuta al caso) e si sentono
soddisfatti per questo e quelli che ci si
sono solo avvicinati ma che “è quasi come se basta solo aumentare la casistica
e il gioco è fatto”, rischiano di vedere
ben presto spostata in alto l’asticella e
di doversi rimettere al lavoro.
Il mondo statistico, sia dalla riva frequentista (la statistica classica che si
basa sull’assunzione teorica che il parametro di interesse è un valore fisso e
sconosciuto e che è possibile ripetere
l’esperimento infinite volte nelle medesime condizioni) che dalla riva bayesiana (approccio statistico alternativo,
secondo il quale il parametro è una variabile casuale, l’informazione iniziale
viene aggiornata dall’esperienza empirica e il campione in esame è soltanto
uno dei possibili risultati ottenibili
tramite il processo di estrazione dalla
popolazione) mette in guardia dal trarre conclusioni troppo ottimistiche sulla
base di inferenze statistiche tutt’altro
che granitiche1-3.
Alcuni scenari ci possono aiutare a capire.
34
se partiamo già da una solida certezza
che il trattamento sia meglio del placebo (p1=0,01) e contiamo di aumentare
di molto (raddoppiare) i nostri dati. Se
poi il nostro obiettivo non è solo fare
meglio (p2<p1), ma addirittura superare
la soglia della significatività (p2<0,05),
l’impresa è ancora più difficile. Partendo
da p1=0,08 o p1=0,06 ho rispettivamente il 54% e il 41% di possibilità di non
raggiungere il traguardo se incremento il
mio campione del 20%. Se lo raddoppio,
avrò comunque una p2≥0,05 in quasi un
terzo dei casi 2. In sostanza, è scorretto
sbilanciarsi in affermazioni troppo ottimistiche solo perché ci sentiamo a un
passo dal traguardo della significatività statistica. Il risultato è tutt’altro che
scontato.
p≥0,05: aumento la casistica
e il gioco è fatto
p<0,05: la differenza è
significativa e lo sarà sempre
È uno dei casi più frequenti: il ricercatore,
di fronte a una p di poco superiore a 0,05
(p1), si sente di affermare che “c’è una
tendenza verso la significatività statistica” lasciando intendere che basterebbe
incrementare il numero delle osservazioni e il nuovo livello di significatività (p2)
è verosimilmente destinato a migliorare.
In realtà non è sempre così e il modello al
quale si applica il ragionamento fa riferimento a un ipotetico confronto randomizzato tra un trattamento e il placebo
con relativo calcolo degli intervalli di
confidenza come stima del reale effetto
del trattamento.
La convinzione che, incrementando la
numerosità del campione, p2 risulti inferiore a p1, viene fortemente ridimensionata da quanto esposto nella tabella 1.
Con p1=0,08, un incremento del campione pari al 20% avrà il 35,4% di possibilità di dare p2>p1, cioè un livello di
significatività inferiore a quello di partenza. Partendo da p1=0,05, il rischio di
fare peggio è quasi lo stesso (33,8%).
Se, addirittura, raddoppiamo il campione, la possibilità di ottenere p2>p1
è comunque superiore al 20%. Siamo
quasi certi di fare meglio (p2<p1) solo
Anche questo è tutto da dimostrare.
Se decido di ripetere l’esperimento che
mi ha dato un “soddisfacente” p1<0,05,
utilizzando un campione del tutto diverso, ho il 30-50% di probabilità di
ottenere un risultato peggiore (p2≥0,05)
(tabella 2)2. Se parto da un “rassicurante”
p1=0,001 e ripeto l’esperimento, p2 sarà
comunque non significativa (≥0,05) in
un caso su sei (17%).
Da queste considerazioni probabilistiche
deriva il quesito successivo.
Una p<0,05 è sufficiente per trarre
conclusioni forti e “definitive”?
Su questo, frequentisti e bayesiani, sembrano concordare. Livelli di evidenza
che si situano tra p<0,05 e p>0,01 vanno
interpretati con prudenza poiché il pur
consistente incremento del campione
potrebbe addirittura peggiorare il grado di significatività e la riproduzione
dell’esperimento ha una discreta probabilità di non confermare il risultato ottenuto. Il 32% dei più citati (oltre 1000
citazioni ciascuno) studi pubblicati sulle
riviste a più elevato impact factor tra il
1990 e il 2003 è stato successivamente
Quaderni acp - www.quaderniacp.it
n. 1 / 2015
tabella 1
Probabilità (%) che p2 possa risultare meno significativa dopo incremento della
numerosità dei casi, partendo da livelli diversi di p1*
Valore di p1 (test a due code)
Incremento % della numerosità
dei casi
0,01
0,05
0,08
0,1
100
14,3
20,8
23,4
24,8
50
20,6
26,7
28,9
30,1
20
29,1
33,8
35,4
36,3
tabella 2
Percentuale di volte nelle quali ci si può attendere un risultato non significativo
(test a due code, alfa=0,05) se ripetiamo l’esperimento con la medesima
numerosità e lo analizziamo indipendentemente dal primo*
Valore attuale di p (p1)
Percentuale di volte
0,001
17,3
0,01
33,2
0,05
50,0
Il punto su
calcolata solo perché ci accorgiamo di
avere raggiunto una “striminzita” p<0,05.
Meglio verificare fino in fondo l’ipotesi e
puntare un po’ più in alto.
Se poi volessimo lanciarci in mare aperto, è bene ricordare che “la probabilità
a posteriori dell’ipotesi nulla dipende
dalla probabilità a priori che assegniamo
all’ipotesi nulla stessa” (un po’ come per
i test diagnostici) e che Barack Obama
si è trovato a misurare le probabilità di
successo di un’azione per catturare Bin
Laden senza l’aiuto di una p (più o meno
significativa) ma solo valutando, bayesianamente, le modificazioni dell’ipotesi
nulla sulla base di informazioni pervenute in momenti successivi5,6.
Corrispondenza
[email protected]
*modificate da voce bibliografica2
contraddetto o ha visto ridimensionata
la portata delle osservazioni da ricerche
successive4. È verosimile che in alcuni
casi la non riproducibilità dello studio sia
stata la semplice conseguenza dell’avere
utilizzato una soglia di significatività
statistica che non garantiva un’evidenza
sufficientemente forte rispetto all’effetto
osservato3.
Il suggerimento che ne deriva è di portare il livello di significatività statistica
convenzionale da p<0,05 a p<0,005 e
quello di alta significatività a p<0,001.
Per mettere in evidenza, con una potenza dell’80%, una variazione del 30% con
una significatività <0,005 occorrerebbe
“semplicemente” raddoppiare la numerosità del campione (es: da 69 a 130)3. Uno
sforzo rilevante ma non impossibile e
che avrebbe un’importante contropar-
tita in termini di “certezza” dell’effetto
osservato. Anche secondo l’approccio
bayesiano, una scelta di questo tipo porterebbe a una consistente riduzione della
probabilità di incorrere in un falso risultato positivo3.
In sintesi e come già detto, una p<0,05
significa che ho meno del 5% delle possibilità che la differenza osservata tra i due
trattamenti sia dovuta al caso. È tanto?
È poco? Dipende anche da quanto è rilevante il cambiamento (di terapia, di intervento, di strategia) che viene proposto
in virtù di questo risultato. Certamente,
meno dello 0,5% (p<0,005) è un’altra cosa e farebbe sentire più sicuri sulla reale
consistenza dell’effetto osservato.
Un motivo in più per non interrompere,
prima del termine, un trial ben disegnato e con una numerosità campionaria ben
1. Agabiti N, Davoli M, Fusco D, et al. Comparative evaluation of ealth services outcomes.
Epidemiol Prev 2001;35:1-80.
2. Wood J, Freemantle N, King M, Nazareth
I. Trap of trends to statistical significance:
likelihood fo near significant P value becoming more significant with extra data. BMJ
2014;348:g2215.
3. Johnson VE. Revised standards for statistical evidence. PNAS 2013;110:19313-17.
4. Ioannidis JPA. Contradicted and initially
stronger effects in highly cited clinical research. JAMA 2005;294:218-28.
5. Catelan D, Biggeri A, Barbone F. Multiple
testing and subgroup analysis (what’s wrong
in always searching for significant results).
Epidemiol Prev 2011;35:150-4.
6. Woodward B. Death of Osama bin Laden:
Phone call pointed U.S. to compound - and to
‘the pacer’. The Washington Post 2011, May 7.
Milano, S. Ambrogio 2014:
Civica Benemerenza a ACP Milano e Provincia
Il consiglio comunale di Milano ha insignito ACP Milano e Provincia di un attestato di Civica Benemerenza, nella rosa dei
prescelti per l’Ambrogino 2014, per l’attività di assistenza e coordinamento svolta a partire dal mese di luglio 2014 nell’ambito
dell’“emergenza Siria” in Stazione Centrale.
La consegna a Milano, il 7 dicembre, festa di S. Ambrogio, durante la cerimonia delle Civiche Benemerenze 2014 al Teatro
Dal Verme.
Quaderni acp - www.quaderniacp.it
35