statistica

STATISTICA
A.A. 2009/2010
Dott. Alessandro Cucchi
[email protected]
DEFINIZIONE DI
STATISTICA
• Analisi quantitativa dei fenomeni collettivi allo
scopo di descriverli e di individuare leggi e
modelli che, classificando le loro variazioni,
permettono di spiegarli e di prevederli
SCOPI E FUNZIONI
• Rendere utilizzabili grandi quantità di
informazioni, teoricamente disponibili,
ma di fatto difficilmente gestibili
• Tramite la statistica è possibile
sostituire ad un’impressione qualitativa
di un fenomeno la sua misura
quantitativa
CHI USA LA STATISTICA?
• Le scienze che studiano un aspetto di una collettività
di individui (demografia, economia, sociologia…)
• Le scienze sperimentali, biologiche e sanitarie
(BIOMETRIA)
che
devono
prendere
in
considerazione la diversità non eliminabile
(variabilità naturale), tra i viventi; uno stesso
carattere (macroscopico o microscopico), osservato
su soggetti diversi o in tempi diversi, manifesta
aspetti più o meno diversificati
TIPI DI STATISTICA
• Statistica descrittiva: insieme di procedure per
riassumere e presentare i dati e per descriverli
attraverso strumenti matematici. Si applica ad un
gruppo di soggetti raggiungibili e misurabili
• Statistica inferenziale: insieme di procedure per
derivare dai dati già noti, con l’aiuto di modelli
matematici, affermazioni più generali. Si applica ad
una popolazione, della quale si riescono a
raggiungere e misurare solo alcuni soggetti
(campione): i risultati ottenuti si estendono alla
popolazione dalla quale il campione deriva
STATISTICA DESCRITTIVA: FASI
– SCHEMATIZZAZIONE: definizione del fenomeno,
della collettività in cui si realizza, scelta delle
caratteristiche che interessano
– OSSERVAZIONE: raccolta, ordinamento
classificazione del materiale di osservazione
e
– DESCRIZIONE: impiego di appositi indici per
descrivere il fenomeno studiato
STATISTICA INFERENZIALE: FASI
– SCHEMATIZZAZIONE: …
– FORMULAZIONE DI IPOTESI: formulazione di
ipotesi da applicare alla collettività più vasta
– OSSERVAZIONE: …
– DESCRIZIONE: …
– INFERENZA: insieme di procedure per estendere i
risultati ottenuti sul campione alla popolazione da
cui esso deriva e che permette la verifica delle
ipotesi formulate
DEFINIZIONI
• Unità statistica: minima unità di cui si
raccolgono i dati
• Popolazione: insieme delle unità statistiche
• Caratteri: proprietà oggetto della rilevazione
• Modalità: presentazione di ciascun carattere
in ogni unità
LE CLASSIFICAZIONI DEI
CARATTERI
• Caratteri qualitativi (colore degli occhi, colore dei capelli...):
– sconnessi: non c’è alcun ordinamento intrinseco tra le
modalità (es: colore degli occhi, genere...)
– ordinabili: è possibile ordinare le modalità del carattere in
senso crescente o decrescente (es: titolo di studio...)
• Caratteri quantitativi (es: età, peso, numero di soggetti...):
– discreti: le modalità del carattere sono numeri interi (es:
numero di soggetti in una stanza...)
– continui: le modalità del carattere sono misurate su una
scala continua (es: peso, altezza...)
OPERAZIONI SUI
CARATTERI
DISTRIBUZIONE
• Rilevazione delle modalità con cui uno (o più)
caratteri si presentano in ciascuna unità di una
popolazione (o di un campione)
Soggetto Peso
A
50 kg
B
68 kg
C
76 kg
…
…
CLASSI DI DISTRIBUZIONE
• Abbiamo le classi di distribuzione quando le modalità
del carattere vengono raggruppate
Classi di peso
Numero soggetti
<60 kg
2
61 - 70 kg
7
71 - 80 kg
12
> 80 kg
4
FREQUENZA ASSOLUTA
La frequenza assoluta (della classe) è il numero di unità
che appartengono ad una classe
Classi di peso
<60 kg
Numero soggetti
(FREQUENZA ASSOLUTA)
2
61 - 70 kg
7
71 - 80 kg
12
> 80 kg
4
TOTALE
25
FREQ. RELATIVA E FREQ.
PERCENTUALE
Classi di peso FREQUENZA
ASSOLUTA
FREQUENZA
RELATIVA
FREQUENZA
PERCENTUALE
<60 kg
2
=2/25 =0,08
8%
61 - 70 kg
7
=7/25 =0,28
28%
71 - 80 kg
12
=12/25 =0,48 48%
> 80 kg
4
=4/25 =0,16
TOTALE
25
=25/25 =1,00 100%
16%
DOPPIE DISTRIBUZIONI
• Se si rilevano due caratteri su un campione si ottiene una
distribuzione doppia
Sesso
Classi di peso Maschi
Femmine
TOTALE
<60 kg
0
2
2
61 - 70 kg
1
6
7
71 - 80 kg
7
5
12
> 80 kg
4
0
4
TOTALE
12
13
25
RAPPRESENTAZIONE GRAFICA
DELLE DISTRIBUZIONI
• Prendiamo la seguente serie di misure:
a, b, b, c, c, c, d, d, d, d, e, e, e, e, e, e, f, f, f, f, f, f, f, g, g, g, h, h, i
• Vediamo che raggruppandole per modalità di
presentazione abbiamo:
a=1
b=2
c=3
d=4
e=6
f=7
g=3
h=2
i=1
RAPPRESENTAZIONE GRAFICA
DELLE DISTRIBUZIONI
• Se le riportiamo su un grafico otteniamo la
distribuzione di frequenza…
RAPPRESENTAZIONE GRAFICA
DELLE DISTRIBUZIONI
• Possiamo unire i valori ottenuti….
RAPPRESENTAZIONE GRAFICA
DELLE DISTRIBUZIONI
• E tracciare una linea continua al posto della
spezzata, ottenendo una curva di distribuzione….
MISURAZIONE E MISURA
•
•
•
Misurazione: insieme di operazioni che
portano alla determinazione del valore del
misurando
Misura: valore del misurando ottenuto in
seguito ad una misurazione (l’unità di
misura deve sempre essere espressa)
Valore vero: è quella misura che si
otterrebbe con una misurazione perfetta
(senza errori)
L’ERRORE
• L’errore è il risultato di una misurazione meno il
valore vero del misurando
• Non essendo noto il valore vero al posto dell’errore si
utilizza la stima dell’incertezza
• Gli errori possono avere numerose cause,
(strumentali, di metodo, di esecuzione, accidentali)
METODI DI MISURAZIONE
• Metodo di misurazione diretto: la misura è ottenuta
mediante l’uso di uno strumento atto alla misurazione
della grandezza ‘X’ del misurando (stessa unità di
misura, come, ad esempio, il tempo o lo spazio)
• Metodo di misurazione indiretto: il risultato della
misura è espresso in termini di valori di altre
grandezze (e diverse unità di misura) con una
relazione nota tra loro (ad esempio v=s/t)
STRUMENTI DI MISURA
• Caratteristiche degli strumenti:
1. Intervallo di funzionamento (in che range funziona)
2. Prontezza (dopo quanto tempo indica la misura)
3. Sensibilità (quanto nel dettaglio può misurare)
4. Precisione (quanto più si avvicina al valore vero)
PROBABILITÀ
• La probabilità di un evento è la frequenza
relativa con cui esso si verifica
PROBABILITÀ
• La probabilità può venire espressa attraverso una
frazione, un numero decimale o una percentuale
• Il numero decimale assume sempre un valore
compreso fra 1 (quando l'evento si verifica sempre, e
quindi il numeratore è uguale al denominatore) e 0
(quando l'evento non si verifica mai, e quindi il
numeratore è uguale a 0)
ESEMPIO
• Lanciando una moneta consideriamo, ad esempio,
‘testa’ come evento favorevole. Gli eventi possibili
sono ‘testa’ o ‘croce’, quindi la probabilità di ottenere
‘testa’ è 1/2, cioè 0,5 o il 50%
ESEMPIO
• Qual è la probabilità che una carta da gioco
estratta a caso da un mazzo di 52 sia un
asso?
• Poiché nel mazzo (casi possibili) vi sono 4
assi (casi favorevoli), la probabilità è di 4/52
(0,0769 o 7,69%)
PROBABILITA’ DI EVENTI COMPLESSI
• Situazioni in cui occorre valutare la probabilità
di
eventi
che
si
esprimono
come
combinazioni specifiche (evento A e evento
B) oppure come alternative specifiche (evento
A o evento B)
• Gli eventi complessi si gestiscono attraverso:
– la regola della moltiplicazione
– la regola della addizione
REGOLA DELLA MOLTIPLICAZIONE
• Equivale al prodotto delle probabilità di
ciascun evento:
– Pr(A e B) = Pr(A)* Pr(B)
– Pr(A e B e C) = Pr(A) * Pr(B) * Pr(C)
REGOLA DELLA MOLTIPLICAZIONE
• ESEMPIO - Voglio ottenere prima una ‘testa’ e poi
una ‘croce’ lanciando 2 volte una moneta
• La probabilità che la prima volta venga ‘testa’ è 1/2
• La probabilità che la seconda volta venga ‘croce’ è
1/2
• La probabilità che venga la prima volta ‘testa’ e la
seconda volta ‘croce’ è 1/2x1/2=1/4=0.25, ossia 25%
REGOLA DELL’ADDIZIONE
PER EVENTI CHE SI ESCLUDONO
RECIPROCAMENTE
• Si applica ad una alternativa di eventi
accettabili entrambi e che si escludono
reciprocamente: la probabilità che si verifichi
A oppure B equivale alla somma delle
probabilità dei singoli eventi:
• Pr(A o B) = Pr(A)+ Pr(B)
REGOLA DELL’ADDIZIONE PER
EVENTI CHE SI ESCLUDONO
RECIPROCAMENTE
• ESEMPIO - Se si lancia un dado e si vuole ottenere
‘2’ o ‘3’, la probabilità è:
1/6 (che esca ‘2’) + 1/6 (che esca ‘3’) = 2/6 = 1/3
REGOLA DELL’ADDIZIONE
PER EVENTI CHE NON SI ESCLUDONO
RECIPROCAMENTE
• Si applica ad una alternativa di eventi accettabili
entrambi, ma che non si escludono reciprocamente:
la probabilità che si verifichi A oppure B equivale alla
somma delle probabilità dei singoli eventi cui si
sottrae la probabilità che si verifichino entrambi
contemporaneamente:
• Pr(A o B) = Pr(A)+ Pr(B) - Pr (A e B)
REGOLA DELL’ADDIZIONE PER
EVENTI CHE NON SI ESCLUDONO A
VICENDA
• ESEMPIO - Se si pesca una carta e si vuole ottenere
un asso o una carta di cuori abbiamo:
4/52 (asso) + 13/52 (cuori) - 1/52 (asso di cuori) = 16/52
ESERCIZIO 1
• Ho un mazzo di 52 carte
• 26 sono rosse e 26 nere
• Ho già pescato 4 carte tutte nere e le ho messe da
parte
• Che probabilità c’è che la prossima carta pescata sia
nera?
• 42,88%
• 50,00%
• 45,83%
ESERCIZIO 1
• Partiamo dal denominatore: visto che ho già pescato
4 carte è uguale a:
• 52 - 4 = 48
• Nel mazzo mi sono rimaste 22 carte nere poiché 4 le
ho già pescate….. Al numeratore avrò:
• 26 - 4 = 22
ESERCIZIO 1
• A questo punto ho 22 carte nere pescabili su
un totale di 48 carte…..
• 22/48 = 0,4583
• La probabilità allora è del 45,83%
ESERCIZIO 2
• Ho un dado che lancio due volte di fila
• Quante possibilità ho di ottenere nel
primo lancio un 4 e nel secondo un 2 o
un 5?
ESERCIZIO 2
• Nel primo lancio ho 1 possibilità su 6 di ottenere un 4
• 1/6
• Nel secondo lancio ho 1 possibilità su 6 di ottenere
un 2 e 1 possibilità su 6 di ottenere un 5
• 1/6 + 1/6 = 2/6
• Per ottenere, però, prima un 4 e poi, nel secondo
lancio, un 2 o un 5 avrò:
• 1/6 * 2/6 = 2/36 = 1/18 (0,0555 o il 5,55%)
IL CONCETTO DI
CAMPIONE
• Il campione può essere definito come una parte
ridotta di una popolazione, rappresentativa dell’intera
popolazione dalla quale è stato selezionato
• Il principale obiettivo di un campionamento è quello di
raccogliere dati che consentiranno di generalizzare,
con un certo grado di probabilità, all'intera
popolazione, le conclusioni ottenute dal campione
PERCHÈ CAMPIONARE
• Raramente è possibile esaminare ogni singolo
soggetto dell'intera popolazione soprattutto perchè:
– Si hanno limitate risorse
– Non tutta la popolazione è raggiungibile
– La popolazione non è nota
– La popolazione è troppo vasta
– La popolazione è variabile nel tempo o nello
spazio
ATTENZIONE!!!
• Quando si effettua uno studio per mezzo di un campione, è
necessario tener presente che non si otterranno mai risultati del
tutto affidabili e sarà indispensabile tener conto di vari fattori, fra
i quali
– i criteri di scelta della popolazione
– il metodo di selezione del campione
– il periodo di osservazione
– le tecniche di analisi
– la precisione delle misure effettuate
VALIDITÀ
• Immaginiamo di aver effettuato un’indagine
esaminando ciascuna unità che componeva il
campione…
• A questo punto:
– le conclusioni sono corrette per i soggetti che
compongono il campione? VALIDITÀ INTERNA
– se sì, il campione rappresenta bene la
popolazione da cui è stato estratto? VALIDITÀ
ESTERNA
VALIDITÀ INTERNA
• La validità interna misura quanto i risultati di uno studio sono
corretti per il campione di individui che sono stati studiati
• Si applica solo ai soggetti del campione
• Dipende dalla correttezza di impostazione dello studio stesso,
dalla scelta di buone tecniche di misurazione e da un loro
corretto utilizzo, da una buona elaborazione dei dati…
• Nel caso di dati ottenuti attraverso questionari, dipende dalla
propensione degli intervistati a rispondere in modo veritiero
VALIDITÀ ESTERNA
• La validità esterna è il grado di generalizzabilità
delle conclusioni tratte da uno studio
• Risponde alla domanda "Supponendo che i risultati
dello studio siano veri, si applicano anche alla mia
situazione?"
CONSIDERAZIONI
• Attraverso lo studio di un campione, si può soltanto
stimare (cioè determinare con un certo margine di
errore) il carattere della popolazione da cui il
campione deriva
• Tale carattere non potrà mai essere determinato con
esattezza
• L’accuratezza della stima è direttamente correlata al
numero di osservazioni che si compiono
ERRORE DI
CAMPIONAMENTO
• È all’origine della differenza tra i risultati ottenuti nel
campione e quelli reali della popolazione
• Non può mai essere determinato con esattezza, in
quanto la vera caratteristica della popolazione è
ignota
• Può essere contenuto entro limiti ristretti tramite
appropriati metodi di campionamento
• Può essere stimato con metodi statistici che possono
determinare i limiti probabili della sua entità
ERRORE DI
CAMPIONAMENTO
• I fattori responsabili della generazione di un errore di
campionamento sono riconducibili a:
• selezione viziata: selezione di un segmento non
rappresentativo della popolazione effettuata con
regole non rigorosamente casuali
• variazione casuale: dovuta al caso che ha
selezionato gli individui che costituiscono il
campione, nei quali la misura da studiare assume un
valore più alto o più basso rispetto al valore vero
nella popolazione, senza una regola precisa
ERRORE DI
CAMPIONAMENTO
• Soltanto quando la scelta degli individui che
compongono il campione è casuale, è possibile
prevedere e calcolare l'entità della differenza tra
campione e popolazione
• In caso contrario, il campione si dice distorto ed i
dati ottenuti saranno difficilmente utilizzabili
METODI DI
CAMPIONAMENTO
• Il principio generale di un buon campionamento
prevede di utilizzare lo stesso principio dell'estrazione
a sorte, ossia quello della casualità assoluta, in modo
tale che ciascun membro della popolazione abbia la
stessa probabilità di entrare a far parte del campione
• In tal caso il campione viene detto randomizzato o
casuale, è privo di errori sistematici (bias) e consente
di accertare l'attendibilità dei risultati
METODI DI
CAMPIONAMENTO
• I metodi di campionamento più comunemente
utilizzati sono:
– non probabilistico (di convenienza)
– per randomizzazione semplice (casuale semplice)
– sistematico
– stratificato
– a grappolo (a cluster)
CAMPIONAMENTO NON
PROBABILISTICO
• Non fornisce a tutte le unità della popolazione la
stessa possibilità di essere scelte a far parte del
campione ed è un errato metodo di campionamento
• Prevede la selezione del campione in base a criteri di
comodo o di praticità e fornisce dati non affidabili
CAMPIONAMENTO
CASUALE SEMPLICE
• Si effettua estraendo una certa quota di unità
dalla popolazione attraverso un metodo che
garantisce la casualità delle estrazioni,
ottenuta con il sistema dell'estrazione di un
numero a partire da un elenco in cui sono
presenti tutti gli individui della popolazione da
studiare
• Nella pratica si utilizza un computer provvisto
di apposito software
CAMPIONAMENTO
CASUALE SEMPLICE
• È un metodo valido perché:
– ogni individuo ha la stessa probabilità di essere
scelto
– consente la valutazione
risultati ottenuti
dell'attendibilità
dei
• Ha lo svantaggio di richiedere la numerazione e la
individuazione di tutti i soggetti
CAMPIONAMENTO SISTEMATICO
• Le unità che costituiranno il campione sono scelte
dalla popolazione ad intervalli regolari: per esempio,
viene intervistato 1 soggetto su 100 di quelli che
accedono ad un servizio (il 1°, il 101°, il 201°….)
• Stessi vantaggi del campionamento casuale, ma più
pratico
CAMPIONAMENTO STRATIFICATO
• Il campionamento stratificato viene effettuato quando
si studia un carattere influenzato da un fattore
presente nella popolazione
• La popolazione viene suddivisa in strati basati sul
fattore che influenza il carattere da studiare
• Quindi, all'interno di ciascuno strato si sceglie un
campione con randomizzazione semplice o
sistematica
CAMPIONAMENTO STRATIFICATO
• Un problema con il campionamento casuale semplice
è che per essere rappresentativo, spesso richiede
una numerosità molto alta, perché se estraiamo un
campione piccolo potremmo ottenere un campione
scarsamente rappresentativo
CAMPIONAMENTO STRATIFICATO
• Allora come si procede?
• Si costruiscono K campioni casuali (con qualunque
metodo) per ogni suddivisione considerabile della
popolazione e ogni campione avrà numerosità
proporzionale alla grandezza del livello
CAMPIONAMENTO STRATIFICATO
• Vantaggi:
– rappresenta meglio la popolazione
– più flessibile (può essere scelta una percentuale
differente per ogni strato)
• Svantaggi:
– lo stato di tutte le unità di campionamento, rispetto
ai fattori su cui è basata la stratificazione, deve
essere noto prima di scegliere il campione
CAMPIONAMENTO A GRAPPOLO
• Si procede alla selezione di gruppi (grappoli o
cluster) di unità: i cluster possono essere preformati
naturalmente (es. famiglie) oppure possono essere
determinati (ad esempio su base geografica)
• Facilita notevolmente il reclutamento dei soggetti
• Si abbassano costi e tempi dell'indagine
• L'errore di campionamento può essere più elevato
rispetto ai precedenti metodi
NUMEROSITÀ DEL
CAMPIONE
• Dal punto di vista pratico, il definire la numerosità del
campione dipende da fattori sia statistici che non
statistici
• Tra i fattori non statistici si devono prendere in
considerazione disponibilità economica, praticità
dell’indagine, tempi necessari
• Dal punto di vista dei fattori statistici, il calcolo della
numerosità del campione richiede adattamenti a
seconda dell’ambito e della variabile che si intendono
valutare
– Modalità di presentazione della variabile
– Quale possibilità di errore mi ‘concedo’
UN PROBLEMA: LA DISTORSIONE
SISTEMATICA
• Se il criterio di scelta è correlato con una qualunque
variabile della ricerca, il campione sarà distorto
• Esempio: se vogliamo calcolare il numero medio di
esami sostenuti dagli studenti, la variabile età viene
ad alterare la distribuzione (teoricamente più uno
studente è vecchio, più esami ha sostenuto)
UN PROBLEMA: IL CAMPIONE
DISTORTO
• Elezioni politiche USA del 1936: Roosevelt (Democratico) vs
Landon (Repubblicano)
• Campione telefonico
• Si ottenne il 43% di preferenze per Roosevelt ed il 57% per
Landon
• Le elezioni le vinse Roosevelt con il 60% dei consensi
• Questo fenomeno fu dovuto al fatto che, nel 1936, avere il
telefono dipendeva dal reddito. Buona parte dell’elettorato di
Roosevelt, elettorato tendenzialmente a reddito più basso, non
aveva potuto partecipare al sondaggio, con una conseguente
alterazione dei risultati
CONSIDERAZIONI
• In generale, quando si esamina una ricerca riguardo
al campionamento, si deve osservare:
• Se la popolazione di riferimento è quella corretta
• Se la popolazione effettivamente raggiungibile è
identica alla popolazione di riferimento
• Se il campionamento rispetta la proporzionalità
delle caratteristiche della popolazione
• Date le proporzioni, se il resto del campionamento
è casuale
CAMPIONAMENTO E STIMA
• Studiando un BUON CAMPIONE possiamo ottenere
una BUONA STIMA della "vera" misura della
popolazione della variabile studiata
• La stima è una valutazione approssimativa che non
può essere esatta ma, se il campione è stato
selezionato con una metodica corretta, ne potremo
stabilire la variabilità, ossia i limiti probabili di
oscillazione
STATISTICA DESCRITTIVA
• È quella branca della statistica che ha il fine
di descrivere un fenomeno
• Deve quindi sintetizzare tramite pochi valori
un vasto numero di misure
STATISTICA DESCRITTIVA
• I valori sintetici prendono il nome di
– INDICI (o INDICATORI)
• Gli INDICI possono essere di
– Posizione
– Dispersione
– Forma
INDICI DI POSIZIONE
• Descrivono ed evidenziano alcune caratteristiche
della popolazione in esame identificando alcuni
elementi della popolazione stessa
• I principali indici di posizione sono:
– Media
– Mediana
– Moda
MEDIA
• Si ottiene sommando tutti i valori della
popolazione in oggetto e dividendo per il
numero delle osservazioni
MEDIA
• Ad esempio:
– Popolazione 1 5 8 9 6 4 8 5 2 8
– Numero di osservazioni: 10
– Somma: 1+5+8+9+6+4+8+5+2+8 = 56
– Media: m = 56/10 = 5,6
– La media della popolazione in esame è 5,6
MEDIA
Gli obiettivi che ci si prefigge nel calcolo di una
media sono sostanzialmente due:
• sostituire a più dati rilevati un solo numero
che dia però una efficace rappresentazione
del fenomeno dato
• esprimere l’ordine di grandezza o tendenza
centrale dell’insieme dei dati relativi a un
fenomeno. Tale ordine di grandezza può a
volte sfuggire perché i dati sono spesso
differenti fra loro
MEDIA
• La media che abbiamo calcolato è la media
aritmetica, la più comunemente usata tra le media
• Esistono altri modi per calcolare una media
– media geometrica
– media armonica
– media aritmetica ponderata
–…
MEDIANA
• La mediana di una distribuzione ordinata di valori è il
valore dell’unità che si trova a metà della
distribuzione, in modo che il 50% dei valori della serie
sia uguale o inferiore a esso e il restante 50% sia
superiore
• Per calcolare la mediana è necessario che la
variabile sia quantitativa o qualitativa ordinata
MEDIANA
• Se n è dispari, la
ordinato
– Esempio
• La serie:
• Li ordino:
• La mediana:
mediana è il valore centrale dell'insieme
2
1
1
6
2
2
6
2
2
4
4
4
8
5
5
9
6
6
5
6
6
1
8
8
2
9
9
dispari
• Se n è pari, la mediana è la media dei 2 valori centrali
dell'insieme ordinato
– Esempio
• La serie:
2 6 7 4 8 9 5 1 2 10 pari
• Li ordino:
1 2 2 4 5 6 7 8 9 10
• Ottengo:
1 2 2 4 5 6 7 8 9 10
• La mediana: (5+6)/2 = 5,5
CONFRONTO TRA MEDIA E
MEDIANA
• Molto spesso la media e la mediana presentano valori
simili. Ciò accade in particolare quando la distribuzione
della variabile è simmetrica
• Se però la distribuzione presenta forti asimmetrie le due
misure possono divergere notevolmente
• Le due misure di tendenza centrale non si escludono a
vicenda: entrambe possono essere utilizzate per
descrivere un fenomeno perché forniscono informazioni
diverse
ESEMPIO DI CONFRONTO TRA
MEDIA E MEDIANA
• Consideriamo i seguenti valori:
•
•
•
SERIE A: 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3
Media = 22 ÷ 11 = 2
Mediana = 2
•
•
•
SERIE B: 1, 1, 1, 2, 2, 2, 2, 2, 34, 36, 38
Media = 121 ÷ 11 = 11
Mediana = 2
• La mediana non cambia fra i 2 insiemi mentre la media si
discosta notevolmente nel secondo caso
MODA
• La moda è il valore (o i valori) che si presenta con
maggiore frequenza nella distribuzione
• Se nessun valore si presenta più frequentemente degli
altri la distribuzione è senza moda
• Sono anche possibili distribuzioni con due o più valori
modali
• Può essere calcolata per qualunque tipo di variabile,
anche qualitative sconnesse
MODA
• Esempio
• Serie: 1 2 4 1 5 5 8 9 5
• Moda: 5 (unico valore presente 3 volte)
• Esempio
• Serie: 1 2 4 1 5 5 8 9 5 1
• Moda: 1 e 5 (valori presenti 3 volte)
ESERCIZIO 1
• Calcolare media, mediana e moda della
seguente serie:
10 12
5
4
10
2
6
3
0
ESERCIZIO 1
• Media 10 + 12 + 5 + 4 + 10 + 2 + 6 + 3 + 0 = 5,777
9
• Mediana
• Moda 10
0 2 3 4 5 6 10 10 12
INDICI DI DISPERSIONE
• I valori medi sono indici importanti per la
descrizione sintetica di un fenomeno statistico
• Hanno però il limite di non darci alcuna
informazione sulla dispersione dei dati
• In statistica è possibile valutare in modo
sintetico la dispersione dei dati mediante gli
indici di dispersione (detti anche di variabilità)
INDICI DI DISPERSIONE
•
•
•
•
•
Estremi
Campo di variazione (range)
Scarto dalla media
Varianza
Deviazione standard (scarto quadratico medio)
ESTREMI
• Sono costituiti dall’elemento con valore
più basso e dall’elemento con valore più
alto
ESEMPIO
• Nella serie 2 3 1 -1 5 8 0
• abbiamo come estremo inferiore (xmin) il
valore -1
• abbiamo come estremo superiore (xmax)
il valore 8
• !!! RICORDARSI DI ORDINARE LA SERIE !!!
CAMPO DI VARIAZIONE
(RANGE)
• È il più semplice degli indici di dispersione
• Si calcola facendo la differenza tra gli estremi
• Campo variazione = x max – x min
• Rappresenta l’ampiezza dell’intervallo dei dati
ESEMPIO
• Si prenda in considerazione la seguente serie:
1 2 3 6 9 10 15
• Il valore più alto è 15, il più basso 1
• Il range è dato dalla differenza tra i due valori
• R = 15-1 = 14
ESEMPIO
• Si prenda in considerazione la seguente serie:
-11 -2 3 9 10 18
• Il valore più alto è 18, il più basso -11
• Il range è dato dalla differenza tra i due valori
• R = 18 - (-11) = 18 + 11 = 29
CAMPO DI VARIAZIONE
• Il campo di variazione
distribuzione dei dati:
•
•
dà
informazioni
sulla
più R è piccolo più i dati sono concentrati
più R è grande più i dati sono dispersi
• R è espresso nella stessa unità di misura dei dati
• Tuttavia R tiene conto solo dei dati estremi della
distribuzione e non di tutti i dati, pertanto distribuzioni
diverse ma con gli stessi valori estremi hanno range
uguali
SCARTO MEDIO
• Un altro modo per calcolare la variabilità dei dati
(tenendo conto di tutti i dati) consiste nel calcolare la
distanza, in valore assoluto, di tutti i dati dalla media
e fare la media aritmetica di tali distanze
• Scarto medio = Distanza media dei dati dalla media
ESEMPIO
• Si prenda in considerazione la seguente serie:
1 7 9 14 19
• Calcolo la media: 50/5 = 10
• Calcolo la distanza, in valore assoluto, dalla media
per ogni valore della serie: 9 3 1 4 9
• Faccio la media dei valori ottenuti ottenendo lo scarto
medio: 26/5 = 5,2
SCARTO MEDIO
• Lo scarto medio dalla media dà informazioni sulla
distribuzione dei dati:
•
•
più SM è piccolo più i dati sono concentrati
più SM è grande più i dati sono dispersi
• SM è espresso nella stessa unità di misura dei dati
• Non ha l'inconveniente del “Campo di variazione” in
quanto SM tiene conto di tutti i dati della distribuzione
VARIANZA E
DEVIAZIONE STANDARD
• Sono gli indici di dispersione che tengono
conto della distribuzione di tutti i dati
VARIANZA
• Rappresenta la media aritmetica dei quadrati
delle distanze dei dati dalla media M
ESEMPIO
• Calcolare la varianza della seguente serie:
2 3 5 7 8 11
• Calcolo la media: 36/6 = 6
• Calcolo i quadrati delle distanze dei dati dalla
media: 4*4 3*3 1*1 1*1 2*2 5*5
• Faccio la somma dei quadrati ottenuti:
16+9+1+1+4+25 = 56
• Calcolo la media dei quadrati e ottengo la
Varianza: 56/6 = 9,333
DEVIAZIONE STANDARD
• È uguale alla radice quadrata della varianza
ESEMPIO
• Calcolare la deviazione standard della seguente
serie: 2 5 6 7 12 16
• Calcolo la media: 48/6 = 8
• Calcolo i quadrati delle distanze dei dati dalla media:
6*6 3*3 2*2 1*1 4*4 8*8
• Faccio la somma dei quadrati ottenuti: 36 + 9 + 4 +1
+ 16 + 64 = 130
• Calcolo la media dei quadrati e ottengo la Varianza:
130/6 = 21,667
• Faccio la radice quadrata del risultato ottenuto per
avere la Deviazione Standard √21,667 = 4,655
VARIANZA E
DEVIAZIONE STANDARD
•
La varianza e la deviazione standard danno informazioni sulla
distribuzione dei dati:
•
•
più Var. e Dev.st. sono piccoli, più i dati sono concentrati
più Var. e Dev.st. sono grandi, più i dati sono dispersi
•
Entrambi gli indici tengono conto di tutti i dati della distribuzione
•
La varianza è espressa mediante il quadrato dell’unità di
misura dei dati, la deviazione standard nella stessa unità di
misura dei dati
FORMA
• Le misure di forma sono indici sintetici utilizzati per
identificare la forma della distribuzione
• Noi esamineremo:
• la simmetria
• la curtosi
SIMMETRIA
• Una distribuzione è simmetrica quando la sua curva
di frequenza presenta un asse di simmetria
• In una distribuzione simmetrica media, mediana e
moda sono coincidenti
• In una distribuzione asimmetrica media, mediana e
moda non sono più coincidenti e la differenza tra la
media e la moda può essere considerata una misura
della asimmetria
SIMMETRIA
• Si parla di simmetria quando
MEDIANA e MODA coincidono
MEDIA,
ASIMMETRIA DESTRA
•
•
•
La distribuzione è asimmetrica quando non presenta nessun asse di
simmetria
Si ha un’asimmetria positiva o destra quando il ramo destro della curva
è più lungo di quello sinistro
In questo caso si ha: moda < mediana < media
ASIMMETRIA SINISTRA
•
•
Si ha un’asimmetria negativa o sinistra quando il ramo sinistro della
curva è più lungo di quello destro
In questo caso si ha: media < mediana < moda
CURTOSI
• Se una distribuzione è simmetrica o quasi simmetrica allora può
esser più o meno appuntita o più o meno appiattita rispetto alla
distribuzione normale (o di Gauss)
• Se la curva è
• più appuntita si dice
curva Leptocurtica
• più appiattita si dice
curva Platicurtica
• È utilizzato il coefficiente di curtosi di Pearson
– K=3 curva normale
CURTOSI
ESERCIZIO 1
• Descrivere con indicatori di posizione e
di dispersione la seguente serie:
2 10 3 2 0 5 6 8 8 1
ESERCIZIO 1
• Inizio con gli indici di posizione….
– Media: 45/10 = 4,5
– Mediana: 0 1 2 2 3 5 6 8 8 10
(3 + 5)/2 = 4
– Moda: due mode 2 e 8
ESERCIZIO 1
• Proseguo con gli indici di dispersione
più semplici….
– Xmin: 0
– Xmax: 10
– Range: 10-0 = 10
ESERCIZIO 1
• Calcolo lo scarto medio…..
• Faccio la somma degli scarti dalla
media, ricordando di utilizzare i valori
assoluti e divido per le 10 osservazioni:
29/10 = 2,9
ESERCIZIO 1
• Calcolo la Varianza (media della
sommatoria dei quadrati delle distanze
dalla media): 10,45
ESERCIZIO 1
• Calcolo la Deviazione Standard (radice
quadrata della varianza): √10,45 = 3,23
ASSOCIAZIONE
• Nel linguaggio comune due eventi
"associati" quando si verificano insieme
si
dicono
• In statistica per "associazione" si intende il grado di
dipendenza tra due o più eventi o variabili, cioè il
fatto che al modificarsi dell’una si modifichi anche
l’altra
• Non è detto che il modificarsi dell’una CAUSI il
modificarsi dell’altra
ASSOCIAZIONE
• Esistono metodi che consentono di escludere
che una eventuale associazione sia dovuta al
caso
• L’esclusione non avviene con assoluta
certezza, ma con un certo grado di probabilità
• Quando si dice che "l'associazione non è
casuale", resta da dimostrare che i due fattori
siano legati da un rapporto causa-effetto
ASSOCIAZIONE
• Prendendo in considerazione due variabili A e
B, la statistica, per mezzo di appropriati test
statistici:
– PUÒ DIRCI che la variazione di A e di B
PROBABILMENTE non sia dovuta al caso
– NON PUÒ DIRCI che la variazione di A sia la
causa della variazione di B
– NON PUÒ ESCLUDERE che la variazione di A e
di B potrebbe essere CAUSATA da una terza
variabile C a noi ignota
ASSOCIAZIONE
• Quando si afferma che "l'associazione non è
casuale" significa che esiste una differenza
significativa tra i risultati ottenuti e quelli che
si potrebbero ottenere se l’associazione fosse
dovuta al caso (casuale)
• Associazione NON è sinonimo di causalità
CAUSALITÀ
• Presenza di:
– Associazione non casuale
• La verifico con un test statistico
– Positività ai criteri di causalità
• Verifico se i 5 criteri sono rispettati
CAUSALITÀ
• Presenza di:
– Associazione non casuale
• La verifico con un test statistico
– Positività ai criteri di causalità
• Verifico se i 5 criteri sono rispettati
TEST STATISTICO
• Un test statistico di significatività è una procedura di
calcolo utilizzabile per fornire una indicazione della
forza con cui i dati contrastano con un ipotesi di
associazione
TEST STATISTICO
• Tutti i test assumono inizialmente la cosiddetta
ipotesi zero (o ipotesi nulla) che prevede sempre
che non esista alcuna differenza statisticamente
significativa tra i gruppi in esame riguardo al
parametro considerato, cioè che le differenze
osservate siano dovute al caso e non sia presente
associazione
• In base al risultato del test statistico si rifiuta oppure
non si rifiuta l’ipotesi
I RISULTATI DEL TEST
• Tutti i test danno origine ad un VALORE
• Tale valore deve essere confrontato con una tabella
di riferimento che indica i valori soglia per vari livelli di
probabilità (ma questa è storia antica)
• Nella pratica, oggi, vengono esistono vari software
per effettuare i test e qualsiasi sia il software
utilizzato, esso esplicita anche (o solamente, come
Excel ed altri) un valore di ‘p’
p
• Questa probabilità (detta valore p) rappresenta una
stima quantitativa della probabilità che le differenze
osservate siano dovute al caso
• p è una probabilità e quindi può assumere solo valori
compresi fra 0 e 1
• Un valore p che si avvicina a 0 testimonia una bassa
probabilità che la differenza osservata possa essere
ascritta al caso
p
• Qualsiasi programma statistico darà come risultato
una trasformazione del risultato del test in probabilità
(p)
• Tale probabilità di errore deve poi essere valutata in
base al livello di significatività da noi scelto
• Il livello di significatività può essere scelto dallo
sperimentatore
• Di solito si sceglie un livello di probabilità di 0.05 (5%)
o di 0.01 (1%)
SIGNIFICATIVITÀ
• Il livello di significatività 5% viene adottato molto
frequentemente in quanto si ritiene che il rapporto
1/20 (cioè 0.05) sia sufficientemente piccolo da poter
concludere che sia piuttosto improbabile che la
differenza osservata sia dovuta al semplice caso
• In effetti, la differenza potrebbe essere dovuta al
caso, e lo sarà 1 volta su 20
• Tuttavia, questo evento è improbabile
• Ovviamente, se si vuole escludere con maggiore
probabilità l'effetto del caso, si adotterà un livello di
significatività inferiore (es. 1%)
SIGNIFICATIVITÀ
• Quindi, se l'ipotesi zero viene respinta al livello di
significatività 5%, allora abbiamo il 5% di probabilità
di respingere un'ipotesi zero che era vera; se l'ipotesi
zero viene respinta al livello di significatività 1%,
allora abbiamo l'1% di probabilità di respingere
un'ipotesi zero che era vera
• In generale, se l'ipotesi zero viene respinta al livello
di significatività n%, allora abbiamo n% di probabilità
di respingere un'ipotesi zero che era vera
p
• Ipotizziamo di aver scelto come livello di significatività p=0,05
• Se otteniamo dal test p=0,03, cioè un p MINORE di quello
scelto, possiamo concludere che la differenza tra i gruppi che
abbiamo sottoposto al test è SIGNIFICATIVA
• Se otteniamo dal test p=0,09, cioè un p MAGGIORE di quello
scelto, possiamo concludere che la differenza tra i gruppi che
abbiamo sottoposto al test NON è SIGNIFICATIVA
STATISTICAMENTE
SIGNIFICATIVO
• Quindi:
– statisticamente significativo vuol dire che
ciò che è stato osservato è difficilmente
dovuto al caso
TEST STATISTICO
• Un test di significatività non può provare con certezza
che una ipotesi zero è vera o falsa
• Rimane sempre un margine d’errore (direttamente
proporzionale a p)
• Può fornire una indicazione della forza con cui i dati
contrastano l'ipotesi zero
QUANDO UTILIZZARE I TEST
STATISTICI
• Il
test
può
essere
applicato,
sostanzialmente, a due ambiti:
– La verifica della diversità tra gruppi di
soggetti osservati
– La verifica della possibilità di estendere i
dati da un campione ad una popolazione
CONSIDERAZIONE
• Più che il metodo di calcolo, dei vari test
statistici, è importante conoscere l'esistenza
dei test stessi ed il contesto in cui essi si
possono/devono applicare
CONFRONTARE DUE PROPORZIONI O
PERCENTUALI: IL TEST DEL X2
• Uno dei test più comuni è il «chi-quadrato» e
permette di confrontare due frequenze
relative o rapporti, allo scopo di escludere,
con un certo grado di probabilità, che la loro
differenza sia dovuta al caso
X2
• Nell’esempio, vogliamo determinare se i soggetti del
Gruppo 1 reagiscono positivamente ad un farmaco in
modo maggiore ai soggetti del Gruppo 2
X2
• Ripetiamo lo schema logico da seguire:
– Inizialmente, qualsiasi sia la differenza esistente
tra le frequenze da confrontare, si avanza l'ipotesi
zero (o ipotesi nulla) che afferma che la differenza
osservata è dovuta al caso
– Tale ipotesi può essere accettata oppure rifiutata
sulla base del risultato del test
X2
• Il metodo del X2 è utilizzabile quando:
– Ogni frequenza è >5
– Il numero totale di osservazioni è >30
– I dati sono indipendenti, cioè nessun
soggetto può apparire in più di una cella
della tabella
LA FORMULA DEL X2
– Considerando la seguente tabella e sostituendo
ad ogni lettera il valore presente nella cella,
abbiamo:
GRADI DI LIBERTÀ
• Il grado di libertà è uguale a
(numero di righe-1)*(numero di colonne-1)
• Nel nostro caso quindi è:
(2-1)*(2-1) = 1*1 = 1
• Il valore ottenuto è un X2 con 1 grado di
libertà
X2
• Tornando all’esempio, abbiamo
p=0,1684
• La differenza non è significativa
CORREZIONE DI YATES
• Quando, in tabelle 2x2 le frequenze
sono basse (ma sempre >5) è
consigliabile utilizzare un correttivo,
detto di Yates. Anche in questo caso
avremo una p…
TEST ESATTO DI FISHER
• Quando le dimensioni campionarie sono
piccole (celle con 0-5 elementi), è possibile
elencare tutte le possibili combinazioni delle
osservazioni e quindi calcolare le probabilità
esatte
associate
a
ogni
possibile
combinazione di dati
CONFRONTARE DUE MEDIE: IL
TEST t DI STUDENT
• Una circostanza comune è quella in cui si
sono esaminati due campioni di soggetti, in
ciascuno dei quali è stata misurata una
variabile quantitativa (altezza, peso…) di cui
è stata poi calcolata la media
• Ci si chiede se la differenza fra le due medie
sia significativa, cioè se si può dire che la
differenza non è dovuta al caso ma esista
invece una reale diversità tra le medie dei
campioni
t DI STUDENT
• Non entriamo nei dettagli dei calcoli da
eseguire per effettuare il test, ma
facciamo qualche considerazione sulla
formula e ricordiamo che avremo
sempre un p…
t DI STUDENT
• Vediamo come vengano prese in
considerazione le medie (m), la
deviazione standard (s) ed il cosiddetto
‘fattore dimensionale’ (la parte sotto
radice quadrata)
t DI STUDENT
• Quando si dispone di n dati, bisogna
considerare n-1 gradi di libertà
ANOVA
• È l’analisi della varianza
• Permette di verificare le differenze fra le medie di una
variabile dipendente (ad esempio altezza) in gruppi
diversi (ad esempio gruppi A, B, C)
• Confronta la variabilità interna ai gruppi con la
variabilità tra i gruppi
• L'ipotesi nulla solitamente prevede che i dati di tutti i
gruppi provengano dalla stessa popolazione e che le
differenze tra i gruppi siano dovute al caso
ESERCIZIO 1
•
Dati due gruppi differenti e applicato l’apposito test
statistico, si ottiene il risultato di p=0,03
a)
La differenza è statisticamente significativa al 5% ma non
all’1%
La differenza è statisticamente significativa all’1%
La differenza non è statisticamente significativa
b)
c)
ESERCIZIO 1
•
•
•
•
•
Dati due gruppi differenti e applicato l’apposito test
statistico, si ottiene il risultato di p=0,03
Abbiamo il 3% che l’ipotesi 0 sia corretta e il 97%
che non sia corretta
Abbiamo allora il 97% di possibilità che sia vera
l’ipotesi alternativa
Accettiamo l’ipotesi alternativa, sapendo che
abbiamo una possibilità di sbagliare del 3%
Ricordiamo che l’ipotesi alternativa è che la
differenza NON sia dovuta al caso e che quindi la
differenza sia statisticamente significativa
ESERCIZIO 1
•
Dati due gruppi differenti e applicato l’apposito test
statistico, si ottiene il risultato di p=0,03
a)
LA DIFFERENZA È STATISTICAMENTE SIGNIFICATIVA AL
5% MA NON ALL’1%
La differenza è statisticamente significativa all’1%
La differenza non è statisticamente significativa
b)
c)
TEST NON PARAMETRICI
INTRODUZIONE
• Il test t di Student, la correlazione e la regressione
lineare, la regressione multipla e la statistica
multivariata sono metodi di statistica parametrica che
richiedono che siano verificate e soddisfatte tutte le
seguenti condizioni:
– Primo assunto: indipendenza dei gruppi campionari
– Secondo assunto: normalità delle distribuzioni
– Terzo assunto: omoschedasticità (se sono formati per
estrazione casuale dalla medesima popolazione, vari gruppi
devono avere varianze eguali)
INTRODUZIONE
• In condizioni di incertezza sull’esistenza delle
condizioni richieste da un test parametrico, è
suggeribile:
– utilizzare un test di statistica parametrica
– convalidare i risultati con un test non parametrico
– se le probabilità stimate con i due metodi risultano
simili, è preferibile utilizzare il test parametrico
– se le probabilità risultassero differenti, è preferibile
il test non parametrico
VANTAGGI
• Tecnica statistica semplice con calcoli elementari
• Indipendenti dalla forma della distribuzione
• Quasi tutti applicabili sia alle variabili casuali discrete che
continue
• Quando le scale sono qualitative od ordinali e i campioni non
sono di grandi dimensioni, non esistono alternative accettabili
• Richiedono poche assunzioni sulle caratteristiche della
popolazione
• Sono meno sensibili ai valori anomali
• Portano a conclusioni più generali
SVANTAGGI
• Portano a conclusioni più generali
• Quando le condizioni di validità per i metodi
parametrici sono rispettate in modo rigoroso, hanno
una potenza minore
• Per campioni di grandi dimensioni i metodi non
parametrici richiedono metodologie lunghe (non con i
pc…)
• È complesso valutare la significatività delle ipotesi,
poiché è difficile disporre delle tavole dei valori critici
(non con i pc…)
I RANGHI
• Molti test non parametrici utilizzano, invece delle
osservazioni, i ranghi, cioè il numero d’ordine delle
osservazioni stesse
TEST DI MANN-WHITNEY
 Analogamente al test di Student, questo test è utilizzato in
esperimenti in cui si confrontano due campioni indipendenti
 I ranghi sono attribuiti indipendentemente dal gruppo di
appartenenza: al punteggio più basso è attribuito rango 1, al più
elevato rango 8
TEST DI MANN-WHITNEY
 Se il farmaco avesse diminuito i punteggi, dovremmo aspettarci
i ranghi più bassi nel gruppo in trattamento; viceversa se gli
avesse aumentati, dovremmo aspettarci i ranghi più bassi nel
gruppo di controllo
 Come test statistico possiamo utilizzare la somma T dei ranghi
del gruppo più piccolo
 Nel nostro esempio, il valore T=15 è sufficientemente “estremo”
da giustificare il rifiuto dell’ipotesi nulla che il farmaco non abbia
effetto? Ovvero, prendendo in considerazione la distribuzione di
tutti i possibili valori di T, quanto è probabile osservare una
somma T altrettanto “estrema” di quella osservata?
 Nel nostro caso, con T=15, la differenza non è statisticamente
significativa (p>0,05)
TEST CON SEGNO DI
WILCOXON
• È utilizzato negli esperimenti in cui i dati risultano appaiati
• Si calcolano le differenze causate dal trattamento in ciascun
soggetto
• Si assegna un rango a ciascuna differenza in relazione al valore
assoluto
• Si attribuisce al rango il segno della differenza
• Si calcola la somma dei ranghi
• Si confronta il valore ottenuto (W) con la distribuzione di tutti i
possibili valori di W per campioni di ampiezza uguale alla
nostra, per verificare se le osservazioni sono compatibili con
l’ipotesi che il trattamento non abbia avuto effetto
TEST CON SEGNO DI
WILCOXON
Il valore è aumentato in 6 soggetti su 7. È sufficiente a dire che il
trattamento è efficace?
TEST CON SEGNO DI
WILCOXON
•Se il trattamento non avesse effetto, i ranghi associati
a variazioni positive dovrebbero essere pressoché pari
ai ranghi associati a variazioni negative e la somma dei
ranghi con segno W dovrebbe assumere un valore
prossimo a 0
•Più il trattamento modifica i valori della variabile, più le
variazioni tenderanno ad assumere lo stesso segno e
W tenderà ad assumere un valore positivo o negativo
così estremo tale da rifiutare l’ipotesi nulla di inefficacia
del trattamento (per un dato il livello di significatività a)
TEST DI McNEMAR
•È utilizzato quando la variabile in studio è non parametrica nominale
ed è osservata in situazioni in cui le unità statistiche dei due
campioni sono appaiate (test diagnostici positivi o negativi)
• Gli 82 soggetti che avevano risposto ad ambedue i trattamenti ed i
22 che non avevano risposto a nessuno dei due non ci danno
informazioni sul fatto che i soggetti rispondano in modo diverso ai
due trattamenti
• Il Test di McNemar focalizza l’attenzione sui 24+49=73 soggetti che
hanno risposto a solo un trattamento
TEST DI McNEMAR
• Se non ci fosse differenza negli effetti dei trattamenti, dovremmo attenderci
che metà dei soggetti che hanno risposto ad uno solo abbia risposto ad A e
l’altra metà a B
• Perciò le frequenze attese nelle celle relative ai soggetti che hanno
risposto ad uno solo dei due trattamenti sono pari a 73/2=36,5
• Per paragonare queste frequenze con quelle osservate possiamo usare il
test X2 ottenendo:
• Il valore del test è maggiore di 6,635 (il valore critico della
distribuzione X2 per un grado di libertà, al livello di significatività
p=0,01)
• Il test porta dunque a concludere che c’è una differenza
significativa fra la risposta ai due trattamenti con un errore p<0,01
TEST DI FRIEDMAN
•È utilizzato per analizzare esperimenti nei quali ogni soggetto è
sottoposto a un certo numero di trattamenti diversi
•Si attribuisce un rango alle risposte di ciascun soggetto ai
trattamenti
•Se l’ipotesi che il trattamento non ha effetto è corretta, allora in
ciascun soggetto i ranghi saranno distribuiti in modo casuale e le
somme dei ranghi saranno analoghe per ogni gruppo sottoposto ai
trattamenti
TEST DI KRUSKAL-WALLIS
•
•
•
•
È utilizzato per esperimenti nei quali almeno tre gruppi di soggetti sono
esposti a differenti trattamenti
È una generalizzazione del test di Mann-Whitney: i ranghi sono
attribuiti a tutte le osservazioni, indipendentemente dal gruppo di
appartenenza e viene calcolata la somma dei ranghi per ciascun
gruppo
Se i trattamenti non hanno effetto il rango medio di ciascun gruppo
dovrebbe essere prossimo alla media di tutti i gruppi
Più è elevata la differenza esistente fra i ranghi medi osservati in
ciascun gruppo e quelli attesi, tanto minore è la probabilità che che la
tesi di inefficacia dei trattamenti sia vera
TEST DI DUNN
• Nei confronti multipli, quando le ampiezze campionarie sono
diverse, si utilizza il test di Dunn per confronti 2 a 2. Il valore Q
calcolato viene confrontato con un’apposita tabella di valori
critici
• R sono i ranghi medi, N la dimensione del campione, n il
numero di soggetti per ogni gruppo
TEST DI
STUDENT-NEWMAN-KEULS (SNK)
• O test dei confronti multipli per il Test di Friedman, si può
impiegare quando il test di Friedman è significativo: si effettuano
confronti multipli a due a due sui trattamenti utilizzando un
adattamento del test SNK
• Il valore ottenuto si confronta col valore critico di q per p
confronti
• R=somme dei ranghi dei due trattamenti a confronto, n=numero
dei soggetti, p=numero dei confronti
TEST DI DUNNET
• Se il test di Friedman è significativo, è possibile effettuare
confronti con un solo trattamento di controllo: il valore Q
calcolato viene confrontato con un’apposita tabella di valori
critici
• R sono le somme dei ranghi medi, p è il numero dei confronti, n
il numero di soggetti dell’esperimento
IL CONCETTO DI CODE
• Se, tra i gruppi in osservazione esiste una differenza, ma non è
possibile determinare in anticipo quale dei due gruppi debba
essere il maggiore (o il minore) siamo nella situazione di avere
un test bilaterale a 2 code
• Se, invece, abbiamo un gruppo con una frequenza
significativamente maggiore (o minore) rispetto all’altro, si tratta
di un test unilaterale a 1 coda
ESEMPI
• Se dobbiamo confrontare 2 trattamenti per decidere quale sia il
migliore ed accettiamo qualunque dei 2 risulti il migliore, il test è
a 2 code
• Se confrontiamo un farmaco con un placebo e vogliamo vedere
se la percentuale di guarigione è effettivamente superiore nei
soggetti trattati con il farmaco, il test è a 1 coda. Se risultasse
superiore il tasso di guarigione correlato al gruppo placebo, la
cosa solitamente è riconducibile ad errori nella sperimentazione
o nell’interpretazione dei dati
IL CONCETTO DI CODE
• La differenziazione tra test a 1 o a 2 code ha l’effetto
importantissimo di determinare la distribuzione delle
probabilità ed il valore critico per rifiutare l’ipotesi
nulla
IL CONCETTO DI CODE
• Ipotizziamo di avere scelto un p=0,05
come limite di accettabilità
• Scegliendo la probabilità del 5%
– in un test a due code, si hanno due zone di
rifiuto collocate ai due estremi, ognuna con
un’area di 2,5%
– in un test a una coda, si ha una sola zona
di rifiuto, con un’area del 5%
IL CONCETTO DI CODE
IL CONCETTO DI CODE
• Esistono maggiori probabilità di rifiutare l’ipotesi nulla
quando si effettua un test ad una coda, che quando
si effettua un test a due code
• Risulta evidente che, alla stessa probabilità totale, in
un test unilaterale il valore critico è minore di quello in
un test bilaterale
• Il test unilaterale è più potente del test bilaterale (la
potenza di un test è la capacità di rifiutare l’ipotesi
nulla quando essa è falsa)
ERRORI DEI TEST
• Quando si conduce un test, 2 tipi di errore sono
possibili rispetto all'ipotesi nulla che abbiamo
formulato:
IPOTESI
Ipotesi 0 vera
Ipotesi 0 falsa
Rigetto l’ipotesi 0
Errore di 1°tipo : α
OK
Accetto l’ipotesi 0
OK
Errore di 2°tipo : β
ERRORI DEI TEST
• Errore di primo tipo, con probabilità α di commetterlo:
– Rigettare l'ipotesi nulla mentre invece essa è vera nella
popolazione (falso positivo)
• Errore di secondo tipo, con probabilità β di commetterlo:
– Accettare l'ipotesi nulla mentre invece essa è falsa nella
popolazione (falso negativo)
IPOTESI
Ipotesi 0 vera
Ipotesi 0 falsa
Rigetto l’ipotesi 0
Errore di 1°tipo : α
OK
Accetto l’ipotesi 0
OK
Errore di 2°tipo : β
ERRORI DEI TEST
• In un campione, è possibile stabilire la probabilità α di
commettere un errore del 1° tipo ad una soglia predefinita (di
solito 1% o 5%)
• Allora, nell'eseguire il test, si ha una probabilità dell’1% o del 5%
di fare un errore del 1° tipo, cioè rifiutare l'ipotesi nulla (essendo
invece vera nella popolazione)
• Non è possibile in generale fissare a priori la probabilità β
• Si può calcolare la 'potenza' del test: 1-β, cioè la probabilità di
rifiutare l'ipotesi nulla essendo in effetti falsa nella popolazione
QUANDO UTILIZZARE I TEST
STATISTICI
• Il test d’ipotesi può essere applicato,
sostanzialmente, a due ambiti:
– La verifica della diversità tra vari campioni
– La verifica della possibilità di estendere i
dati da un campione ad una popolazione
TEST PER VERIFICARE LA
DIVERSITÀ TRA CAMPIONI
• Facciamo una situazione ipotetica: è stato
sintetizzato un innovativo farmaco A, utile per la
patologia X, per la quale fino ad ora non esistono
farmaci in grado di trattarla
• Come produttori del farmaco A, vogliamo vedere se è
realmente efficace verso la patologia X
TEST PER VERIFICARE LA
DIVERSITÀ TRA CAMPIONI
• In questo caso, possiamo allestire due gruppi di soggetti da
esperimento (cavie, batteri….)
• Il primo gruppo viene sottoposto all’agente infettivo e, una volta
ammalato, trattato con il farmaco A
• Il secondo gruppo viene solo esposto all’agente infettivo
• Al termine dell’esperimento vi sono diversità nel numero di
soggetti guariti tra i due gruppi, con un maggior numero di
guariti nel gruppo trattato con il farmaco A, rispetto a quelli
guariti ‘naturalmente’ del gruppo non trattato
TEST PER VERIFICARE LA
DIVERSITÀ TRA CAMPIONI
• A questo punto, possiamo applicare un test statistico (in questo
caso X2) per vedere se le differenze nella guarigione tra i due
gruppi di soggetti (trattati con il farmaco A o non trattati) sia
statisticamente significativa
• È ovvio che, in quanto sperimentatori o produttori del farmaco A,
sarebbe positivo che le differenze fossero significative ad
indicare le qualità terapeutiche del farmaco A
• Ma il test statistico non permette di ‘barare’…
TEST PER VERIFICARE LA
DIVERSITÀ TRA CAMPIONI
•
Dal punto di vista della procedura il test viene eseguito come al solito
–
–
Ipotesi 0: le differenze sono dovute al caso
Ipotesi alternativa: le differenze non sono dovute al caso, ma a qualche altro fattore
(che noi presumiamo essere il farmaco A)
•
Il test darà un valore che permetterà di accettare o rifiutare l’ipotesi 0
•
Se il valore non permette di rifiutare l’ipotesi 0, le differenze di guarigione tra
trattati e non trattati sono dovute al caso: il nostro farmaco A non influenza la
guarigione, cioè è inutile
•
Se il valore permette di rifiutare l’ipotesi 0, allora dobbiamo considerare come
esatta l’ipotesi alternativa: in questo caso, la differenza di guarigione tra i due
gruppi non è dovuta al caso, ma a qualche altro fattore che noi possiamo
presumere essere il nostro farmaco A
TEST UTILIZZATO PER ESTENDERE I
DATI DI UN CAMPIONE
• Vogliamo determinare il rapporto maschi/femmine della
popolazione studentesca universitaria ferrarese
• Gli studenti sono circa 20000
• Ho le risorse per valutarne solo 1000
• Mi serve un metodo per determinare se i risultati ottenuti su
questi 1000 studenti possano essere estesi a tutti gli altri 19000
• Voglio cioè vedere se valutando solo 1000 ragazzi ho gli stessi
risultati ottenibili valutandone 20000
TEST UTILIZZATO PER ESTENDERE I
DATI DI UN CAMPIONE
• Faccio 2 gruppi di 500 studenti scelti a caso tra i
1000 e applico un idoneo test statistico
• In questo caso, se le differenze tra i campioni non
siano statisticamente significative possiamo dire che
il campione è sufficiente a rappresentare l’intera
popolazione, all’interno di limiti che vanno poi
determinati
RIASSUNTO
•
Tutti i test statistici di significatività assumono inizialmente la cosiddetta
ipotesi zero (o ipotesi nulla)
•
Quando si effettua il confronto fra due o più gruppi di dati, l'ipotesi zero
prevede sempre che non esista alcuna differenza significativa tra i
gruppi riguardo al parametro considerato
Questo vuol dire che, secondo l'ipotesi zero, i gruppi sono fra loro
uguali e le differenze osservate sono dovute al caso
•
•
IPOTESI ZERO: le differenze sono dovute al caso
•
Ovviamente l'ipotesi zero può essere accettata o respinta, ma in che
modo?
RIASSUNTO
• Si procede applicando un test statistico di significatività
• Il test produce un numero, non una risposta alla ipotesi 0!!!!
• Il risultato va confrontato con un valore delle tabelle relative al
test utilizzato
•
Se il risultato del test supera il valore tabellare, allora la differenza fra i
gruppi viene dichiarata ‘statisticamente significativa e, quindi,
l'ipotesi zero viene respinta
•
In caso contrario l'ipotesi zero viene accettata
RIASSUNTO
• I risultati di un test statistico non hanno un valore di
certezza, ma soltanto di probabilità
• Ne deriva che respingere l'ipotesi zero
probabilmente giusta, ma potrebbe essere errata
è
• La misura di questo rischio di cadere in errore si
chiama livello di significatività del test
CAUSALITÀ
• Presenza di:
– Associazione non casuale
• La verifico con un test statistico
– Positività ai criteri di causalità
• Verifico se i 5 criteri sono rispettati
MODELLO GENERALE DI ASSOCIAZIONE
CASUALE O CAUSALE
• Una associazione statistica può indicare l'esistenza
di una correlazione tra variabili
• L’associazione, però, non dimostra l'esistenza di un
rapporto causa-effetto
ASSOCIAZIONE E CAUSALITÀ:
TIPI DI ASSOCIAZIONE
• Molti studi, ad esempio quelli su malattie e farmaci,
sono
finalizzati
a
stabilire
l'esistenza
di
un'associazione
statistica
tra
un
presunto
determinante ed un evento (ad esempio guarigione
dopo trattamento con un farmaco)
• L'accertamento dell'associazione è soltanto il primo
passo, che richiede poi l'interpretazione del
significato dell'associazione
• Associazione non è sinonimo di causalità
TIPI DI ASSOCIAZIONE
• CAUSALE:
il
dell’avvenimento
fattore
è
realmente
causa
• SPURIA: falsa associazione (dovuta ad esempio ad
errori metodologici)
• NON CAUSALE: è l’avvenimento che causa il fattore,
oppure c’è un terzo elemento che determina gli altri
due
ASSOCIAZIONE SPURIA
• Un'associazione spuria è quella dovuta alla
presenza di errori sistematici
• L'errore sistematico causa lo stesso tipo di errore ad
ogni osservazione ed è dovuto a vizi di impostazione
o di esecuzione di uno studio (campionamento,
metodo, disegno dell’esperimento…)
ASSOCIAZIONE NON CAUSALE
• Un'associazione non causale può essere la
conseguenza di
– confusione fra causa ed effetto
– altro
fattore
x,
vero
responsabile
dell'associazione
CAUSA EFFETTO
• Le regole per dichiarare l'esistenza di una
relazione causa-effetto variano in rapporto ai
settori di studio
• Risulta più facile dichiarare l’esistenza se si
possono disegnare esperimenti nei quali un
solo componente può essere isolato
I CRITERI DI CAUSALITÀ
• I metodi statistici non possono costituire da
soli la prova che un'associazione tra due
fenomeni sia basata su una relazione causaeffetto
• Bisogna verificare la rispondenza a precisi
criteri di causalità
I CINQUE CRITERI
•
•
•
•
•
Consistenza
Forza
Specificità
Temporalità
Coerenza
CONSISTENZA
• Studi diversi, eseguiti in tempi diversi ed in
diverse condizioni sperimentali, evidenziano
la stessa associazione (es. trisomia
21/sindrome di Down)
FORZA
• Misura della correlazione tra un presunto
determinante di malattia e la malattia stessa e
può essere quantificata attraverso il rischio
relativo (es. Chlostridium tetani/tetano)
SPECIFICITÀ
• Costanza con cui una specifica variabile
produce un determinato effetto (es.
HIV/AIDS)
• Più la risposta è costante, più è probabile che
la variabile in esame sia una causa effettiva
TEMPORALITÀ
• La temporalità dell'associazione è basata sul
principio che ogni causa deve precedere il
relativo effetto (es. HIV/AIDS)
COERENZA
• La coerenza può venire definita anche
plausibilità biologica, fisiologica e patologica
(es. infezione/ipertermia)
CONFRONTO FRA DUE O PIÙ
VARIABILI
• I test considerati finora
variabile in più gruppi
misurano
una
• Quando invece si vuole confrontare
l’andamento di due o più variabili quantitative
nello stesso gruppo si ricorre ai test di
correlazione e di regressione
DIAGRAMMA DI DISPERSIONE
• In queste circostanze ci troviamo di fronte a dati relativi a
misurazioni simultanee di due diverse variabili sulle stesse unità
statistiche, rappresentabili su un piano cartesiano
COEFFICIENTE DI
CORRELAZIONE
• Il coefficiente di correlazione esprime la probabilità che due
variabili siano correlate fra loro
• Come al solito, non sussiste necessariamente un rapporto
diretto di causalità
• La correlazione può essere lineare o di altro tipo (quadratica,
ecc.)
• Il più semplice coefficiente è quello di Pearson (r), che
misura la correlazione lineare in un campione
COEFFICIENTE DI
CORRELAZIONE
• Il coefficiente di correlazione va da -1 (correlazione negativa) a
+1 (correlazione positiva)
• I valori prossimi allo 0 esprimono l’assenza di correlazione
r = -1
r=0
r = +1
ALTRI ESEMPI DI r
CORRELAZIONE
• Se si incontra una r > 0.95 bisogna sospettare dello
studio
• Correlazioni così elevate sono in genere
conseguenze di un artefatto (esempio: le due variabili
sono espressione della stessa grandezza come anni
di università e esami fatti)
VALORI GUIDA
IN PRATICA
REGRESSIONE
•Se esiste correlazione fra due variabili è possibile
calcolare una funzione che descriva il rapporto fra le
due variabili e che permetta di predire altri valori
•Se tale funzione è una linea, si parla di regressione
lineare, altrimenti di regressione non lineare
•Se le variabili sono più di due, si parla di regressione
multipla
UN ESEMPIO DI REGRESSIONE LINEARE
La formula generale di una linea di regressione è:
y = a + bx
a è il punto di intersezione dell’asse Y
b la pendenza della linea
La retta di regressione viene calcolata minimizzando la somma degli
scarti quadratici dei singoli valori osservati
REGRESSIONE LINEARE
•
Riguarda l’interpolazione di una linea retta (retta di regressione) tra i
punti rappresentati nel diagramma di dispersione che rende minima la
somma delle distanze di ciascun punto dalla retta
PREDIZIONE
Il calcolo di una linea di regressione può permettere di fare
predizioni riguardo a valori non osservati
DEFINIZIONI
INTERPOLAZIONE: la ricerca di una funzione
matematica che approssima l’andamento di un
insieme di punti
ESTRAPOLAZIONE: valutazione di valori esterni alla
serie dei dati
PEREQUAZIONE: ‘livellamento’ dei dati di una serie
non regolare attraverso la sostituzione al posto dei
dati rilevati, di dati ottenuti dalla funzione
matematica trovata
ATTENZIONE!!
• Non si deve estrapolare la correlazione
osservata al di fuori dell’intervallo di valori di
cui si dispone, poiché diventa alta la
possibilità di errore
• Correlazione non significa relazione causale:
è possibile ottenere una correlazione tra due
grandezze senza che vi sia un effettivo
relazione diretta
REGRESSIONE LINEARE E NON
LINEARE
REGRESSIONE MULTIPLA
I test di regressione multipla valutano la
maniera in cui 2 o più variabili indipendenti
influenzano una singola variabile dipendente
EFFETTI MULTIPLI
• Consideriamo il caso in cui una variabile dipendente possa
essere influenzata da più di una variabile
x
w
y
REGRESSIONE MULTIPLA
LINEARE E NON LINEARE
GENERALIZZAZIONE DEI
DATI DI UN CAMPIONE
• Dopo aver dimostrato con un certo grado di
probabilità che un campione è coerente con la
popolazione da cui deriva (è RAPPRESENTATIVO), i
risultati ottenuti dalle misure effettuate sul campione
possono essere estesi e riferiti alla popolazione nel
suo insieme
GENERALIZZAZIONE DEI
DATI DI UN CAMPIONE
• Le caratteristiche di interesse della popolazione, ad
esempio la media e la deviazione standard per un
fenomeno oggetto di studio, costituiscono i
‘parametri’ della popolazione, i cui valori sarebbero
noti solo analizzandone tutte le unità
• Gli indici calcolati sul campione rappresentano una
‘stima’ di tali parametri ignoti
CONCETTI DI BASE
• Tramite l'inferenza statistica si determinano i
parametri della popolazione, utilizzando i risultati che
abbiamo osservato sul campione
• Come al solito non abbiamo la certezza, ma un certo
grado di probabilità
• Come sperimentatori possiamo decidere se accettare
o meno quel grado di probabilità
• Si tratta di ‘stimare’ dal campione il valore di
parametri ignoti per la popolazione
STIMA
•
Significa effettuare un calcolo di valori con una
possibilità di errore nota e accettata
•
Si basa sul calcolo delle probabilità e sulla
distribuzione gaussiana
PROPRIETÀ DELLA
DISTRIBUZIONE GAUSSIANA
• Circa il 95% dei valori in una distribuzione gaussiana
(normale) cade nell’intervallo definito da due valori:
Media - 2 volte la deviazione standard
Media + 2 volte la deviazione standard
DISTRIBUZIONE GAUSSIANA IN
UNA POPOLAZIONE
• Consideriamo una variabile che segue la distribuzione
gaussiana, ad esempio l'altezza di una popolazione
• Sorteggiando (quindi a caso) un individuo della popolazione si
può ragionevolmente affermare che con circa il 95% di
probabilità la sua altezza cade nell'intervallo compreso tra i
valori:
– Media + 2 volte la deviazione standard
– Media - 2 volte la deviazione standard
• Media e deviazione standard sono i nostri parametri
DISTRIBUZIONE GAUSSIANA IN
UNA POPOLAZIONE
•
Se i parametri della variabile nella popolazione fossero noti sarebbe
immediato ottenere i valori cercati
•
Ad esempio, se la media fosse 175 cm e la deviazione standard 10,
avremmo:
– Media - 2 volte la deviazione standard:
175 - 2*10 = 175 - 20 = 155
– Media + 2 volte la deviazione standard:
175 + 2*10 = 175 + 20 = 195
•
In questo caso, estraendo a caso un soggetto da quella popolazione,
avremmo il 95% di probabilità che la sua altezza sia compresa tra 155
e 195 cm
STIMA DI UNA MEDIA
• Di solito, però, i parametri sono ignoti (a meno di un
censimento)…
• In questi casi, dobbiamo estrarre un campione di individui e ne
calcoliamo l’altezza media…
• A che livello di probabilità la media del nostro campione
rappresenta la media vera e sconosciuta della popolazione?
TEOREMA DEL LIMITE
CENTRALE
• Data una variabile, qualsiasi sia la sua
distribuzione, la media di tutti i suoi campioni
di ampiezza n ha una distribuzione normale
ERRORE STANDARD
• È il valore atteso della deviazione standard
delle medie
• Si può calcolare sul campione con la formula:
TEOREMA DEL LIMITE
CENTRALE
• Usando quindi le proprietà della distribuzione
gaussiana, si può allora affermare che la media
ignota µ della popolazione sia compresa con una
probabilità del 95% nell'intervallo definito dai valori
campionari:
INTERVALLI DI CONFIDENZA
•
Confidenza: livello di fiducia probabilistico che si attribuisce alla stima
campionaria
•
Intervalli di confidenza (IC): definiscono entro quali valori sia localizzata
la media vera (e ignota), in base alle stime campionarie, per N
sufficientemente grande
CASO PARTICOLARE
• Per meno di 30 unità, lo scostamento della media
campionaria dalla gaussiana è notevole: ad esempio,
per comprendere il 95% dell’area intorno alla media
con un campione di 10 misure occorre considerare
2.26 volte l’errore standard anziché 1.96
• I valori di correzione si trovano su apposite tabelle
CONSIDERAZIONI
SULL’INFERENZA
• È utile utilizzarla solo in casi semplici (ad esempio la
stima dell’intervallo della media di una popolazione)
• È fondamentale tenere presente che se si prende un
campione a caso, questo non è sempre attendibile
(basta ricordare la probabilità di errore)
• La stima comporta sempre un rischio di essere errata
LE RAPPRESENTAZIONI GRAFICHE
• Tabelle
Classi di peso
Numero
soggetti
<60 kg
2
61 - 70 kg
7
71 - 80 kg
12
> 80 kg
4
• Grafici
LE RAPPRESENTAZIONI GRAFICHE:
QUANDO UTILIZZARLE
• Quando si illustrano i risultati di una ricerca o di una
rilevazione ed è necessario presentarli in modo
chiaro e sintetico
• Perché una rappresentazione grafica è di più
immediata comprensione
• Perché una rappresentazione
essere più efficace
grafica
dovrebbe
REQUISITI DI UNA
RAPPRESENTAZIONE
• Deve presentare dati statistici dotati di senso
• Non deve contenere dati ambigui
• Deve trasmettere informazioni in modo efficiente
QUALE SCEGLIERE?
• Una regola generale è la seguente:
– se occorre citare soltanto alcune informazioni
numeriche (meno di 10) si descrive nel testo
– il ricorso alle tabelle è appropriato per presentare
tra una ventina e un centinaio di dati
– al di sopra di questo numero, è di solito più
indicato un grafico o una figura
LE TABELLE
• Le tabelle si utilizzano per dare visibilità ai dati dopo
che sono stati raccolti individualmente ed elaborati
• La tabella è la prima sintesi sistematica ed è il punto
di partenza per la rappresentazione, la lettura,
l’interpretazione e l’elaborazione successiva
GLI ELEMENTI DELLE TABELLE
• Ogni tabella deve essere autoesplicativa
• A questo scopo è necessario che la tabella abbia un
titolo
• Il titolo deve indicare l’insieme (popolazione) degli
elementi (unità statistiche) su cui è stata effettuata la
rilevazione; che cosa è stato rilevato (caratteristica o
carattere); il riferimento temporale e territoriale della
rilevazione; le eventuali elaborazioni effettuate sui dati
Distribuzione in frequenza assoluta e per classi del
peso di 25 soggetti appartenenti alla popolazione
studentesca ferrarese misurati nell’anno accademico
2008/09
Classi di peso
Numero soggetti
<60 kg
2
61 - 70 kg
7
71 - 80 kg
12
> 80 kg
4
Fonte: dati rilevati
STRUTTURA DELLA TABELLA
•
•
•
•
La tabella è organizzata per colonne
Ogni colonna deve portare la propria intestazione
L’insieme delle intestazioni forma la testata
La prima colonna (colonna madre) riporta le modalità
del carattere rispetto alle quali è stata fatta la
classificazione
STRUTTURA DELLA TABELLA
• Titolo, testata e colonna madre costituiscono la finestra
di dialogo della tabella
• Essi, con le eventuali note presenti, vanno perciò scritti o
letti
STRUTTURA DELLA TABELLA
• Le note vanno collocate al fondo della tabella, al di
sotto del filo di chiusura, allineate a sinistra e una per
riga
• Il richiamo nella tabella è costituito da una lettera
dell’alfabeto minuscola e racchiusa tra due parentesi:
(a), (b), (c) ripetuta all’inizio della nota per il
necessario riferimento
• L’indicazione della fonte da cui provengono i dati
presentati va inserita a fondo tabella prima delle note
REGOLE PER LA COSTRUZIONE DI
TABELLE RAGGRUPPATE
• Non più di 10 gruppi
– Un tabella che comprende più di 10 gruppi non
sarà leggibile
• Intervalli facilmente comprensibili
– Facile da capire: Anni ’60
– Difficile da capire: 1962-1975
• Intervalli di larghezza uguale
IL GRAFICO
• È uno strumento che consente un’immediata
comprensione dei dati
• Serve a mettere in risalto i fatti che si vogliono
presentare
• I grafici consentono di trasformare informazioni
numeriche in informazioni visive di più semplice
comprensione rappresentando i dati in modo più
efficace
I GRAFICI
• È bene ricordare che la rappresentazione grafica di
un insieme di dati numerici deve:
– aiutare la comprensione di un dato fenomeno
– fornire al lettore una informazione sintetica e facile da
interpretare
• I grafici presentati in un lavoro scientifico o anche
divulgativo dovrebbero essere sempre accompagnati
dalle tabelle dei valori numerici per permettere al
lettore di valutare in modo critico quanto espresso dal
grafico
I GRAFICI
• La scelta del tipo di grafico
è determinata dal tipo di
informazioni
che
si
vogliono rappresentare e
dagli aspetti del fenomeno
che si vogliono evidenziare
I GRAFICI
• I possibili tipi di grafici che si possono tracciare a
partire da una tabella di dati numerici sono molti
• Nella scelta di una particolare rappresentazione
grafica le necessità estetiche dovrebbero essere
messe in secondo piano rispetto all’esigenza di
adeguarsi al tipo di misura rilevata e agli aspetti del
fenomeno che si vogliono evidenziare
REQUISITI DI UN GRAFICO
• L’ambiguità di un grafico dipende dalla sua incapacità di
definire con precisione ciò che i dati rappresentano
• È compito del testo che lo accompagna spiegare
esattamente che cosa rappresenta
• Una buona rappresentazione grafica richiede anche una
certa dose di creatività
• Una buona rappresentazione grafica comunica al lettore
informazioni a proposito dei dati che non sono altrettanto
evidenti quando i dati sono presentati in una tabella
senza distorcerli o distrarli
GLI ELEMENTI DEI GRAFICI
• Un grafico è normalmente costituito da due segmenti
(assi) perpendicolari fra loro che si incrociano in un
punto (origine)
• L'asse verticale viene usualmente indicato come
asse delle Y e quello orizzontale come asse delle X
• Il piano di riferimento è il luogo dove vengono
posizionati gli elementi grafici che rappresentano le
quantità numeriche
• Se gli assi sono entrambi graduati e orientati il piano
individuato si chiama piano cartesiano
I PRINCIPALI TIPI DI GRAFICI
• I grafici più semplici e comunemente utilizzati sono:
• gli istogrammi
• i grafici a settori circolari (grafici a torta)
• i grafici a punti
GLI ISTOGRAMMI
• Sono molto utilizzati per rappresentare la frequenza con
cui si presentano le modalità di un carattere
• L'asse verticale è graduato e serve per indicare la
frequenza (assoluta o relativa) con cui le modalità si
presentano. L'asse orizzontale serve soltanto come base
di appoggio dell'elemento grafico (le due barre)
• Se le modalità fossero numerose, potrebbe essere più
efficace rappresentare il grafico ponendo le barre
orizzontalmente
• Fonte: esempio
• Fonte: esempio
ISTOGRAMMI MULTIPLI
• Nel
caso
si
voglia
dare
una
rappresentazione grafica di più serie di
dati
ISTOGRAMMA
• Un qualsiasi istogramma può essere la base
per l’applicazione di una linea di trend…
ISTOGRAMMA
• È possibile inserire il trend con il coefficiente e
l’R2
ISTOGRAMMI IN PILA
• Gli istogrammi in
pila sono utili per
evidenziare
il
rapporto per ogni
elemento
tra
le
variabili prese in
considerazione
ISTOGRAMMI 3D
• Gli istogrammi
possono essere
rappresentati in 3d
I GRAFICI A PUNTI
• Si usano per rappresentare il valore assunto da due variabili su
una stessa unità statistica (peso e l'altezza)
• Consentono di verificare visivamente se le due variabili sono
connesse, cioè se il comportamento di una è legato al
comportamento dell'altra
• Il grafico si costruisce su un piano individuato da due assi
perpendicolari fra loro (ortogonali), graduati e orientati. Su
ciascun asse è riportata l'unità di misura di una delle due
variabili considerate
• Le unità statistiche sono poi riportate sul piano nel modo
seguente: ogni unità è rappresentata da un punto; i punti sono
individuati attraverso le rispettive coordinate
• Fonte: esempio
GRAFICO A BOLLE
• Il grafico a bolle è un tipo particolare di grafico a punti che
consente di rappresentare una terza variabile come area della
bolla
GRAFICO A RADAR
• In un grafico a radar, a ciascuna categoria dei dati corrisponde
un asse dei valori specifici che parte dal punto centrale. I valori
della stessa serie sono uniti da linee
GRAFICO A RADAR
• Confrontano le serie di dati rispetto ad un punto
centrale
• Strutturati come uno schermo radar (l’osservatore si
trova al centro) da cui vengono emessi i segnali
radar (asse dei valori) in tutte le direzioni
• I punti adiacenti sono congiunti con una linea creando
poligoni per facilitare la localizzazione dei gruppi di
dati diversi
• Adatti alla rappresentazione di valori aggregati di
serie di dati
GRAFICO AZIONARIO
• Utile per rappresentare dati che presentino un massimo, un
minimo ed un valore di fine esperimento (utili per esempio per
temperatura e valutazione della didattica)
I GRAFICI A SETTORI CIRCOLARI
(GRAFICI A TORTA)
•
•
Il grafico a settori circolari calcolato sui valori percentuali di una
distribuzione
Ogni settore del grafico rappresenta (in frequenza assoluta o percentuale) il
peso assunto da ciascuna modalità e mette in evidenza la ripartizione di un
insieme piuttosto che la consistenza delle singole parti
– La tecnica si basa sempre sul principio della proporzionalità, questa
volta tra l’aria dei settori circolari (o ampiezza del loro angolo) e le
frequenze rappresentate.
– Per la visualizzazione di settori molto piccoli è possibile raggruppare
alcuni settori in un solo settore per poi rappresentarli con un’altra torta o
con un istogramma
• Fonte: esempio
GRAFICO AD ANELLO
• È un grafico simile a quello a torta, ma che permette di
rappresentare contemporaneamente più serie di dati e
confrontarle tra loro
GRAFICI AD AREA
• Si evidenzia l'entità delle variazioni nel tempo e le
relazioni delle parti rispetto al totale
CARTOGRAMMI
Utilizza una carta geografica per evidenziare, nelle
zone di interesse, le informazioni analizzate
GRAFICI: OSSERVAZIONI
• Un grafico dovrebbe sempre essere accompagnato
da una legenda chiara che ne faciliti la lettura, e
specifichi le unità di misura e le grandezze
rappresentate
• Non deve essere troppo affollato e deve avere
dimensioni adeguate allo spazio utilizzato
• Se l’intervallo di variazione dei valori rappresentati è
troppo ampio, il grafico diviene poco leggibile
• Scelte diverse fatte nella rappresentazione grafica
possono avere impatto informativo diverso
ALCUNI PROBLEMI
• Ci sono situazioni in cui un grafico non fornisce un contributo concreto
per la comprensione dei fatti:
– a) quando le modalità non presentano differenze apprezzabili
– b) quando le modalità sono troppo numerose da rendere anche il
grafico poco leggibile
• Una possibile soluzione è la divisione in più grafici con un minor
numero di modalità (e quindi elementi grafici) rappresentate, in modo
da rendere i risultati più facilmente leggibili
DEFINIZIONE DI QUESTIONARIO
• È uno strumento di raccolta delle informazioni costituito
da un insieme strutturato di domande definite a priori da
chi lo costruisce
• Consente la misurazione di un fenomeno in modo
quantitativo
REQUISITI PER LA STESURA DI
UN QUESTIONARIO
• Esperienza del ricercatore
• Conoscenza della popolazione da analizzare
• Chiarezza delle ipotesi di ricerca
IL PROCESSO DI COSTRUZIONE
DI UN QUESTIONARIO
•
Tre passaggi fondamentali
–
Formulazione e definizione delle ipotesi della ricerca, precisando
oggetto e scopi dell’indagine e successivo campionamento della
popolazione per individuare le unità di analisi
–
Individuazione, in base alla ricerca e ai risultati che si desiderano
ottenere, della tipologia di questionario da somministrare
(autosomministrato, intervistatore...)
–
Scelta delle domande da utilizzare per ottenere uno specifico tipo di
risposte e di informazioni
PASSI PRELIMINARI: LA
RACCOLTA DELLE INFORMAZIONI
• Analisi della letteratura scientifica sull’ambito di indagine
• Analisi delle esperienze simili
CARATTERISTICHE DEL TARGET
Aspetti rilevanti possono essere:
•
•
•
•
•
•
•
•
età
sesso
nazionalità
scolarizzazione
dimestichezza con la lingua italiana
etnia
religione
professione
ARGOMENTI DELLE DOMANDE
• proprietà sociografiche di base
• atteggiamenti
• comportamenti
DOMANDE RELATIVE A PROPRIETÀ
SOCIOGRAFICHE DI BASE
• Caratteristiche sociali di base dell’individuo
– Caratteristiche permanenti: genere, età, luogo di nascita
– Connotati sociali ereditati: classe sociale, lavoro
– Caratteristiche di un periodo della vita: professione, stato civile,
localizzazione geografica
• Vengono utilizzate come base di riferimento nel quale collocare le
altre proprietà
• La maggior parte di queste domande vengono poste in tutte le
inchieste campionarie e per esse esistono formulazioni standard
DOMANDE RELATIVE AD
ATTEGGIAMENTI
• Si tratta delle proprietà degli individui più tipicamente rilevabili
tramite l’inchiesta campionaria:
–
–
–
–
–
–
–
opinioni
motivazioni
orientamenti
sentimenti
valutazioni
giudizi
valori
• È il campo più difficile da esplorare: gli atteggiamenti variano da
individuo a individuo e questo elemento è più difficilmente rilevabile
da un questionario. Le domande sugli atteggiamenti sono difficili da
formulare e le risposte sono facilmente influenzate dalla domanda
stessa
DOMANDE RELATIVE A
COMPORTAMENTI
• Si rileva ciò che l’intervistato dice di fare o di avere fatto
(azioni)
• È un campo più solido rispetto a quello delle opinioni
FORMULAZIONE DELLE
DOMANDE
•
•
•
•
•
•
•
•
•
Semplicità di linguaggio
Lunghezza delle domande (concise e finalizzate; lunghe e articolate)
Numero delle alternative di risposta: a voce, non più di cinque
Evitare espressioni gergali
Evitare parole dal forte connotato negativo
Evitare domande sintatticamente complesse (es. doppie negazioni)
Evitare domande con risposta non univoca
Evitare domande a risposta pilotata
Evitare doppie domande
SEQUENZA DELLE DOMANDE
• Per agevolare l’intervistato e consentirgli di concentrarsi su aspetti
precisi della tematica trattata è consigliabile:
– Concatenare le domande e le parti del testo su un filo logico
– Aggregare i quesiti relativi ad uno stesso argomento in un’unico
set
DOMANDE APERTE / CHIUSE
• domanda aperta: l’intervistatore lascia completa libertà
di risposta all’intervistato
• domanda chiusa: l’intervistatore obbliga a scegliere tra
varie possibili risposte
DOMANDE APERTE
• Necessitano di codifica
• Vantaggi
– risultato non ambiguo
– consentono risposte non previste
• Limiti
– vaghezza delle espressioni
– possibili forzature di codifica
– mancanza di omogeneità negli interventi degli intervistatori
– difficoltà in fase di interpretazione e codifica delle risposte
– costi elevati
DOMANDE CHIUSE
• Utilizzate quando le opzioni di risposta sono chiare al ricercatore,
quando sono poco numerose o poco complesse, quando
l’intervistato ha un livello culturale basso, quando si tratta di
argomenti delicati
• Si possono suddividere in:
– domande a risposta singola, a cui è possibile fornire una sola
risposta
– domande a risposta multipla, alle quali si possono dare più
risposte (si ottiene una maggiore ricchezza di spunti, ma si
hanno difficoltà in termini di elaborazione dei risultati)
DOMANDE CHIUSE
• Vantaggi:
– offre a tutti la stessa serie di risposte alternative
– facilita il ricordo
– costringe ad uscire dalla vaghezza
• Limiti:
– lascia fuori tutte le alternative non previste
– le alternative proposte possono influenzare la risposta
– le risposte offerte non hanno il medesimo significato per tutti
LE SCALE
• Domande chiuse con una sequenza di possibili risposte, tra loro
graduate secondo un preciso criterio
• Possono essere di tipo numerico, oppure basate su concetti
• È meglio prevedere una scansione tipo:
– certamente sì
– probabilmente sì
– non so
– probabilmente no
– certamente no
• Per obbligare l’intervistato a prendere una posizione precisa e non
neutrale, conviene utilizzare una scala con un numero pari di
modalità, per esempio da 1 a 4
METODI DI SOMMINISTRAZIONE
DEI QUESTIONARI
• autosomministrazione
– ogni rispondente legge le domande e risponde
• somministrazione condotta da un intervistatore
– che pone le domande e registra le risposte
AUTOSOMMINISTRAZIONE
• I questionari sono distribuiti spiegando brevemente gli obiettivi
dell’indagine, motivando il rispondente e chiedendone la
collaborazione per la compilazione che gli viene affidata
• Questionario semplice, di facile comprensione e compilazione
• Questionario accompagnato da brevi e chiare istruzioni
• Garanzia dell’anonimato
• Somministrazione postale
questionario e lettera di presentazione ricevuti per posta e
successivamente rispediti (sono possibili richiami)
SOMMINISTRAZIONE DURANTE
INTERVISTA
• Un intervistatore pone le domande del questionario a un intervistato
– deve mantenere lo stesso atteggiamento interpersonale con tutti
gli intervistati e per tutte le domande
– non deve commentare le risposte
– la credibilità, la riconoscibilità dell’intervistatore così come la
formazione e l’addestramento al suo ruolo possono influenzare la
qualità delle risposte.
SOMMINISTRAZIONE DURANTE
L’INTERVISTA TELEFONICA
• I soggetti vengono contattati telefonicamente
da un intervistatore che pone le domande e
registra le risposte
• L’intervista telefonica si usa solitamente
quando sono disponibili i dati personali del
campione di cittadini
FASE PILOTA
• È una somministrazione di prova del questionario
• Viene effettuato per testarne le parti e le eventuali criticità (la
formulazione della domande, il loro ordine, le domande superflue...)
• Consente risparmio di tempo e risorse
• Garantisce un miglioramento della qualità dei risultati
• Sulla base dei risultati emersi da queste fase di pre-test è possibile
aggiustare e modificare il questionario e definire la versione finale
LUNGHEZZA DEL QUESTIONARIO
• Dipende dal metodo di somministrazione
• Non più di 20 domande e che richiede un tempo di 10-20
minuti per la sua compilazione
ANONIMATO
• Garantire l’anonimato agli intervistati è importante per la veridicità
delle risposte
• Quando gli intervistati temono di essere identificati, come nel caso
in cui si richiedano alcuni dati anagrafici, è possibile garantire il
cosiddetto segreto statistico, in altre parole dichiarare che le
informazioni raccolte saranno rese note solo sotto forma di dati
globali, anonimi, non collegabili alle singole persone
EPIDEMIOLOGIA
• Branca delle scienze mediche che ha per oggetto lo
studio dello stato di salute e di malattia di popolazioni
in rapporto con vari fattori (genetici, ambientali…) al
fine di individuare i fattori positivi di benessere e
quelli causali delle malattie, le loro modalità di
intervento e le condizioni che ne favoriscono od
ostacolano l'azione
RAPPORTI TRA
EPIDEMIOLOGIA E CLINICA
• L’Epidemiologia ha come finalità principale l’individuazione del
tipo, modalità di distribuzione, frequenza di comparsa e ruolo
dei fattori causali (Attribuzione etiologica per la prevenzione
della malattie)
– Ambito della ricerca: gruppi di soggetti (famiglie, nuclei,
popolazioni)
• La Medicina Clinica ha come finalità principale l’individuazione
del meccanismo di azione dei fattori causali, dei danni da essi
derivabili, e delle modalità più opportune per la loro correzione
(Studio della patogenesi, diagnosi e terapia per la guarigione
della malattia)
– Ambito della ricerca: singoli individui
EPIDEMIOLOGIA
• Ha la necessità di disporre di sistemi di misura
particolari, idonei a consentire una adeguata e
completa elaborazione ed interpretazione di tutte le
informazioni raccolte
• Frequenze o valori assoluti
• Tassi o quozienti
• Rapporti
• Misure del rischio
FREQUENZE O VALORI
ASSOLUTI
È il numero che esprime la frequenza di comparsa di un
fenomeno nel tempo di osservazione
N(tx)
N = numero di casi osservati
tx = intervallo di tempo nel quale è avvenuta
l’osservazione
TASSI O QUOZIENTI
• Rappresentano il metodo di misura di uso più
comune in epidemiologia
• Consentono di eliminare l’influenza esercitata
dalle variazioni socio-demografiche
N(tx)
R=
P(tx)
Dove:
*K
R
Tasso
N(tx)
Numero di casi osservati in un
intervallo di tempo
P(tx)
Popolazione in cui i casi sono stati
osservati nello stesso intervallo di
tempo
K
Costante (di solito multiplo di 10)
CARATTERISTICHE TASSI
• I soggetti o gli eventi che figurano al numeratore
sono sempre compresi anche al denominatore
• Nella definizione dei tassi sia il numeratore che il
denominatore devono provenire dalla stessa
popolazione
TASSI GREZZI
Esprime la misura di tutti gli eventi verificatisi, in un certo
periodo di tempo, nell’intera popolazione
Tasso grezzo
di natalità
Tasso grezzo
di morbosità
Tasso grezzo
di mortalità
Tasso grezzo
di morbilità
TASSI SPECIFICI
• Il tasso specifico si riferisce solo agli eventi
interessanti particolari gruppi di soggetti selezionati in
base al sesso (tassi specifici per sesso), all’età (tassi
specifici per classi di età) alla diversa tipologia degli
eventi (tassi specifici di mortalità per cause)….
TASSI SPECIFICI USATI IN EPIDEMIOLOGIA
Tassi di mortalità
per cause
Tassi di mortalità
per classi di età
Tasso di mortalità
perinatale
Tasso di mortalità
infantile
TASSI PROPORZIONALI
•
•
Consentono di calcolare la frazione del totale degli
eventi correlata ad un carattere particolare (es.
mortalità proporzionale per tumore rapportata ai
decessi totali)
Possono essere molto utili per valutare il peso
relativo di una specifica malattia nell’ambito del tipo
di patologia di sua appartenenza
RAPPORTI
Consentono di comparare 2 variabili fra loro
indipendenti
Nx = frequenza della prima variabile
Ny = frequenza della seconda variabile
I RAPPORTI SONO USATI PER…
-
Comparare l’entità dello stesso fenomeno in due
gruppi diversi (mortalità in maschi e femmine)
-
Suddividere una popolazione in due gruppi di soggetti
con differenti caratteristiche (ipertesi e normotesi)
-
Comparare l’entità di un fenomeno in due momenti
diversi (mortalità nel 1980 e nel 2007)
Il fattore presente al numeratore non compare al
denominatore
PREVALENZA
Indice che si riferisce all’evento malattia
Definisce il numero totale dei casi di una specifica malattia presenti in un
determinato momento in una popolazione
Dove :
t0 = momento in cui i casi sono stati osservati
N = numero totale dei casi osservati in t0
P = popolazione totale nell’istante t0
K = costante
INCIDENZA
Frequenza di comparsa di nuovi casi di malattia in una
popolazione in un determinato periodo di tempo
Dove : t1 - t0
Nn
P
K
= Intervallo di tempo nel quale i casi sono stati
osservati
= Numero di nuovi casi di malattia compresi
nell’intervallo t1 - t0
= Popolazione a rischio di ammalare in quel
Pt1 + Pt0
periodo di tempo
2
= Costante
FATTORI CHE AUMENTANO IL
TASSO DI PREVALENZA
•
•
•
•
•
•
•
Maggiore durata della malattia
Prolungamento della vita dei malati senza guarigione
Aumento dei nuovi casi (aumento dell’incidenza)
Immigrazione di casi
Emigrazione di persone sane
Immigrazione di persone suscettibili
Miglioramento delle capacità diagnostiche (notifiche migliori)
FATTORI CHE DIMINUISCONO IL
TASSO DI PREVALENZA
•
Durata più breve della malattia
•
Elevato tasso di letalità della malattia
•
Diminuzione dei nuovi casi (diminuzione dell’incidenza)
•
Immigrazione di persone sane
•
Emigrazione di casi
•
Emigrazione di persone suscettibili
•
Miglioramento del tasso di guarigione dei casi
MORTALITÀ E LETALITÀ
RAPPORTO STANDARDIZZATO DI
MORTALITÀ (SMR)
SMR = 1
Comportamento della mortalità uguale
nella popolazione studiata e in quella di
riferimento
SMR > 1
La popolazione studiata ha
mortalità
maggiore
rispetto
popolazione standard
una
alla
SMR < 1
La popolazione studiata ha
mortalità
inferiore
rispetto
popolazione standard
una
alla
DEMOGRAFIA E
STATISTICA SANITARIA
LE STATISTICHE SANITARIE
Sono le informazioni sanitarie espresse in termini
quantitativi e risultano indispensabili per:
•Studiare i fenomeni biologici e sociali all'interno delle
popolazioni
•Procedere ad una corretta pianificazione dello
sviluppo socio-economico di una collettività
•Razionalizzare l'impiego delle risorse
DEMOGRAFIA E STATISTICA NELLO
STUDIO EPIDEMIOLOGICO
L'accenno a dati qualitativamente affidabili è
indispensabile
In particolare la rappresentazione di una
popolazione può avvenire secondo due diverse
modalità:
 stato della popolazione
 movimento della popolazione
FONTI DI DATI SANITARI
• Censimento
• Piramide dell'età
• Registri anagrafici e notificazioni obbligatorie
• Certificazioni delle cause di morte
• Registrazioni delle nascite
• Notifica delle malattie infettive
• Indagini ad hoc
• Registri di malattia
• Altre fonti
PIRAMIDE DELL’ETÀ
• Rappresenta un indicatore statico in grado di
rilevare le caratteristiche della popolazione in un
determinato istante
• È la rappresentazione grafica della distribuzione di
una popolazione per età e sesso
DISTRIBUZIONE PER CLASSI DI ETÀ E SESSO DELLA
POP. ITALIANA IN 4 DIVERSI ANNI
1901
1981
1951
1998
ALTRE FONTI
• Registri INAIL degli infortuni sul lavoro e delle malattie
professionali
• Dati INPS e delle assicurazioni private sulle invalidità
temporanee e permanenti
• Registri delle assenze scolastiche
• Archivi MMG e dei PLS
• Medici competenti aziendali
• Dati socio-economici delle popolazioni raccolti da
ISTAT e Ministeri interessati alle diverse misurazioni
dei parametri ambientali
• Sistemi ad hoc istituiti a livello regionale o ospedaliero
METODOLOGIA DEL
RILEVAMENTO DEI DATI
I metodi di raccolta possono essere classificati in:
• Osservazioni dirette
• Sondaggi individuali
• Documentazione sanitaria
STUDI EPIDEMIOLOGICI
• Studi osservazionali
• Ricercatore studia esposizione avvenuta “naturalmente”
• Non esposti rappresentano l’atteso nel caso di non
relazione tra esposizione ed evento
• Praticità e eticità
• Problemi di bias
• Studi sperimentali
•
•
•
•
Ricercatore assegna esposizione ai soggetti in studio
Protocollo prevede randomizzazione dell’esposizione
Controllo dei bias
Problemi etici
STUDIO OSSERVAZIONALE
• È l’indagine con cui i ricercatori osservano un
fenomeno senza modificarlo
STUDIO SPERIMENTALE
• È quello in cui i ricercatori cercano di verificare
un'ipotesi e nel quale sono determinati a priori i
termini dell'esperimento
• In uno studio controllato coloro che ricevono il
trattamento sperimentale (cioè quello in studio) si
dicono essere nel braccio sperimentale
STUDI SPERIMENTALI
• Non ci si limita ad osservare quello che avviene nella
popolazione naturalmente, ma si interviene definendo le
condizioni dello studio per rispondere a un quesito specifico:
– Si assegnano individui ai vari gruppi
– Si somministra un fattore modificante
• PRINCIPI INDEROGABILI
– Inviolabilità integrità psico-fisica
– Consenso informato dell'interessato
– Diritto di ritirarsi
Studi epidemiologici
Studi sperimentali
Studi osservazionali
Dati relativi
a gruppi
Studi
descrittivi
Dati relativi
ad individui
Studi
analitici
Studi
descrittivi
Studi
ecologici
Studi
trasversali
Studi
analitici
Studi
a coorte
Dati relativi
a gruppi
Dati relativi
ad individui
Trials
di comunità
Clinical
Trials
Studi
Caso-controllo
LIVELLI DELLE EVIDENZE
SCIENTIFICHE
1.
2.
3.
4.
5.
6.
7.
8.
9.
Studi sul singolo caso
Serie di casi senza controlli
Serie con controlli di letteratura
Studio di database computerizzati
Studi osservazionali caso-controllo
Studi di casistica con controlli storici
Singolo studio controllato randomizzato
Serie di studi clinici controllati randomizzati
Revisione sistematica di più studi randomizzati
METANALISI
• Tecnica che ha lo scopo di analizzare una serie di
studi clinici condotti sullo stesso argomento
• È una revisione sistematica e quantitativa delle
evidenze relative ad un determinato problema clinico
• Si cerca di ottenere un’informazione complessiva a
partire dall’analisi di singoli studi clinici ed utilizzando
un protocollo basato su criteri di inclusione e di
esclusione degli studi (e non dei pazienti)
COME SI PROCEDE….
• Dal punto di vista pratico, si definisce un protocollo
che sia quanto più possibile “vicino” ai protocolli delle
singole pubblicazioni prese in considerazione
• Per far questo
– Si definiscono criteri di inclusione e di esclusione
delle pubblicazioni in base alle tipologie di variabili
(cliniche, demografiche…) studiate
– Si identificano i parametri valutati nei singoli trial
CRITERI DI INCLUSIONE O
ESCLUSIONE
• Si confronta il protocollo di ogni singolo trial e si
confronta con i parametri che si intendono
considerare:
– Il trial viene incluso se risponde a TUTTI i requisiti
richiesti
– Il trial viene escluso s non risponde anche ad UNO
SOLO dei requisiti
CARATTERISTICHE
• La metanalisi si differenzia dalle tradizionali
revisioni della letteratura per:
– La ricerca sistematica ed esaustiva delle
evidenze disponibili
– L’esplicitazione dei criteri di inclusione degli studi
considerati
– L’analisi statistica dei risultati degli studi (e non dei
singoli pazienti)
VANTAGGI
• Consente
un
riassunto
quantitativo
dell’evidenza scientifica
• Le valutazioni soggettive hanno un peso
minore rispetto alle tradizionali rassegne
• Viene ridotto l’errore
• È possibile analizzare i sottogruppi
POSSIBILI CAUSE DI ERRORE
• Selection bias
– criteri di inclusione degli studi
– ampiezza degli studi
– qualità degli studi (randomizzazione, doppio-cieco, followup..)
– eterogeneità degli studi
• Publication bias
– maggior facilità di pubblicazione per studi con risultati
positivi
– esclusione di articoli non in lingua inglese
– multiple publication bias
Research
www. AJOG.org
OBSTETRICS
Use of antibiotics for the treatment of preterm parturition
and prevention of neonatal morbidity: a metaanalysis
Carolyn E. Hutzal, MD; Elaine M. Boyle, MD; Sara L. Kenyon, MA; Jennifer V. Nash, BHSc;
Stephanie Winsor, MD; David J. Taylor, MD; Haresh Kirpalani, BM, MSc
OBJECTIVE: We conducted a metaanalysis to determine whether anti-
biotics prolong pregnancy and reduce neonatal morbidity in preterm
premature rupture of membranes (PPROM) and preterm labor (PTL) at
34 weeks or less.
STUDY DESIGN: Randomized trials comparing antibiotic therapy with
placebo in PPROM or PTL at a gestation of 34 weeks or less were
retrieved. The primary outcome was time to delivery (latency). Infant
outcomes included mortality, infection, neurological abnormality, respiratory disease, and neonatal stay.
RESULTS: Antibiotics were associated with prolongation of pregnancy
in PPROM (P ⬍ .01) but not PTL. Clinically diagnosed neonatal infec-
tions were reduced in both groups; there was a trend toward reduced
culture-positive sepsis in PPROM. Intraventricular hemorrhage (all
grades) was reduced in PPROM. Other neonatal outcomes were unaffected by antenatal antibiotics.
CONCLUSION: Antibiotics prolong pregnancy and reduce neonatal
morbidity in women with PPROM at a gestation of 34 weeks or less. In
PTL at a gestation of 34 weeks or less, there is little evidence of benefit
from administration of antibiotics.
Key words: antibiotics, metaanalysis, neonatal outcomes, preterm
labor, prolonged rupture of membranes
Cite this article as: Hutzal CE, Boyle EM, Kenyon SL, et al. Use of antibiotics for the treatment of preterm parturition and prevention of neonatal morbidity: a
metaanalysis. Am J Obstet Gynecol 2008;199:620.e1-620.e8.
D
espite major advances in perinatal
care, preterm delivery is still the
predominant cause of perinatal mortality and a major cause of neurological
morbidity in surviving infants. The burden of illness and death increases with
increasing prematurity.1-3
Although the determinants of preterm
labor and delivery are uncertain, evidence suggests intrauterine infection is
a contributing factor. Antibiotic therapy
for women in preterm premature rupture of membranes (PPROM) is now
routine practice. This is consistent with
recommendations of a Cochrane review4
showing that antibiotic administration is
associated with prolonged time to delivery and reduced neonatal morbidity.
From the Departments of Pediatrics (Drs Hutzal, Boyle, and Kirpalani and Ms Nash),
Obstetrics and Gynecology (Dr Winsor), and Clinical Epidemiology and Biostatistics (Dr
Kirpalani), Faculty of Health Sciences, McMaster University, Hamilton, ON, Canada; the
Reproductive Sciences Section, Department of Cancer Studies and Molecular Medicine,
University of Leicester, Leicester, United Kingdom (Ms Kenyon and Dr Taylor); and the
Department of Neonatology, Children’s Hospital, University of Pennsylvania, Philadelphia,
PA (Dr Kirpalani).
Presented at the 45th Annual Meeting of the European Society for Paediatric Research,
Stockholm, Sweden, Sept. 18-21, 2004.
Received Nov. 27, 2007; revised March 6, 2008; accepted July 3, 2008.
Reprints not available from the authors.
0002-9378/$34.00 • © 2008 Mosby, Inc. All rights reserved. • doi: 10.1016/j.ajog.2008.07.008
620.e1
In contrast, for women presenting in
preterm labor with intact membranes
(PTL), studies show no benefit in using antibiotics. A Cochrane review5 in this group
does not recommend antibiotic use and
raises concerns about increased mortality
in infants of women given antibiotics.
Current systematic reviews4-6 include
studies recruiting infants born up to 37
weeks’ gestation. However, potential
benefits of delaying delivery may be
greatest for infants born before 34 weeks.
Here even prolongation of pregnancy for
48 hours may facilitate administration of
antenatal maternal corticosteroids. This
is known to reduce neonatal respiratory
disease and improve outcomes.7
The aim of our review was to determine whether antibiotic treatment of 24
hours or longer prolongs pregnancy and
reduces neonatal morbidity in women
presenting in PTL or PPROM between
22 and 34 weeks’ gestation, representing
the subgroup of infants at highest risk.
For Editors’ Commentary, see Table of Contents
M ATERIAL AND M ETHODS
See related editorial, page 583
Search strategy
A systematic literature search was conducted using Medline (1966-2006) and
American Journal of Obstetrics & Gynecology DECEMBER 2008
Obstetrics
www.AJOG.org
Embase (1980-2006). MeSH terms
used were antibacterial agents, premature rupture of fetal membranes, premature labor, infectious pregnancy complications, and pregnancy outcome. We
limited our search to randomized, placebo-controlled trials published between 1988 and 2006, with no language
restriction.
Hand searches of conference proceedings (1995-2005) were performed
(American College of Obstetrics and Gynecology, Society for Maternal-Fetal
Medicine, American Gynecological and
Obstetrical Society, British Journal of
Obstetrics and Gynecology, and International Federation of Gynecology and
Obstetrics). Reference lists from relevant
published systematic reviews were
searched for trials meeting inclusion
criteria.
Selection of studies
and validity assessment
Searches were conducted independently
by 2 reviewers (C.H. and J.V.N.) and
compared. A third reviewer (H.K.) resolved differences. Inclusion criteria
were: (1) women presenting at 22-34
weeks of gestation with PPROM or in
PTL; (2) randomized comparison of any
antibiotic therapy regimen vs placebo for
24 hours or longer; or (3) data available
for latency period.
Studies using antenatal steroids or tocolytics were not excluded. Studies meeting inclusion criteria but enrolling
mothers at a gestation longer than 34
weeks were included if the authors provided details of infants born at less than
35 weeks’ gestation. Study outcomes
were defined a priori; separate subgroup
analyses of PPROM and PTL were
performed.
Definitions of outcomes
Primary outcome
The primary outcome was latency period, recorded as number of days from
PPROM/ PTL or initiation of treatment
until delivery.
Secondary outcomes
The incidence of histological and clinically diagnosed chorioamnionitis (CA)
was examined in women randomized to
antibiotics or placebo within both
groups. Clinical CA was defined as maternal fever higher than 38°C plus at least
1 of the following: maternal or fetal
tachycardia, uterine tenderness, foulsmelling amniotic fluid, or maternal
leukocytosis.
Neonatal outcomes were defined as
the following: (1) death, including fetal
death, neonatal death, and sudden infant
death syndrome; (2) neonatal respiratory disease, including respiratory distress syndrome (RDS) and/or hyaline
membrane disease (HMD) and bronchopulmonary dysplasia (BPD) defined
both as oxygen dependence at more than
28 postnatal days and 36 weeks’ gestational age; (3) intraventricular hemorrhage (IVH) of all grades and clinically
relevant grades III and IV; (4) periventricular leukomalacia (PVL); (5) neonatal infection diagnosed either by positive
blood culture or clinically with septicemia, pneumonia, and/or meningitis; (6)
necrotizing enterocolitis defined as Bell
stage II or III; and (7) length of neonatal
hospital stay.
Data abstraction
Two independent reviewers (C.H. and
J.V.N.) abstracted data. Continuous data
were included if reported as mean and SD.
If data were unclear or not reported by gestational age, authors were contacted for
clarification. Descriptive data included
baseline patient information, antenatal
corticosteroids, inclusion and exclusion
criteria, randomization method, use of intention-to-treat analysis, and reported loss
to follow-up.
Analysis
Metaanalyses were conducted (Review
Manager [RevMan, The Nordic Cochrane
Centre, The Cochrane Collaboration,
Copenhagen, Denmark] 4.2 software). Latency and other continuous outcomes
were evaluated with a fixed-effects model
and expressed as weighted mean difference
(WMD) and 95% confidence interval
(CI). A WMD above zero favored the
treatment group. Dichotomous data were
combined as an odds ratio (OR) with 95%
CI, in which an OR of less than 1.0 favored
treatment. A fixed-effects model was used.
Statistical heterogeneity was measured using ␹2 test. Publication bias was assessed
Research
using funnel plots comparing sample size
with OR using RevMan.
R ESULTS
Inclusion of studies
A total of 456 citations were retrieved; of
these, 416 did not meet inclusion criteria. Nineteen articles included infants
born at greater than 34 weeks’ gestation,
and authors were unable to provide separate data for the relevant infants. The
remaining 21 studies8-28 were included
(Table 1). These comprise 9 studies of
PPROM (5288 deliveries), 10 studies of
PTL (6771 deliveries), and 2 studies including both PPROM and PTL (164 deliveries). Data provided by the ORACLE
trials22,23 enabled 9896 patients to be included (4136 with PPROM and 5760
with PTL). Interrater agreement concerning trial inclusion was acceptable
(kappa 0.79). All disagreements were resolved. Results for PPROM and PTL are
discussed separately.
Outcomes
PPROM
Primary outcome: latency (Table 2A):
Eleven studies reported average latency
period. Definitions varied between studies: 5 defined latency as time from enrollment to delivery; 1 as time from initiation of treatment or placebo until
delivery; and 5 studies did not provide a
definition. Despite author correspondence, 12 studies were not included
because complete numeric data were unavailable. Other studies reported different measures of latency, including delivery within 48 hours (n ⫽ 5) and within 7
days (n ⫽ 5). In view of this variation, we
conducted 3 separate subanalyses: average latency period, delivery within 48
hours, and delivery within 7 days. Results are summarized in Table 2A.
In 5 studies examining average latency in women with PPROM, there was
lengthening of time to delivery in infants
born to 3226 mothers receiving antibiotics vs 1209 women given placebo (Figure). This is statistically significant and
consistent across all 3 measures of latency; average latency (WMD, 0.33 [0.170.50], P ⬍ .01); delivery within 48 hours
(OR, 0.65 [0.57-0.74], P ⬍ .01]; and delivery within 7 days (OR, 0.67 [0.59-0.76],
DECEMBER 2008 American Journal of Obstetrics & Gynecology
620.e2
Research
Obstetrics
www.AJOG.org
TABLE 1
Characteristics of included studies
Study
Christmas et al
8
Year
PTL/PPROM
1992
PPROM
Treatment, n
48
Control, n
46
GA (Mean [SD])a
Antibiotic treatment
Steroids
Tocolytics
30.4
Ampicillin 2 g IV q 6 h, gentamicin 60 mg q 8 h,
clindamycin 900 mg IV q 8 h ⫻ 48 h, then
amoxicillin 500 mg PO TID ⫻ 7 d
No
No
N/A (24-29 wks
GA)
Coamoxiclav 3 g IV q 6 h ⫻ 4 doses, then 500
mg PO q 6 h 5 d
N/A
29.8 (0.4)
Ampicillin 2 g IV q 6 h ⫻ 8 doses, then
ampicillin 250 mg PO q 8 h ⫻ d
No
Mezlocillin IV ⫻ 48 h, ampicillin PO until
delivery (no doses given)
No
3 treatment arms: co-amoxiclav 325 mg PO q
6 h ⫻10 d, erythromycin 250 mg PO q 6 h ⫻10
d, or both
Most
3 treatment arms: co-amoxiclav 325 mg PO q
6 h ⫻10 d, erythromycin 250 mg PO q 6 h ⫻10
d, or both
Most
Amoxicillin 1 g and sulbactam 500 mg IV q 8 h
⫻ 48 h, then amoxicillin 250 mg and sulbactam
250 mg PO q 8 h ⫻ 5 d
Yes
Ampicillin 2 g/d
No
................................................................................................................................................................................................................................................................................................................................................................................
Cox et al9
1995
PPROM
31
31
N/A
................................................................................................................................................................................................................................................................................................................................................................................
Cox et al10
1996
PTL
39
39
No
................................................................................................................................................................................................................................................................................................................................................................................
Johnston et al11
1990
PPROM
40
45
29.2 (0.6)
No
................................................................................................................................................................................................................................................................................................................................................................................
Kenyon et al12
2001
PPROM
3081
1055
N/A
Some
................................................................................................................................................................................................................................................................................................................................................................................
Kenyon et al13
2001
PTL
4314
1446
N/A
Some
................................................................................................................................................................................................................................................................................................................................................................................
Keuchkerian et
al14
2005
PTL
47
49
31.1 (2.5)
Yes
................................................................................................................................................................................................................................................................................................................................................................................
Matsuda et al15
1993
PPROM
34
41
32.1 (2.6)
Treatment
group only
................................................................................................................................................................................................................................................................................................................................................................................
McCaul et al16
1992
Both
62
62
30.1
Ampicillin 2 g IV, 1 dose, then 500 mg PO QID
⫻7d
No
Erythromycin PO 333 mg TID ⫻ 7 d
No
If PTL
................................................................................................................................................................................................................................................................................................................................................................................
McGregor et
al17
1991
McGregor et
al18
1991
Mercer et al19
1997
PPROM
28
27
30.5 (3.5)
No
................................................................................................................................................................................................................................................................................................................................................................................
PTL
53
50
Clindamycin 900 mg IV q 8 h ⫻ 9 doses, then
300 mg PO QID ⫻ d
No
Erythromycin 250 mg IV q 6 h and ampicillin 2 g
IV q 6 h ⫻ 8 h, then erythromycin 333 mg PO q
8 h and amoxicillin 250 mg PO q 6 h ⫻ 5 d
No
N/A (22-34 wks
GA)
Ampicillin PO
No
31.3 (2.2)
Ampicillin 2 g IV q 6 h ⫻ 12 doses and
erythromycin 333 mg PO q 8 h ⫻ 7 d
No
Ampicillin 2 g IV q 6 h ⫻ 12 doses and
indomethacin 25 mg PO q 6 h ⫻ 7 d
No
Clindamycin 600 mg IV q 6 h ⫻ 48 h and
gentamycin 4 mg/kg per day IV ⫻ 48 h, then
clindamycin 300 mg PO q 6 h ⫻ 5 d and
gentamicin 2 mg/kg per day IM q 12 h ⫻ 5 d
No
Ampicillin 1g IV q 4 h and erythromycin 250 mg
IV q 6 h ⫻ 48 h, then amoxicillin 250 mg PO q
8 h ⫻ 5 d and erythromycin 333 mg PO q 8 h
⫻5d
Yes
Ampicillin 2 g IV q 6 h and metronidazole 500
mg IV q 8 h ⫻ 24 h, then pivampicillin 500 mg
PO q 8 h and metronidazole 400 mg PO q 8 h
⫻7d
N/A
Ampicillin 2 g IV q 6 h and metronidazole 500
mg IV q 8 h ⫻ 24 h, then pivampicillin 500 mg
PO and metronidazole 400 mg PO q 8 h ⫻ 7 d
Yes
Mezlocillin 3 g IV q 6 h ⫻ 5 d and erythromycin
ethylsuccinate 333 mg PO q 8 h ⫻ 10 ds
Some
Erythromycin PO
No
30.5 (2.8)
Yes
................................................................................................................................................................................................................................................................................................................................................................................
PROM
300
314
28.6 (2.2)
No
................................................................................................................................................................................................................................................................................................................................................................................
Nadisauskiene
et al20
1996
Newton et al21
1989
PTL
59
51
30%
................................................................................................................................................................................................................................................................................................................................................................................
PTL
48
47
Yes
................................................................................................................................................................................................................................................................................................................................................................................
Newton et al22
1991
PTL
43
43
29.8 (2.7)
Yes
................................................................................................................................................................................................................................................................................................................................................................................
Ovalle et al23
2002
PPROM
50
50
29.9 (2.5)
No
................................................................................................................................................................................................................................................................................................................................................................................
Romero et al24
1993
PTL
133
144
30.2 (2.9)
Yes
................................................................................................................................................................................................................................................................................................................................................................................
Svare et al25
1997
PPROM
30
37
N/A (26-33.6 wks
GA)
N/A
................................................................................................................................................................................................................................................................................................................................................................................
Svare et al26
1997
PTL
59
51
N/A
Yes
................................................................................................................................................................................................................................................................................................................................................................................
Watts et al27
1994
PTL
30
26
30.1 (3.1)
Yes
................................................................................................................................................................................................................................................................................................................................................................................
Winkler et al28
1988
Both
20
20
N/A
Yes
................................................................................................................................................................................................................................................................................................................................................................................
GA, gestational age; IM, intramuscularly; IV, intravenous; PO, orally; q, every; QID, 4 times a day; TID, 3 times a day.
a
If average GA was reported separately for treatment and control, the treatment group is reported in the chart.
................................................................................................................................................................................................................................................................................................................................................................................
Hutzal. Antibiotics for preterm parturition and prevention of neonatal morbidity. Am J Obstet Gynecol 2008.
620.e3
American Journal of Obstetrics & Gynecology DECEMBER 2008
Obstetrics
www.AJOG.org
Research
TABLE 2A
Primary outcomes for PPROM
Outcome
Studies (n)
Treatment (n)
Control (n)
Outcome (OR/WMD [95% CI])
P value
Latency
.......................................................................................................................................................................................................................................................................................................................................................................
Average latency (d)
5
3226
Delivery within 48 h
5
1017/3484
Delivery within 7 d
5
1955/3502
WMD: 0.33 (0.17-0.50)
⬍ .01
560/1490
OR: 0.65 (0.57-0.74)
⬍ .01
1000/1499
OR: 0.67 (0.59-0.76)
⬍ .01
1209
.......................................................................................................................................................................................................................................................................................................................................................................
.......................................................................................................................................................................................................................................................................................................................................................................
a
................................................................................................................................................................................................................................................................................................................................................................................
a
Denotes significant heterogeneity between studies.
................................................................................................................................................................................................................................................................................................................................................................................
Hutzal. Antibiotics for preterm parturition and prevention of neonatal morbidity. Am J Obstet Gynecol 2008.
P ⬍ .01). The latter outcome had significant heterogeneity between studies (␹2
of 17.76 [P ⬍ .01]).
Secondary outcomes
for PPROM (Table 3A)
Chorioamnionitis: Seven studies of PPROM
evaluated rates of clinically diagnosed CA.
There was a significant decrease in clinically diagnosed CA in women receiving
antibiotics (OR, 0.66 [0.49-0.88], P ⬍ .01).
Three studies gave rates for histological
CA. Although not statistically significant,
there was a trend toward decreased histologically diagnosed CA in those given antibiotics (OR, 0.62 [0.36-1.05], P ⫽ .08).
weeks’ gestational age (OR, 0.90 [0.711.14], P ⫽ .37), with significant heterogeneity between studies (␹2 of 6.15 [P
⫽ .05]).
Intraventricular hemorrhage: In IVH (all
grades), 9 studies of PPROM reported on
all grades of IVH. There was a statistically
significant reduction in any grade of IVH
in infants of mothers given antibiotics
(OR, 0.78 [0.61-1.00], P ⫽ .05).
For grades III and IV IVH, no difference between groups was seen in the 3
studies examining the subgroup of babies with severe (grades III and IV) IVH
(OR, 0.76 [0.55-1.05], P ⫽ .10).
Neonatal outcomes
Mortality: Mortality was reported in 9
studies of PPROM and was not reduced
by maternal antibiotics (OR, 0.94 [0.721.22], P ⫽ .64).
Periventricular leukomalacia: One study
reported PVL in infants of mothers who
had PPROM. No differences were seen
between treatment groups (OR, 1.04
[0.66-1.63], P ⫽ .86].
Neonatal respiratory disease: This included 2 groups of diseases, RDS and
BPD. For RDS, 10 studies of PPROM reported the occurrence of RDS or HMD.
There was no difference between groups
(OR, 0.89 [0.78-1.02], P ⫽ .10).
For BPD, 3 studies included this
outcome. No statistically significant
differences were seen in rates of BPD,
defined as oxygen dependency at 36
Neonatal infection: There were 2 types of
infection. The first was culture-positive infection. Neonatal sepsis confirmed by
blood culture was reported in 5 studies of
PPROM. A trend approaching significance, toward reduced infection, was seen
in infants whose mothers had received antibiotics (OR, 0.81 [0.65-1.01], P ⫽ .06).
The second type was clinically diagnosed infection. Clinically diagnosed
neonatal infection was reported in 9
studies of PPROM. Maternal antibiotic
treatment was associated with reduced
neonatal infection (OR, 0.71 [0.52-0.97],
P ⫽ .03).
Necrotizing enterocolitis: Eight studies
of PPROM reported on necrotizing enterocolitis. No differences were observed between groups (OR, 0.93
[0.66-1.30], P ⫽ .66].
Length of hospital stay: Five studies reported length of hospitalization. Treatment of women with antibiotics was not
associated with reduced hospitalization
for neonates whose mothers had
PPROM (WMD, -0.46 [-2.31 to 1.38], P
⫽ .62).
Preterm labor with intact membranes
Primary outcome: latency (Table 2B): Latency was again analyzed as 3 separate
outcomes (Table 2B). Analysis of data
for women with PTL showed no significant improvement in any measure of
prolongation of pregnancy for those
given antibiotics: average latency (6
studies) (WMD, 0.21 [-1.36 to 1.78], P ⫽
.79) (Figure); delivery within 48 hours (2
studies) (OR, 1.07 [0.88-1.30], P ⫽ .51)];
or delivery within 7 days (5 studies) (OR,
1.03 [0.88-1.21], P ⫽ .68).
TABLE 2B
Primary outcomes for PTL
Outcome
Studies (n)
Treatment (n)
Control (n)
Outcome (OR/WMD [95%CI])
P value
Latency
.......................................................................................................................................................................................................................................................................................................................................................................
Average latency (d)
6
4542
Delivery within 48 h
2
438/4447
Delivery within 7 d
5
705/4563
1662
WMD: 0.21 (-1.36 to 1.78)
.79
144/1590
OR: 1.07 (0.88-1.30)
.51
268/1704
OR: 1.03 (0.88-1.21)
.68
.......................................................................................................................................................................................................................................................................................................................................................................
.......................................................................................................................................................................................................................................................................................................................................................................
................................................................................................................................................................................................................................................................................................................................................................................
Hutzal. Antibiotics for preterm parturition and prevention of neonatal morbidity. Am J Obstet Gynecol 2008.
DECEMBER 2008 American Journal of Obstetrics & Gynecology
620.e4
Research
Obstetrics
www.AJOG.org
FIGURE
Average latency period: PPROM and PTL
Study
or sub-category
N
Treatment
Mean (SD)
01 Preterm premature rupture of membranes
3081
16.62(23.65)
Kenyon PPROM
34
7.91(8.55)
Matsuda
41
8.10(11.20)
McCaul: PPROM group
50
0.60(0.52)
Ovalle
20
34.00(26.00)
Winkler
3226
Subtotal (95% CI)
Test for heterogeneity: Chi² = 7.80, df = 4 (P = .10), I² = 48.7%
Test for overall effect: Z = 3.92 (P < .0001)
02 Preterm labour
4314
44.28(28.05)
Kenyon PTL
47
43.99(25.61)
Keuchkerian
21
35.20(29.60)
McCaul: PTL group
53
35.30(24.10)
McGregor PTL
59
51.10(34.30)
Nadisauskiene
48
34.20(21.00)
Newton 1989
4542
Subtotal (95% CI)
Test for heterogeneity: Chi² = 7.69, df = 5 (P = .17), I² = 35.0%
Test for overall effect: Z = 0.26 (P = .79)
N
Control
Mean (SD)
WMD (fixed)
95% CI
Weight
%
WMD (fixed)
95% CI
1055
41
43
50
20
1209
16.40(24.58)
5.01(9.54)
17.80(27.00)
0.27(0.30)
25.00(23.00)
0.94
0.16
0.04
98.84
0.01
100.00
0.22
2.90
-9.70
0.33
9.00
0.33
[-1.48 to 1.92]
[-1.20 to 7.00]
[-18.47 to -0.93]
[0.16-0.50]
[-6.21 to 24.21]
[0.17-0.50]
1446
49
19
50
51
47
1662
44.56(27.85)
45.52(30.16)
34.70(21.10)
25.40(20.00)
40.60(36.40)
34.10(24.00)
89.27
1.97
0.98
3.38
1.40
2.99
100.00
-0.28
-1.53
0.50
9.90
10.50
0.10
0.21
[-1.94 to 1.38]
[-12.71 to 9.65]
[-15.32 to 16.32]
[1.37-18.43]
[-2.78 to 23.78]
[-8.98 to 9.18]
[-1.36 to 1.78]
-10
-5
0
Favors control
5
10
Favors treatment
Latency period was significantly prolonged in studies of PPROM but was not prolonged in studies of PTL.
Hutzal. Antibiotics for preterm parturition and prevention of neonatal morbidity. Am J Obstet Gynecol 2008.
Secondary Outcomes
for PTL (Table 3B)
Chorioamnionitis: Five trials of PTL
examined clinical CA, 2 using histology. There was a trend toward decreased CA with antibiotic treatment
in studies using clinical definitions
(OR, 0.48 [0.21-1.09], P ⫽ .08). In the
studies using histology, a significant
difference paralleled these findings
(OR, 0.23 [0.10-0.53], P ⬍ .01), although there was heterogeneity between studies (␹2 of 7.27 [P ⫽ .01]).
Neonatal outcomes
Mortality: Mortality was reported in 9
studies of PTL, and there was no significant difference between groups (OR,
0.98 [0.69-1.39], P ⫽ .91).
Neonatal respiratory disease: For RSD, 8
studies of PTL reported on RDS or
HMD. There were no significant differences between groups (OR, 0.95 [0.791.14], P ⫽ .56).
One study of PTL reported BPD as an
outcome. Both accepted definitions were
statistically insignificant, whether oxygen
dependency at 36 weeks’ corrected gestation (OR, 1.18 [0.77-1.82], P ⫽ .44) or at
28 postnatal days (OR, 0.95 [0.68-1.34], P
⫽ .78).
Intraventricular hemorrhage: For IVH
(all grades), 6 studies of PTL included
620.e5
any grade of IVH. No differences were
seen between randomized groups (OR,
0.75 [0.47-1.20], P ⫽ .23).
Two studies examined the subgroup
with severe IVH (grades III and IV).
There were no differences (OR, 0.83
[0.49-1.38], P ⫽ .47).
Periventricular leukomalacia: One study of
PTL included PVL as an outcome. No differences were seen between the treatment
groups (OR, 1.39 [0.78-2.51], P ⫽ .27).
Neonatal infection: Culture-positive infection was reported in 2 studies of PTL;
there was no decrease in neonatal infection with antibiotic therapy (OR, 0.93
[0.62-1.41], P ⫽ .75).
For clinically diagnosed infection,
clinical neonatal sepsis was reported in 9
PTL studies. Analysis showed significantly reduced infection in infants of
women receiving antibiotics (OR, 0.43
[0.27-0.68]). However, significant heterogeneity existed between studies (␹2 of
17.79 [P ⫽ .01]).
Necrotizing enterocolitis: Five studies of
PTL included this outcome. No significant differences were seen in the rates of
necrotizing enterocolitis (OR, 0.99
[0.54-1.82], P ⫽ .97].
Length of hospital stay: Four studies reported on length of neonatal hospitaliza-
American Journal of Obstetrics & Gynecology DECEMBER 2008
tion. Maternal antibiotics were associated with significantly reduced hospital
stay in the PTL group (WMD, -2.50
[-3.03 to -1.97], P ⬍ .01). However, significant heterogeneity was also seen between studies (␹2 of 29.20 [P ⬍ .01]).
Use of antenatal corticosteroids
A potential advantage of delaying delivery is the ability to enhance fetal lung
maturation by administering maternal
corticosteroids. Reported use of antenatal steroids is summarized in Table 1.
Steroids were given to women in 1 study
(9%) of PPROM and 5 (42%) studies of
PTL. Two studies did not report steroid
use.
Publication bias
Publication bias was evaluated using
funnel plots of the 3 outcomes of latency.
All plots appeared symmetrical for both
PPROM and PTL.
C OMMENT
This metaanalysis evaluated neonatal
outcomes following randomization of
women with threatened preterm parturition at a gestational age of 34 weeks or
less with either PTL or PPROM to antibacterial therapy or placebo. Our results
suggest that for women with PPROM at a
gestational age of 34 weeks, antibiotics
were beneficial in delaying delivery and
Obstetrics
www.AJOG.org
Research
TABLE 3A
Secondary outcomes for PPROM
Outcome
Studies (n)
Treatment (n)
Control (n)
Outcome (OR/WMD [95%CI])
P value
Chorioamnionitis
.......................................................................................................................................................................................................................................................................................................................................................................
Clinical
7
103/520
149/551
OR: 0.66 (0.49-0.88)
⬍ .01
Histological
3
44/109
63/122
OR: 0.62 (0.36-1.05)
.08
.......................................................................................................................................................................................................................................................................................................................................................................
................................................................................................................................................................................................................................................................................................................................................................................
Infant outcomes
.......................................................................................................................................................................................................................................................................................................................................................................
Death
9
187/3633
96/1637
OR: 0.94 (0.72-1.22)
.64
10
870/3668
485/1677
OR: 0.89 (0.78-1.02)
.10
O at 36 wks
3
239/3411
129/1398
OR: 0.90 (0.71-1.14)
.37
IVH (all)
9
173/3627
144/1636
OR: 0.78 (0.61-1.00)
.05
IVH (III/IV)
3
110/3414
66/1408
OR: 0.76 (0.55-1.05)
.10
PVL
1
79/3081
26/1055
OR: 1.04 (0.66-1.63)
.86
Culture-positive infection
5
253/3498
142/1495
OR: 0.81 (0.65-1.01)
.06
116/625
.......................................................................................................................................................................................................................................................................................................................................................................
RDS/HMD
.......................................................................................................................................................................................................................................................................................................................................................................
a
2
.......................................................................................................................................................................................................................................................................................................................................................................
.......................................................................................................................................................................................................................................................................................................................................................................
.......................................................................................................................................................................................................................................................................................................................................................................
.......................................................................................................................................................................................................................................................................................................................................................................
.......................................................................................................................................................................................................................................................................................................................................................................
Clinically diagnosed infection
9
81/589
NEC
8
96/3597
Length of NICU stay
5
OR: 0.71 (0.52-0.97)
.03
OR: 0.93 (0.66-1.30)
.66
WMD: -0.46 (-2.31 to 1.38)
.62
.......................................................................................................................................................................................................................................................................................................................................................................
62/1596
.......................................................................................................................................................................................................................................................................................................................................................................
3252
1213
................................................................................................................................................................................................................................................................................................................................................................................
NEC, necrotizing enterocolitis; NICU, neonatal intensive care unit.
a
Significant heterogeneity between studies.
................................................................................................................................................................................................................................................................................................................................................................................
Hutzal. Antibiotics for preterm parturition and prevention of neonatal morbidity. Am J Obstet Gynecol 2008.
TABLE 3B
Secondary outcomes for PTL
Outcome
Studies (n)
Treatment (n)
Control (n)
Outcome (OR/WMD [95%CI])
P value
Chorioamnionitis
.......................................................................................................................................................................................................................................................................................................................................................................
Clinical
5
Histological
2
8/309
17/307
OR: 0.48 (0.21-1.09)
.08
35/71
OR: 0.23 (0.10-0.53)
⬍ .01
.......................................................................................................................................................................................................................................................................................................................................................................
a
20/84
................................................................................................................................................................................................................................................................................................................................................................................
Infant outcomes
.......................................................................................................................................................................................................................................................................................................................................................................
Death
9
114/4782
46/1904
OR: 0.98 (0.69-1.39)
.91
RDS/HMD
8
428/4690
186/1821
OR: 0.95 (0.79-1.14)
.56
O2 at 36 wks
1
95/4314
27/1446
OR: 1.18 (0.77-1.82)
.44
O2 at 28 d
1
131/4314
46/1146
OR: 0.95 (0.68-1.34)
.78
IVH (all)
6
54/4639
29/1777
OR: 0.75 (0.47-1.20)
.23
IVH (III/IV)
2
50/4447
21/1590
OR: 0.83 (0.49-1.38)
.47
PVL
1
58/4314
14/1446
OR: 1.39 (0.78-2.51)
.27
Culture-positive infection
2
87/4447
33/1590
OR: 0.93 (0.62-1.41)
.75
Clinically diagnosed infection
9
29/506
59/498
OR: 0.43 (0.27-0.68)
⬍ .01
NEC
5
35/4592
16/1728
OR: 0.99 (0.54-1.82)
.97
Length of NICU stay
4
.......................................................................................................................................................................................................................................................................................................................................................................
.......................................................................................................................................................................................................................................................................................................................................................................
.......................................................................................................................................................................................................................................................................................................................................................................
.......................................................................................................................................................................................................................................................................................................................................................................
.......................................................................................................................................................................................................................................................................................................................................................................
.......................................................................................................................................................................................................................................................................................................................................................................
.......................................................................................................................................................................................................................................................................................................................................................................
.......................................................................................................................................................................................................................................................................................................................................................................
a
.......................................................................................................................................................................................................................................................................................................................................................................
.......................................................................................................................................................................................................................................................................................................................................................................
a
4428
1557
WMD: -2.50 (-3.03 to -1.97)
⬍ .01
................................................................................................................................................................................................................................................................................................................................................................................
NEC, necrotizing enterocolitis; NICU, neonatal intensive care unit.
a
Significant heterogeneity between studies.
................................................................................................................................................................................................................................................................................................................................................................................
Hutzal. Antibiotics for preterm parturition and prevention of neonatal morbidity. Am J Obstet Gynecol 2008.
DECEMBER 2008 American Journal of Obstetrics & Gynecology
620.e6
Research
Obstetrics
reducing CA, neonatal infection, and
IVH. However, for women in PTL at 34
weeks or less with intact membranes,
other than a reduction in clinically diagnosed infection, there is insufficient evidence to recommend administration of
antibiotics. All studies defined PTL as
some clinical variation of contractions
with cervical dilatation, or requiring tocolytics. Perhaps more refined testing for
PTL, such as fetal fibronectin, might improve outcomes of antibiotic use by
more appropriate patient selection.
Our findings broadly agree with prior
metaanalyses. Two Cochrane reviews included pregnancies resulting in delivery
between 20 and 37 weeks (PPROM)4 or
20 and 36 weeks (PTL).5 The review for
PPROM4 concluded that antibiotics
should be given to prolong pregnancy
and reduce neonatal infection, RDS, and
neurological abnormality. Conversely,
the Cochrane review for women in PTL5
does not recommend antibiotics, because of a lack of clear benefit and trend
toward increased neonatal mortality in
the treated group.
Although our review contains fewer
total numbers of studies and mother-infant dyads randomized, the included
sample pool remains large. Our analysis
of latency in PPROM put significant
weight on 1 study,23 which was not included in the Cochrane review, because
randomization was not described, although the study fits our inclusion
criteria.
The presumption of the current review was that even a 24-hour window
would allow improved respiratory status, because steroids might be coadministered. Yet we do not show beneficial effects of antibiotics on respiratory
morbidity in the PPROM group, although this was seen in the Cochrane review including more mature infants.4
Antenatal corticosteroids are known to
reduce the risk of respiratory disease in
preterm neonates.7 To include all potentially relevant studies, our study period
covered eras flanking the full recognition
of the benefits of antenatal steroids for preterm infants. This accounts for the variation in their use. Moreover, of the 5 PTL
studies13,14,24,25,27 that incorporated steroids, all used differing latency definitions.
620.e7
www.AJOG.org
It is likely that pooled effects underestimate the potential benefits of combined use of antenatal steroids and antibiotics for PTL. This is speculative and
unlikely to be addressed by future trials,
because steroid administration is now
standard care. The previous metaanalysis of PTL5 found better outcomes in
more mature infants. Possibly, antenatal
antibiotics confer a greater effect on lung
ion and water transport in this group
rather than on lung surfactant system
maturation in the preterm.
Analysis of our primary outcome in
mothers with PPROM showed convincing positive effects of antibiotic administration on all measures of prolongation
of pregnancy. This may be of particular
benefit for infants born at a gestational
age of 34 weeks or less, when even a delay
of up to 48 hours enables administration
of maternal corticosteroids. However,
the primary outcome of prolongation of
pregnancy in mothers with PTL does not
show benefit with antenatal antibiotics.
Results of our secondary outcomes are
also similar to the Cochrane metaanalyses. We found that for both PPROM and
PTL, infection-related outcomes were
likely improved. CA is implicated in adverse effects for preterm infants.29-33
Previous metaanalyses demonstrated
significantly reduced clinical CA for
women in preterm labor both with ruptured and intact membranes.4,5 In our
analysis, we separated out those with histological CA. Most studies reported clinical rather than histological CA, resulting
in small numbers in the analysis. However, plausible trends toward reduced
histological CA are seen in PTL and
PPROM, supported by a significant reduction in clinical CA in both groups.
Overt neonatal infection was examined in 2 ways: using the criterion standard of culture-positive infection and
the less robust outcome of clinically diagnosed infection. For PPROM, both
were reduced, with clinically diagnosed infection achieving statistical
significance. However, for PTL there
was no significant reduction in culture-proven infections; the finding of
reduced clinically diagnosed infection
is vitiated by heterogeneity.
American Journal of Obstetrics & Gynecology DECEMBER 2008
The significant reduction in all grades
of IVH in infants of women in PPROM
given antibiotics agrees with the Cochrane review.4 This is not surprising, because cranial ultrasound abnormalities
are more likely at lower gestational ages.
However, there is no significant reduction in clinically important types of IVH
or PVL.
Almost all included studies performed
prerandomization tests of colonization.
Only 3 studies examined pre- and posttherapy colonization: 1 study18 found a
posttreatment reduction in bacterial
vaginosis and Mycoplasma hominis after
clindamycin; the second22 found a reduction in aerobic Gram-negative rods
after ampicillin-sulbactam therapy; the
third21 found no difference after treatment with ampicillin and erythromycin.
Our analysis does not show likely
susceptibility differences to group B
streptococcal disease in those trials of
PTL showing reduction in neonatal intensive care unit stay10,18 vs those not
showing benefit.13,16 Antibiotics used
in these studies were similar, parenteral ampicillin-sulbactam, clindamycin, or erythromycin.
For treatment in PPROM, Kenyon et al6
demonstrated an increased rate of necrotizing enterocolitis in infants exposed
to antenatal amoxicillin-clavulanate,
concluding that erythromycin was a better choice.4 The relative merits of different antibiotic regimens in PPROM and
PTL and their impact on colonization
and neonatal outcomes require further
evaluation.
The reduced incidence in several aspects of neonatal morbidity in the
PPROM group did not translate into
shortened neonatal hospitalization or
reduced mortality. Conversely, treatment during PTL demonstrated a significant reduction in infant hospital
stay, despite the lack of beneficial effect
on neonatal morbidity, apart from
a reduction in clinically diagnosed
sepsis.
It is difficult to be conclusive about a
possible link between the 2 outcomes,
given that the diagnosis of neonatal infection is challenging for multiple reasons: small blood sample volumes, infrequent use of duplicate blood cultures,
Obstetrics
www.AJOG.org
the myriad of symptoms in newborns
that parallel sepsis, and the necessity for
early blind treatment of infection. However, our data appear to suggest that antenatal therapy may reduce the rates of
postnatal sepsis in PPROM, but results
were not conclusive in PTL.
f
REFERENCES
1. Wood NS, Marlow N, Costeloe K, Gibson AT,
Wilkinson AR. Neurologic and developmental
disability after extremely preterm birth. EPICure
Study Group. N Engl J Med 2000;343:378-84.
2. Schmidt B, Asztalos EV, Roberts RS, Robertson CM, Sauve RS, Whitfield MF. Impact of
bronchopulmonary dysplasia, brain injury, and
severe retinopathy on the outcome of extremely
low-birth-weight infants at 18 months: results
from the trial of indomethacin prophylaxis in
preterms. JAMA 2003;289:1124-9.
3. Marlow N, Wolke D, Bracewell MA, Samara
M. Neurologic and developmental disability at
six years of age after extremely preterm birth.
N Engl J Med 2005;352:9-19.
4. Kenyon S, Boulvain M, Neilson J. Antibiotics
for preterm rupture of membranes. Cochrane
Database Syst Rev 2003:CD001058.
5. King J, Flenady V. Prophylactic antibiotics for
inhibiting preterm labour with intact membranes. Cochrane Database Syst Rev 2002:
CD000246.
6. Kenyon S, Boulvain M, Neilson J. Antibiotics
for preterm rupture of the membranes: a systematic review. Obstet Gynecol 2004;104:
1051-7.
7. Roberts D, Dalziel S. Antenatal corticosteroids for accelerating fetal lung maturation for
women at risk of preterm birth. Cochrane Database Syst Rev 2006;3:CD004454.
8. Christmas JT, Cox SM, Andrews W, Dax J,
Leveno KJ, Gilstrap LC. Expectant management of preterm ruptured membranes: effects
of antimicrobial therapy. Obstet Gynecol 1992;
80:759-62.
9. Cox SM, Leveno KJ, Sherman ML, Travis L,
de Palma L. Ruptured membranes at 24 to 29
weeks: a randomized double blind trial of antimicrobials versus placebo. Am J Obstet Gynecol 1995;172:412.
10. Cox SM, Bohman VR, Sherman ML, Leveno KJ. Randomized investigation of antimicrobials for the prevention of preterm birth. Am J
Obstet Gynecol 1996;174:206-10.
11. Johnston MM, Sanchez-Ramos L, Vaughn
AJ, Todd MW, Benrubi GI. Antibiotic therapy in
preterm premature rupture of membranes: a
randomized, prospective, double-blind trial.
Am J Obstet Gynecol 1990;163:743-7.
12. Kenyon SL, Taylor DJ, Tarnow-Mordi W.
Broad-spectrum antibiotics for preterm, prelabour rupture of fetal membranes: the ORACLE I
randomised trial. ORACLE Collaborative Group.
Lancet 2001;357:979-88.
13. Kenyon SL, Taylor DJ, Tarnow-Mordi W.
Broad-spectrum antibiotics for spontaneous
preterm labour: the ORACLE II randomised trial.
ORACLE Collaborative Group. Lancet 2001;
357:989-94.
14. Keuchkerian SE, Sosa CG, Fernandez A,
Alonso JG, Laborde A, Cuadro JC. Effect of
amoxicillin sulbactam in threatened preterm labour with intact membranes: a randomised
controlled trial. Eur J Obstet Gynecol Reprod
Biol 2005;119:21-6.
15. Matsuda Y, Ikenoue T, Ibara S, Sameshima
H, Kuraya K, Hokanishi H. [The efficacy of prophylactic antibiotic and tocolytic therapy for
premature rupture of the membranes—a prospective randomized study]. Nippon Sanka Fujinka Gakkai Zasshi 1993;45:1109-14.
16. McCaul JF, Perry KG Jr, Moore JL Jr, Martin
RW, Bucovaz ET, Morrison JC. Adjunctive antibiotic treatment of women with preterm rupture of membranes or preterm labor. Int J
Gynaecol Obstet 1992;38:19-24.
17. McGregor JA, French JI, Seo K. Antimicrobial therapy in preterm premature rupture of
membranes: results of a prospective, doubleblind, placebo-controlled trial of erythromycin.
Am J Obstet Gynecol 1991;165:632-40.
18. McGregor JA, French JI, Seo K. Adjunctive
clindamycin therapy for preterm labor: results of
a double-blind, placebo-controlled trial. Am J
Obstet Gynecol 1991;165:867-75.
19. Mercer BM, Miodovnik M, Thurnau GR, et
al. Antibiotic therapy for reduction of infant morbidity after preterm premature rupture of the
membranes. A randomized controlled trial. National Institute of Child Health and Human Development Maternal-Fetal Medicine Units Network. JAMA 1997;278:989-95.
20. Nadisauskiene R, Bergstrom S, Kilda A.
Ampicillin in the treatment of preterm labor: a
randomised, placebo-controlled study. Gynecol Obstet Invest 1996;41:89-92.
21. Newton ER, Dinsmoor MJ, Gibbs RS. A
randomized, blinded, placebo-controlled trial of
antibiotics in idiopathic preterm labor. Obstet
Gynecol 1989;74:562-6.
Research
22. Newton ER, Shields L, Ridgway LE 3rd,
Berkus MD, Elliott BD. Combination antibiotics
and indomethacin in idiopathic preterm labor: a
randomized double-blind clinical trial. Am J Obstet Gynecol 1991;165:1753-9.
23. Ovalle A, Martinez MA, Kakarieka E, et al.
Antibiotic administration in patients with preterm premature rupture of membranes reduces
the rate of histological chorioamnionitis: a prospective, randomized, controlled study. J Matern Fetal Neonatal Med 2002;12:35-41.
24. Romero R, Sibai B, Caritis S, et al. Antibiotic
treatment of preterm labor with intact membranes: a multicenter, randomized, doubleblinded, placebo-controlled trial. Am J Obstet
Gynecol 1993;169:764-74.
25. Svare J, Langhoff-Roos J, Andersen LF,
Baggesen N, Christensen H, Heisterberg L. Antibiotic treatment in preterm labor or preterm
premature rupture of the membranes—a randomized controlled double-blind trial. Acta obstetricia et gynecologica Scandinavica 1996;
75:36.
26. Svare J, Langhoff-Roos J, Andersen LF, et
al. Ampicillin-metronidazole treatment in idiopathic preterm labour: a randomised controlled
multicentre trial. Br J Obstet Gynaecol 1997;
104:892-7.
27. Watts D, Krohn M, Hillier SL, Eschenbach
DA. Randomized trial of antibiotics in addition to
tocolytics therapy to treat preterm labor. Infect
Dis Obstet Gynecol 1994;1:220-7.
28. Winkler M, Baumann L, Ruckhaberle KE,
Schiller EM. Erythromycin therapy for subclinical intrauterine infections in threatened preterm
delivery—a preliminary report. J Perinat Med
1988;16:253-6.
29. Jobe AH, Ikegami M. Antenatal infection/
inflammation and postnatal lung maturation and
injury. Respir Res 2001;2:27-32.
30. Kirpalani H, Asztalos E. Neonatal brain injury. Curr Opin Pediatr 2001;13:227-33.
31. Patrick LA, Smith GN. Proinflammatory cytokines: a link between chorioamnionitis and fetal brain injury. J Obstet Gynaecol Can
2002;24:705-9.
32. Watterberg KL, Demers LM, Scott SM,
Murphy S. Chorioamnionitis and early lung inflammation in infants in whom bronchopulmonary dysplasia develops. Pediatrics 1996;97:
210-5.
33. Watterberg KL, Scott SM, Naeye RL. Chorioamnionitis, cortisol, and acute lung disease in
very low birth weight infants. Pediatrics
1997;99:E6.
DECEMBER 2008 American Journal of Obstetrics & Gynecology
620.e8
ESERCIZI DI STATISTICA
Esercizio 1
calcolare la media della seguente serie:
1
5
-5
10
-1
20
Esercizio 2
calcolare la media della seguente serie:
4
20
6
4
16
10
Esercizio 3
calcolare la media della seguente serie:
7
14
-1
-10
1
1
Esercizio 4
calcolare la media della seguente serie:
4
8
5
6
10
3
Esercizio 5
identificare la mediana della seguente serie
2
8
5
9
-14
4
20
0
Esercizio 6
identificare la mediana della seguente serie
1
5
-1
-2
0
6
4
10
Esercizio 7
identificare la mediana della seguente serie
5
-10
4
-5
4
-10
-5
0
Esercizio 8
identificare la mediana della seguente serie
-1
-12
-10
-1
-5
-4
-6
-5
6
0
Esercizio 9
identificare la moda o le mode della seguente serie
1
8
5
9
6
8
2
4
3
Esercizio 10
determinare la moda o le mode della seguente serie
-1
1
5
-5
-6
6
-8
8
9
Esercizio 11
identificare la moda o le mode della seguente serie
8
8
4
5
5
9
6
6
0
Esercizio 12
identificare la moda o le mode della seguente serie
5
8
7
9
4
4
6
0
7
Esercizio 13
calcolare il range della seguente serie
1
8
5
-4
9
6
-5
10
0
Esercizio 14
calcolare il range della seguente serie
4
5
9
7
8
9
4
5
6
Esercizio 15
calcolare il range della seguente serie
-1
-2
-5
-6
-4
-8
-10
-5
0
Esercizio 16
calcolare lo scarto medio dalla media della seguente serie
2
2
6
10
5
Esercizio 17
calcolare la dev st della seguente serie
2
4
2
8
4
Esercizio 18
calcolare la dev st della seguente serie
-1
5
2
1
3
Esercizio 19
calcolare la dev st della seguente serie
-4
4
5
6
1
Esercizio 20
calcolare la dev st della seguente serie
3
5
2
1
2
Esercizio 21
il colore degli occhi è un carattere
qualitativo
quantitativo continuo
quantitativo discreto
Esercizio 22
il peso è un carattere
qualitativo
quantitativo continuo
quantitativo discreto
Esercizio 23
l'età è un carattere
qualitativo
quantitativo continuo
quantitativo discreto
Esercizio 24
il genere (maschio o femmina) è un carattere
qualitativo ordinabile
qualitativo sconnesso
quantitativo discreto
Esercizio 25
calcolare la probabilità percentuale di ottenere due volte di fila ‘6’ lanciando consecutivamente due
volte un dado
Esercizio 26
calcolare la probabilità percentuale di ottenere di seguito prima un numero dispari, poi un numero
pari lanciando consecutivamente due volte un dado
Esercizio 27
calcolare la probabilità percentuale di pescare una carta nera da un mazzo da 52 carte (26 nere e 26
rosse) dal quale sono state tolte 9 carte (3 nere e 6 rosse)
Esercizio 28
calcolare la probabilità di pescare due carta nere di fila da un mazzo da 52 carte (26 nere e 26 rosse)
Esercizio 29
la curva che presenta moda 4, mediana 5, media 7
simmetrica
asimmetrica destra
asimmetrica sinistra
è una curva
Esercizio 30
quale dei seguenti indicatori non prende in considerazione tutti gli elementi di una serie
media
range
deviazione standard
Esercizio 31
una curva con k di pearson = 8 è
normale
leptocurtica
platicurtica
Esercizio 32
0,8 rappresenta una frequenza
assoluto
relativa
percentuale
Esercizio 33
Quale o quali delle seguenti operazioni posso effettuare su caratteri quantitativi
+
<
entrambe
Esercizio 34
Su quali dei seguenti caratteri posso effettuare meno operazioni (+, -, >, <.........)
Quantitativi continui
Qualitativi ordinabili
Qualitativi sconnessi
Esercizio 35
Valutando la seguente tabella, definire la frequenza relativa dei soggetti che pesano meno di 65 kg
CLASSI DI PESO
<65
65-74
75-84
>84
SOGGETTI
5
10
10
5
Esercizio 36
Valutando la seguente tabella, definire la frequenza percentuale dei soggetti che pesano tra 75 e 84
kg
CLASSI DI PESO
<65
65-74
75-84
>84
SOGGETTI
7
28
4
1
Esercizio 37
La probabilità è:
Il rapporto tra casi possibili (numeratore) e casi favorevoli (denominatore)
Il rapporto tra casi favorevoli (numeratore) e casi contrari (denominatore)
Il rapporto tra casi favorevoli (numeratore) e casi possibili (denominatore)
Esercizio 38
Quale delle seguenti affermazioni relative al campo di variazione è FALSA
Più è piccolo più i valori sono concentrati
Non è espresso nella stessa unità di misura dei dati
Prende in considerazione solo gli estremi della distribuzione
Esercizio 39
Quale dei seguenti indicatori è di POSIZIONE
Deviazione standard
Mediana
Range
Esercizio 40
Quale dei seguenti metodi di misurazione è un metodo indiretto
Velocità
Altezza
Tempo
Esercizio 41
il test del X2 serve a:
confrontare due proporzioni
confrontare due medie
confrontare due frequenze assolute
Esercizio 42
nel test del x2, convenzionalmente, l’ipotesi 0 indica:
che la differenza tra i gruppi osservati è dovuta al caso
che la differenza tra i gruppi osservati non è dovuta al caso
che i due gruppi sono identici
Esercizio 43
in quale delle seguenti occasioni non posso utilizzare il test del x2:
devo confrontare due proporzioni
ho una frequenza assoluta uguale a 4
ho un gruppo di 80 osservazioni
Esercizio 44
se in un test del x2 ho ottenuto un p=0,01,
le differenze tra i due gruppi sono dovute al caso
le differenze tra i due gruppi non sono dovute al caso
l’attribuzione dell’eventuale differenza o non differenza tra i due gruppi dipende dal margine di
errore che intendo accettare
Esercizio 45
se in un test del x2 ho ottenuto un valore p=0,02
la differenza è significativa al 95%
la differenza è significativa al 99%
la differenza non è significativa
Esercizio 46
il test del t di Student si utilizza per
confrontare più medie
confrontare due medie
confrontare due rapporti
Esercizio 47
quando posso generalizzare i risultati ottenuti in un campione a tutta la popolazione dalla quale ho
selezionato il campione
quando il campione è rappresentativo
sempre
solo se il campione è almeno 1/10 della popolazione come numero di unità statistiche
Esercizio 48
quale è il significato di ‘stima’
significa effettuare un calcolo di valori con una probabilità nota di errore in una popolazione
significa che i risultati ottenuti in un campione sono identici a quelli della popolazione
significa calcolare il valore vero di un indicatore in una popolazione
Esercizio 49
circa il 95% dei valori di una distribuzione gaussiana cade all’interno dell’intervallo dato
dalla media +/- 1 deviazione standard
dalla media +/- 3 deviazioni standard
dalla media +/- 2 deviazione standard
Esercizio 50
l’errore standard
viene calcolato con il test del x2
è il valore atteso della deviazione standard delle medie
non si calcola sul campione
Esercizio 51
gli intervalli di confidenza
permettono di calcolare in modo puntuale la media della popolazione
identificano un intervallo all’interno del quale è compresa la media della popolazione
sono sempre uguali alla media +/- 1,96 l’errore standard
Esercizio 52
cosa è un associazione spuria
è un’associazione nella quale il fattore è causa dell’avvenimento
è un’associazione in cui il caso determina l’evento
è una falsa associazione
Esercizio 53
quale dei seguenti non è uno dei 5 criteri di causalità
uguaglianza
forza
coerenza
Esercizio 54
il coefficiente di correlazione
esprime la probabilità che due variabili siano correlate tra loro
varia da 0 a +1
esprime sempre un rapporto causa effetto
Esercizio 55
la validità di un campione non può essere
interna
esterna
proiettiva
Esercizio 56
quale dei seguenti è un metodo di campionamento non corretto
a cluster
di convenienza
sistematico
Esercizio 57
quale delle seguenti affermazioni non è corretta per un campionamento a cluster
abbassa costi e tempi dell’indagine
facilita il reclutamento dei soggetti
è soggetto a meno errori rispetto al campionamento sistematico
Esercizio 58
il titolo di una tabella deve contenere
popolazione e epoca di rilevazione
carattere rilevato ed eventuali elaborazioni fatte
entrambe le precedenti
Esercizio 59
quale tipologia di domanda devo inserire in un questionario se non posso prevedere quali risposte
possano essere date alla domanda stessa
domanda aperta
domanda chiusa
domanda a scala
Esercizio 60
le domande chiuse
facilitano il ricordo
necessitano di codifica
devono prevedere uno spazio per scrivere la risposta
Esercizio 61
in un questionario, la fase pilota
va fatta solo per questionari a domanda aperta
serve ad apportare eventuali modifiche
prevede la somministrazione del questionario ad almeno il 90% della popolazione
Esercizio 62
l’epidemiologia
ha per oggetto lo stato di salute del singolo
studia i fattori causali delle malattie
valuta la patogenesi delle malattie
Esercizio 63
Il tasso grezzo di natalità è il rapporto tra:
totale dei nati in un anno / popolazione a metà anno, tutto moltiplicato per k
totale dei nati vivi in un anno / popolazione a metà anno, tutto moltiplicato per k
totale delle gravidanze oltre la 28° settimana / popolazione a metà anno, tutto moltiplicato per k
Esercizio 64
quale dei seguenti tassi epidemiologici prende in considerazione le giornate lavorative perse
tasso di morbosità
tasso di morbilità
tasso di mortalità
Esercizio 65
il tasso di mortalità per cause è il rapporto tra:
numero di morti per una specifica malattia / popolazione a metà anno, tutto moltiplicato per k
numero di morti per una specifica malattia tra i maschi / numero di morti per una specifica malattia
tra le femmine
numero di morti / popolazione a metà anno, tutto moltiplicato per k
Esercizio 66
la prevalenza :
è il rapporto tra nuovi casi di malattia / la popolazione in cui sono stati osservati, tutto moltiplicati
per k
è il rapporto tra soggetti ammalati di una determinata malattia / soggetti non ammalati
è il rapporto tra casi di malattia osservati / la popolazione in cui sono stati osservati, tutto
moltiplicati per k
Esercizio 67
quale dei seguenti fattori aumenta il tasso di prevalenza
emigrazione di soggetti sani
alta letalità della malattia
miglioramento del tasso di guarigione
Esercizio 68
la piramide delle età
rappresenta graficamente la popolazione per età e sesso
rappresenta graficamente l’andamento delle malattie nel tempo in una popolazione
serve a determinare la morbidità per età e sesso
Esercizio 69
Lo studio osservazionale
Prevede lo studio di un fenomeno interagendo con esso
Comprende le sperimentazioni cliniche
Comprende gli studi di coorte
Esercizio 70
Quale delle seguenti caratteristiche NON è presente negli studi casi controllo:
i casi sono i malati
i controlli appartengono alla stessa popolazione dei controlli
i controlli sono difficili da aumentare
Esercizio 71
In una serie di dati, gli estremi:
sono costituiti dall’elemento con valore più basso e da quello con valore più alto
sono in valore assoluto
moltiplicati tra loro danno il range
Esercizio 72
Calcolare gli estremi della seguente serie: 0 2 -1 -6 3 6 0 8 6
0e8
0e6
-6 e 8
Esercizio 73
i test non parametrici
sono preferibili a quelli parametrici
vengono utilizzati se non si conosce la distribuzione della serie
sono utilizzati per serie a distribuzione gaussiana
Esercizio 74
quale dei seguenti test è non parametrico
X2
t di student
test sulla mediana
Esercizio 75
la metanalisi
è una tecnica che consente di stimare dati di una popolazione partendo dall’analisi del campione
è una tecnica che analizza studi clinici compiuti sullo stesso argomento
è un test non parametrico
Esercizio 76
nella fase di inclusione in una metanalisi, un lavoro viene escluso se
ha almeno 2 criteri non corrispondenti a quelli richiesti
ha almeno 1 criterio non corrispondente a quelli richiesti
è riferito a risultati negativi
Università degli Studi di Ferrara
Statistica – Lauree delle Professioni Sanitarie
Docente: Alessandro Cucchi
ESEMPIO DI PROVA DI ESAME
Cognome: ________________________________
Matricola: _________________
Nome:____________________________________
Firma: __________________________________________
Laurea:
[
[
[
[
[
[
]
]
]
]
]
]
Dietistica
Fisioterapia - sede di Ferrara
Fisioterapia - sede di Faenza
Igiene dentale
Logopedia
Ortottica ed assistenza oftalmologica
[
[
[
[
[
Esercizio 1
Identificare la moda o le mode della seguente serie:
1
7
5
9
6
1
2
4
a) 1
b) 4
c) 1 e 4
Esercizio 2
Calcolare il range della seguente serie:
4
0
9
a) 2
b) 10
c) 17
0
-8
]
]
]
]
]
Tecn.
Tecn.
Tecn.
Tecn.
Tecn.
Audiometriche
Audioprotesiche
Riabilitazione psichiatrica
Laboratorio biomedico
Radiologia medica
-4
4
9
4
1
5
-4
6
Esercizio 3
Il colore degli occhi è un carattere:
a) quantitativo continuo
b) qualitativo sconnesso
c) quantitativo discreto
Esercizio 4
La curva che presenta: moda = 2,
a) asimmetrica sinistra
b) gaussiana
c) asimmetrica destra
mediana = 4,
Esercizio 5
Quale dei seguenti indicatori è di dispersione:
a) mediana
b) moda
c) deviazione standard
media = 10
è una curva:
Esercizio 6
Quale dei seguenti metodi di misurazione è un metodo indiretto:
a) Velocità
b) Peso
c) Tempo
Esercizio 7
Valutando la seguente tabella, qual è frequenza dei soggetti che pesano tra i 65 ed i 74 kg
CLASSI DI PESO
SOGGETTI
<65
15
65-74
10
75-84
10
>84
5
a) 10%
b) 0,25
c) 0,1
Esercizio 8
La probabilità è:
a) La differenza tra casi possibili e casi contrari
b) Il rapporto tra casi favorevoli (numeratore) e casi contrari (denominatore)
c) Il rapporto tra casi favorevoli (numeratore) e casi possibili (denominatore)
Esercizio 9
Calcolare la probabilità di ottenere tre volte di fila un numero pari lanciando consecutivamente tre
volte lo stesso dado
a) 1/8
b) 1/9
c) 1/16
Esercizio 10
Nel test del Chi quadrato, convenzionalmente, l’ipotesi 0 indica:
a) che la differenza tra i gruppi osservati è dovuta al caso
b) che la differenza tra i gruppi osservati non è dovuta al caso
c) che i due gruppi sono identici
INDICARE LE RISPOSTE APPONENDO UNA “X” NELLA CASELLA
CORRISPONDENTE
3 punti per risposta corretta;
DOMANDA
1
2
3
4
5
6
7
8
9
10
RISPOSTA
A
-1 punto per risposta sbagliata o non data
RISPOSTA
B
RISPOSTA
C
EVENTUALE
CORREZIONE