ANALISI
STATISTICA DI
DATI CAMPIONARI
Docente: Elisa Bianchini
Centro di Coordinamento Sperimentazioni Cliniche
U.O. Biostatistica
Presidio Villa delle Rose
Via Cosimo il Vecchio, 2 Firenze
Tel:055/32 69 79 47
[email protected]
DALLA LEZIONE PRECEDENTE…
.. Lo scopo di una indagine è quello di produrre statistiche, ovvero descrizioni
riassuntive di carattere quantitativo, riguardanti il collettivo di interesse
…Nel caso di indagini campionarie l’obiettivo è quello di fare “inferenza” dal
campione alla popolazione
… Nella fase di astrazione dopo aver fissato le caratteristiche dell’indagine,
in base agli obiettivi che questa si pone, è necessario fissare anche le
modalità di analisi dei dati che verranno raccolti durante la fase di
rilevazione
…. Ai fini della pianificazione delle analisi è necessario conoscere il tipo di
variabili che si intendono studiare, la loro classificazione e la loro
distribuzione teorica
…. L’obiettivo (o gli obiettivi) dell’indagine determina inoltre quali sono le
metodologie di analisi adatte al suo raggiungimento
…. La variabilità casuale insita in molti fenomeni fa si che quando si conducono
delle indagini campionarie le statistiche campionarie ottenute siano affette
da imprecisione
IL PROCEDIMENTO INFERENZIALE
…UN PO’ DI TERMINOLOGIA
STATISTICA DESCRITTIVA: Insieme di dati statistici di sintesi di
osservazioni ottenuti con l’intento di descrivere un determinato fenomeno
(Tabelle, grafici e indici numerici)
STATISTICA INFERENZIALE: Insieme delle operazioni e dei
ragionamenti compiuti dal ricercatore per predire alcune
caratteristiche(parametri) di una popolazione, non interamente esplorabile,
attraverso la selezione da questa di un sotto insieme casuale di unità
(campione)
PARAMETRO: Valore assunto (θ) da una caratteristica misurata a livello di
popolazione (totale, media, varianza, proporzione, correlazione,…)
STIMATORE: si dice stimatore qualunque statistica T(X1,X2,…,Xn) ,
funzione degli elementi campionari, le cui determinazioni vengono utilizzate
per ottenere una misura (stima puntuale) del parametro incognito θ . Quindi
uno stimatore è una variabile casuale e possiede pertanto una distribuzione,
valore atteso, varianza e così via
…UN PO’ DI TERMINOLOGIA
STIMA (STATISTICA): In senso stretto, è particolare valore ottenuto
dall’applicazione di uno stimatore in una indagine o in un esperimento
statistico.
Il termine è usato per indicare anche l’insieme delle regole attraverso le
quali è stato ottenuto quel particolare valore, ovvero lo stimatore stesso.
La stima può riguardare un parametro, e in tal caso si parla di "stima
puntuale", o un intervallo, e allora si parla di "stima intervallare".
VERIFICA D’IPOTESI: Processo decisionale, basato sulla verifica di
ipotesi statistiche con la realtà osservata, che porta ad accettare o
rifiutare un’ipotesi (statistica) fissata sul valore dei parametri o sulla
forma di una legge di distribuzione di una popolazione.
ERRORE CAMPIONARIO: Differenza tra la stima e il corrispondente
valore che si sarebbe ottenuto esaminando la totalità delle unità
statistiche della popolazione. Si verifica giacché si osserva solo una parte
delle unità della popolazione. L’errore diminuisce in valore all’aumentare
della numerosità campionaria
LA STIMA DEI PARAMENTRI
LO SCOPO DELL’INFERENZA E’ QUELLO DI OTTENERE
INFORMAZIONI SU UNA POPOLAZIONE DA CUI UN CAMPIONE E’
STATO ESTRATTO.
L’INFERNZA SUI PARAMETRI PUO’ ESSERE FATTA ATTRAVERSO:
- STIMA PUNTUALE
- STIMA PER INTERVALLI
- LA VERIFICA D’ IPOTESI
Si formula una ipotesi riguardo al valore del parametro incognito e si
verifica se l’ipotesi è supportata o meno dai dati. L’obiettivo è arrivare ad
una decisione sottoforma di si/no riguardo a certe caratteristiche della
popolazione)
STIMA PUNTUALE
Determina un valore numerico per il parametro a partire dal campione
Quando si esegue l'esperimento e si osservano i dati, il valore osservato
dello stimatore (che è un numero) è la stima puntuale del parametro
Solitamente si usa
• la media campionaria per stimare la media della popolazione
• la varianza campionaria per stimare la varianza della popolazione
• la frequenza relativa di successo (proporzione) per stimare la
probabilità di successo
• la differenza tra due medie campionarie per stimare la differenza tra
due valori medi a livello di popolazione
• rapporti tra probabilità osservate per la stima dell’associazioni tra
caratteri legati da una relazione causa effetto
STIMA PER INTERVALLO
Tale procedura di stima determina un set di valori a partire dal campione
che con una certa probabilità “(1-α)%” contiene il parametro incognito.
“(1-α)%” indica il livello di confidenza, l’intervallo è detto intervallo di
confidenza
Gli estremi dell’intervallo dipendono dal campione estratto, quindi sono
casuali
Un intervallo di confidenza è quindi un insieme di valori plausibili per il
parametro incognito sulla base dell’evidenza empirica.
Attenzione: il livello di confidenza rappresenta il grado di affidabilità
della procedura, non il grado di affidabilità del risultato
corrispondente al singolo campione estratto.
Generalmente si usa come livello di confidenza il 95% (α =5%)
SIGNIFICATO DELLA STIMA PER INTERVALLO
Ripetendo l’operazione di stima su più campioni, potrebbe capitare
la cosa seguente
Valore
del parametro
AMPIEZZA DELL’INTERVALLO
L’ampiezza dell’intervallo è molto rilevante. Quanto più l’intervallo
è stretto, tanto maggiore è il grado di precisione che caratterizza lo
strumento statistico utilizzato.
L’ampiezza dell’intervallo dipende quindi da
• α : al diminuire di α (al crescere del livello di confidenza (1- α)
l’ampiezza dell’intervallo aumenta
• dalla variabilità del fenomeno studiato: al crescere della
variabilità , cresce anche l’incertezza e quindi l’ampiezza
dell’intervallo aumenta
• n: al crescere di n aumenta la quantità di informazione disponibile e
quindi l’ampiezza dell’intervallo diminuisce
L’INTERVALLO DI CONFIDENZA PER LA MEDIA
L’intervallo di confidenza per la stima della media di una distribuzione
Normale a varianza incognita a livello di confidenza 1 − α ha la forma
seguente:
VALORE DELLA DISTRIBUZIONE T DI
STUDENT con n-1 gradi di libertà
ossia gli estremi dell’intervallo sono dati da
S = l’errore standard, rappresenta l’unità di misura dell’errore casuale
di stima commesso utilizzando la media campionaria come stimatore
della media della popolazione campionata
GRADI DI LIBERTA’: numero di informazioni indipendenti, relative al
paramentro che si intende stimare, contenute nel campione.
Mentre per la media abbiamo n osservazioni indipendenti, per stimare
la varianza il numero di tali informazioni si riduce a n-1.
La media campionaria è quel valore che annulla la somma degli scarti
dei singoli dati campionari da se stessa. Quindi usati gli n valori per
stimare la media, una volta che sono noti gli (n-1) scarti dalla media,
l’ultimo non è informativo in quanto è vincolato a valere
n 1
y n  y   ( yi  y )
i 1
ESEMPIO
Supponiamo di voler fare inferenza sul peso medio di neonati di 39
settimane di gestazione e di sesso maschile . Sapendo che il peso alla
nascita è una v.c. Gaussiana, con media incognita (µ) e d.s. (σ) nota pari a
440 gr, si calcoli l’intervallo al 95% per µ a partire da un c.c.s estratto dalla
popolazione, di numerosità 16.
n = 16
Media Campionaria = 3434 gr
s = 535 gr
Limite superiore dell’ I.C. 95% = 3434 +2.12 *(535/√16) = 3719
Limite inferiore dell’ I.C. 95% = 3434 – 2.12 *(535/√16) = 3149
Intervallo di confidenza al 95%: [3149 - 3719]
Il peso medio alla nascita dei neonati maschi alla 39° settimana di
gestazione è un valore compreso tra 3149 e 3719. La probabilità che tale
affermazione sia vera è pari a al 95%
SIGNIFICATO DI UN I.C. AL 95%
Dire che siamo confidenti al 95% che l’I.C. calcolato comprenda µ
significa che:
•SE SELEZIONIAMO 100 Campioni casuali dalla popolazione ed
utilizziamo questi campioni per calcolare 100 diversi intervalli di
confidenza per µ, circa 95 comprenderanno la media reale della
popolazione, 5 no.
•Si ricordi che lo stimatore Xmed è una variabile casuale, mentre µ è una
costante, per cui l’I.C. è casuale ed ha una probabilità del 95% di
contenere µ PRIMA che il campione sia selezionato.
•Una volta estratto il campione, µ può essere compresa o meno
nell’intervallo e dicendo che lo è, fissando il livello di confidenza al 95%,
potremmo sbagliarci 5 volte su 100
Estrazione di 50 campioni di numerosità 20 da una distribuzione
gaussiana con µ=0 e δ=1. Le barre rappresentano gli intervalli di
confidenza al 95% per tutte le 50 medie campionarie calcolate.
Dati i 50 campioni dell’esempio seguente, osserviamo che soltanto in
tre casi (6% dei campioni) l’intervallo di confidenza non comprende
la vera media di popolazione.
I.C. PER UNA PROPORZIONE
In modo analogo a quanto visto per la media, otteniamo il seguente
intervallo per la probabilità p (proporzione)


 p  Z / 2




p(1  p)
, p  Z / 2
n


p(1  p) 

n




Z α/2 è il valore che delimita un’area di α/2 nella coda superore della
distribuzione normale standardizzata
ESEMPIO
Si consideri di voler fare inferenza sulla distribuzione della sopravvivenza
di a 5 anni dei pazienti al disotto dei 40 anni ai quali è stato diagnisticato un
cancro al polmone. Questa distribuzione ha una media della popolazione p
non nota.
In un campione casuale di 52 pazienti, solo 6 sopravvivono a 5 anni, pertanto

p
=6/52 =0.115
STIMA PUNTUALE
Dato che la dimensione del campione è sufficientemente grande per
giustificare l’uso dell’approssimazione alla normale l’I.C. al 95% per p è
ottenuto nel seguente modo
(0.115-1.96√0.115((1-0.115))/52, 0.115-1.96√0.115((1-0.115))/52) =
(0.028,0.202) STIMA INTERVALLARE
…UN ESEMPIO DIVERTENTE!
LA VERIFICA DELLE IPOTESI
Il test delle ipotesi consente di verificare se, e quanto, una determinata
ipotesi (di carattere biologico, medico, economico,...) è supportata
dall’evidenza empirica.
Il fenomeno studiato deve essere rappresentato mediante una
distribuzione di probabilità e l’ipotesi sulle caratteristiche del
fenomeno studiato è tradotta in ipotesi su uno o più parametri
della distribuzione (test parametrico)
Esempi di ipotesi:
- La media ottenuta dal campione d’indaginè può essere uguale ad un
certo valore fissato?
- La differenza di peso in due gruppi trattati con media diversa è diversa
da zero?
- La proporzione di malati di tumore al polmone fumatori è diversa da
quella di non fumatori?
IL TEST D’IPOTESI
LE IPOTESI:
Vengono definite due ipotesi
H0  IPOTESI NULLA
H1  IPOTESI ALTERNATIVA
Le ipotesi sul valore del parametro possono essere


semplici: è specificato un solo valore (per es. μ = μ0)
composte: sono specificati più valori
unidirezionali (per es. μ > μ0)
bidirezionali (per es. μ ≠μ0)
L’ipotesi nulla è solitamente semplice, mentre l’ipotesi alternativa
composta.
IL TEST D’IPOTESI (2)
LA REGOLA DI RIFIUTO:
Prima di conoscere i dati del campione, viene definita una regola per il
rifiuto o meno dell’ipotesi nulla.
In genere, la regola consiste nel calcolare sui dati del campione una
statistica test. Se la statistica test è inferiore ad una soglia stabilita,
non si rifiuta H0. Se la statistica test calcolata supera la soglia, si
rifiuta H0.
La regola di decisione consiste quindi nel suddividere lo spazio
campionario C in due regioni, C0 regione di accettazione, C1 regione di
rifiuto sulla base dei possibili valori della statistica.
LE CONCLUSIONI:
Quando si verifichi che dati provenienti da un certo contesto, e rilevati
in accordo con un sistema definitorio dato, sono conformi ad n’ipotesi
formulata, non significa che l’ipotesi è provata, bensì che ha superato
una prova. Si dice che la teoria da cui l’ipotesi discende è stata
corroborata.
COME AGISCE L’ERRORE DI
CAMPIONAMENTO(1)
Si possono commettere due tipi di errore utilizzando un test di ipotesi:
Stato di Natura
Azioni
H0 è vera
Si accetta H0
Si rifiuta H0
H0 è falsa
DECISIONE CORRETTA
Si commette
Errore di II tipo
Si commette
Errore di I tipo
DECISIONE CORRETTA
COME AGISCE L’ERRORE DI
CAMPIONAMENTO(2)
Errore di I tipo: rifiuto un’ipotesi quando essa è vera
Errore di II tipo: accettare un’ipotesi quando è falsa
Probabilità di errore di I tipo:
α = P(rifiutare H0|è vera H0)
Probabilità di errore di II tipo:
β = P(accetto H0|è falsa H0)
La “regola” di rifiuto deve essere costruita in modo tale che α e β
siano piccole.
Dato che la minimizzazione contemporanea di α e β non è possibile,
solitamente si fissa un α accettabile (1%, 5%,10%) e si minimizza β
(max 20-30%).
α viene anche chiamato livello di significatività
LA POTENZA DEL TEST
La potenza del test è data da 1 − ß = P(RIFIUTARE H0|è falsa H0)
Indica la capacità del test di individuare l’ipotesi alternativa quando è
vera.
ß minimo  (1- ß) massimo
Quando si costruisce il sistema di ipotesi si ricerca quella suddivisione
dello spazio campionario che rende massima la potenza del test.
ESEMPIO DI TEST SU UNA MEDIA
Per
(1)giustificare la loro richiesta di aumento di stipendio, gli impiegati di una ditta
di vendita per corrispondenza affermano di riuscire ad evadere, mediamente un
ordine di acquisto ogni 13 minuti. Il direttore generale della ditta ha effettuato
una verifica casuale sui tempi di evasione di 400 ordini registrando un tempo medio
di evasione di 14 minuti e una variabilità, misurata in termini di varianza corretta,
di 100 minuti.
Cosa si può concludere riguardo alle richieste degli impiegati se si fissa una
probabilità di errore di I tipo (livello di significatività) del 5%?
Si deve sostanzialmente verificare se la media rilevata nel campione differisce, al
livello di significatività del 5%, da quella dichiarata dagli impiegati.
Il problema di verifica d'ipotesi è formalizzato nei termini seguenti
ESEMPIO DI TEST SU UNA MEDIA
(2)
La regola di decisione è quella di rifiutare l'ipotesi H0 se il valore
assunto (valore empirico) dalla v.c. test nello specifico
campione è ≥ 1,65, di accettare se il valore empirico è < 1,65.
La variabile casuale test di riferimento ha, nell'universo dei campioni,
distribuzione del tipo t di Student con n-1 gradi di libertà
Poiché
si rifiuta l'ipotesi H0 concludendo che tempo medio richiesto per
evadere un ordine è superiore ai 13 minuti dichiarati dagli impiegati.
ESEMPIO DI TEST SUL CONFRONTO TRA
PROPORZIONI (1)
ESEMPIO DI TEST SUL CONFRONTO TRA
PROPORZIONI (2)
IL LIVELLO DI SIGNIFICATIVITA’ E P-VALUE
Test a livello di significatività del 5%
Supponiamo che sia vera l’ipotesi nulla. Se si estraggono più campioni, il 5%
di questi mi porterà all’erroneo rifiuto dell’ipotesi nulla.
La probabilità di rifiutare l’ipotesi nulla quando essa è vera per puro effetto del
caso (variabilità campionaria) è pari a 0.05.
P-value del test.
si dice P-value la probabilità, supponendo vera H0, che la statistica test
assuma valori “più estremi” di quello calcolato sullo specifico campione
di cui disponiamo. osservato.
Minore è il p-value, meno l’ipotesi nulla è supportata dai dati.
In genere, se il p-value è minore di 0.05 rifiuto l’ipotesi nulla.
INTERVALLO DI CONFIDENZA E TEST
Esiste una stretta corrispondenza tra intervallo di confidenza al 95% e
test di ipotesi a livello di significatività del 5%.
Esempio: test sulla media
Se decido di rifiutare l’ipotesi nulla quando il valore del parametro da essa
specificato non è interno all’intervallo di confidenza al 95% per la media
campionaria, sto rifiutando l’ipotesi nulla al livello di significatività del 5%.
ESEMPIO
Nell’esempio del peso medio dei neonati di 39 settimane di
gestazione abbiamo trovato che l’IC al 95% per la media era
[3218.5 - 3649.5]
Qualsiasi valore di μ che giace in questo intervallo porterebbe ad un
risultato non significativo del test, ovvero l’ipotesi nulla non sarebbe
rifiutata.
H0: μ=3230
H1: μ≠3230
NON RIFIUTO H0
Al contrario, per qualsiasi valore di μ che si trovi al di fuori dell’intervallo
l’ipotesi nulla sarebbe rifiutata ad un livello α = 0.05
H0: μ=3200
H1: μ≠3200
RIFIUTO H0
LA DIMENSIONE DEL CAMPIONE
Quanto deve essere grande un campione, per potere fornire risultati
utili e significativi?
Le tipologie più importanti di informazioni che più spesso si vogliono
ottenere da un'indagine possono essere principalmente di due tipi:
- la stima di una media, ovvero dell'ordine di grandezza del fenomeno
che stiamo studiando: per esempio, il numero medio di volte in cui gli
utenti ricorrono a un determinato servizio. La domanda da porre sarà più o
meno questa: "Quante volte, nell’ultima settimana, lei o qualcun altro della
sua famiglia ha utilizzato il servizio xy?".
- la stima di una proporzione, ossia una percentuale: per esempio, la
quota di famiglie che in un certo periodo hanno utilizzato un certo
servizio. La domanda da fare potrebbe essere questa: "Lei o qualcun'altro
della sua famiglia ha utilizzato il servizio xy negli ultimi sei mesi?".
La distinzione tra i due parametri (media e proporzione) é
importante, perché alcune fasi di calcolo della dimensione del campione
sono differenti nelle due situazioni.
I FATTORI DA CONSIDERARE
Su cosa ci si deve basare per la scelta della dimensione campionaria?
• Dipende dallo scopo dell’analisi statistica:
Stima  Voglio stime con precisione “accettabile”, la determinazione
della dimensione campionaria si baserà sugli intervalli di confidenza
relativi al parametro da stimare
Test d’ipotesi  Voglio test con errori di primo e secondo tipo
“accettabili” la determinazione della dimensione campionaria si baserà
sulla funzione di potenza del test relativo al paramentro di interesse.
• Dalla varianza del carattre nella popolazione
IL PROCEDIMENTO DA SEGUIRE
Nella realtà operativa, la scelta dell'ampiezza di un campione
scaturisce da un compromesso tra le esigenze di precisione e di
sicurezza dei risultati da un lato, le necessità di contenere i costi e i
tempi di svolgimento dell'indagine dall'altro.
Il procedimento corretto da seguire per dimensionare un campione
parte dalla individuazione della dimensione dell'universo di interesse, e
dalla scelta del livello fiduciario e dell'errore di campionamento che si
intendono accettare.
CALCOLO DELLA DIMENSIONE DEL
CAMPIONE PER LA STIMA DI UNA MEDIA
Quando l’obiettivo dell’indagine è quello di fare inferenza su una media
di un carattere, attraverso l’utilizzo di un test d’ipotesi, la dimensione
adeguata campionaria si ottiene applicando la seguente formula



z / 2  z   

n
   
1
0


2
CALCOLO DELLA DIMENSIONE DEL CAMPIONE
PER LA STIMA DI UNA PROPORZIONE
Quando l’obiettivo dell’indagine è quello di fare inferenza su una
proporzione, attraverso l’utilizzo di un test d’ipotesi, la dimensione
adeguata campionaria si ottiene applicando la seguente formula


z / 2 p0 (1  p0 )  z 

n

p1  p0



p1 (1  p1 ) 


Dove p0 è la proporzione sotto H0 e p1 è la proporzione sotto H1
2