riassunto campionario

annuncio pubblicitario
Unità 3
Come ottenere stime da un campione
Riassunti campionari
1
COME OTTENERE STIME DA UN CAMPIONE
Nella pratica non si dispone comunemente dei dati relativi
all’intera popolazione, ma solo dei dati raccolti su un campione di
n elementi.
Nel raccogliere questi dati un ricercatore si pone di solito come
primo obiettivo quello di ottenere elementi informativi utili a
descrivere l’intera popolazione (e quindi la relativa distribuzione di
probabilità) dalla quale il campione è stato tratto.
Il primo problema è quindi come riassumere i dati raccolti su
un campione, relativamente ad una variabile casuale X, così
da descrivere nel modo più idoneo la popolazione non
osservata interamente.
2
Valore medio e deviazione standard campionari
Se non si esamina tutta la popolazione non è possibile
determinare né il valore medio  né la deviazione standard 
della popolazione stessa.
Tuttavia è possibile ottenere una stima di questi indici a
partire dal campione raccolto.
La stima del valore medio (detta media campionaria), indicata
comunemente con la lettera latina m, è definita come
n
m

i 1
xi
n
3
La deviazione standard campionaria s ed è calcolata come:
n
s
 ( x i  m )2
i 1
n 1
N.B. Nello stimare la deviazione standard di una popolazione da
dati campionari, si divide la somma degli scarti dalla media al
quadrato (detta devianza) per n–1 e non, come ci si poteva
attendere, per n.
La dimostrazione corretta di questo fatto richiederebbe solide
argomentazioni matematiche, ma, in questa sede, possiamo
limitarci alla seguente giustificazione intuitiva.
4
Giustificazione intuitiva
 La dispersione si misura in base alla distanza fra il valore
delle osservazioni e il valore medio per la popolazione (µ).
 Il valore medio per la popolazione (µ) è ignoto.
 Si utilizza pertanto il valore medio del campione (m).
 Utilizzare m restringe la variabilità del campione.
 La variabilità del campione sarà quindi inferiore a quella
dell’intera popolazione e dividere per n–1 invece che per n
rappresenta una correzione per la tendenza a sottostimare la
deviazione standard della popolazione.
5
Ulteriore considerazione: il concetto di gradi di libertà
 I gradi di libertà di una statistica esprimono il numero di dati
effettivamente disponibili per valutare la quantità di informazione
contenuta nella statistica.
 Quando un dato non è indipendente dagli altri, l'informazione
che esso fornisce è già contenuta implicitamente negli altri.
 L'idea è quella di calcolare le statistiche utilizzando soltanto il
numero di osservazioni indipendenti consentendo in questo
modo di ottenere dei risultati più attendibili.
 I gradi di libertà possono essere ottenuti dalla differenza
fra il numero di casi e le statistiche presenti nel calcolo.
6
Deviazione standard campionaria e gradi di libertà
 Nel calcolo della deviazione standard campionaria (s) è
presente il valore medio (m) del campione.
 Perciò nel calcolo di s i gradi di libertà non sono n ma n-1.
 La somma dei quadrati degli scarti dalla media m è quindi
divisa per i gradi di libertà, che in questo caso sono n-1.
ESERCIZIO In un campione di 10 soggetti ipertesi sono stati
misurati i seguenti valori di pressione arteriosa sistolica:
180 175 180 190 185 175 185 195 175 200 mmHg
Si determini il valore medio e la deviazione standard campionaria.
RISPOSTA
m = 184 mmHg
s = 8,756 mmHg
7
Mediana
Dato un campione la mediana è il valore centrale dell’insieme dei
dati ordinati dal valore più piccolo al più grande.
Per trovare la posizione occupata dal valore mediano nella serie
ordinata delle osservazioni si usa la seguente regola:
 Se l’ampiezza del campione è un numero dispari, la mediana
coincide con il valore centrale, vale a dire con l’osservazione che
occupa la posizione (n+1)/2 nella serie ordinata delle
osservazioni.
 Se l’ampiezza del campione è un numero pari, la mediana
allora coincide con la media dei valori corrispondenti alle due
osservazioni centrali.
8
ESERCIZIO In un campione di 10 soggetti ipertesi sono stati
misurati i seguenti valori di pressione arteriosa sistolica:
180 175 180 190 185 175 185 195 175 200 mmHg
Si determini il valore medio m e la mediana.
RISPOSTA
m = 184 mmHg
mediana = 182,5 mmHg
9
N.B. Si considerino i seguenti valori di VES (velocità di
eritrosedimentazione, mm/ora) ottenuti in 7 pazienti:
{ 8, 5, 7, 6, 35, 5, 4 }
Il valore medio è pari a 10 mm/ora e la mediana vale 6 mm/ora .
In questo caso la media non esprime il valore intorno al quale le
osservazioni tendono a posizionarsi: soltanto un unico valore
su 7 è superiore alla media!
La mediana è definita come il valore che divide a metà la
distribuzione; pertanto metà dell’insieme dei valori è minore della
mediana e metà è maggiore.
Commento. La mediana non è influenzata dalle osservazioni
estreme di un insieme di dati: nel caso di osservazioni estreme è
quindi opportuno descrivere l’insieme di dati con la mediana
piuttosto che con il valore medio.
10
Campo interquartile
Dato un campione è possibile calcolare il primo ed il terzo
quartile, usando una procedura del tutto analoga a quella prima
definita per il calcolo della mediana.
In particolare per un gruppo di n dati ordinati

Q1
occupa la posizione (n + 1)/4;

Q2
occupa la posizione (n + 1)/2;

Q3
occupa la posizione 3(n + 1)/4.
Il campo interquartile è dato dalla differenza fra il terzo ed il
primo quartile così calcolati.
N.B. Il campo interquartile contiene la metà dei valori inclusi nel
campione, indipendentemente dalla forma della distribuzione della
variabile.
11
ESERCIZIO
In un campione di 10 soggetti ipertesi sono stati
misurati i seguenti valori di pressione arteriosa sistolica:
180 175 180 190 185 175 185 195 175 200 mmHg
Si determini la mediana ed il campo interquartile.
RISPOSTA
Dati ordinati: 175 175 175 180 180 185 185 190 195 200 mmHg
(n + 1)/4 = 2,75
→
Q1 = 175 + 0,75·(175 – 175) = 175 mmHg
(n + 1)/2 = 5,50
→
Q2 = 180 + 0,50·(185 – 180) = 182,5 mmHg
3(n + 1)/4 = 8,25 →
Q3 = 190 + 0,25·(195 – 190) = 191,25 mmHg
mediana = 182,5 mmHg
campo interquartile = 16,25 mmHg
12
Moda
Dato un campione la moda è il valore più frequente presente
nell’insieme dei dati, cioè il valore più comune.
N.B. La moda può non esistere e, anche se esiste, può non
essere unica.
Esempi
L’insieme di numeri {1, 1, 5, 8, 9, 9, 9, 10, 10, 11, 12, 18} ha
moda 9.
L’insieme dei numeri {1, 5, 8, 9, 10, 11, 13, 17, 18} non ha moda.
L’insieme dei numeri {2, 2, 2, 5, 7, 9, 9, 9, 11, 12, 18} ha due
mode (2 e 9) ed è detto bimodale.
13
Il concetto di frequenza
Nel definire la moda di un campione abbiamo introdotto il concetto
di frequenza.
Viene detta frequenza il numero di volte che un dato carattere
(per esempio il peso di un neonato) si presenta con un certo
valore in un campione.
Una frequenza rapportata a 100 osservazioni si chiama
frequenza percentuale.
N.B. Aumentando la numerosità del campione la frequenza
percentuale si avvicina alla probabilità vera di ottenere quel
determinato valore della variabile casuale nella popolazione.
14
Istogramma di frequenza
L’istogramma di frequenze è costruito in modo analogo
all’istogramma di probabilità.
È costituito da rettangoli adiacenti le cui basi sono allineate su un
asse orientato e dotato di unità di misura.
L'adiacenza dei rettangoli dà conto della continuità del carattere.
Ogni rettangolo ha base di lunghezza pari all'ampiezza della
corrispondente classe, mentre l'altezza invece è calcolata
come densità di frequenza, ovvero essa è pari al rapporto fra la
frequenza associata alla classe e l'ampiezza della classe.
15
IMPORTANTE. L'area della superficie di ogni rettangolo coincide
con la frequenza associata alla classe cui il rettangolo si riferisce.
La somma delle aree dei rettangoli è uguale alla somma delle
frequenze dei valori appartenenti alle varie classi.
Esempio
La variabile studiata è la
variazione di temperatura
Δt misurata in gradi
Celsius.
Δt (°C)
16
RIASSUNTI CAMPIONARI
Abbiamo detto che possiamo estrarre campioni da una
popolazione e quindi usarli per ottenere valori (quali, ad esempio,
il valore medio m o la deviazione standard campionaria s) che
servono a stimare i parametri della popolazione stessa.
Qualunque quantità ottenuta dal campione in vista della stima dei
parametri della popolazione è detta un riassunto campionario.
IMPORTANTE. Un riassunto campionario è esso stesso una
variabile casuale.
17
Si pensi, ad esempio, di calcolare la media m di tutti i possibili
campioni di ampiezza n estratti da una popolazione.
È ovvio che, preso uno qualunque di questi campioni, non sarà
possibile prevedere a priori il corrispondente valore per m.
Il riassunto media campionaria sarà quindi una variabile casuale.
Valutando tutti i possibili campioni di ampiezza n estratti dalla
popolazione in studio si otterrà la distribuzione di probabilità del
riassunto considerato che sarà detta distribuzione campionaria
del riassunto.
Per una distribuzione campionaria si possono calcolare gli indici
di tendenza centrale e quelli di dispersione (ad esempio: valore
medio, mediana, moda, varianza, deviazione standard, campo
interquartile o semi-interquartile).
18
ESEMPIO
Si consideri una variabile casuale X distribuita in maniera
gaussiana con media  e deviazione standard  .
Si può dimostrare che le medie m di un infinito numeri di campioni
di n individui, estratti casualmente dalla popolazione in esame,
rappresentano una variabile casuale distribuita anch’essa in
maniera gaussiana ed avente media  e deviazione standard
pari a  / √n , che viene detta errore standard della media .
Si noti che l’errore standard, e quindi la dispersione della media
campionaria m attorno alla media vera , diminuisce
all’aumentare di n, cioè della numerosità del campione preso in
esame.
Intuitivamente, più grande è la dimensione del campione più la
sua media m si avvicinerà alla media vera  della popolazione.
19
Scarica