Cenni sulla teoria dei campioni e distribizioni di probabilita

STATISTICA INFERENZIALE
Studio del fenomeno considerando soltanto
una parte dell’universo detta Campione
CAMPIONE
insieme delle unità statiche considerate
nello studio
N. B. i risultati ricavati sul campione verranno generalizzati
(INFERITI) a tutto l’universo
PERCHÉ STUDIARE CAMPIONI

i test per la conoscenza del carattere possono essere
distruttivi
(durata di una lavatrice)

non tecnicamente possibile analizzare tutte le unità
statistiche
( studio sul numero di piastrine contenute nel sangue)

ridurre i costi
(indagine per sapere se un nuovo prodotto sarà apprezzato)

indagine più accurata e più affidabile
(più unità statistiche più possibilità di fare errori)
COME DEVE ESSERE UN BUON
CAMPIONE
Rappresentativo dell’universo
cioè deve rappresentare l’universo nelle giuste
proporzioni:
- deve contenere u. s. che rappresentino
tutti i “tipi” di u. s. presenti nell’universo;
- dovrebbe contenere un n° di u. s. pari a circa il 10%
dell’universo con un minimo di 100.
COME SI FA A TROVARE UN BUON
CAMPIONE




Le principali modalità di campionamento sono:
campionamento casuale semplice
campionamento sistematico
campionamento casuale a più stadi
stratificazione del campione
CAMPIONAMENTO CASUALE SEMPLICE

Procedimento:
equivale ad associare ad ogni u. s. dell’universo una biglia
numerata e ad estrarre a caso da un’urna, una per volta e
senza riporla (non ripetizione), tante biglie quante sono le
u. s. del campione
L'estrazione può essere fatta anche con ripetizione, cioè
reinserendo nell'urna la biglia estratta.

N. B.: l’estrazione a sorte si può simulare in ambiente
excell con la funzione CASUALE
CAMPIONAMENTO SISTEMATICO



Procedimento: Si decide in modo casuale la
prima unità statistica da inserire nel
campione e le altre si scelgono a distanza
regolare dalla prime
occorrente: lista ordinata dell’universo
N. B.: E’ una variante del campionamento
casuale semplice
CAMPIONAMENTO CASUALE A PIU’ STADI
Si usa quando non si possiede una lista di tutte le unità statistiche
dell’universo

Procedimento: è un campionamento attraverso varie fasi (livelli)
1° livello: l’universo viene diviso in gruppi
2° livello: ciascun gruppo viene suddiviso in sottogruppi e di quest’ultimi
solo alcuni (scelti in modo casuale) concorreranno alla formazione del
campione ( di solito il loro numero viene deciso in modo proporzionale al
numero dei sottogruppi)
3° livello: ciascun sottogruppo scelto nel livello precedente, viene suddiviso
a sua volta in altri sottogruppi e di quest’ultimi solo alcuni (scelti in
modo casuale) concorreranno alla formazione del campione ( di solito il
loro numero viene deciso in modo proporzionale al numero dei
sottogruppi)
e così via………….fino ad arrivare a sottogruppi di u. s. dei quali conosciamo
la lista.
Statistica inferenziale
Quando:
 Non possiamo o non vogliamo misurare tutta
la popolazione
 Vogliamo comunque descriverla
 Vogliamo avere una stima degli indici visti fino
ad ora, ma entra in gioco l’Incertezza e quindi
la probabilità:
Probabilità = 0 ... 1 = 0% …100%
Stimatori degli “indici descrittivi”
Popolazione
Campione
x
 media pop.
2 varianza pop.
media campionaria
s2 varianza campionaria
In
fe
re
nz
a
Indici campionari



Media campionaria
Varianza campionaria
Deviazione Standard campionaria
Distribuzione Normale





Media = 
Deviazione
Standard=
 indipendente da 
È frequente in “natura”
In microbiologia…
Distribuzione Normale
Famiglia di distribuzioni al variare di  e 
Distribuzione Normale
standardizzata
Distribuzione Normale
2,5%
Simbologia (convenzioni)

Lettere greche per parametri popolazione

con il cappelletto le relative stime
μ σ
2
Lettere latine MAIUSCOLE per variabili
casuali
 Lettere latine minuscole per campione (x,u)
 Media campionaria con trattino sopra
Es.

Se
X

N
(

,
)
2
ˆ

x

n
i
1
n
2

x
N
(, )
Media campionaria
n
1
x  xi
n i1
In Excel: MEDIA(dati)
Varianza campionaria
 
n
2
1
2
s 
x

x
i
n

1
i
1
In Excel: VAR(dati)
Deviazione standard campionaria
 
n
2
1
s

x

x

i
n

1
i

1
In Excel: DEV.ST(dati) DEV.ST.POP(dati)
Lo statistico trova e dimostra
che…

Stimatore della “vera” media è
n
1
̂x 
xi
ni1

Stimatore della “vera” varianza è
 
n
2
1
2
̂ 
x

x
i
n

1
i
1
Teorema del limite centrale
La media campionaria di un campione si
distribuisce come una normale con
 media
pari alla media della popolazione
 varianza pari a varianza popolazione su
n=V(X)/n


 
se X

Distrib
(, )
2

1
ˆ
allora

x
x

N
(, )
2
n
i
n
Lo stimatore mi dà un solo valore!
… è sufficiente?
Se un marziano ci chiedesse quanto sono
alti mediamente gli esseri umani, e noi gli
rispondessimo: - «mediamente 155cm»
egli potrebbe immaginare esseri umani alti
5cm ed altri alti 3 metri!.
Ci vuole un “intervallo di confidenza”!
Tlc e Intervalli di confidenza
Posso sempre costruire intervalli di
confidenza sfruttando il TLC

ˆ

x

2
Errore
Stand
ˆ

ˆ
x

2
n