APPUNTI DI
STATISTICA INFERENZIALE
Avalle Fulvia, maggio 2014,
ITSOS MARIE CURIE
CLASSI 4A BIO e 4B BIO
PREREQUISITI
VARIABILE ALEATORIA (QUANTITATIVA): è una funzione che associa un numero reale
ad ogni possibile esito di un esperimento aleatorio.
DISTRIBUZIONE DI PROBABILITA’ DI UNA VARIABILE ALEATORIA: è una funzione che
ad ogni valore della variabile aleatoria associa la rispettiva probabilità.
PARAMETRI DI UNA V. A.: numeri che caratterizzano la distribuzione:
VALORE ATTESO (MEDIA)
VARIANZA
SCARTO QUADRATICO MEDIO
VARIABILE DISCRETA: assume valori in N (i valori sono esiti di un conteggio)
VARIABILE CONTINUA: assume valori in Q (i valori sono esiti di una misurazione)
1. Campionamento
2. Stime
3. Alcuni fondamenti teorici
Si occupa di determinare un campione “rappresentativo”
dell’intera popolazione
PROBABILITA’
POPOLAZIONE
CAMPIONE
INFERENZA STATISTICA
si occupa di estendere all’intera popolazione i risultati
statistici ottenuti su un campione
CAMPIONAMENTO
Un CAMPIONE STATISTICO è un sottoinsieme della popolazione statistica,
opportunamente scelto
Perché un campione?
 costi
 tempi
 misure distruttive
 mancanza di variabilità
 non reperibilità di tutte le unità
Metodi di campionamento
• Campione casuale semplice
• Campione sistematico
• Campione stratificato
• …….
• …….
Campione casuale semplice
Dalla popolazione di N unità si estraggono a caso n elementi, con n <N.
Ogni unità ha la stessa probabilità di essere estratta.
Ogni campione ha la stessa probabilità di essere formato
L’estrazione delle unità per formare il campione è CASUALE:
Estrazione di palline da un’urna, dove ogni pallina rappresenta
una unità della popolazione
Generazione di numeri casuali, dopo aver numerato progressivamente tutte
le unità della popolazione
Generatore di
numeri casuali
con ripetizione
Generatore di
numeri casuali
senza ripetizione
ESTRAZIONE CON RIPETIZIONE (BERNOULLIANA):
dopo ognuna delle n estrazioni l’unità estratta viene reimmessa nella popolazione,
e può tornare a far parte dello stesso campione
Numero dei campioni:
(disposizioni con ripetizione)
ESTRAZIONE SENZA RIPETIZIONE: le unità estratte ad una ad una non vengono reinserite
Numero dei campioni:
(disposizioni semplici)
ESTRAZIONE IN BLOCCO: le n unità vengono estratte tutte insieme
Numero dei campioni:
(combinazioni semplici)
L’insieme di tutti i possibili campioni formati da n unità si chiama
SPAZIO CAMPIONARIO di dimensione n
ed è diverso a seconda del tipo di campionamento.
Si chiama TASSO DI CAMPIONAMENTO il rapporto
GRANDI CAMPIONI: n >= 30
esercizi
PARAMETRI E STIME
Sia i pararametri calcolati sull’intera popolazione che le stime calcolate su un campione
sono dati statistici.
VARIABILE CASUALE
“MEDIA CAMPIONARIA”
ESEMPIO. N=4, n=2
VARIABILI CAMPIONARIE
VARIABILE MEDIA CAMPIONARIA
Consideriamo lo spazio campionario, e per ogni campione estratto calcoliamo la media :
Medie:
Costruiamo così una variabile casuale
avente come valori le medie dei campioni:
la VARIABILE CASUALE MEDIA CAMPIONARIA
La variabile media campionaria è uno STIMATORE del parametro media della
popolazione, in quanto permette, come vedremo, di effettuare una STIMA
della media di tutta la popolazione
PROPRIETA’ DELLA VARIABILE CASUALE
“MEDIA CAMPIONARIA”
La media E( ) della variabile media campionaria è uguale
alla media della popolazione, comunque venga costruito
lo spazio campionario …………
Per questo motivo si dice che:
lo stimatore MEDIA CAMPIONARIA è uno STIMATORE CORRETTO
della media della popolazione
La varianza var (
) della variabile
media campionaria
è legata alla varianza della popolazione dalle seguenti formule:
nel caso di estrazione bernoulliana
nel caso di estrazione in blocco
e varia a seconda della numerosità della popolazione e del campione
Ma soprattutto:
TEOREMA DEL LIMITE CENTRALE
Data una popolazione di distribuzione qualsiasi, la distribuzione della media
campionaria, al crescere della dimensione n del campione, tende a
una distribuzione normale, avente media uguale a quella della popolazione e varianza
espressa dalle formule precedenti.
Questo significa che, anche se non sappiamo nulla della
distribuzione della popolazione da cui si estraggono i campioni,
la distribuzione della media campionaria, per n abbastanza
grande (n > =30) è nota.
Quindi, pur non conoscendo media e varianza della popolazione,
e neanche media e varianza della media campionaria, possiamo
però misurare con quale probabilità , scelto a caso un campione,
la sua media è “vicina” alla media della popolazione
(ricordiamo che la media della popolazione e la media della media
campionaria coincidono)
Infatti, per tute le distribuzioni normali, vale che:
VARIABILE CASUALE
“VARIANZA CAMPIONARIA”
Varianza della popolazione
Media della variabile VARIANZA CAMPIONARIA
La variabile casuale VARIANZA CAMPIONARIA
(indicata con
) non è uno stimatore corretto della
varianza della popolazione, perché la sua media non è uguale
alla varianza della popolazione
Per avere uno stimatore corretto si definisce una nuova variabile
casuale VARIANZA CORRETTA , indicata con
, che si
ottiene moltiplicando le varianze di tutti i campioni per un
coefficiente:
Estrazione bernoulliana:
Estrazione in blocco:
Con questa correzione, la media della variabile varianza campionaria
coincide con la varianza della popolazione, e dunque la varianza
campionaria diventa uno stimatore corretto della varianza della
popolazione.
Media della varianza corretta