statistiche, distribuzioni campionarie e inferenza

Metodi statistici e probabilistici per l’ingegneria
Corso di Laurea in Ingegneria Civile
A.A. 2009-10
Facoltà di Ingegneria, Università di Padova
Docente: Dott. L. Corain
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
1
STATISTICHE,
DISTRIBUZIONI CAMPIONARIE
E INFERENZA
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
2
1
SOMMARIO
DEFINIZIONE DI INFERENZA
STATISTICHE E DISTRIBUZIONI CAMPIONARIE
STIMA PUNTUALE
STIMA INTERVALLARE
VERIFICA DI IPOTESI
CARTE DI PROBABILITÀ
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
3
INFERENZA
L’inferenza statistica può essere definita come la disciplina
che utilizza l’informazione campionaria, per fare delle
affermazioni sulla popolazione da cui il campione è stato
tratto, in particolare sui parametri della distribuzione
della popolazione stessa (solitamente µ e σ, vedere “La
rappresentazione e la sintesi dei dati”) .
Le affermazioni della statistica inferenziale sono di due tipi:
9 STIMA: si vuole indicare un valore plausibile per il
parametro della popolazione, sotto una delle 2 forme:
1. un valore ben definito (STIMA PUNTUALE)
2. un intervallo in cui molto verosimilmente il parametro
sia incluso (STIMA INTERVALLARE)
9 VERIFICA DI IPOTESI: indicare quale tra due specifiche
ipotesi sul parametro (nulla o alternativa) sia da accettare
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
4
2
INFERENZA SUI PROCESSI PRODUTTIVI
Si è visto come le distribuzioni di probabilità consentono di
modellare e descrivere un fenomeno/processo di interesse.
In relazione a questo obiettivo tuttavia, non è realistico
pensare di conoscere i parametri che regolano tali
fenomeni/processi e quindi è necessario ricorrere
all’inferenza per stimare tali parametri e per risolvere dei
problemi decisionali che li riguardano. Ad esempio non è
plausibile che sia possibile conoscere con esattezza
o una dimensione media di una variabile numerica critica
dal punto di vista delle prestazioni/qualità di un
materiale, prodotto o processo
o la frazione di unità non conformi, non idonee o difettose
presenti in un processo di fabbricazione
o la capacità di processo di rispondere alle specifiche di
progettazione
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
5
STATISTICHE E DISTRIBUZIONI CAMPIONARIE
I metodi inferenziali presuppongono che il campione di dati
(x1,..., xn), ottenuto dalla popolazione di interesse, sia un
campione casuale, cioè ottenuto in modo che le
osservazioni {xi} siano indipendenti ed identicamente
distribuite (IID).
Ogni funzione dei dati campionari, che non contiene
parametri ignoti, viene definita statistica. La media e la
varianza campionaria (e la deviazione std), oltre a essere
indici descrittivi della tendenza centrale e della variabilità
del campione, sono esempi di statistiche. Notiamo che le
statistiche, in quanto funzioni di v.a. sono loro stesse v.a.
Se conosciamo la legge di distribuzione della popolazione
dalla quale è preso il campione, possiamo determinare la
legge di distribuzione della statistica, detta distribuzione
campionaria.
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
6
3
CAMPIONAMENTO
CAMPIONAMENTO DA DISTRIBUZIONE NORMALE
Come conseguenza delle proprietà della distribuzione di
una combinazione lineare di v.a. normali, se x=(x1,..., xn), è
un campione casuale di numerosità n, estratto da una v.a. X
normale con media µ e varianza σ 2, allora la media
campionaria X ∼ N(µ , σ 2/n).
CAMPIONAMENTO DA ALTRE DISTRIBUZIONI
In virtù del Teorema del Limite Centrale, senza riferimento
al tipo di distribuzione della popolazione, la legge di
distribuzione della media campionaria sopra citata è ancora
approssimativamente valida:
d
 σ2 
X → N  µ, 
 n 
Il grado di approssimazione dipende dalla particolare forma
della distribuzione di X: più è simmetrica migliore è
l’approssimazione.
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
7
CAMPIONAMENTO DA DISTRIBUZIONE BERNOULLIANA
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
8
4
CAMPIONAMENTO DA DISTRIBUZIONE DI POISSON
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
9
STIMA DEI PARAMETRI DI UNA VARIABILE CASUALE
Una variabile casuale è caratterizzata dalla sua legge di
probabilità che è identificata dai suoi parametri. Dato un
valore plausibile dei parametri, siamo in grado di descrivere
e rappresentare un modello statistico per la caratteristica di
interesse.
Possiamo definire come stimatore di un parametro ignoto,
la statistica (che è una variabili casuale) che corrisponde a
tale parametro. Uno stimatore puntuale è una statistica
che produce un singolo valore numerico. Un particolare
valore numerico, ottenuto sulla base dei dati campionari, è
detto stima.
Uno stimatore intervallare è un intervallo casuale entro cui
il vero valore del parametro cade con un livello di probabilità
assegnata (livello di confidenza). Questi intervalli sono
usualmente indicati come intervalli di confidenza.
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
10
5
PROPRIETÀ DI UNO STIMATORE
Preso un campione casuale di n osservazioni da una v.c. X,
la media campionaria x, la varianza campionaria s2, la
deviazione standard campionaria s, sono rispettivamente
stimatori puntuali della media della popolazione µ, della
varianza della popolazione σ 2 e della deviazione standard
della popolazione σ.
Agli stimatori sono richieste alcune importanti proprietà, tra
le quali le più rilevanti sono
o non distorsione: il valore atteso (la media) dello
stimatore deve essere uguale al parametro da stimare
o minima varianza: (in qualità di v.c.) ad uno stimatore è
richiesto di avere la minore variabilità possibile, rispetto
a tra tutti i possibili stimatori del parametro
o consistenza: al crescere della numerosità campionaria,
la varianza dello stimatore deve tendere a zero
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
11
MEDIA, VARIANZA E DEVIAZIONE STANDARD CAMPIONARIE
Mentre la media campionaria x e la varianza campionaria
s2, sono stimatori non distorti della media della popolazione
µ, della varianza della popolazione σ2, la deviazione
standard campionaria s NON è uno stimatore non distorto
della deviazione standard della popolazione σ.
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
12
6
INTERVALLI DI CONFIDENZA
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
13
INTERVALLI DI CONFIDENZA
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
14
7
INTERVALLI DI CONFIDENZA
INTERVALLO DI CONFIDENZA DELLA MEDIA CON VARIANZA NOTA
Furthermore, a 100(1 − α)% upper confidence bound on µ is
whereas a 100(1 − α)% lower confidence bound on µ is
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
15
INTERVALLI DI CONFIDENZA
INTERVALLO DI CONFIDENZA DELLA MEDIA CON VARIANZA IGNOTA
Notiamo che la distribuzione di riferimento non è la
normale, bensì la v.a. t di Student.
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
16
8
INTERVALLI DI CONFIDENZA
INTERVALLO DI CONFIDENZA DELLA PROPORZIONE
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
17
INTERVALLI DI CONFIDENZA
CONDIZIONI PER L’INFERENZA A DUE CAMPIONI
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
18
9
INTERVALLI DI CONFIDENZA DELLA DIFFERENZA DELLE MEDIE
VARIANZE NOTE
VARIANZE IGNOTE MA UGUALI
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
19
INTERVALLI DI CONFIDENZA DELLA DIFFERENZA DELLE MEDIE
VARIANZE IGNOTE E DIVERSE
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
20
10
INTERVALLO DI CONFIDENZA DELLA DIFFERENZA DI DUE PROPORZIONI
21
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
VERIFICA D’IPOTESI
Una ipotesi statistica è una affermazione sui parametri di
una distribuzione di probabilità.
Ipotesi
Alternativa
Ipotesi
Nulla
L’ipotesi nulla corrisponde allo “stato delle cose” che
possiamo presumere vero se non sono intervenuti fattori di
cambiamento. Ad esempio: “il processo è sotto controllo” o
“il processo è conforme”.
L’ipotesi alternativa corrisponde invece ad una eventuale
situazione di allontanamento dall’ipotesi nulla che l’analista
vorrebbe mettere in evidenza in caso si verificasse.
L’ipotesi alternativa può essere bilateriale (simbolo “≠”,
come nell’esempio) o unilateriale (simbolo “>” o ”<”, a
seconda dell’interesse dell’analista).
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
22
11
ERRORE DI I° E II° TIPO
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
23
ERRORE DI I° E II° TIPO
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
24
12
PROCEDURA DECISIONALE
La procedura decisionale per condurre una verificare di
ipotesi consta dei seguenti passi:
¾ specificare l’ipotesi nulla e l’ipotesi alternativa di
interesse
¾ considerare l’appropriata statistica (meglio detta
“statistica test”) in relazione alle ipotesi di cui sopra
¾ fissare l’errore di I tipo α (detto anche “livello di
significatività del test”) ad un valore accettabile;
questa operazione identifica nella distribuzione della
statistica test due regioni: la regione di accettazione e
la regione di rifiuto (detta anche “regione critica”)
¾ in base ai dati campionari (ottenuti da un campione
casuale IID dalla popolazione sotto indagine) calcolare il
valore osservato della statistica test
¾ se tale valore appartiene alla regione critica si deve
rifiutare l’ipotesi nulla, altrimenti apparterrà alla regione
di accettazione e non si può rifiutare l’ipotesi nulla
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
25
IL P-VALUE NELLA PROCEDURA DECISIONALE
In alternativa al considerare le due regioni di accettazione e
rifiuto, è possibile prendere la decisione in base al p-value:
Il p-value rappresenta la probabilità di osservare un valore
della statistica test uguale o più estremo del valore che si
calcola a partire dal campione, quando l’ipotesi H0 è vera.
Il p-value è anche chiamato livello di significatività osservato, in quanto coincide con il più piccolo livello di
significatività in corrispondenza del quale H0 è rifiutata. In
base a questo approccio, la regola decisionale per rifiutare
H0 è la seguente:
¾ Se il p-value è maggiore o uguale a α, l’ipotesi nulla non
è rifiutata.
¾ Se il p-value è minore di α, l’ipotesi nulla è rifiutata.
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
26
13
UN ESEMPIO
Consideriamo ad esempio il caso di una verifica di ipotesi
sulla media (σ nota) dove la statistica test Z ha una
distribuzione normale standard. In base ai dati campionari,
il valore osservato della statistica test è +1.50.
Naturalmente, la decisione presa in base alla regione di
accettazione/rifiuto è coerente a quella presa in base alla
regola del p-value (= 0.0668 × 2).
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
27
ANALOGIA TRA VERIFICA D’IPOTESI E INTERVALLI DI CONFIDENZA
Pur rispondendo ad obiettivi e motivazioni sostanzialmente
diverse, stima intervallare e verifica di ipotesi presentano
molte analogie, tanto che queste due procedure inferenziali
hanno come comune origine l’espressione della distribuzione di probabilità di una stessa statistica test.
Prendiamo, ad esempio, il caso della verifica di ipotesi sulla
media (σ nota) ed il corrisponde problema di stima
intervallare di µ (σ nota): entrambe le procedure si
riferiscono alla distribuzione normale standard della
statistica Z (vedi slide seguente). Fissato il livello di
significatività α ed il livello di confidenza a (1− α), si può
facilmente verificare che il valore µ0 sotto ipotesi è
compreso nell’intervallo di confidenza se e solo se l’ipotesi
nulla viene accettata.
Questo risultato è generalizzabile a tutte le altre procedure
di stima intervallare e alla corrispondente verifica di ipotesi.
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
28
14
VERIFICA D’IPOTESI SULLA MEDIA (VARIANZA NOTA)
ƒ
ƒ
H1 nell’equazione 3-22 rappresenta una ipotesi
alternativa a due code (o bilaterale)
La procedura per testare questa ipotesi consiste:
considerare un campione casuale di n osservazioni
della variabile casuale X,
− calcolare la statistica test, e
− rigettare H0 se |Z0| > Zα/2, dove Zα/2 è il percentile
superiore a livello α/2 della distribuzione normale
standard
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
29
VERIFICA D’IPOTESI SULLA MEDIA (VARIANZA IGNOTA)
ƒ
ƒ
ƒ
Per le ipotesi alternative a due code, rigettare H0 se |t0|
> tα/2,n-1, dove tα/2,n-1, è il percentile superiore a livello
α/2 della distribuzione t con n − 1 gradi di libertà
Per l’ipotesi alternativa ad una coda,
ƒ se H1: µ1 > µ0, rigettare H0 if t0 > tα,n − 1, e
ƒ se H1: µ1 < µ0, rigettare H0 if t0 < −tα,n − 1
Si potrebbe inoltre calcolare il P-value del t-test
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
30
15
ESEMPIO
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
31
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
32
ESEMPIO
16
ESEMPIO
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
33
VERIFICA D’IPOTESI SULLA PROPORZIONE
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
34
17
VERIFICA D’IPOTESI SULLA DIFFERENZE DI 2 MEDIE (VARIANZE NOTE)
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
35
VERIFICA D’IPOTESI SULLA DIFFERENZE DI 2 MEDIE (VARIANZE IGNOTE)
VARIANZE IGNOTE MA UGUALI
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
36
18
VERIFICA D’IPOTESI SULLA DIFFERENZE DI 2 MEDIE (VARIANZE IGNOTE)
VARIANZE IGNOTE E DIVERSE
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
37
VERIFICA D’IPOTESI SULLA DIFFERENZE DI 2 PROPORZIONI
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
38
19
VALUTAZIONE DELLA POTENZA DEL TEST
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
39
RELAZIONE TRA POTENZA DEL TEST E DIMENSIONE CAMPIONARIA
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
40
20
CURVA OPERATIVA CARATTERISTICA
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
41
21