Diapositiva 1 - e

annuncio pubblicitario
Elementi di Calcolo delle Probabilità
•
•
•
•
•
•
I dati che raccogliamo e su cui lavoriamo sono stati
acquisiti con delle procedure in cui interviene il caso.
Si pensi agli esperimenti e al campionamento
Dobbiamo studiare “il comportamento” del caso
La teoria della probabilità è basata sul concetto di
esperimento casuale; ovvero un esperimento il cui
risultato non può essere previsto con certezza prima di
eseguire l'esperimento.
Di solito si assume che l'esperimento possa essere
ripetuto all'infinito, essenzialmente sotto le stesse
condizioni.
Questa assunzione è importante poiché la teoria della
probabilità si occupa dei risultati a lungo termine, al
replicare dell'esperimento.
1
Il comportamento del caso e la valutazione della
probabilità
• Perché le scommesse, che dipendono dalla faccia
del dado, o dalla carta che uscirà che sono
imprevedibili, sono un business redditizio per i
casinò?
• Se si sottopongono tutti gli impiegati di un’azienda a
un test sull’Aids, qual è la probabilità che almeno un
test sia positivo se tutti gli individui sottoposti al
test sono sani?
• Conoscendo il gruppo sanguigno di 100 individui,
qual è la probabilità che, per un individuo scelto a
caso, il gruppo non sia A?
I fenomeni aleatori e il comportamento del caso
• Per rispondere alle precedenti domande dobbiamo
studiare i fenomeni aleatori o casuali e le regole che
governano il comportamento del caso.
• Il comportamento del “Caso” non è prevedibile a breve
termine, ma ha un andamento regolare e
probabilisticamente prevedibile a lungo termine.
• I risultati dei fenomeni aleatori mostrano un andamento
che rivela delle regolarità in modo chiaro in numerose
ripetizioni anche se il risultato di ciascuna prova non è
prevedibile.
• Questo fatto notevole è alla base dell’idea di probabilità e
della possibilità di valutazione probabilistica in molti casi di
interesse.
Un esempio
Cosa succede se lanciamo una moneta molte volte?
Nell’esempio: H H H H T T H T T H H H H T T…..
Si vede, dalla figura, come la proporzione (frequenza relativa) di teste sia molto
variabile nei primi lanci…..
120 lanci
www.whfreeman.com/scc
probability applet
Un esempio (continua)
Aumentando il numero di lanci la proporzione (frequenza relativa)
di teste si avvicina a 0.5
Diciamo che 0.5 è la probabilità di testa
440 lanci
ESEMPIO
5000 lanci
Proporzione dei lanci il cui risultato è testa all’aumentare dei lanci. Per un numero
elevato di lanci tale proporzione è molto vicina a 0.5. Il grafico mostra i risultati
ottenuti con 2 esperimenti.
L’idea di probabilità
• Probabilità 0.5 significa che ci aspetta che l’evento di interesse
“si verifichi metà delle volte su un gran numero di prove”.
• Si potrebbe sospettare che la probabilità che esca testa è 0.5
perché la moneta ha 2 facce, ma non basta (esistono le
monete truccate).
• Analogamente anche i bambini possono essere di sesso M o F
e le probabilità, calcolate statisticamente, non sono uguali: la
probabilità di M è circa 0.51.
• Questa idea di probabilità è empirica. La probabilità descrive
ciò che ci si aspetta che succeda in moltissime prove.
La probabilità di un evento e la legge empirica
del caso
P(A)= P(“esce 8”)
= 5/36
= 0.138
Miti e false credenze
 L’idea di probabilità si basa sul fatto che i fenomeni
aleatori “tendono a regolarizzarsi su un gran numero di
prove”.
 Ma la nostra intuizione su ciò che è aleatorio ci inganna.
 Pensiamo che tale regolarità si manifesti anche su poche
prove.
 Se ciò non accade cerchiamo delle spiegazioni… che sono,
generalmente,in contraddizione con la teoria delle
probabilità
Miti e false credenze
• Esempio 1
Lanciando 8 volte una moneta, quale sequenza è più
probabile?
H T H T T H H T oppure
TTTHHHHH
• Esempio 2
Se in una famiglia nascono 8 maschi, cosa vi aspettate per
il sesso del prossimo nascituro?
Es 1
A questa domanda la maggior parte risponde che è più
probabile la prima. Ma sono entrambe ugualmente
probabili. La moneta non ha memoria. Non sa quali fossero
i risultati precedenti e non può cercare di creare una
sequenza bilanciata.
Es 2
La maggior parte delle risposte è: femmina
La serie consecutiva di nascite maschili (che è prevista dal
calcolo delle probabilità) sorprende. Poiché non siamo
abituati a vedere lunghe serie di prove non abbiamo una
buona percezione del comportamento del caso.
Molti credono, a torto, nella “legge dei piccoli numeri”.
In realtà è dimostrato statisticamente che le sequenze di
nascite di bambini di uno stesso sesso sono più frequenti di
quanto il semplice caso suggerirebbe. In altre parole nel
caso precedente è più probabile (la spiegazione è genetica)
che si osservi un’altra nascita maschile.
Elementi di Calcolo delle Probabilità: modello probabilistico
Ad un esperimento casuale (v. pag 1) sono sempre
associati:
1) un insieme di tutti i possibili risultati (spazio
campionario Ω). I possibili risultati sono “punti” in
questo “spazio”.
2) una famiglia di suoi sottoinsiemi (gli eventi)
3) una probabilità P associata ad ogni evento
Questi 3 elementi costituiscono un modello matematico
adatto a descrivere un esperimento casuale.
12
Quale spazio campionario Ω?
• Es: esperimento aleatorio o casuale: lancio di un dado
• Es: esperimento casuale: misurazione del peso dei
ragazzi di 11 anni in una determinata città.
Prendiamo come spazio campionario Ω l’insieme [ 0,∞),
anche se la maggior parte degli elementi di questo
insieme sono impossibili all’atto pratico.
• Es: esperimento casuale: si vuole determinare il minimo
dosaggio di un farmaco al quale un paziente reagisce
positivamente.
• Si potrebbe pensare Ω = (0, ∞)
• Un evento E potrebbe essere il dosaggio è compreso fra 2 e
10 E = (2,10)
Si noti che su molti testi Ω è indicato con S
13
La probabilità di un evento: definizione frequentista
• Intuitivamente, la probabilità di un evento dovrebbe
misurare la frequenza relativa dell'evento a lungo
termine. Specificamente, supponiamo di ripetere
indefinitamente l'esperimento casuale.
• Per un evento A dell'esperimento la probabilità è la
proporzione di volte nella quale l’evento si
verificherebbe se si ripetesse l’esperimento infinite
volte nelle stesse condizioni
• Ad es. se campioniamo casualmente un individuo da
una popolazione composta per 2/3 da maschi, la prob.
di campionare un maschio sarà 2/3
La probabilità di un evento
La
probabilità
matematica
è,
quindi,
un’idealizzazione teorica di quello che potrebbe
accadere in una serie infinita di prove.
Ma molto spesso si studiano eventi aleatori per
i quali non è possibile calcolare la probabilità
teorica.
In questi casi accettiamo come probabilità, la
frequenza relativa di un evento che si ottiene da un
numero abbastanza elevato di prove o di
osservazioni, tutte effettuate nelle stesse
condizioni.
La probabilità di un evento
Ad esempio, non è possibile sapere la probabilità che
esca "testa" lanciando una moneta truccata. L'unico modo
per conoscere tale probabilità è di lanciare un gran numero
di volte la moneta registrando i risultati.
Ad esempio, su 1000 lanci otteniamo 612 volte testa.
Si può dire che la probabilità di ottenere testa con
quella moneta è pari a 0.612.
Questa probabilità ottenuta empiricamente non può
essere calcolata con precisione.
Quasi certamente se si facesse un'altra serie di 1000
lanci si otterrebbe un risultato lievemente diverso!
La probabilità di un evento
Ad esempio, se il 75% dei ceppi di Enterococcus è resistente alla
tetraciclina, allora avremo una probabilità pari a 0.75 (75%) che un
ceppo di Enterococcus preso a caso sia resistente.
17
La probabilità di un evento
In una serie di prove, ripetute un gran numero di volte ed
eseguite tutte nelle stesse condizioni, la frequenza relativa
tende ad assumere valori prossimi alla probabilità dell’evento
stesso e l’approssimazione è tanto maggiore quanto più
numerose sono le prove eseguite.
Esempio: Se negli ultimi 30 anni nella nostra città ha nevicato
18 volte, la probabilità che nevichi quest’ anno è 18/30=3/5.
Esempio: Si vuole calcolare la probabilità che un neonato sia
femmina. Su 100.000 nascite si sono avute 48.500 femmine.
Essendo il numero di prove sufficientemente elevato ed ogni
prova indipendente dall'altra, utilizziamo la definizione
frequentista:
P(F) = 48500 / 100000 = 0,485 P(M) = 51500 / 100000 = 0,515
La probabilità: esempio
Un altro esempio: Qual è la probabilità che un
lavoratore abbia un infortunio sul lavoro?
Difficile rispondere! Certamente dipende dal lavoro che
fa.
Un operaio minatore è sicuramente più a rischio di un
impiegato alle Poste. Questo perché statisticamente ci
sono più infortuni lavorando in una miniera che in un
Ufficio Postale.
Esempio: Mi aspetto che un capretto che deve nascere
abbia il vello a macchie o che l’abbia nero?
Come posso “misurare” la probabilità con cui si
produce un evento o l’altro?
Definizione frequentista: rapporto tra il numero di
volte in cui si è verificato l’evento e il numero di prove
fatte
Avremo bisogno di far fare molti
figli alle nostre capre
Se la probabilità che un figlio sia nero è ¾ quale è
la prob. che sia a macchie?
Dal campione alla popolazione
Campione
Popolazione
Unità statistiche
Unità statistiche
Variabili osservate
Variabili aleatorie
Valori delle variabili
Valori delle v. a.
Statistiche descrittive o
Indici riassuntivi
Stimatori dei parametri incogniti
Distribuz. di frequenze relative
Distr. di probabilità
Certezza
Incertezza
21
Dalle distribuzioni di frequenze alle distribuzioni di probabilità
Esempio. Si è osservato un campione di 730 nidi di una
particolare specie di uccello in una determinata foresta e si è
costruita la distribuzione di frequenze del numero di uova per
nido
Quale esperim. casuale? Ω =? Quali eventi elementari?
N° uova
0
Frequenze
90 nidi
Frequenze relative
0.12
1
165
0.23
2
209
0.29
3
187
0.26
4
67
0.09
5
12
0.01
730
1.00
Totale
22
Continuazione dell’Esempio.
Volendo studiare l’intera popolazione incognita di nidi
da cui proviene il campione, poiché le frequenze
relative per tutta la popolazione non sono note si può
pensare (usando la def. frequentista di probabilità) che,
ad es., 0.12 rappresenti la probabilità di trovare 0 uova
in un nido della popolazione.
In questo studio si vogliono calcolare le probabilità dei
possibili valori della variabile aleatoria n° di uova per
nido e la legge secondo cui tali probabilità evolvono,
ossia la distribuzione di probabilità della v. a.
23
Continuazione dell’Esempio.
Si pensa a un Modello Probabilistico (Stocastico)
per rappresentare il fenomeno aleatorio
(esperimento casuale) osservato con
riferimento all’intera popolazione
Un fenomeno aleatorio non è prevedibile e ha
caratteristiche aleatorie
In altre parole, si cerca una rappresentazione
idealizzata della realtà ossia di quello che si
osserva
Distribuzioni di probabilità – Modelli probabilistici
Distribuzioni di frequenze relative (campione)
Distribuzioni di probabilità (popolazione)
Esempio. Distribuzione del numero di uova per nido di una
particolare specie di uccello in una foresta.
N° uova
Frequenze
Frequenze
relative
Probabilità
0
1
2
3
4
5
Totale
90
165
209
187
67
12
730
0.12
0.23
0.29
0.26
0.09
0.01
1.00
0.12
0.23
0.29
0.26
0.09
0.01
1.00
25
grafico a segmenti della distribuzione di frequenze
relative o probabilità della v. a. n° di uova per nido
N° DI NIDI
GRAFICO DELLE FREQUENZE
RELATIVE O DELLE PROBABILITA'
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
1
2
3
4
5
N° DI UOVA PER NIDO
26
Distribuzioni di probabilità discrete
• Grafico a segmenti delle frequenze relative
Grafico a segmenti delle probabilità: raffigura la
distribuzione di probabilità della variabile aleatoria
discreta: “n° di uova per nido”.
La distribuzione di probabilità è la distribuzione di una
variabile aleatoria nell’intera popolazione.
In realtà dovremmo ripetere il nostro esperimento un n°
infinito di volte per ottenere esattamente questa
distribuzione.
E’una distribuzione teorica che ci dice quali frequenze
relative (probabilità) per ogni risultato dobbiamo
aspettarci su un gran n° di prove.
27
Variabili aleatorie discrete
• Una variabile aleatoria o casuale X discreta
assume diversi valori con probabilità
specificate dalla sua funzione di distribuzione
• Le v. a. discrete assumono un numero finito o
un’infinità numerabile di valori, Xi =xi i=1,2,...;
• Sono completamente descritte quando sia
nota la probabilità con cui si può verificare
ciascun valore: P(Xi =xi) =pi con Σpi = 1
• Media e Varianza sono indici riassuntivi delle
proprietà di tali variabili
Distribuzioni di probabilità
Si osserva un fenomeno aleatorio.
Esempio. Numero di uova per nido di una particolare
specie di uccello in una determinata foresta.
Come rappresentare questa aleatorietà?
Si cerca una Rappresentazione idealizzata della realtà
Per il fenomeno studiato si valutano le probabilità e la
legge secondo cui tali probabilità evolvono
Si pensa a un Modello probabilistico (aleatorio)
Vedremo come diverse distribuzioni di probabilità
(modelli aleatori) possano essere adattate a diverse
situazioni reali 
MODELLIZZAZIONE
29
Distribuzioni di probabilità discrete come modelli
• modelli stocastici (stocastico = dovuto al caso,
aleatorio), tengono in considerazione le variazioni
(casuali e non) delle variabili di input, e quindi
forniscono risultati in termini di "probabilità".
• È importante sottolineare che ciò che differenzia i
modelli deterministici da quelli stocastici è che in
questi ultimi si tiene conto della variabilità dei dati di
input.
• Distribuzioni di probabilità discrete (modelli
stocastici), utili nelle applicazioni, che studieremo:
• Distribuzione binomiale, Distribuzione di Poisson
Distribuzioni discrete per variabili di tipo discreto
La funzione di distribuzione specifica la probabilità
che la variabile aleatoria assuma uno specifico
valore. Per esempio mi permette direttamente di
calcolare:
P(X = 3), ovvero la probabilità che la v. a. X assuma il
valore 3 se la variabile può assumere solo valori
discreti come 0, 1, 2, 3,... La somma di tutte le
probabilità calcolate per ogni valore che può
assumere la v. a. deve essere pari a 1.
Le caratteristiche principali della funzione sono
f(x) = P(X=x)
f(x) ≥ 0 per tutti i valori che può assumere x
Σx f(x) = 1
Distribuzione uniforme
Esempio di variabile aleatoria discreta:
quale distribuzione (quale modello) ??
• Siamo interessati alla v. a. discreta X che conta il numero di
femmine in una famiglia di 3 figli.
• Ossia “il numero di successi” su 3 prove.
• Per tale variabile quale distribuzione di probabilità??
Valori di X:
0
1
2
3
33
Esempio di modello probabilistico discreto:
la distribuzione di probabilità binomiale
• Siamo interessati alla v. a. discreta X che conta il numero di
femmine in una famiglia di 3 figli.
• Ossia “il numero di successi” su 3 prove.
• Il modello ideale per rappresentare tale situazione è dato
dalla: distribuzione binomiale di parametri n, p, dove n=3 e
p=0.5
Valori di X:
0
1
2
3
Probabilità di tali valori: 0.125 0.375 0.375 0.125
(o frequenze relative)
Il modello probabilistico binomiale è un buon modello per
rappresentare il fenomeno aleatorio che conta il n° di
femmine in una famiglia di 3 figli.
Facciamo uso di una distribuzione di probabilità di cui è nota
34
l’espressione
La distribuzione di probabilità binomiale
• Esempio: Qual’e la probabilità che ci sia solo un
maschio in una famiglia di 3 figli?
• Esperimento casuale costituito da 3 prove, ossia le 3
nascite (eventi o risultati dell’esperimento), ripetute e
indipendenti in ciascuna delle quali sono possibili 2
risultati che indicheremo con 1 e 0.
• Per ogni prova, è nota e costante la probabilità di
successo. Nell’esempio:
1
0
p ≈ 0.5
1-p ≈ 0.5
35
Distribuzione binomiale di parametri n e p
• Qual’e la probabilità che in una famiglia di 3 figli (3 prove) ci
sia solo un maschio (n° successi X =1) ?
• Qual è la probabilità che su n prove il n° di successi X sia
uguale a k?
k= 0,1,…,n
n k
p ( X  k )    p (1  p ) n  k
k 
Media = ?
Varianza = ?
36
Grafico della distribuzione di probabilità binomiale di
parametri n = 3 e p = 0.5 (Es. precedente)
I parametri individuano in modo univoco la distribuzione binomiale
37
Graphs
Graphs of
of Selected
Selected
Binomial
Binomial Distributions
Distributions
n = 4 PROBABILITY
X
0.1
0.5
0
0.656
0.063
1
0.292
0.250
2
0.049
0.375
3
0.004
0.250
4
0.000
0.063
0.9
0.000
0.004
0.049
0.292
0.656
P(X)
P = 0.5
1.00 0
0.90 0
0.80 0
0.70 0
0.60 0
0.50 0
0.40 0
0.30 0
0.20 0
0.10 0
0.00 0
0
0
1
2
3
2
3
X
4
P = 0.9
1.00 0
0.90 0
0.80 0
0.70 0
0.60 0
0.50 0
0.40 0
0.30 0
0.20 0
0.10 0
0.00 0
P(X)
P(X)
P = 0.1
1
2
3
X
4
1.00 0
0.90 0
0.80 0
0.70 0
0.60 0
0.50 0
0.40 0
0.30 0
0.20 0
0.10 0
0.00 0
0
1
X
4
38
Modellizzazione di un fenomeno osservato: la distr. binomiale
Sono stati esaminati 480 nidi di tordo dove erano sopravissuti
5 uccellini. Si osserva il n° di femmine sopravissute in ogni
nido.
femmine
maschi
5
0
probabilità frequenze frequenze
binomiale osservate relative
0.038
21 nidi con 5 0.043
femmine
4
1
0.159
76
0.158
3
2
0.310
138
0.287
2
3
0.310
142
0.295
1
4
0.159
80
0.166
0
5
0.038
23
0.047
39
Modellizzazione di un fenomeno osservato: la distr.
binomiale
• Attenzione: In ogni nido ci sono un numero di prove fisso
(n=5), con una certa probabilità di successo e insuccesso
in ogni prova.
• Se in ogni nido la prob. di essere femmina fosse uguale e
indipendente per ogni piccolo, quale distrib. mi aspetterei
per il numero di femmine (v. a. X)?
• Si cerca di modellizzare il fenomeno con una distribuzione
binomiale con p=0.5 (il valore p=0.5 è ipotizzato perché
non noto) e n=5.
• ll parametro n della binomiale è noto (5), p è la
probabilità di successo (femmina) nella singola prova
(uovo) in 5 prove (un nido).
Esempio di modellizzazione
A confronto il grafico freq.
rel. perc. osservate per il
fenomeno e il grafico delle
probab. binomiali n=5; p= 0.5
Ottimo modello
Distribuzione binomiale: esempi
Esempi
a. Numero di ibridi su n osservazioni;
b. Numero di studenti su n che superano
l’esame con un voto maggiore di 28.
Quale v. a.? Quali parametri?
• Modellizziamo fenomeni che non sono
prevedibili e che hanno caratteristiche
aleatorie.
Facciamo uso di una distribuzione di prob. di
cui è nota l’espressione.
42
Distribuzione binomiale: esempio
• Nella pianta di tabacco Nicotiana c’è un allele
recessivo di un gene coinvolto nella produzione della
clorofilla che, in omozigosi, non produce clorofilla e
quindi si avranno foglie bianche.
• In campioni casuali di dimensione n= 13, il n° X di
piantine con foglie bianche sarà modellizzato da una
binomiale con p=0,25.
• Perché?
• Qual è la prob. che X=0?
ESEMPIO
Una certa malattia ha un’evoluzione per cui non si
conoscono terapie, tuttavia tra le persone colpite il 40%
guarisce spontaneamente nell’arco di due mesi.
Non conoscendo particolarità della malattia, la possibilità
di guarigione nell’arco di due mesi viene vista come
puramente casuale.
Con quale probabilità tra 6 persone colpite dalla malattia
2 guariranno spontaneamente nell’arco di due mesi?
Quali parametri?
Qual è il numero medio di guarigioni spontanee? Quanto
vale la varianza?
Con quale probabilità nessuno guarirà spontaneamente?
ESEMPIO
Quattro bambini vengono vaccinati contro il morbillo.
Il vaccino attecchisce con probabilità 0.8, garantendo
l’immunità del bambino alla malattia.
Quale v. a.? Quali parametri?
Con quale probabilità tutti i bambini risultano
immunizzati?
Se 100 bambini vengono vaccinati, qual è il numero
medio di bambini immunizzati?
Quanto vale la varianza di tale numero?
Modellizzazione
In sostanza, la creazione di un modello inizia con lo studio del fenomeno nella realtà; le
osservazioni derivanti dallo studio vengono interpretate per cogliere gli aspetti più
importanti del fenomeno. Poi, si costruisce il modello, lo si fa "funzionare" e si controlla se
e quanto i risultati ottenuti corrispondono con la realtà. Poi il modello viene riconsiderato
e modificato per renderlo più efficiente, e così di seguito.
La distribuzione di probabilità di Poisson di parametro λ
ESEMPIO Supponiamo di ispezionare un campione di 20 nidi
Supponiamo di osservare in questo campione per ogni nido
il numero di piccoli sopravvissuti. Il numero totale di piccoli
sopravvissuti risulta pari a 38
Il numero medio  di piccoli sopravvissuti per nido è pari a
38/20.
λ è il parametro che individua ciascuna distrib. di Poisson
Possiamo pensare ai nidi come ad una griglia 4x5 con 20
caselle (ogni casella è un nido), ciascuna delle quali può
contenere 0, 1, 2, …numeri di pulcini sopravvissuti
Qual è la variabile di interesse? E’ noto il n° massimo che può
assumere tale variabile?
47
La distribuzione di Poisson
Come è distribuito il n° di
piccoli sopravvissuti se
l’unico effetto che agisce
su questo numero è il
caso?
48
La distribuzione di Poisson
La differenza rispetto alla distribuzione binomiale è
chiara: il numero massimo che può assumere la
variabile (numero di piccoli sopravvissuti per nido)
non è noto.
Perciò ci si chiede come è distribuito il numero di
piccoli sopravvissuti?
Ossia, quanti nidi mi aspetto con 0,1,2,….. piccoli se
l’unico effetto che agisce su questo numero è il
caso?
Non posso applicare la binomiale, appunto perchè
la situazione è diversa
49
Distribuzione di probabilità di Poisson di parametro λ
P( X  k
successi)  e


k
k!
X =0, 1,2,….
La v. a. X può assumere un n° infinito di valori interi,
e λ è il numero medio di successi indipendenti nel tempo
o nello spazio, ossia numero totale di eventi/numero
totale di intervalli (o blocchi) spaziali, volumetrici, o
temporali.
Si noti che, quando si modellizza con una distribuzione di
prob. un fenomeno osservato, i parametri non sono noti e
vanno stimati sulla base del campione.
Distribuzione di probabilità di Poisson
• La distribuzione di Poisson descrive il numero di successi
in intervalli (o blocchi) spaziali, volumetrici, o temporali
quando
• i successi avvengono indipendentemente l'uno dall'altro
• i successi hanno la stessa probabilità di verificarsi in ogni
punto dello spazio, di volume, o di tempo.
• Possiamo quindi usare questa distribuzione teorica di
probabilità come modello per predire se le osservazioni
che abbiamo fatto (nel tempo, nello spazio) sono
compatibili con il semplice effetto del caso
[a differenza della binomiale, il numero di prove non è
noto!
La distribuzione di Poisson
Altre esempi di variabili che potrebbero seguire, se interviene
solo la casualità, la distribuzione di Poisson:
- numero di semi di una pianta infestante in un certo volume
di terriccio in vendita
- numero di mutazioni in un certo intervallo di tempo
- numero di casi di influenza in un paese in una settimana
-numero di incidenti stradali mortali in un mese in una città
- numero di pezzi difettosi in una giornata di produzione
-numero di cetacei presenti in un tratto di mare
In tutti questi casi si può immaginare che nell’area, volume,
tempo analizzati ci sia la possibilità teorica di osservare un
numero elevatissimo di eventi tipo “presenza”, ma che quelli
realmente osservati siano invece “rari”.
52
Poisson Distribution: Graphs
 1. 6
0.35
0.30
  6. 5
0.16
0.14
0.12
0.25
0.10
0.20
0.08
0.15
0.06
0.10
0.04
0.05
0.02
0.00
0.00
0
1
2
3
4
5
6
7
8
0
2
4
6
8
10
12
14
16
Al crescere del parametro λ la distribuzione diventa sempre
più simmetrica e ha il massimo nel punto λ.
53
ESEMPIO
• n = 20 pazienti sono esaminati per vedere se
un nuovo farmaco induce una prob. di
ricovero del 40%
• Quale v. a.? Come modellizzare il fenomeno ?
(specificare sempre i parametri della
distribuzione)
= media di eventi per blocco, ossia numero
totale di eventi/numero totale blocchi
•
Grafico relativo all’esempio precedente
x
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
p(x)
0.000037
0.000487
0.003087
0.012350
0.034991
0.074647
0.124412
0.165882
0.179706
0.159738
0.117142
0.070995
0.035497
0.014563
0.004854
0.001294
0.000270
0.000042
0.000005
0.000000
0.000000
Esempio
In una pop. di soggetti affetti da tumore cerebrale il
56% dei malati non presenta crisi epilettiche come
primo sintomo.
Si devono esaminare 5 nuovi soggetti e ci si chiede
quale sia la prob. che 3 dei 5 non presentino una crisi
epilettica come primo sintomo.
Quale v. a.? Come modellizzare il problema? Quali
parametri?
Grafico relativo all’esempio precedente
Parametri n=5
p= 0.56
X
0
1
2
3
4
5
p(x)
0.016492
0.104947
0.267137
0.339993
0.216359
0.055073
E’ molto importante che x e p si riferiscano all’esito identificato
come “successo”
ESEMPIO
• Un professore di biologia programma di assegnare
un quiz a sorpresa che consiste in 4 domande a
risposta multipla, ognuna delle quali ha 5 risposte
possibili (a,b,c,d,e) una sola delle quali è corretta.
Se uno studente impreparato risponde in modo
casuale, qual è la prob. che risponda in modo
corretto a 3 delle 4 domande?
Quale v.a.? Quale modello? Quali parametri?
Esempio
In un ospedale le nascite avvengono
casualmente e ci sono mediamente 1.8 nascite
all’ora.
Qual è la prob di osservare 4 nascite fra le 21 e
le 22 di un qualsiasi giorno?
Quale v.a.? Quale modello? Quali parametri?
Grafico relativo all’esempio precedente
parametro λ =1.8
x
p(x)
0
1
2
3
4
5
6
7
8
9
0.165299
0.297538
0.267784
0.160671
0.072302
0.026029
0.007809
0.002008
0.000452
0.000090
Esempi
1) Per analizzare le tracce delle bombe V-I della
seconda guerra mondiale, la zona meridionale di
Londra è stata suddivisa in 576 regioni , ognuna delle
quali di area 0.25 Km2. Un totale di 535 bombe ha
colpito l’area delle 576 regioni.
Qual è la prob che, una regione scelta a caso, sia stata
colpita 2 volte?
Quale v.a.? Quale modello? Quale parametro?
2) Numero di auto in attesa al semaforo: è distribuita
secondo Poisson?
Variabili aleatorie continue: L’ISTOGRAMMA
Peso (kg) di 150 studenti tra i 12-18 anni
0.50
0.40
0.30
0.20
0.10
0.00
40-50 51-60 61-70 71-80 81-90 91+
62
Variabili aleatorie continue: L’ISTOGRAMMA
Aumentiamo il n° delle osservazioni: Peso (g)
di 150.000 studenti tra i 12-18 anni
0.05
0.04
0.04
0.03
0.03
0.02
0.02
0.01
0.01
0.00
30
40
50
60
70
80
90
100
63
Distribuzione di probabilità normale: Peso di
studenti tra i 12-18 anni
Poiché le misure di peso sono su di una scala
continua, è possibile aumentare il grado di
precisione delle misurazioni in modo che le classi di
frequenza siano a intervalli di 0.001 kg (1 g) invece
che di 1 kg.
Se si considera un numero di osservazioni molto
grande a un grado di precisione infinitamente
elevato, i gradini dell’istogramma si trasformano in
una curva continua simile a quella della
distribuzione normale (con un andamento a
campana).
64
Distribuzione normale
• Se la scala del grafico è tale che l’area totale sotto la
curva è pari a 1, allora l’area rappresenta tutte le
osservazioni e la curva è una curva di densità.
• L’area che sta sotto la curva e sopra un determinato
intervallo di valori rappresenta la proporzione
(frequenza relativa) di tutte le osservazioni che cadono
in quell’intervallo.
• Si può, anche, dire che tale area rappresenta la
probabilità che un individuo scelto a caso appartenga a
quell’intervallo.
• Nell’es. dei pesi la distrib. Normale rappresenta un
buon modello per la popolazione da cui proviene il
campione osservato e può aiutare nello studio del
fenomeno in questione.
65
Non tutte le distr. sono simmetriche. The histogram below shows
the best 10 sprint times from the 168 all-time top male 100m
sprinters. There are 1680 times in total, representing the top 10
times up to 2002 from each of the 168 sprinters. Ora il record è 9.58?
the most probable times are close to 10.2 seconds;
• the distribution of times has a long left tail (left skew);
• times below 10.0s and above 10.3 seconds have low frequency (e freq relativa percentuale)
0.05s intervals
Densità
67
Istogramma e distribuzione normale: un altro
esempio
• Esempio 13. Nella tabella che segue sono riportate
le lunghezze (al mm più vicino) di 100 germogli nati
da semi piantati allo stesso tempo.
• Ad esempio, tutti i germogli di lunghezza tra
73.5mm e 74.5mm sono inseriti nella classe 74mm.
• Nella tabella sono, anche, riportate la distribuzione
delle frequenze, delle frequenze relative e delle
frequenze cumulate dei valori della variabile
“lunghezza dei germogli”.
68
Tabella delle frequenze
Intervallo
classe
Lunghezza
(mm)
Frequenza
Frequenza
relativa
Frequenza
rel. cumulata
67.5-68.5
68
1
0.01
0.01
68.5-69.5
69
2
0.02
0.03
69.5-70.5
70
4
0.04
0.07
70.5-71.5
71
7
0.07
0.14
71.5-72.5
72
11
0.11
0.25
72.5-73.5
73
15
0.15
0.40
73.5-74.5
74
20
0.20
0.60
74.5-75.5
75
16
0.16
0.76
75.5-76.5
76
10
0.10
0.86
76.5-77.5
77
6
0.06
0.92
77.5-78.5
78
4
0.04
0.96
78.5-79.5
79
2
0.02
0.98
69
Le frequenze relative cumulate
• La frequenza relativa cumulata per una data
classe è ottenuta come somma della
corrispondente frequenza relativa e di tutte
quelle relative alle classi precedenti.
• In modo analogo si definisce la frequenza
cumulata.
• Spesso si considera la frequenza percentuale
cumulata pari alla frequenza relativa cumulata
moltiplicata per 100.
70
istogramma della lunghezza(mm) di 100 germogli
0,20
Density
0,15
0,10
0,05
0,00
68
70
72
74
76
lunghezza (mm) germogli
78
80
E’ unimodale (classe modale 73.5-74.5 mm)
x = 74.02mm e deviazione standard s = 2.39mm.
71
L’esempio dei germogli
Sia X la lunghezza (mm) di un germoglio.
Si è visto che le lunghezze del campione di 100 germogli si
distribuiscono approssimativamente come una distrib.
simmetrica con media x = 74.02mm
e deviazione
standard s = 2.39mm 
Possiamo pensare che la distr. Normale rappresenti un buon
modello per la popolazione da cui proviene il campione
X ~ N( 74.02, 2.39)
x e s forniscono le stime di µ e σ che sono incogniti per
l’intera popolazione
72
istogramma della lunghezza(mm) germogli
0,20
Density
0,15
0.07
0,10
0,05
0,00
68
70 a
b 72
74
76
lunghezza (mm) germogli
78
80
L’area della barra sull’intervallo a=70.5 e b=71.5 è pari
a 0.07. Corrisponde al 7% di tutte le osservazioni.
Ossia, nel campione di 100 germogli, il 7% ha
73
lunghezza tra 70.5 e 71.5.
istogramma della lunghezza(mm) germogli
0,20
Density
l’osservazione
b a quale
percentile
corrisponde?
0,15
0.14
0,10
0,05
0,00
68
70
b
72
74
76
lunghezza (mm) germogli
78
80
L’area tratteggiata in rosso rappresenta la
frequenza relativa cumulata che fino al punto
b è pari a 0.14 (14%).
74
istogramma della lunghezza germogli
Normal
Mean
StDev
N
0,20
74,02
2,395
100
Density
0,15
0,10
0,05
0,00
68
70
72
74
76
lunghezza (mm) germogli
78
80
Se si aumenta il numero di osservazioni e si diminuisce
l’ampiezza delle classi, l’istogramma si avvicina a una
curva normale e l’area sotto la curva tra a=70.5 e b=71.5
è pari a 0.075 (si ricava dalle tavole della normale) ed è
molto vicina alla percentuale (proporzione) osservata di
75
germogli di lunghezza tra 70.5 e 71.5.
ESEMPIO: Pesi alla nascita
• Si considererà un sottoinsieme dei dati di un ampio studio
condotto sulle donne in gravidanza tra il 1960 e il 1967 a San
Francisco. Allo studio hanno partecipato 15000 famiglie con
un livello di studio e di reddito medio-alto.
• Diverse misure del bambino venivano registrate alla nascita.
• Inizialmente considereremo 1236 maschi, nati tra il 1960 e il
1961, e che sono sopravissuti almeno 28 giorni. Per tali
maschi si considereranno
Variabile
Descrizione
Peso alla nascita
Peso alla nascita in once (0.035
once=1gr)
Abitudine al fumo della madre
Indicatore dell’abitudine al fumo in
gravidanza. Fumo si (1), no (0) 76
istogramma pesi bambini di fumatrici
Ampiezza
classi=10
25
Percent
20
Campione
n=1236
15
10
5
0
50
60
70
80
90
100
110 120
pesi
130
140
150
160
170
1) Interpretate l’istogramma. 2) A quale percentile corrisponde il
peso di 100 once? 3) Come si interpreta tale percentile?
77
istogramma pesi bambini di fumatrici
25
Percent
20
15
10
5
0
50
60
70
80
90
100
110 120
pesi
130
140
150
160
170
Qual è la probabilità che un bambino pesi tra 100 e 109 once?
Qual è la prob che un bambino pesi almeno 80 once?
78
Pesi di bambini nati da fumatrici
Prob che un
bambino pesi
tra 100 e 109
once 
100<peso<109
79
Pesi di bambini nati da fumatrici
80
istogramma pesi bambini di fumatrici
25
circa15% ≈ 0.15
Percent
20
15
Prob. di un bambino
con peso ≤ 80 once
10
0,033
5
0
50
60
70
80
90
100
110 120
pesi
130
140
150
160
170
Qual è la probabilità che un bambino pesi tra 100 e 109 once? ≈ 0.15
Qual è la prob che un bambino pesi almeno 80 once? 
1- 0.033 = 0.967
81
La classe mediana
Fumatrici e non fumatrici distinte
Classe birth weight
50-59
60-69
70-79
80-89
90-99
100-109
110-119
120-129
130-139
140-149
150-159
160-169
170-179
Cumulata percentuale non F
0.13
0.53
1.61
3.36
7.54
17.78
40.16
66.84
85.71
94.07
97.70
99.19
100.00
Cumulata percentuale F
0.21
0.83
3.10
8.27
20.66
40.09
62.40
81.00
90.91
97.11
99.18
100.00
100.00
82
Box-plot pesi non fum e pesi fum
83
Ampiezzac
lassi =5
campione
n=
Mean StDev Minimum Q1 Median Q3
Maximum
114,36 18,24 58,00
102,00 115,00 126,25
163,00
Skewness Kurtosis
-0,02 -0,02
84
Istogrammi e distribuzioni normali
• Entrambi gli istogrammi relativi ai campioni dei pesi
dei neonati e delle lunghezze dei germogli
suggeriscono per i dati osservati un andamento
simile a quello di una distribuzione normale.
• Possiamo, pertanto, costruire un modello
probabilistico normale per descrivere entrambi i
fenomeni con riferimento all’intera popolazione.
• Si noti che abbiamo osservato in entrambi i casi
solo dei campioni.
• La curva di densità normale rappresenta il modello
complessivo per ciascuna delle due distribuzioni.
85
DISTRIBUZIONI DI FREQUENZA E DISTRIBUZIONI DI
PROBABILITA’
• Ricordate:
• Distribuzione di frequenza: ricostruita a partire dai
dati campionati
• Distribuzione di probabilità: ricostruita a partire
dai dati di tutta la popolazione
• Distribuzione teorica di probabilità: è definita da
una funzione matematica di cui conosco le
caratteristiche e che mi permette di calcolare una
probabilità associata a ciascun valore o intervallo
di valori
La distribuzione normale
• Tutte le distribuzioni normali hanno la stessa forma
generale. La curva di densità per una particolare
distribuzione normale si ottiene specificando la sua
media µ e la sua deviazione standard σ (o la sua
varianza σ2).
1
f (X ) 
e
 2
1  X  
 

2  
2
   X  
87
La Distribuzione Normale
1
f (X ) 
e
 2
1  X  
 

2  
2
Rappresentazione grafica di una distribuzione normale
88
Distribuzione normale N (µ, σ)- infinite distrib. al
variare di µ e σ
89
Distribuzioni di v. a. continue: la distribuzione normale
Notate:
• L'altezza (asse delle y) di queste distribuzioni non
fornisce la probabilità di osservare un valore (che è,
per definizione, pari a 0)
• L'altezza della curva è invece una densità di
probabilità (una probabilità divisa per un intervallo), e
infatti si dovrebbero chiamare più precisamente
distribuzioni di densità
• Quando ci serviremo di distribuzioni teoriche di
probabilità per variabili continue, sarà l'area sottesa
dalla curva, e non il valore di Y, a corrispondere alla
probabilità.
La distribuzione normale: una proprietà
importante
La regola 68-95-99.7
Nella distribuzione Normale con media µ e
deviazione standard σ:
• il 68% delle osservazioni è compreso
nell’intervallo
[µ − σ, µ + σ]
• il 95% delle osservazioni è compreso
nell’intervallo
[µ − 2 σ, µ + 2σ]
• il 99.7% delle osservazioni è compreso
nell’intervallo
[µ−3 σ, µ+3σ]
91
Distribuzione Normale
Questa regola può essere
controllata usando le tavole
Questa regola è esattamente vera per una distribuzione normale.
E’ vera, con buona approssimazione, per le lunghezze dei
92
germogli che sono approssimativamente normali.
Area colorata=
=0.683
C’è una probabilità
pari al 68% di
essere
compresi tra
µσ e µ+σ
Area colorata=
=0.954
C’è una probabilità
pari al 95% di
essere
compresi tra
µ2σ e µ+2σ
Area colorata=
=0.997
C’è una probabilità
pari al 99.7% di
essere
compresi tra
µ3σ e µ+3σ
93
La standardizzazione
Standardizzazione e valori z
Se x è un’osservazione da una distribuzione
che ha media µ e deviazione standard σ, il
valore standardizzato di x è
Un valore standardizzato viene spesso
chiamato valore z.
94
La standardizzazione
• La standardizzazione trasforma la variabile
aleatoria X che ha una distribuzione normale,
con media µ e dev st σ, in una v. a. Z che ha una
distribuzione normale standard con media µ=0 e
dev st =1
• Il valore z dice di quante deviazioni standard x
dista dalla media.
• Se x > µ  z è positivo
• Se x < µ  z è negativo
95
Le unità standard
1) X ~ N ( µ = 100, σ = 12 )
Trovare il valore z corrispondente a x = 128
z = (128-100)/12
= 2.333 (128 è maggiore della media di
2.3 dev. st.)
Se si standardizza una variabile aleatoria normale X si
ottiene una nuova variabile aleatoria Z con
distribuzione N (0,1).
96
La distribuzione normale standard
Z ~ N ( 0,1)
97
La standardizzazione
N ~ (20, 2)
0,977
L’area sotto la curva normale fino al valore x=24 è pari a 0,977
98
La standardizzazione
N ~ (0, 1)
z
x

24  20
z
2
2
0,977
l’area a dx di
2 è pari a
1-0,977=
0,023
L’area sotto la curva normale standard fino al valore
z = 2 è pari a 0,977
99
La distribuzione normale
I software statistici calcolano l’area sotto la curva fino
al punto x, ossia la proporzione di osservazioni che
assumono valori ≤ x. Occorre precisare media e
deviazione standard della distribuzione normale
considerata.
Area =
= probabilità
che un’unità
scelta a caso
abbia un
valore ≤ x
100
La tavola della Normale standard
L’area sotto la curva alla sinistra di z
corrisponde alla frequenza relativa
cumulata nel punto z.
101
z
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
.00
.5000
.5398
.5793
.6179
.6554
.6915
.7257
.7580
.7881
.8159
.8413
.8643
.8849
.9032
.9192
.9332
.9452
.9554
.9641
STANDARD NORMAL PROBABILIT IES (p.2)
.01
.02
.03
.04
.05
.06
.07
.5040 .5080 .5120 .5160 .5199 .5239 .5279
.5438 .5478 .5517 .5557 .5596 .5636 .5675
.5832 .5871 .5910 .5948 .5987 .6026 .6064
.6217 .6255 .6293 .6331 .6368 .6406 .6443
.6591 .6628 .6664 .6700 .6736 .6772 .6808
.6950 .6985 .7019 .7054 .7088 .7123 .7157
.7291 .7324 .7357 .7389 .7422 .7454 .7486
.7611 .7642 .7673 .7704 .7734 .7764 .7794
.7910 .7939 .7967 .7995 .8023 .8051 .8078
.8186 .8212 .8238 .8264 .8289 .8315 .8340
.8438 .8461 .8485 .8508 .8531 .8554 .8577
.8665 .8686 .8708 .8729 .8749 .8770 .8790
.8869 .8888 .8907 .8925 .8944 .8962 .8980
.9049 .9066 .9082 .9099 .9115 .9131 .9147
.9207 .9222 .9236 .9251 .9265 .9279 .9292
.9345 .9357 .9370 .9382 .9394 .9406 .9418
.9463 .9474 .9484 .9495 .9505 .9515 .9525
.9564 .9573 .9582 .9591 .9599 .9608 .9616
.9649 .9656 .9664 .9671 .9678 .9686 .9693
.08
.5319
.5714
.6103
.6480
.6844
.7190
.7517
.7823
.8106
.8365
.8599
.8810
.8997
.9162
.9306
.9429
.9535
.9625
.9699
.09
.5359
.5753
.6141
.6517
.6879
.7224
.7549
.7852
.8133
.8389
.8621
.8830
.9015
.9177
.9319
.9441
.9545
.9633
.9706
102
Area a sinistra di z = 1.47
z
1.3
1.4
1.5
.00
.9192
TABLE A
STANDARD NORMAL PROBABILITIES (p.2)
.01
.02
.03
.04
.05
.06
.07
.9207
.9222
.9236
.9251
.9265
.9279
.9292
.08
.09
.9306
.9319
NOTA: P(a ≤ z ≤ b) = P (a<z<b)
Tabelle on line:
http://econ.lse.ac.uk/ie/iecourse/
ec220course_statstables0203.pdf
103
• Dato X ~ N (504,111)
se x = 420 quanto vale z?
z=(420-504)/111= -0.75
Pr (Z<-0.75)?
z
x

se z = 1.28
quanto vale x?
x = 504+(1.28)(111) = 646.1
Qual è l’area a destra di 646.1?
104
Dato X ~ N (504,111) se z = 1.28 
x = 504+(1.28)(111) = 646.1
105
ESEMPIO
• Quale proporzione di osservazioni di una
variabile aleatoria Z assume un valore minore
di 2.33?
• Ossia qual è la frequenza relativa (o
probabilità) dei valori di
Z < 2.33?
106
107
proporzione di
osservazioni
minori di 2.33
Dalla tavola:
0.4901+0.5000 =
0.9901
Quale proporzione di osservazioni di una variabile Z
assume un valore minore di 2.33? Ossia qual è la
frequenza relativa (o probab) della v. a. Z < 2.33? 108
proporzione di
osservazioni
maggiori di 2.33
=1-0.9901
Quale proporzione di osservazioni della
variabile Z assume un valore maggiore di 2.33?
109
Ossia la probabilità che Z > 2.33?
area tra 0.00 e 0.67 = 0.2486
0.5000 – 0.2486 = 0.2514
Oppure v. tavola rossa
area a sin di 0.67= 0.7486
1.0000 - 0.7486
110
-2z
+2z
Quali sono gli estremi dell’intervallo che contiene il
95% dei valori centrali? Cosa si può dire in tal caso
delle code della distribuzione?
111
esercizio
• An exam is normally distributed with a mean of 200 points
and a standard deviation of 25 points.
• (a) What percentage of the students score above 200
points?
• (b) What percentage of the students score below 175
points?
• (c) What percentage of the students score more than 250
points?
• a) 50%
b) 16%
c) 2%
• Quali sono I percentili corrispondenti a 200, 175 e 250?
50-mo, 16-mo, 98-mo
ESERCIZIO
Ampiezza
classi =5
Mean StDev Minimum Q1 Median Q3
Maximum
114,36 18,24 58,00
102,00 115,00 126,25
163,00
Skewness Kurtosis
-0,02 -0,02
113
ESERCIZIO
Pesi bambini nati da fumatrici
• Supponendo che i pesi (once) dei bambini si
distribuiscano approx. secondo una normale
N(114;18)
i) a quale peso corrisponde il 5° percentile?
ii) a quale peso corrisponde il 95° percentile?
i) 84.39
ii) 143.6
La distribuzione normale
• Esempio 15. La distribuzione del livello di
colesterolo in un’ampia fascia di popolazione
della stessa età e dello stesso sesso è
approssimativamente normale. Per i ragazzi di 14
anni la media è µ = 170mg di colesterolo per
decilitro di sangue (mg/dl) e la dev. st. è σ =
30mg/dl. I livelli sopra 240mg/dl richiedono
attenzione medica.
• Quale percentuale di ragazzi di 14 anni ha più di
240mg/dl di colesterolo?
115
• 1) Scriviamo il problema. Sia x il livello di colesterolo
nel sangue. x ~ N(170,30). Bisogna trovare la
percentuale di ragazzi con x>240.
• 2) Standardizziamo.
x > 240
x-170 > 240-170
30
30
z > 2.33
• 3) Usiamo le tavole.
P(z < 2.33)= 0.9901. Poichè 1-0.9901=0.0099
diciamo che circa l’1% dei ragazzi ha un livello di
colesterolo superiore a 240mg/dl
(tra 0.00 e 2.33 0.4893 0.5000-0.4893 = 0.01 =1%)
116
Esempio
Soluzione
• esercizi con la normale
• lunghezza ali mosche N(45.5, 3.90)
• Quale proporzione di mosche ha ali lunghe più di 51 decimi di
mm?
• Quale proporzione ha ali lunghe tra 41 e 44?
• Quale proporzione ha ali lunghe meno di 39?
• Quale proporzione ha ali lunghe almeno 41 ma non più di 44?
• (occorre sempre standardizzare)
• Problema inverso
• Come trovare quel valore che ha una data proporzione di
osservazioni al di sopra o al di sotto di esso?
• Quanto deve essere lunga l’ala per far si che solo il 10% delle
mosche abbia ali più lunghe? ( si tratta di trovare il 90
percentile)
• Qual è l’80-esimo percentile delle lunghezze delle ali?
• Qual è il quinto percentile delle lunghezze delle ali?
• (occorre destandardizzare: x = µ+σz)
119
SOLUZIONI ESERCIZI
• 1) (51-45.5)/3.90 = 1.411.000-0.920=0.08
• 2) (44-45.5)/3.90 = -0.38 1.000-0.648=0.352
(41-45.5)/3.90 = -1.153 1.000-0.875=0.125
0.352-0.125=0.227
4) 0.875-0.648=0.227
Problema inverso
Qual è l’80-esimo percentile?
z=0.84 x=45.5+(0.84*3.90)=48.77mm
120
Come si valuta la “normalità” di una
distribuzione di dati?
• Come possiamo giudicare se i dati provengono da
una distribuzione che può essere approssimata
con una normale?
• Gli istogrammi, i diagrammi ramo-foglia e alcuni
indici possono rivelare caratteristiche tipicamente
non normali:
outlier, asimmetria, interruzioni dei valori (gap),
clusters.
• Se i grafici appaiono abbastanza simmetrici e
unimodali occorre un metodo più sensibile, che
possa rivelare l’adeguatezza del modello normale
(simmetria, outlier, peso delle code).
121
Plot dei quantili normali. Come si costruisce
Vogliamo verificare se un determinato campione proviene da una
distribuzione normale (con ugual media e scarto st.)
1. Si ordinano le osservazioni , e si calcolano i percentili
campionari xi.
2. Si considera la distribuzione normale standard e si
trovano i valori zi che corrispondono agli stessi
percentili (quantili normali standardizzati)
3. Si costruisce un diagramma di dispersione con le
osservazioni xi sull’asse orizzontale e i corrispondenti
quantili normali standardizzati zi sull’asse verticale
4. Si verifica la normalità delle osservazioni controllando se
i punti del diagramma si trovano approssimativamente
su una retta
Tutti i software statistici riportano i plot dei quantili normali (normal plots).
122
Plot dei quantili normali: metodo grafico di controllo della
normalità dei dati
xi
69
70
71
72
26-mo 72
percentile 73
73
73
lunghezze 74
germogli 74
74
76
76
77
77
78
78
79
80
zi
-1,64485
-1,28155
-1,03643
-0,84162
-0,67449
-0,52440
-0,38532
-0,25335
-0,12566
0,00000
0,12566
0,25335
0,38532
0,52440
0,67449
0,84162
1,03643
1,28155
1,64485
Un campione ordinato di
lunghezze di 19 germogli
(v. es. precedente)
(quinto quantile)
26-mo percentile
quantili normali
standardizzati
(diciannovesimo quantile)
95-mo percentile
123
Plot dei quantili normali per l’es. germogli:
diagramma di dispersione
I punti del normal plot si dispongono approssimativamente su una retta
inclinata positivamente. Le lunghezze dei 19 germogli hanno una
distribuzione approssimativamente normale.
124
Plot dei quantili normali. Es.: campione di 13 dati estratto da
una distribuzione normale standard
x
-1.75761
-0.35848
-0.00063
0.04745
0.06633
0.23864
0.60580
0.69193
0.81182
0.86228
1.21230
1.26512
1.42839
percentili
0.0769
0.1538
0.2308
0.3077
0.3846
0.4615
0.5385
0.6154
0.6923
0.7692
0.8462
0.9231
1.0000
y=z
-1.42624
-1.02027
-0.73621
-0.50238
-0.29342
-0.09666
0.09666
0.29342
0.50238
0.73621
1.02027
1.42624
*
125
Plot dei quantili normali. Es.: campione di 13 dati
estratto da una distribuzione normale standard
126
Produzione annuale di latte (libbre x 100) di 100 vacche Jersey
di 2 anni (Sokal, Rohlf p.104)
Histogram of latte prodotto (libbrex100)
Normal
30
Mean
StDev
N
25
66,68
11,33
100
Percent
20
15
10
5
0
40
50
60
70
80
90
latte prodotto (libbrex100)
100
127
Plot dei quantili normali
Diagramma di dispersione per 19 valori estratti dai 100
53
54
55
56
56
57
58
58
61
61
65
69
70
74
82
83
83
89
98
128
La variabilità
naturale dei dati
causa le fluttuazioni
dei dati intorno alla
Retta
Per gli stessi dati
sotto sono riportati il
box-plot e
l’istogramma
129
I dati presentano una
lunga coda a sinistra
I dati presentano una
lunga coda a destra
130
Code corte rispetto alla
normale, ossia varianza
minore rispetto a una
normale
Code lunghe rispetto alla
normale, ossia varianza
maggiore rispetto a una
normale
131
Plot dei quantili normali per campioni di dimensione 20
generati da una distribuzione normale
132
Modelli matematici
• Le distribuzioni di probabilità (con le loro formule) sono
modelli matematici adatti a descrivere molti fenomeni
naturali.
• Sono distribuzioni di frequenze teoriche per le
popolazioni che forniscono una rappresentazione
idealizzata dei fenomeni stessi. Riportano un’immagina
compatta del modello complessivo dei dati,
prescindendo da irregolarità minori.
• E’ possibile incontrare distribuzioni di probabilità,
generate empiricamente, che non possono essere
descritte dai modelli noti.
133
I modelli
• In sostanza, la creazione di un modello inizia con lo
studio del fenomeno nella realtà; le osservazioni
derivanti dallo studio vengono interpretate per
cogliere gli aspetti più importanti del fenomeno. Poi,
si costruisce il modello, lo si fa "funzionare" e si
controlla se e quanto i risultati ottenuti
corrispondono con la realtà. Poi il modello viene
riconsiderato e modificato per renderlo più
efficiente, e così via
realtà
interpretazione
verifica
modello
rappresentazione
della realtà
134
L’analisi dei dati con una variabile
fare un grafico dei dati
interpretare ciò che si
vede: forma, centro,
dispersione, outlier
riassunto numerico?
x^, s,
sommario a 5 numeri
modello matematico?
quale distribuzione?
135
La distribuzione esponenziale come modello continuo per i fenomeni
descritti dalla variabile aleatoria tempo di sopravvivenza
Anche in questo caso parliamo di curva di densità esponenziale
f(x)=λe- λx
x≥0
136
Scarica