18. Statistica Matematica

annuncio pubblicitario
Teoria dei Fenomeni Aleatori
AA 2012/13
Statistica Matematica: Concetti Fondamentali
Nell’esperienza
quotidiana
e
nella
pratica
della
professione dell’ingegnere occorre:
• prendere decisioni
e ciò normalmente richiede la
• disponibilità di specifiche informazioni
e la capacità di una
• interpretazione corretta
Le informazioni e le decisioni prese devono essere
adeguatamente spiegate e documentate.
Docenti: Gaspare Galati – Gabriele Pavan
1
Teoria dei Fenomeni Aleatori
AA 2012/13
Statistica Matematica: Concetti Fondamentali
• Le informazioni necessarie a prendere le decisioni
sono originate in forma grezza (dati osservati o
rilevati o grezzi).
⇓
• Le informazioni devono essere elaborate, presentate,
ed analizzate con gli opportuni metodi statistici,
secondo lo schema:
Dati
grezzi
Docenti: Gaspare Galati – Gabriele Pavan
Metodi
statistici
Informazioni
2
Teoria dei Fenomeni Aleatori
AA 2012/13
Statistica Matematica: Concetti Fondamentali
• Il termine Statistica risale al XV–XVI secolo dove
veniva usato per indicare le “cose notevoli” di uno
Stato: popolazione, attività economiche, risorse del
territorio, ...., compendiate in documenti aventi per
scopo principale l’imposizione fiscale.
• Il termine deriva dalle parole:
• Stato (entità territoriale ed amministrativa)
• status (parola latino – medievale) ≡ condizione
Docenti: Gaspare Galati – Gabriele Pavan
3
Teoria dei Fenomeni Aleatori
AA 2012/13
Statistica Matematica: Concetti Fondamentali
• La statistica è una scienza applicata che sviluppa i
metodi che permettono di trasformare i dati osservati
in informazioni utili per prendere le decisioni relative.
• Le indagini statistiche non riguardano eventi o
individui
singoli:
i
dati
rilevati
oggetto
delle
elaborazioni devono riferirsi a fenomeni collettivi.
•I
dati
devono
essere
osservati
in
condizioni
omogenee ed essere ripetibili.
Docenti: Gaspare Galati – Gabriele Pavan
4
Teoria dei Fenomeni Aleatori
AA 2012/13
Statistica Matematica: Concetti Fondamentali
• Il requisito di omogeneità dei dati indica la necessità
di riferirsi a situazioni nelle quali non sussistano
elementi di variabilità diversi da quelli oggetto
dell’analisi che si intende fare.
• L’insieme delle unità statistiche è detto popolazione.
o Popolazione finita:
es. i bambini
o Popolazione infinita: es. una successione indefinita
di lanci di un dado.
Docenti: Gaspare Galati – Gabriele Pavan
5
Teoria dei Fenomeni Aleatori
AA 2012/13
Statistica Matematica: Concetti Fondamentali
La statistica è una disciplina di tipo e di valore
applicativo che collega
Concetti teorici della Teoria della Probabilità
⇓
Realtà
• Si passa dallo Spazio Campione S allo spazio Sn
generato da n prove ripetute pensate come ripetizioni
di un medesimo esperimento (“osservazioni” del
medesimo fenomeno).
Docenti: Gaspare Galati – Gabriele Pavan
6
Teoria dei Fenomeni Aleatori
AA 2012/13
Statistica Matematica: Concetti Fondamentali
• Lo scopo è di stabilire delle inferenze sulla legge
probabilistica che governa il fenomeno, cioè dedurre,
dalle osservazioni, le proprietà di tale legge.
La statistica può essere suddivisa in:
• Statistica Descrittiva
• Statistica Matematica
Docenti: Gaspare Galati – Gabriele Pavan
7
Teoria dei Fenomeni Aleatori
AA 2012/13
Statistica Descrittiva
• Si dispone di una conoscenza completa delle
popolazione, non sono quindi richieste deduzioni di
valori
incogniti;
occorre
solo
organizzare
opportunamente i dati per mettere in risalto gli aspetti
e le proprietà di interesse (esempio nei censimenti).
Docenti: Gaspare Galati – Gabriele Pavan
8
Teoria dei Fenomeni Aleatori
AA 2012/13
Esempio di Statistica descrittiva
Maschi
£ 25k
Femmine
£ 20k
£ 15k
£ 10k
£ 5k
455
50
< 25
1455 105
25-29
1275 34
30-34
Età (anni)
1161
20
35-39
4731 227
Indipendente
dall’ età
(da IEE Salary Survey) - Paga annua degli ingegneri
(U.K), per classi di età e per maschi e femmine.
Docenti: Gaspare Galati – Gabriele Pavan
9
Teoria dei Fenomeni Aleatori
AA 2012/13
Statistica Matematica
• Si
occupa
delle
variabili
aleatorie
generate,
normalmente, da uno schema di prove ripetute. Sono
quindi costituiti degli eventi che presentano una
probabilità prossima a zero oppure all’unità. Ciò
permette di considerare le inferenze come “quasi
certezze”.
Docenti: Gaspare Galati – Gabriele Pavan
10
Teoria dei Fenomeni Aleatori
AA 2012/13
Inferenza Statistica
• Verifica delle Ipotesi Statistiche - permette, sulla
base dei dati sperimentati raccolti, di scegliere tra
due o più ipotesi riguardanti il fenomeno che è
all'origine dei dati)
• Teoria della Stima - permette di determinare i valori
più plausibili dei parametri del modello probabilistico
ipotizzato.
Docenti: Gaspare Galati – Gabriele Pavan
11
Teoria dei Fenomeni Aleatori
AA 2012/13
Il Campione Aleatorio
L’insieme di dati su cui viene applicato il procedimento
statistico costituisce il “campione” delle osservazioni.
Esempio: verifica di un dado regolare
• Si lancia il dado un certo numero di volte (le prove
ripetute di cui consiste l’esperimento, es. 15)
ottenendo i seguenti risultati X i , con i = 1,2,.....,15
{1,
3, 4 , 2 , 4 , 1, 6 , 4 , 4 , 3, 6 , 4 , 2 , 4 , 4 }
Il campione è costituito da numeri interi (di cardinalità
finita: i primi sei numeri interi).
Docenti: Gaspare Galati – Gabriele Pavan
12
Teoria dei Fenomeni Aleatori
AA 2012/13
Il Campione Aleatorio
Esempio: durata di una lampadina (vita)
• 10 lampadine identiche forniscono le 10 durate
seguenti (misurate in ore), che costituiscono il nostro
campione:
{
}
5010.5, 3728.2, 4555.8, 1540.9, 7322,
4328.3, 4991.9, 5820.3, 3860.1, 5300.5
Le durate delle lampadine sono espresse da numeri
reali positivi qualsiasi.
Docenti: Gaspare Galati – Gabriele Pavan
13
Teoria dei Fenomeni Aleatori
AA 2012/13
Il Campione Aleatorio
Ipotesi fondamentali:
• Identità del fenomeno nelle varie osservazioni
• Indipendenza delle osservazioni
Poiché ogni osservazione è la realizzazione di una v.a.,
il campione casuale è un insieme di variabili
aleatorie che hanno, per l’ipotesi di identità, uguale
distribuzione di probabilità e che sono, per l’ipotesi di
indipendenza, statisticamente indipendenti tra loro.
Docenti: Gaspare Galati – Gabriele Pavan
14
Teoria dei Fenomeni Aleatori
AA 2012/13
Il Campione Aleatorio
• In termini più formali il campione aleatorio (random
sample)
di
dimensione
n,
estratto
da
una
popolazione, è un insieme di n variabili aleatorie
X 1 , X 2 , ..., X n
che hanno la stessa densità (o massa) di probabilità
f X ( x ) e sono tra loro statisticamente indipendenti
(vv.aa i.i.d. - indipendenti ed identicamente distribuite).
• La dimensione del campione è chiamata "taglia" o
"numerosità".
Docenti: Gaspare Galati – Gabriele Pavan
15
Teoria dei Fenomeni Aleatori
AA 2012/13
Il Campione Aleatorio
• Indicando con S lo spazio in cui è definita la generica
variabile X i , il campione aleatorio X 1 , X 2 , ..., X n è
definito sullo spazio prodotto cartesiano:
Sn = S × S × .... × S
(n volte)
formato da n ripetizioni indipendenti dell’esperimento
che da luogo ad S.
Docenti: Gaspare Galati – Gabriele Pavan
16
Teoria dei Fenomeni Aleatori
AA 2012/13
Il Campione Aleatorio
x2
6
5
4
3
2
1
0
1
2
3
4
5
6
x1
Spazio campione (dimensione 2) per il lancio di due dadi
Docenti: Gaspare Galati – Gabriele Pavan
17
Teoria dei Fenomeni Aleatori
AA 2012/13
Il Campionamento
• L’operazione di estrazione del campione da una
popolazione si chiama campionamento, o anche
campionamento statistico.
Le Statistiche Campionarie
• Il primo tipo di analisi che si effettua sul campione è
costituito dal calcolo di alcune grandezze sintetiche
rappresentative del campione stesso:
• I Percentili
• La Media di Campione
Docenti: Gaspare Galati – Gabriele Pavan
18
Teoria dei Fenomeni Aleatori
AA 2012/13
I Percentili
• Il valore u-percentile (percentile di ordine “u”) di una
v.a. X è quel valore xu di X tale che
FX ( xu ) = u
Esempio: Data una v.a. X uniforme in (0 , 5)
x
FX ( x ) =
5
per
x0.95
FX ( x0.95 ) =
= 0.95
5
Docenti: Gaspare Galati – Gabriele Pavan
0≤ x≤5
x0.95 = 0.95 ⋅ 5 = 4.75
19
Teoria dei Fenomeni Aleatori
AA 2012/13
I Percentili
Esempio: Considerando una v.a. Gaussiana standard,
dalla conoscenza dei suoi percentili (tabulati) si possono
ricavare quelli di una qualsiasi v.a. Gaussiana.
Se l’u-percentile di una v.a. Gaussiana standard è zu , l’upercentile di una v.a. Gaussiana N (η , σ ) è
xu = η + σ zu
Docenti: Gaspare Galati – Gabriele Pavan
20
Teoria dei Fenomeni Aleatori
AA 2012/13
Il Percentile Empirico
• Il concetto di percentile può essere applicato se si
considera un campione di osservazioni invece di una
v.a..
In questo caso è possibile valutare solo i percentili di
ordine
K
n
essendo n la dimensione del campione e 1 ≤ K ≤ n .
Docenti: Gaspare Galati – Gabriele Pavan
21
Teoria dei Fenomeni Aleatori
AA 2012/13
Il Percentile Empirico
Se indichiamo con
{xi }
i = 1, ..., n
il campione ordinato delle osservazioni è:
( xi ≤ xi +i )
K
il percentile “empirico” di ordine
è proprio da xK .
n
Docenti: Gaspare Galati – Gabriele Pavan
22
Teoria dei Fenomeni Aleatori
AA 2012/13
La Media di Campione
Dato il campione aleatorio
{ X 1 , X 2 , ..., X n }
la media di campione (o media campionaria) è:
1
X=
n
Docenti: Gaspare Galati – Gabriele Pavan
n
∑
Xi
i =1
23
Teoria dei Fenomeni Aleatori
AA 2012/13
Il Momento Campionario
In maniera analoga possiamo definire il generico
momento campionario di ordine k come:
1
X =
n
k
n
∑
k
Xi
i =1
Osservazione:
• la media campionaria e i momenti campionari, come
funzioni di v.a. (le X i o le loro potenze), sono
anch’essi variabili aleatorie.
Docenti: Gaspare Galati – Gabriele Pavan
24
Teoria dei Fenomeni Aleatori
AA 2012/13
Media e momenti campionari
Disponendo del campione osservato, si ha:
{x1 , x2 , ..., xn }
1
X=
n
Docenti: Gaspare Galati – Gabriele Pavan
n
∑
i =1
xi
1
X =
n
k
n
∑
k
xi
i =1
25
Teoria dei Fenomeni Aleatori
AA 2012/13
Media e momenti campionari
Esempio:
{4.5, 3.0, 7.2, 8.9}
i valori della media di campione e del terzo momento
campionario sono:
1
X = ( 4.5 + 3 + 7.2 + 8.9 ) = 5.9
4
1
3
3
3
3
3
X = 4.5 + 3 + 7.2 + 8.9 = 299.0855
4
(
Docenti: Gaspare Galati – Gabriele Pavan
)
26
Teoria dei Fenomeni Aleatori
AA 2012/13
Media e momenti campionari
• Se consideriamo l’insieme di tutti i possibili campioni
che è possibile ottenere da una popolazione, i
momenti
campionari
caratterizzate
probabilità
mediante
(dette
sono
le
variabili
loro
distribuzioni
aleatorie
distribuzioni
di
campionarie)
o
mediante i loro momenti.
Docenti: Gaspare Galati – Gabriele Pavan
27
Teoria dei Fenomeni Aleatori
AA 2012/13
I momenti della media campionaria
E ⎡⎣ X ⎤⎦ = E [ X i ] = E [ X ]
Var [ X i ] Var [ X ]
Var ⎡⎣ X ⎤⎦ =
=
n
n
Docenti: Gaspare Galati – Gabriele Pavan
28
Teoria dei Fenomeni Aleatori
AA 2012/13
I momenti della media campionaria
Verifica:
E { X 1 } + ... + E { X n } n ⋅ η
E {X } =
=
=η
n
n
Var { X } =
2
σX
{
{
= E ⎡⎣ X − η⎤⎦
2
}=
2
1
= 2 E ⎡⎣ ( X 1 − η) + ... + ( X n − η) ⎤⎦
n
Docenti: Gaspare Galati – Gabriele Pavan
}
29
Teoria dei Fenomeni Aleatori
AA 2012/13
I momenti della media campionaria
Sviluppando il quadrato si hanno doppi prodotti il cui
valore
atteso
è
nullo,
essendo
le
variabili
Xi
indipendenti (e quindi scorrelate).
Indicando con σ 2 la varianza di ogni X i , si ha:
2
σX
Docenti: Gaspare Galati – Gabriele Pavan
1
σ
2
= 2 ⋅n⋅σ =
n
n
2
30
Teoria dei Fenomeni Aleatori
AA 2012/13
I momenti della media campionaria
• Al crescere di n, la variabile aleatoria X ha una
densità sempre più "concentrata" intorno alla media
(di popolazione) η, nel senso che il suo valore atteso
è eguale a η e la varianza decresce al crescere di n.
• La disuguaglianza di Chebycev implica che la
probabilità che X sia compresa in un intervallo del
σ
σ ⎞
1
⎛
; η+ k
tipo ⎜ η − k
⎟ è non inferiore a 1 − 2 :
n
n⎠
k
⎝
Docenti: Gaspare Galati – Gabriele Pavan
31
Teoria dei Fenomeni Aleatori
AA 2012/13
I momenti della media campionaria
σ ⎫
1
⎧
P⎨ X −η < k
⎬ ≥ 1− 2
k
n⎭
⎩
• Per n → ∞ , si può prendere k "abbastanza grande"
che, con elevata probabilità (ad esempio, con
probabilità pari al 99 % se k = 10), X differisce dalla
σ
)
media di popolazione per una quantità (pari a k
n
che tende a zero secondo l’inverso della radice
quadrata della dimensione del campione.
Docenti: Gaspare Galati – Gabriele Pavan
32
Teoria dei Fenomeni Aleatori
AA 2012/13
I momenti della media campionaria
• Mentre il calcolo dei primi due momenti è agevole, la
distribuzione di probabilità di X è invece di difficile
derivazione in molti casi.
• Nel
caso
di
campione
numeroso
si
ricorre
all’approssimazione fornita dal Teorema del Limite
Centrale:
la
media
di
campione
X
segue
approssimativamente la legge Normale.
Docenti: Gaspare Galati – Gabriele Pavan
33
Teoria dei Fenomeni Aleatori
AA 2012/13
• Indicando con zu il percentile u-esimo di una v.a. Z
Gaussiana N ( 0,1) e con δ una costante legata ad u
δ
da u = 1 − , si ha:
2
{
P −z
δ
1−
2
<Z≤z
δ
1−
2
}= 1− δ
Supponendo la media campione Gaussiana:
σ ⎞
⎛
N ⎜ ηX = η , σ X =
⎟
n⎠
⎝
Docenti: Gaspare Galati – Gabriele Pavan
34
Teoria dei Fenomeni Aleatori
AA 2012/13
e Z è Normale N ( 0,1) , si può scrivere:
σ
X = ηX ± Z σ X = η ± Z
n
Si può fissare un intervallo che comprende X con
probabilità "elevata" (se si sceglie δ piccolo):
σ
σ ⎫
⎧
P ⎨ η − z1− δ
< X ≤ η + z1− δ
= 1− δ
⎬
2
2
n
n⎭
⎩
Docenti: Gaspare Galati – Gabriele Pavan
35
Teoria dei Fenomeni Aleatori
AA 2012/13
f Z (z )
δ
area =
2
δ
area =
2
zδ / 2
0
z1−δ / 2
z
Percentili della gaussiana standard
Docenti: Gaspare Galati – Gabriele Pavan
36
Teoria dei Fenomeni Aleatori
AA 2012/13
f
X
area
area =
1
area =
2
− z1−δ / 2 ⋅ σ / n
2
z1−δ / 2 ⋅ σ / n
Densità della media campionaria e percentile.
Docenti: Gaspare Galati – Gabriele Pavan
37
Teoria dei Fenomeni Aleatori
AA 2012/13
Tabella dei Percentili - Gaussiana Standard
u=
∫
zu
−∞
⎛ x
1
exp ⎜ −
2π
⎝ 2
2
⎞
⎟ dx
⎠
Probabilità u
0.90
0.925
0.95
0.975
zu 1.282
1.440
1.645
1.967 2.326 2.576 3.090 3.291
Docenti: Gaspare Galati – Gabriele Pavan
0.99 0.995 0.999 0.9995
38
Teoria dei Fenomeni Aleatori
AA 2012/13
Osservazione:
• Se il campionamento (di dimensione n) è estratto da
una popolazione Gaussiana
N ( η,σ )
la media di campione ha esattamente distribuzione
σ
Gaussiana con valore atteso η e varianza
.
n
2
Docenti: Gaspare Galati – Gabriele Pavan
39
Teoria dei Fenomeni Aleatori
AA 2012/13
La Varianza di Campione
1
ˆ =
σ
n
2
n
X
−
X
(
)
i
∑
2
i =1
La varianza campionaria è una variabile aleatoria.
2
η
σ
Se indichiamo con e
il valore atteso e la varianza
comune a tutte le
X i , il valore atteso di σ̂ 2
(le X i sono
2
2
2
⎡
⎤
E
X
=
σ
+
η
) si può calcolare come segue:
i.i.d. e ⎣ i ⎦
Docenti: Gaspare Galati – Gabriele Pavan
40
Teoria dei Fenomeni Aleatori
AA 2012/13
La varianza di campione: calcolo del valore atteso
n
2
1
2
⎡
ˆ ⎤⎦ = ∑ E ( X i − X ) ⎤ =
E ⎡⎣ σ
⎦
n i =1 ⎣
{
}
2
1 n
2
⎡
= ∑ E ⎣⎡ X i ⎦⎤ + E ( X ) ⎤ − 2E ⎡⎣ X i X ⎤⎦ =
⎣
⎦
n i =1
n n
⎡
⎤
⎡ Xi
1 n ⎧⎪ 2
1
2
= ∑ ⎨η + σ + E ⎢ 2 ∑∑ X j X k ⎥ − 2E ⎢
n i =1 ⎩⎪
⎣ n j =1 k = 1
⎦
⎣ n
⎤ ⎫⎪
∑ X j ⎥⎬ =
j =1
⎦ ⎭⎪
n
n n
n n
1
2
2
2
= η + σ + 2 ∑∑ E ⎡⎣ X j X k ⎤⎦ − 2 ∑∑ E ⎡⎣ X i X j ⎤⎦ =
n j = 1 k =1
n i =1 j =1
n n
1
= η2 + σ 2 − 2 ∑∑ E ⎡⎣ X i X j ⎤⎦ =
n i =1 j = 1
Docenti: Gaspare Galati – Gabriele Pavan
41
Teoria dei Fenomeni Aleatori
AA 2012/13
⎧n
⎫
n n
1 ⎪
⎪
2
2
2
= η + σ − 2 ⎨ ∑ E ⎡⎣ X i ⎤⎦ + ∑∑ E [ X i ] E ⎡⎣ X j ⎤⎦ ⎬ =
n ⎪ i =1
i =1 j =1
⎪
≠
j i
⎩
⎭
1
2
2
2
2
= η + σ − 2 n η + σ + n ( n − 1) η⋅ η =
n
1 n − 1⎤
1⎤
2⎡
2⎡
= η ⎢1 − −
+ σ ⎢1 − ⎥ =
⎥
n ⎦
⎣ n
⎣ n⎦
n −1 2
=
σ
n
{(
)
}
n −1 2
ˆ ⎦⎤ =
σ
E ⎣⎡ σ
n
2
Docenti: Gaspare Galati – Gabriele Pavan
42
Teoria dei Fenomeni Aleatori
AA 2012/13
La varianza di campione corretta
1
S =
n −1
2
n
−
X
X
(
)
i
∑
i =1
2
n 2
ˆ
=
σ
n −1
Il valore atteso della varianza campionaria corretta è
n
⎡
2⎤
E ⎡⎣ S ⎤⎦ = E ⎢
σˆ ⎥ =
⎣n −1 ⎦
n
2
E ⎡⎣ σˆ ⎤⎦ =
=
n −1
n
2 n −1
2
=
σ
=σ
n −1
n
2
Docenti: Gaspare Galati – Gabriele Pavan
43
Teoria dei Fenomeni Aleatori
AA 2012/13
Campionamento da popolazione Gaussiana
2
X
S
•
e
sono variabili aleatorie statisticamente
indipendenti, cioè la loro distribuzione congiunta è
pari al prodotto delle distribuzioni marginali.
S2
• La distribuzione della grandezza ( n − 1) 2 , legata
σ
alla varianza campionaria corretta da un semplice
fattore di proporzionalità, è di tipo χ
2
( n − 1) .
(Chi Quadro con n − 1 gradi di libertà)
Docenti: Gaspare Galati – Gabriele Pavan
44
Teoria dei Fenomeni Aleatori
AA 2012/13
Campionamento da popolazione Gaussiana
• Dalla definizione la v.a. S 2 risulta pari:
S
n −1 1
( n − 1) 2 = 2 ⋅
n −1
σ
σ
2
n
=
∑
( Xi − X )
i =1
σ
2
2
n
=
∑
i =1
n
X
X
−
(
)
i
∑
2
=
i =1
⎛ Xi − X ⎞
⎜ σ ⎟
⎝
⎠
2
n
A
causa
del
vincolo:
∑( X − X ) = 0
i
la
sua
i =1
distribuzione Chi Quadro con n − 1 gradi di libertà.
Docenti: Gaspare Galati – Gabriele Pavan
45
Teoria dei Fenomeni Aleatori
AA 2012/13
Campionamento da popolazione Gaussiana
• Il rapporto tra la media campionaria diminuita del
proprio valore atteso e la radice quadrata della
varianza campionaria divisa per la numerosità n del
campione è una variabile aleatoria di Student con (
n − 1 ) gradi di libertà:
X −η
T ( n − 1) =
S/ n
Docenti: Gaspare Galati – Gabriele Pavan
46
Teoria dei Fenomeni Aleatori
AA 2012/13
Campionamento da popolazione Gaussiana
X −η
Z=
,
σ/ n
2
S
W = ( n − 1) 2
σ
sono indipendenti, con
Z distribuita N (0,1) ,
Z
W / ( n − 1)
=
χ 2 ( n − 1)
X −η
σ/ n
X −η
=
2 S/ n
n
1
S
−
(
)
2
σ ( n − 1)
è distribuito come una Student con ( n − 1 ) gradi di libertà.
Docenti: Gaspare Galati – Gabriele Pavan
47
Teoria
T
dei Fenome
eni Aleatori
AA 2012/1
13
Variab
V
ile di S
Studentt:
Docenti:
D
Gaspare Galati
G
– Gabriele Pavan
48
Teoria dei Fenomeni Aleatori
AA 2012/13
Statistiche campionarie
• Sia
la
media
campionaria
che
la
varianza
campionaria (normale o corretta) costituiscono degli
esempi di statistiche.
• Con il termine “statistica” si intende una qualsiasi
grandezza
campione
ottenuta
(una
mediante
statistica
è
operazioni
una
funzione
sul
del
campione che non dipende da parametri incogniti).
Docenti: Gaspare Galati – Gabriele Pavan
49
Scarica