Appunti di “Statistica descrittiva” di Davide Benza
Introduzione al corso (su aula web di Imperia ci sono i testi degli appelli passati)
“Appunti di probabilità”, fino a pag. 100, + “argomenti di statistica descrittiva” + “temi svolti” (editi da ECIC). In tutto l’anno accademico dall’alto
hanno deciso che è possibile dare soltanto 3 prove, con deroga +1 se siamo alla tesi. La prova scritta riguarderà descrittiva e probabilità e non è
possibile svolgere una soltanto delle 2 per arrivare al 18. Chi passa per misericordia lo scritto deve presentarsi all’orale.
Introduzione sulla statistica descrittiva: Lunedì 19/02/07
Tratta gli indici che descrivono un fenomeno, ovvero la composizione della variabilità della realtà. La rappresentazione
sintetica (per esempio quella svolta dall’ISTAT) è realizzata mediante grafici, tabelle etc. che riassumono, appunto,
questi fenomeni. La statistica mono-dimensionale affronta un fenomeno alla volta. L’unità statistica è il soggetto o il
gruppo di soggetti oggetto di studio.
N = popolazione totale (es.: 40 persone)
X = oggetto di studio (es.: colore degli occhi)
n = modalità = il modo in cui si esprime la mutabile (es.: 4: verde, blu, nero, castano)
f = frequenza = quante volte si ripete una modalità
F = frequenza cumulata (= fi + fi+1)
I fenomeni si dividono in 2 categorie:
1) variabile: quantitativo (es.: il tempo) → si manifesta in intensità o distanze
2) mutabile: qualitativo (es.: colore degli occhi) → si manifesta in modalità
a. ordinale (si può ordinare; es.: insufficiente, buono, cattivo)
b. non ordinale (non si può ordinare)
X
Castano
Blu
Verde
Nero
TOTALE n = 4
f = frequenza associata alle modalità
15
5
10
10
N = 40
f/N = frequenza relativa
15/40
5/40
10/40
10/40
40/40 = 1
Nel relativo grafico a torta o a istogrammi l’ordine è irrilevante. Formalizziamo (formalizzare significa rappresentare in
maniera generica una frequenza):
X
x1
x2
…
xi
…
xn
f
f1
f2
…
fi
…
fn
Proprietà:
∑ni=1 fi = N = somma delle frequenze = f1 + f2 + …
∑ni=1 f/N = 1
Tutto quello che non dipende da i può essere portato fuori dalla sommatoria, in questo caso N: 1/N ∑f (se non scrivo
i=1 e n nel simbolo di sommatoria, è sottinteso). Esempio:
i
X = giudizio
f assoluta
f/N
%
Fi
F/N
1
Insufficiente
10
10/60
…
10
…
2
Sufficiente
20
20/60
…
10+20 = 30*
…
3
Buono
20
20/60
…
50
…
4
Ottimo
10
10/60
…
60
…
TOTALE
60
1
100%
150
…
* 30 sono i soggetti che hanno una votazione ≤ sufficiente. Nota: il calcolo della frequenza non si può fare per le
mutabili: a livello operativo, si potrebbero definire, per esempio, le frequenze dei colori degli occhi, ma facendo una
media non avrebbe senso.
Formula generale della frequenza cumulata: Fi ∑ij=1 f
Esempio: F3 = 50
Meno si arrotonda meno c’è sintesi. Nella tabella di frequenza, quindi, si ricorre a classi di intervalli (es.: altezza da
1,60 a 1,65: se misurassimo tutte le altezze al milionesimo di millesimo di millimetro sarebbe una funzione continua).
Bisogna stare attenti però che le classi di intervallo siano omogenee, altrimenti sulla stessa popolazione si possono
generare risultati diversi o falsati. Altre volte le classi di intervallo sono volutamente disomogenee in quanto ai fini della
ricerca è preferibile ordinarle in questo modo (es.: persone da 10 a 20, da 20 a 40 e da 40 a 70). Per la rappresentazione
grafica delle classi di intervallo normalmente si ricorre agli istogrammi.
X
160 → 165
165 → 170
TOTALE
fi
55
45
100
∆i = ampiezza
15
5
20
fi/∆i = densità
55/15 ≈ 4
45/5 = 9
f/N
Attenzione a non cadere nell’errore di non considerare l’ampiezza di un intervallo. Se gli
intervalli sono disomogenei è necessario rapportarli per renderli omogenei.
150
165 170
x
Lezione pomeridiana: Gli indici di posizione
Cerchiamo di eleggere una modalità a modalità tipica, cioè scegliere quella che sintetizza meglio la popolazione. Esistono:
o
Medie empiriche (si deducono dalla definizione): moda, mediana
o
Medie analitiche (risultano da elaborazioni matematiche): media geometrica, armonica, aritmetica e quadratica
1) la moda: calcolabile sia su mutabili sia su variabili, rappresenta la modalità con frequenza assoluta più alta.
f
Mo(X) = “castano”; fmo = frequenza modale = 10 Attenzione: non confondere! Mo(X) ≠ fmo
10
3
e 2 costituiscono la perdita di informazione o danno.
3
X
castano
biondo
rosso
2
15
Se non avessimo castano biondo etc. ma delle classi di intervallo (per esempio delle altezze) avremmo una classe modale (per
esempio: 160-170 cm.) rappresentata dal suo valore centrale (165) e sarebbe necessario tener conto dell’ampiezza dell’intervallo.
2) la mediana (della distribuzione): non è applicabile alle mutabili non ordinali, in quanto è necessario sfruttare
l’ordinabilità dei caratteri per trovare il valore con frequenza cumulata relativa = 0,5.
N = 100; n = 4; Mo(X) = “superiori”; fmo = 40
Posizione della mediana: se n pari: n/2, se dispari: (n+1)/2
X
Elementari
Medie
Superiori
Università
fi
20
20
40
20
F
20
40
80
100
F/N = f cumulata relativa
0,2
0,4
0,8
1
%
20%
40%
80%
100%
Me(X) = “Superiori”, perché racchiude il soggetto che è al centro della distribuzione.
Se fossimo esattamente al 50% teoricamente non esisterebbe mediana. Innanzitutto si cerca la classe mediana e modale,
poi la moda e la mediana. La classe modale, se le densità non sono omogenee, è quella con frequenza più alta.
Con riferimento all’esercizio precedente (pag. 1 in fondo) 165 → 170 è la classe modale, la Mo(X) =167,5 (cioè la semi-somma, insomma la media).
La classe mediana: 150 → 165. Sul libro c’è una “mega-formulazza” geometrica con dimostrazione.
F
0,72
0,5
0,42
Per trovare la mediana si fa la proporzione: (xi+1 – xi):(Me – xi)=(Fxi+1 – Fxi):(F0,5 – Fxi)
(35 – 25):(Me – 25)=(0,72 – 0,42):(0,5 – 0,42) → Me – 25 = 0,8/0,3 → Me = 27,6667
Se si ipotizza un’equidistribuzione è sufficiente: (35 – 25)/(Me – 25) → Me = 27,6667
La mediana non risente dei dati anomali, cioè gli outliars, a differenza della media.
25 Me 35 x
3) la media aritmetica: formalmente è: µx = 1/N ∑Ni=1 xi fi = µ(X) = M(X)
Anche qui si deve far attenzione alle classi di intervallo.
Domanda di salvataggio per l’orale: “le proprietà della media”:
A. è un indice perfettamente centrato o baricentrato. Qui introduciamo il concetto di distanza/scarto: xi – I →
→scarto tra i-esima intensità ed una costante I (è la “solita” costante di Gini, la vedremo anche nell’equazione del Chisini):
∑ni=1 (xi – I) fi = 0. I è baricentrato se gli scarti > 0 non eccedono quelli < 0, cioè se il loro valore si compensa.
La media è l’unico indice che gode di questa proprietà, a meno che gli altri indici non corrispondano proprio
alla media stessa. In poche parole: 5 + 6 + 7 = 6 + 6 + 6. Sul libro c’è lo sviluppo della formula.
Lezione del 20/02/07
B. minimizza la distanza della distribuzione di frequenze.
La distanza tra le coordinate reali ed il punto rappresentato dalla costante è la perdita di informazione, che va
minimizzata (da geometria): d(X,I) = √∑ni=1 (xi – I)2 fi = min. Per minimizzare posso togliere la √, tanto
minimizzandone il contenuto la minimizzerei comunque. Ora aggiungo e sottraggo la media (si approfondisca sul libro):
∑(xi – µ+µ – I)2 fi = ∑[(xi – µ)+(µ – I)]2 f = ∑(x – µ) f = 0 se e solo se I = µ.
C. mantiene costante la somma delle intensità.
X
2
3
4
f
1
2
1
4
xf
2
6
4
12
Me(X) = 12/4.
Chisini disse: se si sostituisce a ciascuna intensità un valore costante I, cioè x = I, I = µi, la
somma rimane inalterata. Ciò crea una perdita di informazione.
D. gode della proprietà di linearità (y = a + bx): µ(a + bx) = a + bµ(x). (Sul libro ce ne sono 2 ma la 2a comprende la 1a)
X
15
20
25
300
f
2
4
2
1
xf
2
6
8
9
4) la media armonica: quando esiste una relazione del tipo: v = s/t = velocità = spazio/tempo, la media
aritmetica non è adatta a calcolare la velocità media di un percorso, in quanto la sovrastima. L’indice I si
sostituisce alle varie velocità, assumendo quindi una velocità costante, ed il risultato ottenuto è denominato:
media armonica delle velocità parziali ponderate per gli spazi percorsi = I = Ma = N/∑ni=1 (1/xi) fi. La media
armonica mantiene costante non la somma delle intensità ma la somma dei reciproci delle intensità (1/x non x).
5) la media quadratica: ad una superficie possiamo far corrispondere la misura lineare li = √si pari al lato di un
quadrato corrispondente. Per trovare il lato medio di una serie di superfici possiamo utilizzare la media
quadratica = l = Mq = √∑ i li2 fi / N . Generalizzando: I = Mq = √1/N ∑ni=1 xi2 fi . Ciò che si mantiene inalterato
stavolta è la somma della superficie totale. Nota: se anche vi fosse un rettangolo o un cerchio piuttosto che un quadrato,
produttoria
comunque considereremmo il lato medio come se tutti fossero quadrati.
6) la media geometrica: si pensi, in capitalizzazione composta al tasso medio di rendimento: Mg = N√Πni=1xifi
Elaborando si ottiene: ln(Mg) = 1/N ∑ ni=1 fi ln(xi) → Mg = exp{1/N ∑ ni=1 fi ln(xi)}.
Lezione del giorno 26/02/07
A volte il problema può essere che la variabile osservata sia legata ad un’altra variabile vincolante.
Esempio 1: S = P * Q = spesa = prezzo * quantità. Si vuol calcolare l’I(X) che mantenga costante il livello di vendite.
I(x) = N/(∑ Ni=1 1/xi) = Ma(X) = media armonica dei prezzi.
Esempio 2: N = numeri di esercizi in cui sono stati venduti Y prodotti con prezzi di vendita X distinti. Si vuol calcolare
il prezzo medio di vendita I(X) che mantenga costante il fatturato:
I(x) = ∑ Ni=1 xi yi / ∑ Ni=1 yi: media aritmetica dei prezzi xi ponderati per le quantità yi.
Esempio 3: calcolare ora il valore medio I(x) che lasci inalterata la quantità: I(x) = ∑ Ni=1 si / (∑ Ni=1 si/xi): media
armonica dei prezzi xi ponderati per la spesa si. A seconda del vincolo iniziale cambia il risultato finale e la media da utilizzare.
La media analitica detta anche media potenziata racchiude tutti gli altri indici: tutte le medie sinora trattate sono casi
particolari estratti dalla famiglia delle medie potenziate di ordine: r (µ(r)) → µ(r) = (µr)1/r per cui:
o se r = – 1 → Ma = media armonica
o se r = 0 → Mg = media geometrica
o se r = 1 → µ = media aritmetica
o se r = 2 → Mq = media quadratica
Rispettano tutte la condizione di equivalenza del
Chisini e la condizione di internalità di Cauchy.
Quadratica
Aritmetica
Geometrica
Armonica
Esercizio in classe
Calcolare la previsione per il 2007 con il tasso medio d’incremento (media geometrica), in capitalizzazione composta (vedi matematica finanziaria).
T
f
100(1 + i)
2001
100
100K = 150
2002
110
100 (1 + i)5 = 150
90
2003
115
2004
(1 + i)5 = 150/100 = 1,5
130
2005
1 + i = 5√1,5 → i = (5√1,5)/1,084 = 0,084
150
2006
Allo scritto difficilmente troveremo un testo che chieda “si calcoli la media armonica”…
2007
?
La perdita di informazioni
La perdita di informazioni di ordine 0 è sempre una frequenza:
L0(x)
25
20
15
160
170
180
x
Calcolare i principali indici: Moda, Mediana, Media, quindi la Perdita di informazioni.
X
fi
Fi
Mo(x) = 170
3
3
162
1) La perdita di informazioni di ordine 0 viene
fmo = 10
168
5
8
minimizzata dalla moda.
Me(x) = 170 (perché 18 “tiene il 15”)
170
10
18
2) La perdita di ordine 1, cioè L1(x) = ∑Ni=1|xi – I|,
µ
=
171,2
172
6
24
viene minimizzata dalla mediana.
177
4
28
L0(x) = N – fi(x)
185
2
30
(sul libro vecchio pag. 23, volendo, c’è la dimostrazione).
L1(x) = ∑ni=1|xi – I| fi
30
3) la perdita di ordine 2 viene minimizzata dalla
Perdita di ordine 2: L2(x) = ∑ni=1|xi – I|2 fi
media aritmetica.
Perdita di ordine r: Lr(x) = ∑ni=1|xi – I|r fi
L0(x)
30
.
162
.
168
.
.
170
172
.
177
171,2
.
185
4) se r = 0 si genera una forma indeterminata, allora
semplicemente si sostiene che tenda a zero, quindi
tutto tenderà a zero (meno importante per lo scritto).
x
La dispersione
Essa è la manifestazione concreta che la mutabilità (attitudine ad esprimersi con modalità differenti) o variabilità
(distanza tra fenomeni quantitativi) di un fenomeno ha espresso all’atto dell’osservazione:
• assoluta:
o nel caso della mutabilità comporta difformità tra le unità;
o nel caso della variabilità comporta distanza tra le unità.
• relativa:
o nel caso della mutabilità comporta difformità dall’indice di posizione;
o nel caso della variabilità comporta distanza dall’indice di posizione.
Analisi della mutabilità assoluta (γ)
La frazione di dispersione teorica massima D è:
0 ≤ D’ = D – Dmin ≤ 1
con Dmin = 0 diventa normalizzata:
0 ≤ D’ = D / Dmax ≤ 1
Esiste anche l’indice di Shannon Ψ, ma non verrà chiesto all’esame.
Dmax – Dmin
Una misura del grado di dispersione delle mutabili proposta in letteratura è l’indice γ di Gini = ∑nt=1 fi/N (1 – fi/N)
γ' (normalizzato) = γ / (1 – 1/n)
(compreso tra 0 ed 1)
(infatti l’indice max = 1 – 1/n)
o L’equidistribuzione delle frequenze individua la condizione di massima dispersione: γ ha valore massimo.
o La massima concentrazione individua la condizione di dispersione nulla: γ ha valore minimo.
Analisi della mutabilità relativa (δ)
È una misura normalizzata che quantifica il grado di difformità della mutabile dall’indice (nel nostro caso la Moda).
X
fi
La moda è l’auto, la frequenza modale è 15. La frazione di soggetti difformi dalla moda è 1+14 = 15.
Piedi
1
La frequenza minima associabile al valore modale, cioè il minimo perché esista la moda, è:
Bus
14
N/n + 1 = f(Mo)min = 30/3 +1 = 11 (altrimenti sarebbe a-modale, cioè senza moda).
Auto
15
δmax = (30 – 11)/30 = 19/30 = massima difformità dalla Moda teorica.
30
Metto 19/30 al denominatore per normalizzare: δ’ = [(30–15)/30]/(19/30) = 15/19 = Mo/max difformità = δ’ = δ / δmax
δmax = (N – f(Mo)min)/N dove f(Mo)min è il più piccolo numero intero maggiore di N/n (“motivo del +1”).
Analisi della variabilità assoluta (∆) (pag. 56 vecchio libro)
X
fi
|175 – 180| = 5 → (32 – 3) / 2 = 3 → numero κ di possibilità di coppie differenti individuabili
175
1
|175 – 185| = 10
180
1
δ’ = (N – f(Mo))/N = N – f(Mo) =
|180 – 185| = 5
In formula: (N2 – N) /2
185
1
(N – f(Mo)min)/N
N – f(Mo)min
2
Distanza euclidea: √|xi – xj|
3
= N – f(Mo) .
Si definisce distanza tra due unità la quantità |xi – xj|.
N – (N/n + 1)
Si definisce misura di variabilità assoluta un opportuno indice delle distanze tra le singole unità.
Si definisce differenza quadratica media ∆ la media quadratica delle distanze intercorrenti tra le misurazioni, la cui
formula non citiamo (se proprio volessimo sono a pag. 59 del libro vecchia versione), perché si utilizza sempre la seguente:
(se N è grande → ∆ = σ √2)
dove σ è lo scarto quadratico medio (che rivedremo più sotto).
∆ = σ √2 √N/(N – 1)
Analisi della variabilità assoluta normalizzata
È il valore massimo teorico che l’indice ∆ avrebbe potuto assumere: ∆max ≈ |xn – x1| / √2
(xn = xultimo; x1 = xprimo)
La condizione di massima variabilità assoluta consiste nel caso in cui le frequenze si presentano associate ai valori
estremi della distribuzione ed equidistribuite (cioè ∆max si ottiene, per esempio, se distribuisco così: 15, 0, 0, 0, 0, 15,
altrimenti è = ∆).
Lezione del 5 Marzo 2007: Analisi de “la variabilità relativa” (pag. 63 vecchio libro)
È un opportuno indice I di posizione delle quantità di = |xi – µ|, che quantifica la distanza della variabile dalla propria
media aritmetica. Per affrontare il calcolo della varianza per prima cosa si calcola, dunque, la media aritmetica. Poi tutti
gli scarti da essa, ponderati per le frequenze associate: varianza = σ2 = 1/N ∑ns=1 |xs – µ|2 fs
Vediamo ora, invece, una formula che semplifica i calcoli, perché permette di evitare di calcolare tutti gli scarti:
σ2 = 1/N ∑ni=1 xi2 fi – µx2 esprimibile anche come: σ2 = µ2 – µx2 = (x2f)/N – µx2
La radice quadrata della varianza, o scarto quadratico medio σ, rappresenta la media quadratica delle distanze
intercorrenti tra le singole misurazioni e la loro media aritmetica; esso mantiene la dimensionalità del fenomeno oggetto
di studio (cioè l’unità di misura; es.: i Kg., i litri etc.).
Analisi de “la variabilità relativa normalizzata” (argomenti per l’orale, ma spesso c’è negli esercizi del libro) (σ2 / σ2max)
Quando ci troviamo di fronte ad unità di misura disomogenee o diverse per natura o valor medio, si può trasformare la variabile in numero puro,
dividendola per la propria media aritmetica. Tale divisione porta al coefficiente di variazione (c.v. = σ/µ): il rapporto tra scarti quadratici medi e µ.
Per normalizzare σ2 occorre calcolare, invece, il valore massimo teorico che esso può assumere, cioè nel caso teorico in cui le frequenze siano
associate ai valori estremi, nel rispetto del vincolo di conservazione della media aritmetica, che individua la massima dispersione e variabilità relativa
alla media aritmetica. In questi casi si rende spesso necessaria un’approssimazione ai numeri interi. Risulta così: σ2max = µ (x1 + xn) – x1xn – µ2
Un caso particolare è quello in cui tutto è trasferito su un unico soggetto, lasciando gli altri a 0: x1 = 0 = min, mentre il max è la ∑tot.
La concentrazione (ricordarsi di ordinare in ordine crescente i dati in tabella, altrimenti il grafico risulterebbe tutto sballato)
Caratteristica fondamentale è la trasferibilità (cioè l’attitudine a concentrarsi su poche
o molte unità) dell’intensità globale (per esempio, il reddito è trasferibile).
La concentrazione è misurata dal rapporto di Gini R = A / Amax =
C
= Area OABCDO / Area OEDO con 0 ≤ R ≤ 1
Dove: E = (N – 1) / N = 99%
B
D = intensità cumulate normalizzate
A
EF
F/N = frequenze cumulate normalizzate
O 0,4
0,7 0,9 1
F/N
OD = retta di equidistribuzione → concentrazione nulla
Lezione del giorno 15/10/07: La forma delle distribuzioni
I momenti centrali sono tutte le medie. L’indice centrato tiene conto degli scarti delle intensità e la media (per l’orale).
µ0 = 1 (il trattino indica che l’indice è centrato)
µ1 = 1/N∑ni=1 (xi – µ)fi → 1/N∑ xi fi – 1/Nµ∑fi = 0: baricentratura = qualunque sia la distribuzione è sempre 0.
µ2 = σ2: la varianza è il momento centrale di ordine 2.
In generale, si definisce momento centrale di ordine r: µr = 1/N∑ni=1 (xi – µ)r fi = µ (X – µ)r
con r > 0
D
.
. .
D
Il modello fondamentale proposto in letteratura per argomentazioni di natura scientifica e probabilistica (che sia rappresentato sotto forma di curve o
di istogrammi costruiti con infiniti intervalli di ampiezza infinitesima) è quello della c.d. Curva Normale o di Gauss (la Gaussiana):
2
–½[(x – µ)/σ]
1
0.12
φ(x) =
0.08
e
con: γ1 = 0
con: –∞ < x < +∞
σ√2π
0.04
O
95
100
105 109
Momento centrale di ordine 3:
Se γ1 = 0 simmetria
se γ1 > 0 asimmetria positiva
γ1 < 0 asimmetria negativa
La simmetria/asimmetria
µ3 = 1/N∑ni=1(xi – µ)3fi
φ(x) è simmetrica rispetto alla media se φ(µ – κ) = φ(µ + κ).
Come misura della asimmetria si utilizza, il 1° indice utile dispari, l’indice γ1 di Pearson: γ1 = µ[(X – µ)/σ]3 = µ3 / σ3
In caso di normalità l’indice di Pearson vale 0 e, per la sussistenza della condizione di simmetria, tutti i momenti
centrali di ordine dispari (se esistenti) devono essere nulli. Vedere su AulaWeb la prova dell’8 Giugno 2006.
La curtosi
È la diversa eccedenza degli scarti assoluti dalla media (come nella differenza tra la figura tratteggiata e quella con la linea continua nel
a
a
grafico di cui sopra) e si misura con l’indice di curtosi di Pearson γ2, che è come l’indice γ1, ma elevato alla 4 anziché alla 3 .
La curtosi determina l’ampiezza grafica della gaussiana. Se è=3 la distribuzione è normocurtica, se>3 leptocurtica, se<3 platicurtica.
Lezione del 13/3/7 o del 15/10/07: Inizio della statistica descrittiva bidimensionale (pag. 91 libro vecchio)
y1 y2 … yj
… ym Tot Formalizzazione di una tabella a doppia Scomposizione monodimensionale
f(x)
Y
f(x)
entrata: X|y è la variabile condizionata e X
x1
f11 f12 … f1j … f1m f1.
f1.
y1
f.1
Y|x la condizionante (si legge x condizionato da x1
x2
f21 f22 … f2j … f2m f2.
x2
f2.
y2
f.2
… … … … … … … … y o dato y). I totali delle colonne e delle righe …
…
…
…
sono dette distribuzioni marginali. Le xj
xj
fi1 fi2 … fij
… fim fi.
fi.
yj
f.i
…
…
…
… … … … … … … … medie saranno anche chiamate medie …
fn.
ym
f.m
condizionate,
le
varianze
varianze xn
xn
fn1 fn2 … fnj … fnm fn.
N
N
condizionate etc. Il termine generico è fij.
Tot f.
f.
… f.
… f.
N
1
2
j
m
Media di x = µx = 1/N ∑ i=1 xi fi.
→ Media di x condizionato y = µ (X|yj) = 1/f.j ∑ i=1 xj fij (per ogni j che va da 1 a m)
m
Media di y = µy = 1/N ∑ j=1 yj f.j
→ Media di y condizionato x = µ (Y|xi) = 1/fi. ∑mj=1 yj fij (per ogni i che va da 1 a n)
2
n
2
Varianze condizionate: σ (X|yj) = 1/f.j ∑ i=1 [xi – µ(X|yj)] fij (j=1, …,m)
σ2 (Y|xi) = 1/fi. ∑mj=1 [yj – µ(Y|xi)]2 fij (i=1, …,n)
Ovviamente rimangono valide le scomposizioni già viste della varianza. Ricordarsi che nella bidimensionale è fondamentale riportare i pedici.
Lezione del 19/3/7: L’indipendenza stocastica (pag. 99 del libro vecchio)
n
n
Tabella a doppia entrata (di partenza):
8
1
1
10
10
15
5
30
12
24
24
60
30
40
30
100
1) verifico se c’è indipendenza stocastica oppure connessione, costruendo la tabella di indipendenza stocastica:
a. moltiplico tra loro le corrispondenti distribuzioni marginali e le divido per N
b. il valore ottenuto è il valore di frequenza teorica che darebbe indipendenza stocastica
c. lo verifico per tutte le righe e le colonne (tutti i punti)
10 * 30 / 100 = 3
4
3
10
9
12
9
30
18
24
60 * 30 / 100 = 18
60
30
40
30
100
2) sottraggo alla tabella di partenza (a doppia entrata) quella stocastica e ottengo la c.d. tabella delle contingenze:
8–3=5
1–4=–3
1–3=–2
0
10 – 9 = 1
15 – 12 = 3
5–9=–4
0
12 – 18 = – 6
0
24 – 18 = 6
0
0
0
0
0
Essa rappresenta la distanza tra la tabella reale di partenza e quella teorica di indipendenza stocastica.
3) misuro il grado di connessione:
(l’indice W di MORTARA dal 2007 non è più in programma)
PEARSON-PIZZETTI:
a. Sommo C2ij / Y*ij = valori delle contingenze al quadrato diviso le frequenze teoriche di indipendenza
stocastica → trovo χ2(punto 2 al quadrato fratto punto 1)
2
5 / 3 = 8,3
(–3)2 / 4 = 2,25
4 / 3 = 1,3
11,85
1 / 9 = 0,1
9 / 12 = 0,75
16 / 9 = 1,7
2,55
(–6)2 / 18 = 2
0
2
4
10,4
3
5
18,4 = χ2
b.
Normalizzo:
2
i. Posso trovare χ max= Nmin:[(n – 1);(m – 1)]N = numero minore tra numero di righe e
numero di colonne – 1, moltiplicato per N. In questo caso: (3 – 1)x100 = 200. Questo è un
ii.
metodo più veloce, ma dà risultati completamente diversi da quello calcolato con la tabella di massima connessione,
quindi bisogna successivamente ricordarsi di normalizzare sempre secondo questo indice. Altrimenti:
Trovo la tabella di massima connessione (da quest’anno senza il vincolo del rispetto del segno, ma
rispettando il vincolo della conservazione delle distribuzioni marginali, dando + zeri possibili):
10
0
20
30
0
0
10
30
0
30
10
30
60
40
30
100
iii. Trovo χ2max = ∑(Tabella di massima connessione – Tabella di indipendenza stocastica)2
Tabella di indipendenza stocastica
(10 – 3)2/3 = 16,333
4
3
9
(10 – 12)2/12 = 27
9
(20 – 18)2/18 = 0,222
(10 – 24)2/24 = 8,166
(30 – 18)2/18 = 8
84,722 = χ2max
Nota: quando c’è lo zero si semplifica ed il risultato corrisponde al numero della tabella di indipendenza stocastica:
(0 – Tabella di indipendenza stocastica)2/ Tabella di indipendenza stocastica = tabella di indipendenza stocastica.
iv. Controllo: χ2max dev’esser ≤ N x min [(n – 1);(m – 1)]
v. Normalizzazione: χ2/χ2max =18,4/84,722 = 0,217 oppure: 18,4/200 = 0,092
L’indipendenza in media
Una variabile è indipendente in media da un’altra se le sue medie condizionate sono tutte contemporaneamente uguali
tra loro e quindi necessariamente uguali alla media non condizionata: µ(Y|x1) = … = µ(Y|xn) = µY
Detto in altre parole esiste indipendenza in media di Y da X se e solo se µ(Y|xi) – µY = 0 (con i = 1, …, n)
L’indipendenza in media di una variabile da una seconda non comporta necessariamente l’indipendenza in media della
2a dalla 1a. L’interindipendenza in media è la condizione di mutua indipendenza in media di una variabile dall’altra.
Teoremi:
• l’interindipendenza o l’indipendenza in media è condizione necessaria ma non sufficiente per quella stocastica.
• l’interindipendenza o l’indipendenza stocastica è condizione sufficiente ma non necessaria per quella in media.
Si definisce grado di dipendenza in media la distanza intercorrente tra le medie condizionate e la media non condizionata, che rappresenta la
condizione di indipendenza in media. Si elegge a misura del grado di dipendenza in media della Y dalla X la quantità: σ2Y = σ2[µ(Y|X)]
Scomposizione della varianza
• La quantità σ2Y, varianza delle medie delle distribuzioni condizionate, è detta varianza spiegata. Rappresenta
quella frazione della varianza totale, σ2Y, spiegata (cioè posseduta) dalle medie condizionate.
• La quantità σ*2Y, media delle varianze delle distribuzioni condizionate, è detta varianza residua. Rappresenta
quella frazione di varianza totale σ2Y, non spiegata dalle medie condizionate: σ*2Y = 1/N∑ni=1(Y|xi)fi.
La varianza totale è data dalla spiegata più la residua: σ2Y = σ2Y + σ*2Y
Da cui: 0 ≤ σ2Y ≤ σ2Y
2
Il rapporto di correlazione η
Si usa se y è una variabile. È la normalizzazione della varianza, cioè la spiegata sulla totale. È una misura della difformità
delle medie condizionate dalla loro media, ovvero una misura della dispersione della distribuzione delle medie condizionate.
È = 1 se la residua = 0, infatti ciò implicherebbe che la spiegata fosse = totale.
•
•
Y è indipendente in media da X se e solo se: σ2Y = 0
X è indipendente in media da Y se e solo se: σ2X = 0
È la frazione normalizzata di varianza totale spiegata delle medie condizionate.
σ2X
η2X =
σ*2X
=1–
σ2X
spiegata
=
σ2X
residua
=1–
totale
totale
L’indice γ di Gini e τ di Gini-Goodman-Kruskal (Nota: pi. = fi./N)
Si usano se y è una mutabile. Mentre η2 analizzava fenomeni quantitativi, allo stesso modo, con questo indice τY, si
analizzano quelli qualitativi. Si rappresenta una misura della difformità delle distribuzioni condizionate dalla
distribuzione marginale, calcolando i quadrati delle distanze intercorrenti tra le singole distribuzioni condizionate e la
distribuzione marginale. Ricordiamo che, laddove non sussista dipendenza, tutte le distanze sarebbero = 0 → τ = 0.
Se per le variabili abbiamo utilizzato la varianza σ2, per le mutabili utilizziamo l’indice γ di Gini. Es. 3 Temi svolti:
γy = γ(Y|xi) = ∑mj=1fi/N(1 – fi/N) Gini: per i caratteri qualitativi (corrisponde alla varianza per i caratteri quantitativi).
Dove, a seconda che si cerchi l’incidenza di X su Y o Y su X, fi può essere il totale di colonna o di riga: fi.= riga; f.j = col.
γMax = 1 – 1/n
Gini Massimo teorico
γ’ = γ/γMax
Gini Normalizzato
γ1, γ2, γ3… = γ (per “colonne”)
Gini per classi: difformità in dipendenza = dispersione condizionata. Uso fi. non f.j
γ*y = ∑ni=1γ(Y|xi)pi.
Gini Residuo: è la sommatoria di tutti i Gini moltiplicati per fi/N,
= γ1*totale col1/tot+ γ2*totale col2/tot…quindi è la media ponderata delle misure di dispersione = dispersione residua
γy = ∑ni=1d2(Y|xi.Y)pi.
Gini Spiegato. O anche = Gini – Gini residuo.
2
γY
γ*Y spiegato
residuo
L’indice di Gini-Goodman-Kruskal è come il rapporto di correlazione η , ma per le mutabili.
τ 2X =
=1–
γY
=
γY
=1–
totale
totale
È dato infatti dal rapporto tra l’indice di Gini residuo e l’indice di Gini totale, oppure da:
1 – Gini residuo/Gini totale (più facile negli esercizi). Misura l’intensità della dipendenza.
Assume, ovviamente, valore positivo in presenza di relazione diretta e negativo se inversa.
La covarianza
Y
Kg
µy
(da qui in poi tratteremo sempre variabili)
.
.
. . . . . . . .. . . . .
.
Baricentro
0
5
10
µx
15
20
25 X =°C
Nota: non si interpreta così: 1/N∑(xy – µyµx)
Ma così: (1/N∑xy) – µxµy
E quindi: µxy – µxµy
È una misura atta a quantificare l’intensità del
legame/dipendenza funzionale tra una variabile X
ed una Y. È il momento misto centrale di 2° ordine – medie.
Se (xi – µi)(yi – µy) è il prodotto degli scarti tra i
valori assunti da ogni unità e le rispettive medie →
→ la covarianza è: σxy = 1/N ∑Ni=1 (xi – µi)(yi – µy)
oppure: σxy = 1/N ∑Ni=1 xiyi – µyµx
(xi – µi)(yi – µy)
(2-4,6)(3-10)= 18,2
(4-4,6)(9-10)= 0,6
(8-4,6)(18-10)= 27,2
N
X
Y
XY
La covarianza è la media della sommatoria delle distanze
delle 2 variabili dalle proprie medie, tra loro moltiplicate.
1
2
3
6
Il 2° metodo è più
Si può calcolare nei 2 seguenti modi:
2
4
9
36
semplice: evita di
1) σxy= 46/3 = 15,3 oppure:
3
8
18
144
calcolare tutti gli scarti
2) σxy= 186/3 – 30/3 x 14/3 = 15,3
dalle medie.
3
14
30
46
186
Il coefficiente di correlazione (“rho greco”) ρ = σxy / σx σy
misura l’intensità del legame tra le 2 variabili: assume
valori estremi in presenza di massimo legame funzionale (diretto quando ρ = 1, inverso se = -1). Detto male, è una specie di
“covarianza normalizzata”. Facendo un esempio, 0,66 corrisponde all’85,2%, non al 66%:
85,2%
Nota: se ρ = 0 non significa sempre che non ci sia dipendenza; per esempio:
-1
0
0,66
1
con una retta // asse x, ρ = 0, ma anche con la parabola ρ potrebbe esser = 0.
La retta di regressione
Nel precedente diagramma relativo alla covarianza, abbiamo aggiunto in azzurro tratteggiato la rappresentazione grafica
di una possibile funzione interpolante, atta a sintetizzare la natura della dipendenza della Y dalla X, ed in verde la retta
di regressione, atta a sintetizzare la natura della dipendenza in media della Y dalla X: 1Y* = a + bx (dove “1” indica il
grado della funzione) è l’equazione della retta di regressione, che soddisfa la condizione di accostamento dei minimi
quadrati (cioè la distanza minima) d(Y, Y*) = min. Applicando tale condizione in un sistema di derivate parziali,
troviamo i coefficienti della retta di regressione:
Si osservi, infine, che, qualora abbia senso, è possibile ricercare anche
a = µY –
σXY
σ2X
µX
σXY
la retta di regressione che spiega la dipendenza della X dalla Y:
a = σXY / σ2Y
b = – (σXY / σ2Y) µY + µX
Altra formulazione retta: y = µy + ρ σy/σx (x – µx) (pag. 139 libro vecchio)
b=
σ2X
Il rapporto di correlazione lineare ρ2
(0 ≤ ρ2 ≤ 1)
Ci si pone ora il problema di misurare la capacità interpolativa della retta di regressione.
• La media dei quadrati degli scarti dei valori effettivi yi dai valori teorici 1y*i è detta varianza residua dalla retta
di regressione. Rappresenta quella frazione di varianza totale σ2Y non spiegata (quindi residua) dalla retta di
2
2
2
2
regressione: 1σ* Y = σ Y – σ XY / σ X
• La media dei quadrati degli scarti dei valori teorici 1y*i dalla media µY è detta varianza spiegata dalla retta di
regressione. Rappresenta quella frazione di varianza totale σ2Y spiegata (cioè posseduta) dalla retta di
2
2
2
regressione: 1σ Y = σ XY / σ X
La retta di regressione scompone pertanto la varianza totale della variabile dipendente Y in spiegata più residua. (pag. 143 libro vecchio)
•
Dividendo la varianza spiegata dalla retta di regressione per la varianza totale di Y si ottiene il rapporto di
correlazione lineare ρ2, frazione normalizzata di varianza totale spiegata dalla retta di regressione, che,
esprimendo congiuntamente l’attitudine di ognuna delle due variabili ad essere funzione lineare dell’altra,
rappresenta una misura dell’interdipendenza lineare intercorrente tra le due variabili: ρ2 = 1σ2Y / σ2Y
Confrontando il rapporto di correlazione η2 con il rapporto di correlazione lineare ρ2 scopriamo che: 0 ≤ ρ2 ≤ η2Y ≤ 1
Il segno di uguale sussiste se e solo se le medie condizionate sono tutte allineate, cioè coincidono con i valori teorici
corrispondenti, quindi anche la varianza spiegata dalla retta è uguale alla varianza spiegata.
• L’indice di dipendenza lineare δ2y = ρ2y / η2y, frazione normalizzata di dipendenza esistente spiegata dalla retta
di regressione, rapporta queste 2 grandezze e misura l’attitudine del modello lineare a sintetizzare il grado di
dipendenza esistente in relazione al modello funzionale rappresentato dalle medie condizionate.
Se l’indice è vicino allo 0, la retta di regressione non spiega sufficientemente la dipendenza, quindi bisogna passare al
polinomio di grado superiore. Prima analizziamo 3 casi particolari (su 6, gli altri sono da approfondire sul libro vecchio a pag. 149):
La perfetta interpolante rispetto ad y
ρ2 = η2y = 1
e naturalmente: 1δ2Y = ρ2 / η2y = 1
Esempio:
La varianza residua dalle medie condizionate σ*2 e
2
0
0
la varianza dalla retta 1σ*2Y sono = 0. Trattasi della
0
1
0
massima efficacia di sintesi.
0
0
3
La migliore interpolante
0 < ρ2 = η2y < 1 e naturalmente: 1δ2Y = ρ2 / η2y = 1 (come sopra)
Le due varianze sono =, ma generate da concetti distinti.
2
1
0
Le medie condizionate sono allineate (di cui la retta è la perfetta
0
0
0
interpolante). Trattasi del caso di non migliorabilità: c’è residuo
0
1
3
ma non è eliminabile.
Situazione migliorabile
0<ρ2<1 e η2Y=1 e naturalmente: 0 ≤ 1δ2Y = ρ2 / η2y ≤ 1
Le medie condizionate non sono allineate.
2
1
0
2
La varianza residua dalla retta è diversa da 0: 1σ* Y ≠ 0.
0
0
0
2
La varianza residua dalle medie è =0: σ* = 0.
0
0
3
2
Nota: Se ρ = 0 la retta è parallela all’asse x con y = µ.
...
. ..
.
.
..
La parabola di regressione (y = cx2 + bx + a)
• La media dei quadrati degli scarti dei valori effettivi yi dai valori teorici 2y*i è detta varianza residua dalla
parabola di regressione. Rappresenta quella frazione di varianza totale σ2Y non spiegata (quindi residua) dalla
parabola di regressione: 2σ*2Y = 1/N∑N i=1 (yi – 2y*i)2
Si noti che, rispetto alla definizione fornita per la retta di regressione, a parte la formula, cambia soltanto: 1y*i → 2y*i
2
N
2
2
Stesso dicasi per la varianza spiegata dalla parabola, la cui formula è: 2σ Y = 1/N∑ i=1 (a + bxi + cx i – µY)
Ancora una volta, varianza spiegata + varianza residua = varianza totale. Allo stesso modo, il rapporto di correlazione
ora non è più lineare bensì parabolico: 2η2y e rappresenta la frazione normalizzata di varianza totale σ2Y spiegata dalla
parabola di regressione. Si noti, che, spiegando di più la parabola, il residuo che ne deriva è < rispetto alla retta.
L’indice che ora misura l’attitudine della parabola a sintetizzare il grado di dipendenza è il rapporto di dipendenza
2
2
2
parabolico (non più lineare): 2δ y = 2η y / η y
(come sempre, se non c’è residuo è = 1).
Salendo ulteriormente di grado, troveremo, quindi, il valore rη2y detto rapporto di correlazione polinomiale di grado r.
La regressione multipla lineare (pag. 171 libro vecchio)
Se la parabola di regressione fornisce miglioramenti irrilevanti, lo studio della dipendenza può essere approfondito
ipotizzando che la variabile Y dipenda da più di una variabile condizionante, passando al piano di regressione multipla,
la cui equazione è: Y*XZ = a + bX + cZ.
Lo sviluppo dei rapporti tra i determinanti generati dal sistema che ne scaturisce fornisce i coefficienti:
• Il coefficiente a è l’intercetta del piano sull’asse Y;
• Il coefficiente b indica che, posto Z costante, all’aumentare di un’unità della X si riscontra un aumento medio
della Y;
• Il coefficiente c indica che, posto X costante, all’aumentare di un’unità della Z si riscontra un aumento medio
della Y.
Il modello di grado 0 Integrazione con la lezione del 5 novembre 2007
Formula generica di polinomio: Y = f(x) = a0 + ax + a2x2 + … + anxn
max = n – 1 (es.: se n = 3 → parabola)
Se il grado è 0, significa che la variabile indipendente x non è considerata: y = a0 (ha poco senso è un caso di dottrina).
∑(yi – y*i)2 = min
al posto di y*i sostituisco il polinomio y*i = a0. Pertanto:
∑(yi – a0)2 = min
1) faccio la derivata
y
2) la media è quella costante che rende minima la sommatoria delle distanze → 0y = µ y.
µy
← è il polinomio di grado 0: non spiega nulla; varianza spiegata = 0σ2y = 0 → è tutto residuo.
x
2
2
µ σ* y = 1/N∑(yi – µ y*i)
2
2
0σ y = 1/N∑(yi – µ y) = varianza totale: se il residuo è massimo → varianza totale = varianza residua.
Sappiamo che l’indice di miglioramento r+1ρ2Y = (rσ*2y – r+1σ*2y)/rσ*2y esprime il beneficio che si ottiene nel passare ad
un polinomio di grado superiore. Nel caso del passaggio dalla retta alla parabola si passa dal grado 1 al grado 2.
In questo caso si passa dal grado 0 al grado 1: (0σ*2y – 1σ*2y)/0σ*2y. Poiché abbiamo appena detto che 0σ*2y = σ2y,
(σ2y – 1σ*2y)/σ2y = 1σy2 / σy2 = ρ2 quindi ρ2 è anche considerabile come indice di miglioramento da grado 0 a grado 1.
La regressione e correlazione parziale
Si definisce retta di regressione parziale la retta che spiega il legame lineare tra due variabili X e Y depurate dal legame
lineare che hanno dalla Z:
ZY = a + bXZ
Si definisce coefficiente di correlazione parziale il coefficiente di correlazione esistente tra gli scarti che le variabili X e
Y hanno dalle rette di regressione che ne spiegano la dipendenza lineare dalla variabile Z:
ZρXY = b(σX/σY) = σXY/(σXσY)
Integrazione con la lezione del 12 Novembre 2007: abbiamo studiato y in dipendenza di x e z. Ora vogliamo sapere
come si comportano x e y congiuntamente se z è costante. Y = f(x, z). Che differenza c’è con y = f(x)? Z viene
contemplata, ma è costante. Per l’orale: cosa sono i residui di x da z? Si ipotizzi di avere y*=f(z); x*=f(z).
Calcolo i residui: y – y*; x – x* (valori teorici – residui). La formula della retta di regressione parziale è:
zy = µ y + b(x – µ x)
b, c sono i coefficienti del piano (se siamo fortunati negli esercizi a,b,c potrebbero esser dati)
xy = µ y + c(z – µ Z)
y = a + bx + cz
retta: y = f(x|z) x = µx z = µz
y = a + bx + cµz y = a + bµx + cz.
È l’intersezione di 2 piani → è una retta.
Se y = 250 – 7x + 4*3 = 262 – 7x
xy = 250 – 7 * 40 + 4z = –30 + 4z
Punti che servono per gli esercizi: è come la parabola z = x2, i calcoli sono uguali; in un caso c’è una variabile al
quadrato, nell’altro c’è una nuova variabile. Saltare le dimostrazioni delle formule.
Ultimo argomento: funzioni linearizzabili
Y = a + b1/x non è lineare, ma è linearizzabile → 1/x = w → y = a + bw → lo trasformo in retta (stessa cosa se ci fosse
il logaritmo naturale di x: lo pongo = w).
Domanda
Mediana
Indice di variabilità relativa
Spiegare la dipendenza di Y da X.
Valutare la capacità
interpretativa/bontà dell’interpolazione
Valore medio di X che lascia invariata la
N
quantità ∑ i=1yi
Verificare che I soddisfa le proprietà di
una media analitica.
Sapendo che la relazione lineare Z=f(X)
spiega la dipendenza di Z da X soddisfa
la condizione f(0) = 0, si individui f.
Si misuri il grado di dispersione
(assoluto e normalizzato)
Risposta
Riordino, Posizione: (N+1)/2 se dispari, N/2 se pari
C.v. = σ/µ
Retta, varianza spiegata della retta
ρ2
Il vincolo della conservazione della somma è: ∑Ni=1yi = ∑Ni=1f. I dovrà soddisfare la
condizione di equivalenza di Chisini. Sostituisco I ad x.
Soddisfa la condizione di equivalenza di Chisini? Sì. E la condizione di internalità di
Cauchy se 1 ≤ I ≤ valore max.
Si trova l’equazione Z = (xz/x2)X
Indice γ di Gini. γ’ = γ / γmax
dove γmax è il valore che assume l’indice in caso di Equidistribuzione.
La difformità in dipendenza delle
classi. Si calcoli l’incidenza della
Y da X.
Calcolo γ1, γ2, etc. La media ponderata delle misure di dispersione in ciascuna classe è una
misura della dispersione residua γ*. γ = γ – γ* è una misura della difformità spiegata dalle
classi. Per ottenere una misura normalizzata, o l’incidenza, si calcoli l’indice τ di GGK
Prevedere il tasso medio di incremento
e un’opportuna interpolante.
Valore iniziale(1 + t)n = valore finale. Trovare t. Oppure la retta.
Costruire una situazione di
perfetta dipendenza in media
biunivoca
Si confrontino le distribuzioni di
X condizionate da Y
Esiste perfetta dipendenza in media di X da Y (η2 = 1) se ad ogni valore di Y
corrisponde un solo valore di X. Affinchè ηx2 = 1 e ηy2 = 1 è necessario che tutti i
dati differiscano tra loro.
Si valuti la dipendenza di X da Y e da Z
Se caratterizzate da un diverso totale, sono stocasticamente indipendenti. Uso GGK
Si calcoli σ e µ complessivi
Calcolare la media totale, quindi la varianza come spiegata + residua.
C.v. = σ/µ
Si confronti la variabilità dei fenomeni
attraverso un indice opportuno
Si spieghi Y in dipendenza della variabile
con cui risulta maggiormente correlata
Quale variabile influisce di più sulla X?
Quale modello statistico può prevedere
X, con determinate Y e Z?
Si confrontino le distribuzioni
Si illustrino le condizioni di minima e
massima connessione, sia teoricamente,
sia costruendo le tabelle di frequenze
Date le medie, le varianze e le
covarianze X Y Z, si individui la retta di
regressione, un opportuno indice di
bontà
Dato il piano, se ne valuti la bontà.
Dato il piano, si valuti il miglioramento
relativo ottenuto introducendo nel
modello di regressione multipla una
seconda variabile.
Se le serie condizionate di X|y non sono direttamente compatibili fra loro e con la marginale in
quanto sono caratterizzate da un diverso totale, la comparabilità può essere raggiunta ricorrendo alle
frequenze relative.
Confronto ρYX2 e ρYZ2 e trovo quella maggiormente correlata con Y. Retta di
regressione. Se mi chiede il valore che prevede Y = n inserisco n nella formula.
Se si ipotizza un legame lineare tra le variabili, si può analizzare la dipendenza di tipo funzionale della
variabile X da ciascuna delle altre due variabili, ricorrendo al coefficiente di correlazione ρXY e ρXZ.
Per trovarlo, si devono trovare tutte le medie µX, µY, µZ, µXY, µXZ e le covarianze σXY e σXZ e le
2
varianze σ di x, y, z.
Piano di regressione multipla, con coefficienti a,b,c. Poi inserisco nella formula del piano i valori dati.
Si costruiscono le distribuzioni condizionate (numero/totale colonna) e si dice su quali variabili è
concentrata la distribuzione.
La condizione di minima connessine è quella di indipendenza stocastica in cui le distribuzioni
condizionate sono tutte, contemporaneamente, uguali fra loro (e quindi uguali alla distribuzione
marginale). Le frequenze teoriche in caso di dipendenza stocastica … arrivare a fare Pearson-Pizzetti.
Retta, ρ2 = σYV2 / (σY2 σV2). Dire quanto spiega.
Rapporto di correlazione lineare multipla: VWηY2 = 1 – VWσ*Y2/σY2 che esprime la
frazione normalizzata di varianza totale di Y spiegata dal piano di regressione. Per
trovare il valore della varianza residua: VWσ*Y2 = µ2Y – aµ2Y – bµYV – cµYW. Si
utilizzano le relazioni esistenti tra momenti e momenti misti:
µ2Y = σY2 + µY2
µYV = σYV + µYµV
µYW = σYW + µYµW
Si ottiene così YWσ*Y2
E ottengo anche: VWηY2 = 1 – VWσ*Y2/σY2
Indice di miglioramento multidimensionale: VWρ2Y = (VσY*2 – VWσY*2)/ VσY*2
Poiché VσY*2 = σY*2 (1 – ρ2) si ottiene VWρ2Y = (VσY*2 – VWσY*2)/ VσY*2 si trova una
riduzione o un aumento di varianza residua.
Si individui la retta di regressione
parziale che spiega Y in funzione di V, in
costanza di W.
Si valuti con opportuno indice la bontà
del modello di regressione parziale.
Si dia un giudizio sulla variabilità di X
Data una tabella a doppia entrata, dire
che valore devono assumere A, B, C, in
modo che:
Si stimi il dato mancante scegliendo il
metodo più conveniente tra: media,
mediana, interpolante di primo grado
tra X e Y.
Si esprima un giudizio sulla variabilità di
X e di Y.
Quale metodo è più aderente?
Si descriva, con opportuni indici, la
posizione e la dispersione della
distribuzione distinta per Y.
Si individui la distribuzione di frequenze
congiunte che esprime la condizione di
massima connessione, giustificando la
scelta.
Si determini la quantità media nel
rispetto del vincolo di conservazione
della spesa complessiva del totale,
riconoscendo il tipo di media.
Si misuri l’intensità del legame lineare
presente e si individui un’opportuna
funzione interpolante
Si effettui uno studio completo della
dipendenza di Y da X e Z
Calcolare la media di X nel rispetto del
vincolo di conservazione del tot.
Essa può essere individuata, ponendo nell’equazione del piano di regressione, la
µW = w. Pertanto l’equazione del piano di regressione si riduce alla retta parziale.
Un opportuno indice per valutare la bontà del modello di regressione parziale è
dato dal quadrato del coefficiente di correlazione parziale: Wρ2YV
È utile calcolare la differenza quadratica media (Δ) che indica il grado di difformità
tra le unità statistiche osservate. Δ = σ√2 √(N/N – 1)
dove σ=√(µ2 – µ2)
Si riportano le elaborazioni utili al calcolo degli operatori statistici presenti
nell’equazione: X, f, Xf, X2, X2f. Si ottengono così: µx, µ2(x), σ2x = µ2(x) – µ2(x), σx.
Quindi ottengo Δ. Devo normalizzarlo. Per far ciò è utile costruire la tabella di
massima variabilità, cioè mettendo metà delle frequenze al primo valore, l’altra
metà all’ultimo valore e agli altri mettendo 0. Applicando ancora le formule
precedenti, troviamo Δmax da cui Δ/Δmax.
ηY|X2 = ρ2 = 1
Nel primo caso, la varianza residua dalle medie condizionate
[A=0,B=1,C=0]
σ2* e la varianza residua dalla retta di regressione 1σ2* sono
uguali tra loro ed entrambe uguali a zero. Si è in presenza di
una situazione ottima e di massima efficacia della retta di
regressione nel sintetizzare la distribuzione.
2
2
0< ηY|X = ρ <1
Le due varianze residue risultano uguali, ma provengono da
[A=1,B=0,C=1]
due concetti diversi. Le medie condizionate sono perciò uguali
ai valori teorici e quindi allineate. Caso di non migliorabilità.
2
2
ηY|X = 1 e ρ <1
In questo caso la varianza residua dalle medie condizionate
[A=1,B=0,C=0]
risulta =0, mentre la varianza dalla retta è ≠0. Le media
condizionate non sono pertanto allineate. Caso migliorabile.
Si calcoli, media, mediana, retta.
x = σ2x/maxσ2x = σ2x/(µ(x1 + xn) – x1xn – µ2). Commentare se X o Y ha
dispersione >.
Il metodo dell’interpolante considera sia X sia Y.
Y, qualitativo ordinale, può essere sintetizzato dagli indici di posizione moda e
mediana (N/2 oppure (N+1)/2). Per valutare la dispersione, possono essere
calcolati l’indice γ di Gini = ∑nj=1(1 – f.j/N) e l’indice normalizzato γ’= γ/γ max. Una
misura normalizzata di mutabilità relativa alla moda è data da: δ’ = δ/δmax
con δ = (N – f(Mo))/N e con δmax = (N – f(Mo)min)/N
Vedi appunti su indipendenza e connessione (fino ad arrivare a Pearson-Pizzetti)
sino ad arrivare a GGK.
Normσ
2
q = s/p. Chisini.media aritmetica ponderata (in questo caso).
Una misura dell’intensità e del verso (positivo o negativo) del legame è data da ρ.
Retta e soliti coefficienti. ρ2 spiega la percentuale di variabilità.
Si introduce il modello del piano di regressione coi suoi coefficienti. Un indice di
bontà di adattamento ai dati del piano è dato dal rapporto di correlazione multipla
lineare: XZηY2=1 – XZσ2*Y/σ2Y. Poiché la varianza residua dal piano di regressione
multipla è pari a XZσ2*Y = µ2(y) – aµ2Y – bµYX – cµYZ. Il confronto tra i valori della
varianza residua dalla retta e dal piano di regressione permette di valutare il
miglioramento ottenuto introducendo nel modello lineare la variabile Z. A tal fine
si calcola l’indice di miglioramento multidimensionale: XZρY2=(XσY*2 – XZσY*2)/ XσY*2,
dove XσY*2 = σY2 – σXY2/σX2. Dalla lettura dell’indice di miglioramento si evince che
l’introduzione di Z ha portato a riduzione/aumento della varianza residua del tot%.
La relazione funzionale che lega il prezzo, la Q e la spesa è: S=XY.
Poiché il vincolo di conservazione della spesa totale impone che: ∑ni=1si=∑ni=1xiyi e la
Confrontare la variabilità delle
distribuzioni di X, Y, S
Stimare l’eterogeneità. Configurare i
casi estremi.
Si valuti il tasso medio di variazione. Si
spieghi ora la dipendenza attraverso un
modello lineare. Si confronti la bontà
dei modelli individuati. Si faccia una
previsione sulla base dei 2 modelli
(inserendo i numeri nelle formule).
Si stimi in modo opportuno il numero di
Y, valutando la bontà dell’interpolante.
Dopo aver calcolato le medie riferite ad
ogni X, si valuti la frazione di varianza
totale spiegata dalla retta.
Dopo aver individuato il carattere
condizionante (X) e quello condizionato
(Y), effettuare uno studio completo
della dipendenza di Y da X. E casi limite.
2
2
3
4
2
Dati ∑X, ∑Y, ∑X , ∑Y , ∑XY, ∑X , ∑X , ∑X Y
prevedere Y dato X ricorrendo ad un
modello lineare. Valutare la bontà del
modello individuato.
Rifare la previsione ricorrendo al
modello parabolico. Valutarne la bontà.
Confrontare l’efficienza dei 2 modelli.
condizione di equivalenza di Chisini prevede che: ∑ni=1xiyi = ∑ni=1Iyi,
il prezzo medio vale I =∑ni=1xiyi / ∑ni=1yi
Calcolare le medie e le varianze di X, Y e S. Per effettuare il confronto si calcano i
coefficienti di variazione: CVX = σX/µX etc. da cui emerge la > variabilità.
Per stimare l’eterogeneità della mutabile si può ricorrere al calcolo dell’indice di
Gini considerando come frequenze “il numero di addetti”. Si ottiene γ. I casi
estremi sono la massima concentrazione e l’equi-distribuzione.
Valore iniziale(1 + t)n = valore finale. Dall’andamento del grafico si può capire se il
valore se il valore debba esser positivo o negativo. Retta. Per effettuare il
confronto, è necessario utilizzare le elaborazioni: XT, 1X, (XT – X)2, (1X – X)2. Il
modello lineare risulta essere migliore se la somma degli scarti al quadrato dai
valori effettivi risulta essere inferiore rispetto al modello col tasso medio.
Retta e ρ2.
Occorre calcolare le medie condizionate delle Y rispetto alle X. La retta
interpolante le medie condizionate ha la stessa equazione della retta di
regressione: µ(Y|X)= µy + σXY/σ2X(X – µX). Occorre calcolare 1δ2Y = ρ2/ηy2.
Dove ηy2 = σ2Y/σ2Y e dove: σ2Y = 1/N∑ni=1[µ(y/x) – µY]2fi.
Retta e ρ2. I casi limite che si possono presentare sono:
• ρ=0, che segnala la presenza di in correlazione tra le variabili;
• ρ=1, che segnala la presenza di un legame diretto perfettamente lineare fra le variabili;
• ρ=-1, che segnala la presenza di un legame inverso perfettamente lineare
tra le variabili;
• ρ2=η2, che segnala la non migliorabilità del modello di regressione lineare semplice, in quanto le
medie condizionate sono allineate lungo la retta di regressione ma esiste del residuo non eliminabile.
Retta: Y=μy–(σxy/σ2x)μx + (σxy/σ2x)x dove: Le medie sono: μy=∑Y/N, μX=∑X/N, μXY=∑XY/N
Visto che X è dato, lo inserisco nell’equazione σXY = μXY – μX * μY
finale e prevedo Y.
σ2x = ∑X2/N – μX2
Per valutare la bontà del modello si calcola il rapporto di correlazione lineare ρ2.
Ciò rende necessario calcolare anche la varianza di Y: σ2Y = ∑Y2/N – μY2.
ρ2 = σXY2/( σ2x σ2Y ). Fare le solite considerazioni: spiega per il tot% etc.
Parabola: si vedano le formule sul formulario. La bontà del modello è fornita dal
rapporto di correlazione parabolico: 2ηY2.
2
2
2
2
Il confronto tra l’efficienza dei 2 modelli r+1ρ Y = (rσ* y – r+1σ* y)/rσ* y
2
2
2
dove: 1σ* y = σ y (1 – ρ )
è dato dall’indice di miglioramento:
Nozioni di calcolo combinatorio (Appunti di Roberto Scarella e Davide Benza)
Disposizioni semplici (Dn,k): si definiscono disposizioni semplici di n soggetti tutti distinti di classe k (scelti a k alla
volta) tutti i sottoinsiemi che si possono formare con k degli n elementi in modo tale che differiscano tra loro per la
natura di almeno uno degli elementi componenti o per l’ordine con cui questi si presentano. Tali disposizioni possono
anche essere viste come: a partire da un gruppo n si ottengono sottogruppi di k unità e non è ammessa la ripetizione
dell’oggetto. In formula: Dn,k = n!/(n-k)!
Esempio 1: disposizione di 4 elementi a gruppi di 3 diversi tra loro per ordine o natura.
D4,3 = 4!/(4-3)! = 4!/1! = 24 gruppi
Esempio 2: disposizione di 10 elementi a gruppi di 4 diversi tra loro per ordine o natura
D10,4 = 10!/(10-4)! = 10! / 6! = (10*9*8*7*6*5*4*3*2*1)/(6*5*4*3*2*1) = 10*9*8*7 = 5040
Permutazioni semplici (Pn): si definiscono permutazioni semplici di n oggetti tutti distinti (Pn) tutti i gruppi che si
possono formare con gli n oggetti, in modo tale che differiscano esclusivamente per l’ordine con cui questi si
presentano. Pn=n!
Esempio1: permutazione di 3 elementi a gruppi di 3 diversi tra loro per l’ordine. Soggetti a,b,c possono formare le
seguenti possibili permutazioni: (a,b,c)(a,c,b)(b,a,c)(b,c,a)(c,a,b)(c,b,a). In formula: Pn=n!=3!=6
Esempio2: ci sono 4 posti liberi al cinema, i soggetti A,B,C,D in quanti modi possono disporsi? Pongo n=4 e K=4, non
avviene distinzione per natura ma solo per ordine, non ci possono essere ripetizioni, queste particolari disposizioni sono
permutazioni semplici e vengono indicate con: Dn,n = Pn = n!= 4!
Combinazioni semplici (Cn,k): si definiscono combinazioni semplici di n soggetti tutti distinti di classe k tutti i
sottogruppi che si possono formare con k degli n elementi in maniera tale che differiscano tra di loro esclusivamente per
la natura di almeno un componente. Cn,k= Dn,k/Pk =coefficiente binomiale = n = n = n!/[k!(n-k)!]
k
n-k
cioè:
Valore sopra!
.
Valore sotto! * (Valore sopra – Valore sotto)!
Esempio 1: combinazione di 4 elementi a gruppi di 3 diversi per la loro natura. Cn,k= n!/(k!(n-k)!) = 4!/(3!(4-3)!)
Esempio 2: combinazione di 4 elementi a gruppi di 4 diversi per la loro natura. Cn,k= 4!/(4!(4-4)!) = 4!/(4!0!)=0!=1 N.B.
Con ripetizione
Disposizioni con ripetizione (Drn,k): si definiscono disposizioni con ripetizione di n soggetti tutti distinti di classe k
(scelti k alla volta) tutti i sottoinsiemi che si possono formare con k degli n elementi in modo tale che differiscano tra
loro per natura di almeno uno degli elementi componenti, per l’ordine con cui questi si presentano o per la presenza
ripetuta di qualche elemento. Drn,k = nk
Esempio: 3 soggetti (a,b,c) concorrono all’attribuzione di 2 ruoli non alternativi, possibili disposizioni:
(a,a)(a,b)(a,c)(b,a)(b,b)(b,c)(c,a)(c,b)(c,c) = Drn,k = nk = 32 = 9
Combinazioni con ripetizione (Crn,k): si definiscono combinazioni con ripetizione di n soggetti tutti distinti di classe k
(scelti k alla volta) tutti i gruppi che si possono formare con k degli n elementi in modo tale che differiscano tra loro per
la natura di almeno uno degli elementi componenti o per la presenza ripetuta di qualche elemento. Crn,k=Cn+k-1,k =n+k-1
k
Esempio: 5 soggetti (a,b,c,d,e) concorrono all’attribuzione di 3 ruoli senza nessuna limitazione sui ruoli occupati:
Crn,k = n+k-1 = 5+3-1 = 7! / (3!4!) = 5040/144 = 35
k
3
Permutazioni con ripetizione (Prn;k1,…kh)
Si definiscono permutazioni con ripetizione di n oggetti gli ordinamenti che si possono formare considerando distinti i
gruppi che differiscono tra loro per la posizione d’ordine di almeno un elemento: n! / k1! * … * kh!
Schema riassuntivo:
SI (K>n)
Qualcosa si ripete?
NO (K≤n)
Conta l’ordine
Prn,k1…kh
Pn
Conta la natura
CRn,R
Cn,k
Contano entrambi
DRn,k
Dn,k
Gli eventi casuali
Si definisce evento casuale ogni realtà o accadimento (fisico o concettuale) incerto sia perché possibile ma relativo a
una osservazione o esperimento non ancora realizzatosi, sia perché possibile ma relativo a una osservazione o
esperimento realizzatisi ma di cui non si conosce il risultato, tali eventi spesso vengono definiti come eventi casuali
propri. Altre definizioni:
• Evento casuale elementare: ogni possibile esito dell’esperimento. Es: lanciando un dado che esca un numero tra 1 e 6.
• Evento certo (Ω): l’evento che si presenta sempre qualunque sia l’esito dell’esperimento. Tale insieme viene
anche chiamato spazio campionario in quanto è l’insieme di tutti i possibili esiti.
• Evento impossibile (∅): l’evento che comunque non può presentarsi nella realizzazione dell’esperimento.
• Evento casuale proprio: sottoinsieme dello spazio campionario. Es: nel lancio del dado uscita dei numeri 1,3,5.
• Spazio degli eventi (BΩ): collezione di tutti gli eventi possibili per un dato esperimento (lancio dado: esca da 1 a 6).
Il caso del dado
Il numero totale degli elementi contenuti nello spazio degli eventi relativo al lancio del dado è dato da tutti i possibili
sottoinsiemi che si possono formare dall’insieme Ω, comprendendo l’insieme stesso e l’insieme vuoto. Essi sono:
6
= 1 evento impossibile (∅)
6
= 6 eventi casuali elementari
0
1
6
= 15 possibili coppie di eventi casuali elementari:
6
= evento certo Ω
2
(1,2)(1,3)(1,4)(1,5)(1,6)(2,3)(2,4)(2,5)(2,6)(3,4)(3,5)(3,6)(4,5)(4,6)(5,6)
6
Formula: il numero totale degli eventi generabile da uno spazio campionario finito che contiene n elementi è 2n
Operazioni tra eventi casuali
1) Unione: si definisce evento unione tra due eventi A e B, e si indica con “A∪B”, l’evento che si realizza qualora si
presenti indifferentemente uno degli eventi casuali elementari contenuti negli eventi A o B. L’unione gode delle
seguenti proprietà:
o Commutativa: A∪ B ≡ B∪A
o Associativa: A ∪ (B∪C) ≡ (A ∪ B) ∪ C ≡ A ∪ B∪ C
o Di idempotenza: A ∪ A ≡ A
2) Differenza: si definisce evento differenza, tra due eventi A e B, e si indica con “A−B”, l’evento che si realizza
qualora si presenti l’evento A ma non l’evento B. La differenza gode delle seguenti proprietà:
o A − B = {1}
o A ∪ B = (A − B) ∪ B = A ∪ (B − A)
3) Intersezione: si definisce intersezione tra due eventi A e B, e si indica con “A∩B”, l’evento che si realizza quando
si presentano congiuntamente entrambi gli eventi componenti. L’intersezione gode delle proprietà:
o Commutativa: A ∩ B = B ∩ A
o Associativa: A ∩ (B ∩ C) = (A ∩ B) ∩ C = A ∩ B ∩ C
o Di idempotenza: A ∩ A = A
o Inoltre: A − (B∩C) = (A−B) ∪ (A−C)
4) Eventi incompatibili: due eventi A e B, si definiscono incompatibili quando manifestandosi l’uno non si presenta
l’altro e viceversa. Naturalmente A ∪ B = ∅
5) Eventi complementari: due eventi si definiscono complementari quando non presentandosi l’uno si presenta
l’altro e viceversa. Pertanto due eventi complementari sono anche incompatibili ma non è necessariamente vero che
due eventi incompatibili sono complementari. Il complementare dell’insieme A si indica con A e rappresenta
l’insieme di tutti gli elementi che non appartengono ad A. Proprietà degli eventi complementari:
o A∪B=Ω
o A∩B=∅
o A∪A=Ω
o A = (A ∩ B) ∪ (A ∩ B)
o 1° legge di De Morgan: A∪B=A∩B
o 2° legge di De Morgan: A∩B=A∪B
6) Partizione dell’insieme: la collezione di n eventi casuali, A1,A2....,An, rappresenta una partizione dell’evento certo
se sono a due a due disgiunti e la loro unione è l’evento certo. Proprietà della partizione degli insiemi:
a. Ai ∩ AJ = ∅
i,j = 1,2,...,n
n
b. U Ai = Ω
i=1
7) Inclusione: un evento si dice incluso (contenuto) in A (B ⊂ A) quando al verificarsi di B si presenta sempre anche
A ma non viceversa. Qualunque evento A è incluso nell’evento certo Ω, che viene pertanto definito inclusor
maximun, e contiene l’evento impossibile ∅, che viene definito inclusus minimun, cioè:
a. ∀ A ⊂ Ω → A ∪ Ω = Ω
A∩Ω=A
A⊃Ω→A∪∅=A
A∩∅=∅
c. Inoltre, se B ⊂ A, allora:
i. A ∪ B = A
ii. A ∩ B = B
iii. B ⊃ A (⊃ = contiene)
8) Alcune proprietà degli operatori:
a. Transitiva: se A = B e B = C allora A = C
b. Distributiva dell’intersezione rispetto all’unione: A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∪ C)
c. Distributiva dell’unione rispetto all’intersezione: A ∪ (B∩C) = (A∪B) ∩ (A∪C)
b.
L’algebra degli eventi
La coppia (Ω, BΩ) viene definita spazio probabilizzabile, in cui Ω = spazio campionario e BΩ = insieme di un numero
finito di n elementi da ω1 a ωn. BΩ è una Algebra di Boole, cioè una classe che possiede le seguenti proprietà:
Ω € BΩ
A € BΩ => Ā € BΩ
A1, A2, …, An € BΩ => Uni=1 Ai € BΩ
Inoltre per la legge di De Morgan segue che: ∩ni=1 Ai € BΩ
Una estensione
Sia Ω un insieme infinito e numerabile, valgono le stesse proprietà di cui sopra, ma con n = ∞.
Una generalizzazione
Sia Ω un insieme infinito e non numerabile. È necessario restringere il campo con al più un’infinità numerabile di
operazioni, ottenendo la classe di Borel, formata dalla famiglia monotona delle semirette:
R(x) = (-∞,x] con x € R
Ad ogni semiretta corrisponde, come controimmagine, l’elemento R–1(x) € BΩ
Il concetto di misura finita
Una misura finita m è caratterizzata dalle seguenti proprietà:
1) È una funzione definita su un’algebra (σ-algebra) di insieme BΩ
2) ∀A ⊂ BΩ => m(A) ⊂ R [0, ∞)
3) m(0) = 0
4) m (Ω) < a < ∞
5) è completamente additiva. Ciò si verifica se, data una sequenza di eventi disgiunti Ai, m(Uni=1Ai) = ∑∞i=1m(Ai)
m(A|Ω) si definisce misura normalizzata di A su Ω.
La Probabilità
Il concetto di probabilità: la probabilità, intesa come misura associata ad un evento casuale, è una proprietà fisica
dell’evento stesso, altre considerazioni intendono la probabilità come grado di fiducia che un ricercatore, sulla base
delle sue esperienze, nutre nel verificarsi dell’evento in questione, si sono sviluppati diversi filoni teorici:
1) Concezione classica: se, per un determinato evento A, è possibile determinare il numero di casi favorevoli
n(A) ed il numero di casi possibili n(Ω) realizzabili in quella prova, nell’ipotesi che siano tutti egualmente
possibili si definisce probabilità dell’evento P(A) la quantità: P(A) = n(A) / n(Ω)
2) Concezione statistica: si definisce probabilità statistica di un evento A la quantità, se esiste finita, P (A) =
limn→∞ n(A)/n con n(A) il numero di casi in cui è stato osservato l’evento A ed n il totale di osservazioni.
3) Concezione soggettiva: la probabilità di un evento è la misura del grado di fiducia che un determinato
soggetto attribuisce al suo verificarsi.
Il calcolo delle probabilità, gli assiomi di Kolmogorov
Sia BΩ un’algebra di insiemi:
Nota bene: A ∩ B = ∅ significa che i due insiemi sono disgiunti.
1) P (A) ≥ 0 con A € BΩ
Solo in questo caso si può dire che (A ∪ B) = P(A) + P(B) e che
2) P (Ω) = 1
(A ∩ B) = P(A)*P(B). Attenzione a non sbagliare negli esercizi!
3) P (A ∪ B) = P(A) + P(B) se A ∩ B = ∅
La coppia di insiemi (Ω, BΩ) viene definita spazio probabilizzabile. Ad essa viene associata la funzione di probabilità
P(⋅), giungendo a definire lo spazio di probabilità, (Ω, BΩ, P) in cui a ciascun evento A € BΩ viene associata la
probabilità P(A). Per il terzo assioma possono essere elencate le seguenti relazioni:
• P(Ω) = P(∅) + P(Ω)
• P(Ω) = P(A) + P(Ā)
• P(A) = 1 - P(Ā)
Il terzo assioma può essere così generalizzato: P [Ui(Ai)] = ∑i P(Ai)Ai Ω Aj = ∅ ∀i ≠ j = 1,2,...
La misura di probabilità
P(A) deve essere considerata una misura normalizzata di A su Ω, ottenendo così che ogni misura finita m può essere
trasformata in misura di probabilità mediante la posizione P(A) = m(AΩ) = m(A) / m(Ω)
La formula delle probabilità totali
Se A e B sono due eventi, l’evento unione è scomponibile nell’unione di eventi incompatibili:
A ∪ B = (A – (A ∩ B)) ∪ (B – (B ∩ A)) ∪ (A ∩ B) per il terzo assioma si ottiene la formula delle proprietà totali:
P (A ∪ B) = P (A) + P (B) – P(A∩B)
La probabilità condizionata:
es: lancio di due dadi, probabilizzare i seguenti accadimenti:
a. Il risultato dell’esperimento è 8 (probabilità incondizionata)
b. Il risultato dell’esperimento è 8 nel caso in cui il primo dado ha fornito un numero pari.
Soluzione caso a: i lanci favorevoli sono: P (A)= 5/36 = (2,6)(3,5)(4,4)(5,3)(6,2)
Soluzione b: i lanci favorevoli sono: 3 * 6 = 18 → primo lancio pari * secondo lancio, i risultati favorevoli al risultato
finale sono (2,6)(4,4)(6,2) cioè l’intersezione tra i due eventi A e B. Formalmente: P(AB) = 3/18, perciò:
P (A ∩ BΩ) = m (A ∩ B) / m(Ω)
P (B) = m(B) / m(Ω)
P (AB) = P(A ∩ B) / P(B); è la formula delle probabilità condizionate o quarto assioma del calcolo delle probabilità.
P (BA) = P(A ∩ B) / P(A)
P (A ∩ B) = P(A) P(BA) = P(B) P(AB)
Eventi indipendenti (domanda da orale):
un evento A è indipendente da un evento B se P(AB) = P(A), ovvero se le informazioni sull’evento B non alterano le
probabilità associate all’evento A, se A e B sono indipendenti la loro intersezione è il prodotto delle probabilità:
P(A ∩ B) = P(A) P(B)
Condizioni necessarie per l’indipendenza sono: A ∩ B ≠ 0 , A – B ≠ 0, B – A ≠ 0, A ⊄ B, B ⊄ A. Generalizzando:
P[∩i(Ai)] = ∏i P(Ai)P(Ai Aj) = P(Ai)
Teorema di Bayes, è un approfondimento della definizione di probabilità condizionata dalle relazioni:
P(A ∩ B) = P(A) P(BA)
Esempio
N
Malato
98%
3%
P(B) = P(A ∩ B) + P(Ā ∩ B) da cui si può dedurre:
Sano
4%
97%
P(A) P(BA)
.
P(AB) = P(A ∩ B) = P(A) P(BA) . =
P(B)
P(A ∩ B)+P(Ā ∩ B)
P(A) P(BA) + P(Ā)P(BA)
(98*3)/(98*3+4*97)=
= 0,431 = 43,1%
Tale formula è definita formula di Bayes o legge delle probabilità delle cause, consente di calcolare la probabilità che il
manifestarsi di un evento sia imputabile a una specifica fra le altre possibili cause, che sono tra loro incompatibili.
La variabile aleatoria (v.a. o variabile casuale)
La variabile aleatoria è una funzione che associa a ciascun elemento dello spazio campionario un numero: Ω → R.
Definizione: l’applicazione X: Ω → R che associa a ciascun elemento di uno spazio campionario un numero (contenuto
in R) è definita variabile aleatoria se, per ogni semiretta R(x) =) definita dalla R(x) = (-∞,x] con x € R, la sua immagine
inversa A(x) = X-1[R(x)] è contenuta in BΩ. A(x) = X-1[R(-∞¬x)] è detta funzione di ripartizione della v.a.X.
Esempio: nel lancio di monete la variabile aleatoria associa la vincita di 1 euro all’uscita di testa. In questo modo
probabilizzo un qualcosa di numerico, quantitativo. Non posso fare la media di testa o croce ma posso fare la media
della vincita. Con la lettera maiuscola “X” si indica la variabile aleatoria, la lettera minuscola ”x” indica il singolo
fenomeno. La funzione che associa a ciascuna intensità della variabile aleatoria la probabilità che questa si verifichi
viene definita legge di probabilità.
Proprietà della legge di probabilità:
• La legge di probabilità è sempre positiva
• La somma delle singole probabilità deve dare 1
Classificazione delle variabili aleatorie:
1. v.a. binomiale Bi (n,p): conta il numero di successi in “n” prove indipendenti. Esempio: ho un urna con
palline di colore diverso, campionamento con reinserimento, cioè estraggo guardo il colore e reinserisco la
pallina nell’urna. La probabilità che riesca quella stessa pallina è costante. L’inserimento garantisce
l’indipendenza di una prova dall’altra (nota: argomento spesso chiesto all’orale).
Esempio: un’urna contiene 10 palline, di cui 4B e 6N. n = 5 estrazioni con reinserimento. Voglio ottenere 3B.
P(BBBNN) = (4/10)(4/10)(4/10)(6/10)(6/10) = (4/10)3 (6/10)2 = …
Ma poiché P(BBBNN) = P(NBNBB) = P(NNBBB) = …, è necessario trovare il numero di possibili esiti con
questo risultato, in pratica devo tenere conto anche dell’ordine.
n° possibili esiti: 5 =
estrazioni
= 5 * 4 * 3* 2! = 60/6 = 10
3
n° di B che voglio ottenere
3 * 2 * (5–3)!
Adesso moltiplico il numero di possibili esiti con ordine diverso per la probabilità:
10 * (4/10)3 (6/10)2 = 0,2304 = 23,04%
Generalizzando ottengo la seguente formula:
n px qn–x =
estrazioni
(probabilità che esca B)n° di volte che esce B(probabilità che esca N)n° di volte che esce N
x
n° di B che voglio ottenere
ovvero:
n° di prove
(probabilità di successo)n° di successi(probabilità di insuccessi)n° di insuccessi
n° di successi
Per calcolare la media e la varianza della v.a. binomiale Bi(n,p):
a. µx = ∑ xi ρ(xi) → µx = n*p
b. σ2x = ∑ (xi - µx)2 ρ(xi) = ∑ (xi2 ρ(xi)) - µx → σ2 = n*p*q
In conclusione, se ci sono “n” prove indipendenti e sto contando i successi, si tratta di v.a. binomiale.
2. La v.a. Ipergeometrica H (N,n,p): in questo caso le prove non sono indipendenti (sono dipendenti),
campionamento in blocco, estraggo le palline e non le reinserisco (senza reinserimento), ciascuna prova è
condizionata dall’esito delle prove precedenti. In formula:
Riprendendo l’esempio svolto per la Bi:
Np
Nq
4
6
n° di B
per differenza
H(x ‫ ׀‬N,n,p) =
x
n-x = 3
2 = 5/21 = 23,81% = n° di B che voglio ottenere
per differenza .
N
10
tot palline
n
5
tot estrazioni
essendo:
N = numero totale di elementi
n-x = numero di insuccessi
Np = numero elementi favorevoli
p = frazione di elementi favorevoli
Nq = numero elementi sfavorevoli
q= 1-p = frazione di elementi sfavorevoli
Nota: se N è molto grande e n è molto piccolo (es.: N = 100 e n = 2) => la H tende alla Bi perché reinserire una
pallina o non reinserirla praticamente non cambia nulla (nota: argomento spesso chiesto all’orale).
3. La v.a. Geometrica Ge(p): è un caso particolare della binomiale (con reinserimento) in cui l’unico successo
è l’ultima estrazione e conta il n° di prove x necessarie ad ottenere il 1° successo, essendo le prove
indipendenti ed effettuate a probabilità costanti:
Esempio: P(1a B dopo 3N, cioè alla 4a estrazione)
Essendo indipendenti, calcolo la P(NNNB), ma ricordando che è = P(BNNN) = … = (6/10)3(4/10)
Ge (x‫׀‬p) = (1 – p)(x-1)p
Pertanto:
= (1 – 4/10)(4–1) 4/10 = (6/10)3(4/10) = 216/1000*0,4 = 0,0864
µx = ∑ xi pi = 1/p (risponde alla domanda: “quante prove sono necessarie in media?”)
σ2 = q/p2
4. La v.a. di Pascal (binomiale negativa) Pa(p,k): è la generalizzazione della v.a. geometrica, ma in questo caso
il riferimento non è all’estrazione del primo successo, ma riguarda la probabilità di estrarre la Ka pallina bianca
alla xa estrazione; è il verificarsi congiunto di due eventi tra loro indipendenti (con reinserimento).
Esempio (con riferimento alle solite palline B e N): P (estrarre la 2a pallina B alla 4a estrazione) =?
È l’intersezione di P(NBN), in tutti gli ordini possibili, con P (pallina B alla 4a estrazione).
Pa(p,k)= x-1 pk-1 (1 – p)x-k p = x – 1 pk (1 – p)x–k =
3 (4/10)2(6/10)4–2 = 0,1728 = 17,28%
k-1
k–1
1
Binomiale
σ2=kq/p2
con: µx = k/p
poiché: pk-1 p = p k = 3(4-1) 3 = 34
5. La v.a. di Poisson (λ
λ): è un’approssimazione della Binomiale, si usa quando gli eventi sono molto rari e il
numero delle prove è molto alto, in formula:
Po(x|λ) = (λxe-λ)/x!
Dove λ = n*p ≡ µ ≡ σ2
6. La v.a. Continua: si utilizza nel caso di una serie di valori non numerabili, in cui non ha senso calcolare la
probabilità di un singolo punto (l’integrale in un punto è zero per definizione), ad ogni punto assoceremo un
valore che è la densità, il calcolo della probabilità sarà fatto per intervalli. Il suo spazio campionario è ∞ non
numerabile.
Le funzioni di ripartizione: misurano le aree delle funzioni
(integrali); per tutte le variabili aleatorie, la F di ripartizione sono le
Formule:
∑ da i a J che generano i valori cumulati. Cioè: per calcolare il 30%
• Densità: f(X) = F’(X)= dF(x)/dx
faccio la f (v.a.), mentre per calcolare ≤30% faccio la F (funzione di
• Media: µx = ∫-∞+∞ x f(x) dx
ripartizione).
La funzione di densità è invece la derivata.
• Varianza: ∫-∞+∞ x2 f(x) dx – µx2
• Indice di asimmetria: 1/σ3 ∫-∞+∞ (xi – µ)3 f(x) dx
• Indice di curtosi (è uguale a quello di asimmetria ma è alla quarta): 1/σ4 ∫-∞+∞ (xi – µ)4 f(x) dx
La funzione di ripartizione è continua ovunque. Esempio:
f(x) = ¼
tra 0 e 4
0
altrove
Integrazione con la lezione del 3 Dicembre ’07: Quando lo spazio è un insieme numerabile, si è di fronte ad
una v.a. discreta, mentre quando è definito tra 2 spazi si ha una v.a. continua. Se è continua è così definita:
F(X = x) = ∫0-∞ f(t) dt dove f(x) è la funzione di densità. Ha due proprietà:
1. f(x) ≥ 0 (la probabilità non può essere negativa)
2. ∫-∞+∞ f(x) dx = 1 (è la probabilità dell’evento certo)
Esempio facile:
derivata
Disegno:
F(x) = 0
x<0
f(x) = 0
x≤0
f(x) = ¼
0<x≤4
x/4
0<x≤4
¼
0<x≤4
0
altrove
1
x>4
0
x>4
¼
P(a<x<b) = F(b) – F(a) = P(2<x<3) = F(3) – F(2) = ¾ - 2/4 = ¼
Infatti: ∫b-∞ f(x) dx – ∫a-∞ f(x) dx
0
2 3
4
Non sempre si usano gli integrali, spesso si può evitarlo utilizzando il metodo grafico.
Esempio nuovo, un po’ più complicato: introduciamo K.
f(x) = Kx
0<x<8
1) f(x) ≥ 0 per quali valori di K succede?
0
altrove
Kx ≥ 0 ma x è compreso tra 0 e 8 quindi K ≥ 0.
2) con la 2a proprietà trovo K: ∫-∞+∞ f(x) dx = 1
= ∫0-∞ 0 dx + ∫80 (Kx) dx + ∫8+∞ 0 dx → (Torr.Barr.) →
→ [Kx2/2]80 = K82/2 – K02/2 → 32K = 1 → K = 1/32
7. La v.a. Uniforme continua (rettangolare) R(a,b): ha come parametri generici a,b che sono gli estremi in cui
la variabile esiste, è un metodo grafico.
µx = (b + a)/2
σ2 = (b – a)2/12 (12 è un n° fisso)
Esempio fatto in classe il 3 Dicembre 07:
f(x)
1/(b – a)
a<x<b
0
altrove
F(x)
a
x<a
(x – a)/(b – a)
a≤x≤b
1
x>b
1/(b–a)
a
x µx
b
8. La v.a Normale N (µ, σ): viene anche definita variabile aleatoria gaussiana, la maggior parte della
popolazione si trova intorno alla media. Questo tipo di esercizi non si risolve con calcoli numerici, ma con
P.to di flesso
l’utilizzo delle tavole (vedi grafico di assicurazioni, con code della distribuzione).
-½ [(x – µ)/σ]2
f(x) =
1
X~N(µ, σ)
* e
√2π σ
µ µ+σ
x
F(x) = ∫-∞ f(x) dx
La tavola della normale standard ha µ = 0 e σ = 1: N(0,1)
Formula di standardizzazione: z = (x – µ)/σ
Esempio 1: X~N(µ=170, σ=5)
P(x<172)
Fare SEMPRE il grafico!
Binomiale approssimata:
F(172) = ∫-∞172 f(x) dx
Bi(n,p) → N(np, √npq)
Trasformiamo x in z, utilizzando le tavole:
La binomiale è simmetrica se p = q.
Fx(172) = Fx[(x – µ)/σ] = (172 – 170)/5 = 0,4 γ1 = (q – p)/√npq
172
170 175
x
Più la p si avvicina a q, più la binomiale
A questo punto cerco 0,4 sulle tavole:
si avvicina alla Gaussiana. Se sono
Intestazione di riga: 1° decimale
molto distanti, per compensare si deve
Intestazione di col.: 2° decimale
aumentare di molto n.
Otteniamo 0,6654 che, essendo vicini a µ
e avendo superato il 50% “ci può stare”.
-1
0 Z1 1
Esempio 1bis: Se nell’esempio precedente sostituiamo P(x>163) → 1 – P(x<163) → per la simmetria (163 dista 7
da 170 come 177) → P(x<177) = 1 – Fz(-1,4) = 0,9192
Esempio 2: X~N(µ=98, σ=?) Manca un parametro, ma sappiamo che il 25% > 102.
P(x>102) = 0,25
Fx(102) = Fz(z1)
con z1 = (102 – 98)/σ
Procedo sulle tavole al contrario: cerco il valore più vicino a 0,75
(ho trovato riga 0,6 e colonna 0,07 → 0,7486) e trovo 0,67.
Quindi: z1 = 0,67 → σ = (102 – 98)/0,67 = 5,9701492537313432835820895522388
Esempio 2bis: Se avessimo valori minori di µ, esempio: P(x<95) = 0,15 → per la simmetria (95 dista 3 da 98 come
101) → cerco sulle tavole (1 – 0,15) = 0,85 → z1 = 1,04 = (101 – 98)/σ → σ = 2,8846153846
Esempio 3 (è l’esercizio più difficile, che esce spesso all’esame): il 10% della produzione è > 10 ed il 20% < 9.
Trovare σ e µ.
Attenzione! Quando l’incognita
P(x>10) = 0,10
è la media, non si può ragionare
P(x<9) = 0,20
immediatamente per simmetria
20%
10%
9
µ
10
z1 = (10 – µ)/σ → cerco sulle tavole (1 – 10%) = 0,9 → z1 = 1,28
(10 – µ)/σ = 1,28
- z2 = (9 – µ)/σ → cerco sulle tavole (1 – 20%) = 0,8 → z2 = -0,846
(9 – µ)/σ = -0,846
10 – µ = 1,28σ
Risolvo per differenza
9 – µ = -0,846σ
1 = 2,12σ → σ = 1/2,12 = 0,471698113207547169811320
Funzione di ripartizione della v.a. Normale standardizzata F(z) = P(Z<z)
Nota: su internet e su altri libri si trovano tavole che tengono conto “dell’altra metà della Gaussiana” (basta fare: -0,5).
Riassunto finale delle formule:
Simbolo
Formula
σ 2x
c.v.
σxy
(sigma)
σ*2Y
Y=a + bx
ρ (rho)
2
1σ* Y
2
1σ y
ρ2
σ2 = 1/N ∑ns=1 (xs – µ)2 fs
σ2 = σ2x + σ*2x
σ2 =µ2 – µx2
dove µ2 = (x2fx)/N
c.v. = σ/µ = √σ2/µ
σxy = 1/N ∑ni=1 (xi – µi)(yi – µy)
oppure: = 1/N ∑ni=1 xiyifi – µyµx
cioè: µxy – µxµy
σ*2Y = 1/N∑ni=1(Y|xi)fi.
Y=µy–(σxy/σ2x)µx + (σxy/σ2x)x
ρ = σxy / σx σy
ρ=
µxy – µxµy
.
(µx2 – µx2) (µy2 – µy2)
= σ2Y (1 – ρ2) = σ2Y – σ2XY / σ2X
2
2
2
1σy = σ xy / σ x
ρ2 = 1σy2 / σy2 (teoria)
ρ2 = σxy2 / σx2 σy2 (esercizi)
(x mutabili)
2
1η
(eta)
2
1η
2
1η
= σy|x2 / σy2
= 1 – residuo/totale
(x variabili)
Nome/descrizione
Osservazioni
Formula generale
Varianza totale = spiegata + residua
Formula più veloce
Momento di ordine 2
Coefficiente di variazione
Covarianza
σ*2y = quantità media delle varianze delle distribuzioni condizionate.
σ2y = varianza delle medie delle
distribuzioni condizionate.
È un indice di variabilità
Misura l’intensità della dipendenza
funzionale tra X e Y
Varianza residua dalle medie condizionate
Dipendenza in media di Y da X.
Retta di regressione
Coefficiente di correlazione =
Se elevo al quadrato ho ρ2. Misura
= covarianza / (scarto quadratico di x l’intensità del legame lineare. Dà
* scarto quadratico di y)
indizi sull’inclinazione della retta.
Varianza residua dalla retta di regr.
Scarti tra valori effettivi e teorici
Varianza spiegata dalla retta di regr.= Se lo divido per la varianza totale di
y ottengo ρ2.
= Covarianza2 / varianza di x
Rapporto di correlazione lineare =
Spiega la bontà dell’interpolazione
= varianza spiegata dalla retta
della retta.
varianza tot
Se = 0, è // all’asse x.
Rapporto di correlazione =
È la normalizzata della varianza.
= varianza spiegata dalle medie cond. Spiega la bontà/dipendenza delle
varianza tot
medie cond. È = 1 se il residuo = 0.
Indice di dipendenza lineare: frazione di varianza totale spiegata dalla retta interpolante le medie.
δy
δ2y = ρ2y / η2y
Se è vicino allo 0, posso cercare la dipendenza superiore: parabolica. Se = 1 → medie cond. allineate.
(delta)
Coefficienti della parabola di regressione (a + bx + cx2):
2
a=
∑y
∑x
∑xy ∑x2
∑x2y ∑x3
b=
N
∑x
∑x2
∑y
∑x2
∑xy ∑x3
∑x2y ∑x4
c=
N
∑x
∑x2
∑x
∑x2
∑x3
2
2η
∑x2
∑x3
∑x4
∑y
∑xy :
∑x2y
:
N
∑x
∑x2
∑x
∑x2
∑x3
∑x2
∑x3
∑x4
:
N
∑x
∑x2
∑x
∑x2
∑x3
∑x2
∑x3
∑x4
N
∑x
∑x2
2
2δ y
= 2σy2 / σy2 = 1 – 2σ*2 / σy2
Dove la var. res. d. parabola è:
2
2
2
2σ* =1/N(∑yi –a∑yi –b∑xiyi –c∑xi yi)
2
2
2
2δ y = 2η y / η y
2
r+1ρ Y
2
r+1ρ Y
2σ*
2
2
2η
= (rσ*2y – r+1σ*2y)/rσ*2y
∑x
∑x2
∑x3
∑x2
∑x3
∑x4
DET =
Il determinante di una matrice 3x3 è la differenza tra la
somma dei 3 prodotti degli elementi uniti dalle linee del
disegno di sinistra e la somma dei 3 prodotti degli
elementi uniti dalle linee del disegno di destra.
Per calcolare i coefficienti della parabola di regressione è
necessario svolgere tali calcoli per ognuna delle 6 matrici
e quindi effettuare le divisioni tra i risultanti determinanti.
Rapporto di correlazione parabolica =
= varianza spiegata dalla parabola
varianza tot
Indice di dipendenza parabolica =
= rapporto di correlazione parabolico
rapporto di correlazione
Indice di miglioramento =
= differenza tra le varianze residue
Esprime la bontà del modello
parabolico. Dove la var. spiegata è:
2
2
2
2σy = 1/N∑(a+bx+cx – µ y)
Si avvicina di più ad 1 rispetto alla
lineare: + ↑ grado + ci si avvicina.
Esprime il beneficio che si ottiene
nel passare da un polinomio di
varianza residua del polinomio di grado<
grado r ad uno di grado r+1.
Y*XZ
Y*XZ = a + bX + cZ.
Ha i seguenti coefficienti:
Piano di regressione multipla
b = (σ2Z σXY – σXZ σYZ) / (σ2X σ2Z – σ2XZ)
c = (σ2X σYZ – σXY σXZ) / (σ2X σ2Z – σ2XZ)
2
2
2
2
2
a = µY – µX (σ Z σXY – σXZ σYZ)/(σ X σ Z – σ XZ) – µZ (σ X σYZ – σXY σXZ) / (σ2X σ2Z – σ2XZ) = µY – µXb – µZc
2
= 1/N∑Ni=1(yi – xzy*i)2 =
Varianza residua dal piano di
La base della formula è uguale a
XZσ* Y
= 1/N∑Ni=1y2 –aµY–bµxy–cµyz =
regressione multipla
quella della parabola ma il piano ha
= µ2(y) – aµY – bµxy – cµyz
come pedice xz.
2
N
2
σ
1/N∑
(a
+
bx
+
cz
–
µ
)
Varianza
spiegata
dal
piano
di
Per calcolarle è necessaria la
i=1
XZ Y
i
i
Y
regressione multipla
conoscenza dei 3 coefficienti.
2
2
2
2
2
η
=
σ
/
σ
=
1
–
σ*
/
σ
Rapporto
di
correlazione
multipla
Esprime la bontà del piano.
XZ Y
XZ Y
Y
XZ
Y
Y
lineare
2
Indice di miglioramento multidimensionale =
È la riduzione normalizzata di varianza
= (Xσ*2Y – XZσ*2Y)/Xσ*2Y =
XZρ Y
= (var.res.retta – var.res.piano)/var.res.retta
residua tra i polinomi (Y*X) e (Y*XZ)
= [(σ2y–σ2xy/σ2x) – XZσ*2Y]/(…)
Mediana: (xi+1 – xi):(Me – xi)=(Fxi+1 – Fxi):(F0,5 – Fxi)
Media armonica: Ma = N/∑ni=1 (1/xi) fi.
Media quadratica: Mq = √1/N ∑ni=1 xi2 fi
Media geometrica: Mg = N√Πni=1xifi
Variabilità relativa: varianza, se normalizzata: c.v.
2
Asimmetria: 1
–½[(x – µ)/σ]
con: γ1 = 0
φ(x) =
e
con: –∞ < x
σ√2π
Mutabilità relativa (δ) =
δ’ = δ / δmax = N – f(Mo) .
N – (N/n + 1)
Variabilità assoluta ∆ = σ √2 √N/(N – 1)
Variabilità assoluta normalizzata: ∆max ≈ |xn – x1| / √2
< +∞
φ(x) è simmetrica rispetto alla µ se φ(µ – κ) =
= φ(µ + κ).
Come misura della asimmetria si utilizza, il 1° indice utile dispari, l’indice γ1 di Pearson: γ1 = µ[(X – µ)/σ]3 = µ3 / σ3
Dove il momento centrale di ordine 3 è µ3 = 1/N∑ni=1(xi – µ)3fi
Curtosi: è la diversa eccedenza degli scarti assoluti dalla µ e si misura con l’indice di curtosi di Pearson γ2, che è come l’indice γ1, ma elevato alla 4a
anziché alla 3a. La curtosi determina l’ampiezza grafica della gaussiana. Se è=3 la distribuzione è normocurtica, se>3 leptocurtica, se<3 platicurtica.
Indipendenza e connessione: Inizio dalla tabella di partenza:
1) verifico se c’è indipendenza stocastica oppure connessione, costruendo la tabella di indipendenza stocastica:
a.
moltiplico tra loro le corrispondenti distribuzioni marginali e le divido per N per tutti i punti
2) sottraggo alla tabella di partenza quella stocastica e ottengo la c.d. tabella delle contingenze:
3) misuro il grado di connessione (PEARSON-PIZZETTI):
a.
Sommo C2ij / Y*ij = valori delle contingenze al quadrato diviso le frequenze teoriche di indipendenza stocastica → trovo χ2
(punto 2 al quadrato fratto punto 1)
b. Normalizzo: χ2/χ2max
i. Posso trovare χ2max= Nmin:[(n – 1);(m – 1)]N = numero minore tra numero di righe e numero di colonne – 1,
moltiplicato per N. In questo caso: (3 – 1)x100 = 200. Altrimenti:
ii. Trovo la tabella di massima connessione (rispettando il vincolo della conservazione delle distribuzioni marginali,
dando + zeri possibili):
iii. Trovo χ2max = ∑(Tabella di massima connessione – Tabella di indipendenza stocastica)2
Tabella di indipendenza stocastica
γy = γ(Y|xi) = ∑mj=1fi/N(1 – fi/N) Gini: mutabilità assoluta.
A seconda che si cerchi l’incidenza di X su Y o Y su X, fi può essere il totale di colonna o di riga: fi.= riga; f.j = col.
γMax = 1 – 1/n
Gini Massimo teorico
γ’ = γ/γMax
Gini Normalizzato
γ1, γ2, γ3… = γ (per “colonne”)
Gini per classi: difformità in dipendenza = dispersione condizionata. Uso fi. non f.j
γ*y = ∑ni=1γ(Y|xi)pi.
Gini Residuo: è la sommatoria di tutti i Gini moltiplicati per fi/N,
= γ1*totale col1/tot+ γ2*totale col2/tot…quindi è la media ponderata delle misure di dispersione = dispersione residua
γy = ∑ni=1d2(Y|xi.Y)pi.
Gini Spiegato. O anche = Gini – Gini residuo.
2
γY
γ*Y spiegato
residuo
L’indice di Gini-Goodman-Kruskal è come il rapporto di correlazione η , ma per le mutabili.
τ 2X =
=1–
=
=1–
È dato infatti dal rapporto tra l’indice di Gini residuo e l’indice di Gini totale, oppure da:
γY
γY
totale
totale
1 – Gini residuo/Gini totale (più facile negli esercizi). Misura l’intensità della dipendenza.
La perfetta interpolante:ρ2 = η2y = 1
e 1δ2Y = ρ2 / η2y = 1
La migliore interpolante: 0 < ρ2 = η2y < 1 e 1δ2Y = ρ2 / η2y = 1
Situazione migliorabile: 0<ρ2<1
e η2Y = 1
e 0 ≤ 1δ2Y = ρ2 / η2y ≤ 1
2
Retta parallela all’asse x: ρ = 0 con y = µ
Variabili aleatorie:
Binomiale:
n px qn–x
µx = n*p
x
σ2 = n*p*q
Ipergeometrica:
Np
Nq
4
6
n° di B
per differenza
H(x ‫ ׀‬N,n,p) =
x
n-x = 3
2 = 5/21 = 23,81% = n° di B che voglio ottenere
per differenza .
N
10
tot palline
n
5
tot estrazioni
Geometrica: l’unico successo è l’ultima estrazione e conta il n° di prove x necessarie ad ottenere il 1° successo:
Ge (x‫׀‬p) = (1 – p)(x-1)p
µx = ∑ xi pi = 1/p
σ2 = q/p2
a
a
Pascal: calcola la probabilità di estrarre la K pallina bianca alla x estrazione:
Pa(p,k)= x-1 pk (1 – p)x-k
µx = k/p
k-1
σ2=kq/p2
Poisson: si usa quando gli eventi sono molto rari e il numero delle prove è molto alto.
Po(x|λ) = (λxe-λ)/x!
Dove λ = n*p ≡ µ ≡ σ2
V.a. continua:
Densità: f(X) = F’(X)= dF(x)/dx
Indice di asimmetria: 1/σ3 ∫-∞+∞ (xi – µ)3 f(x) dx
+∞ 2
2
+∞
Varianza: ∫-∞ x f(x) dx – µx
Indice di curtosi: 1/σ4 ∫-∞+∞ (xi – µ)4 f(x) dx
µx = ∫-∞ x f(x) dx
V.a. continua uniforme: ha come parametri generici a,b che sono gli estremi, è un metodo grafico.
µx = (b + a)/2
σ2 = (b – a)2/12 (12 è un n° fisso)
La v.a Normale X~N(µ, σ): formula di standardizzazione: z = (x – µ)/σ
Binomiale approssimata: Bi(n,p) → N(np, √npq)
La binomiale è simmetrica se p = q.
γ1 = (q – p)/√npq