Statistica Descrittiva Campioni Vettoriali

20/11/2009
Statistica Descrittiva – Campioni vettoriali
Statistica descrittiva – Campioni vettoriali ‐
Introduzione
• Nel caso in cui si osservi una variabile statistica multidimensionale, si associa al singolo esito dell’esperienza un vettore di risultati e non più un semplice scalare.
• In questo caso il campione è costituito da una serie di osservazioni, ciascuna delle quali è identificata con un vettore.
• Nel seguito si introdurranno i concetti di statistica descrittiva relativi ad un campione di tipo vettoriale.
• Per semplicità della discussione saranno presentati solo casi bidimensionali – ovvero alla singola osservazione del processo aleatorio associo una coppia di variabili stocastiche (x,y)
M. Grosso ‐ Statistica Statistica descrittiva ‐ Campioni vettoriali
1
20/11/2009
Statistica descrittiva – Campioni vettoriali ‐
Introduzione
• In presenza di un campione bidimensionale di N osservazioni (x,y)
( x, y ) , ( x, y ) ,
1
2
..., ( x, y )N
• è possibile rappresentare la variabile statistica bidimensionale (eventualmente raggruppata in classi) in una tabella a doppia entrata:
– n differenti livelli per la x (xi, i = 1, …, n)
– m differenti livelli per la y (yj, j = 1, …, m)
• Si può quindi valutare il numero di volte Nij che si osserva la coppia (xi,yyj) → frequenza assoluta
) → frequenza assoluta
Frequenza assoluta
m
y1
…
yj
…
ym
Pi
x1
N11
…
N1j
…
N1m
P1
…
…
xi
Ni1
…
…
xn
Nn1
Qj
Q1
n
Q j = ∑ N ij
i =1
…
…
Nij
…
…
…
…
Nnj
Qj
Nim
Pi
…
…
Nnm
Pn
Qm
N
Frequenza assoluta marginale della variabile statistica y
Pi = ∑ N ij
j =1
Frequenza assoluta marginale della variabile statistica x
Frequenza con cui si osserva la x
si osserva la x
indipendentemente dal valore che assume la y
Frequenza con cui si osserva la y
indipendentemente dal valore che assume la x
M. Grosso ‐ Statistica Statistica descrittiva ‐ Campioni vettoriali
2
20/11/2009
Frequenza relativa
• La tabella della frequenza relativa (e le relative proprietà) emergono in maniera naturale dalla frequenza relativa:
f ij =
• Da cui:
n
Numero totale di esperienze
Dimensione del campione
N ij
N
m
∑∑ f ij = 1
i =1 j =1
F
Frequenza p
i marginale di x
i l di m
F
Frequenza q
j marginale di y
i l di n
pi = ∑ f ij
q j = ∑ f ij
i =1
j =1
La sommatoria è rispetto all’indice j La sommatoria è rispetto all’indice i n
∑ pi
i =1
m
= ∑qj
j =1
=1
Frequenze Condizionate
• È possibile anche definire una frequenza relativa condizionata:
pi j =
f ij
qj
Frequenza condizionata di x
assegnato y = yj
qj i =
f ij
pi
Frequenza
Frequenza condizionata di y
assegnato x = xi
M. Grosso ‐ Statistica Statistica descrittiva ‐ Campioni vettoriali
3
20/11/2009
Indici campionari – Indici posizionali
• Momenti doppi di ordine (h,k)
n
m
mhk = ∑∑ xih y kj f ij
h, k = 0,1,2,...
i =1 j =1
• Casi particolari
– h =1, k =0
n
m
n
m
n
i =1
j =1
i =1
m10 = x = ∑∑ xi f ij = ∑ xi ∑ f ij = ∑ xi pi
i =1 j =1
– h = 0, k = 1
n
m
m
n
m
j =1
i =1
j =1
m01 = y = ∑∑ yi f ij = ∑ y j ∑ f ij = ∑ y j q j
i =1 j =1
Indici campionari – Momenti centrali
• In maniera analoga è possibile definire i momenti doppi centrali:
M hk = ∑∑ ( x − x )i ( y − y ) j f ij
n
m
h, k = 0,1,2,...
k
h
i =1 j =1
• Casi particolari:
– h = 2, k = 0 (Varianza rispetto alla componente x)
M 20 = ∑∑ ( xi − x ) f ij = ∑ ( xi − x ) ∑ f ij = ∑ ( xi − x ) pi = sx2
n
m
2
i =1 j =1
n
i =1
m
n
j =1
i =1
2
2
– h = 0, k = 2 (Varianza rispetto alla componente y)
M 02 = ∑∑ ( y j − y ) f ij = ∑ ( y j − y ) ∑ f ij = ∑ ( y j − y ) q j = s y2
n
m
i =1 j =1
M. Grosso ‐ Statistica Statistica descrittiva ‐ Campioni vettoriali
2
m
j =1
2
n
m
i =1
j =1
2
4
20/11/2009
Indici campionari – Momenti centrali
– h = 1, k = 1 (covarianza di x e y)
M 11 = ∑∑ ( xi − x )( yi − y ) f ij = sxy
n
m
i =1 j =1
• Può anche essere scritta con la seguente formula:
n
m
sxy = ∑∑ xi y j f ij − x y
i =1 j =1
Indici campionari – Momenti
• Da notare che le formule scritte prima sono valide nel caso di dati “raggruppati” per classi (le sommatorie si riferiscono al numero di classi m ed n, rispettivamente per la y e la x)
• Nel caso di dati non raggruppati è possibile scrivere le formule:
1 N
1 N
y = ∑ yi
∑ xi ,
N i =1
N i =1
N
1
1 N
2
2
sx2 =
s y2 =
∑ (xi − x ) ,
∑ ( yi − y )
N − 1 i =1
N − 1 i =1
1 N
sxy =
∑ (xi − x )( yi − y )
N − 1 i =1
x=
N.B. La sommatoria si riferisce alla dimensione N del campione
M. Grosso ‐ Statistica Statistica descrittiva ‐ Campioni vettoriali
5
20/11/2009
Indipendenza stocastica
• Condizione necessaria e sufficiente affinché le componenti x e y del campione vettoriale si dicano indipendenti è che:
f ij = pi q j
∀i, j
• Se tale proprietà non è verificata le componenti x ed y sono dipendenti Dipendenza stocastica
• Perfetta dipendenza tra x ed y
– Se ad ogni livello di x
g
corrisponde uno ed un solo livello di y
p
y con frequenza non nulla
y1
y2
y3
y4
x1
0
0.3
0
0
x2
0.1
0
0
0
x3
0
0
0
0.4
x4
0
0
0.2
0
– Per ogni riga e colonna si ha una sola fij ≠0.
– Inoltre
f ij = pi = q j
M. Grosso ‐ Statistica Statistica descrittiva ‐ Campioni vettoriali
6
20/11/2009
Dipendenza stocastica
• Perfetta dipendenza unilaterale di x da y
• Ad ogni y corrisponde una sola x, ma non viceversa (possibile solo se g y
p
,
(p
n<m)
y1
y2
y3
y4
x1
0
0.2
0
0
x2
0.1
0
0.3
0
x3
0
0
0
0.4
– In ogni colonna si ha una sola fij = qj
Dipendenza stocastica
• Perfetta dipendenza unilaterale di y da x
• Ad ogni x corrisponde una sola y, ma non viceversa (possibile solo se g
p
y,
(p
m<n)
y1
y2
y3
x1
0.4
0
0
x2
0
0
0.1
x3
0
0.3
0
x4
0
0
0.2
0
– In ogni riga si ha una sola fij = pi
M. Grosso ‐ Statistica Statistica descrittiva ‐ Campioni vettoriali
7
20/11/2009
Misure di connessione tra componenti di un campione
• Nei casi precedenti sono state introdotte le eventualità di:
– Indipendenza delle due componenti
p
p
– Perfetta dipendenza tra le due componenti
• Si intende nel seguito quantificare la connessione tra le due componenti quando non ci si trova nei casi estremi precedentemente discussi
Misure di connessione tra componenti di un campione
• Contingenza
• Misura la distanza di quanto la frequenza relativa osservata fij
q
q
j si discosta dalla situazione di indipendenza:
cij = fij – pi qj
• È una misura relativa e gode delle seguenti proprietà:
m
∑ cij = 0
∀i
j =1
n
∑ cij = 0
∀j
i =1
M. Grosso ‐ Statistica Statistica descrittiva ‐ Campioni vettoriali
8
20/11/2009
Misure di connessione tra componenti di un campione
• Altre proprietà della contingenza
m
m
m
j =1
j =1
j =1
n
n
n
i =1
i =1
i =1
∑ cij = 2∑ cij+ = −2∑ cij−
∀i
∑ cij = 2∑ cij+ = −2∑ cij−
∀j
∑ cij ≤ 2 pi (1 − pi )
∀i
∑ cij ≤ 2q j (1 − q j )
∀j
m
j =1
n
n
m
∑ ∑ cij ≤ 2
i =1 j =1
i =1
L’uguaglianza si ha per la perfetta dipendenza
Misure di connessione tra componenti di un campione
• Semicontingenza media:
1 n m
c0 = ∑ ∑ cij
2 i =1 j =1
• È uno scalare
c0 = 0
Le componenti x ed y sono indipendenti
– È sempre:
c0 ≤ 1
M. Grosso ‐ Statistica Statistica descrittiva ‐ Campioni vettoriali
9
20/11/2009
Misure di connessione tra componenti di un campione
• Indici unilaterali di Bonferroni
• Indice di dipendenza di x da y:
βx =
c0
1 − ∑ pi2
i
• Indice di dipendenza di y da x
βy =
c0
1 − ∑ q 2j
j
• Indici bilaterali di Bonferroni
• Primo indice:
• Secondo indice:
β0 = β x β y
β −1 =
2β x β y
βx + β y
Misure di connessione tra componenti di un campione
• Definizione:
• Si definisce correlazione delle due variabili x e y il numero rxy =
sxy
sx2 s y2
• Si può facilmente verificare che la correlazione è un numero puro (ovvero non ha unità di misura) ed è tale che − 1 ≤ rxy ≤ 1
M. Grosso ‐ Statistica Statistica descrittiva ‐ Campioni vettoriali
10
20/11/2009
Misure di connessione tra componenti di un campione
• Esempio di correlazioni
-2.2
2.3
2.2
rxy = 0.98
rxy = ‐0.86
-2.4
2.1
-2.6
2
y
y
-2.8
1.9
-3
1.8
-3.2
1.7
-3.4
1.6
1.5
1.15
1.2
1.25
1.3
1.35
1.4
x
1.45
1.5
1.55
1.6
1.65
-3.6
1.15
1.2
1.25
1.3
1.35
1.4
x
1.45
1.5
1.55
1.6
1.65
Misure di connessione tra componenti di un campione
• Esercizio: i seguenti dati sono i punteggi che 10 studenti hanno conseguito negli esami di Analisi I e Analisi II (punteggio massimo = 100). Calcolare le grandezze statistiche associate (medie, varianze, covarianza e correlazione)
• È possibile trarre delle conclusioni?
Analisi I
Analisi II
Analisi I
Analisi II
51
74
74
73
68
70
20
33
97
93
91
91
55
67
74
80
95
99
80
86
M. Grosso ‐ Statistica Statistica descrittiva ‐ Campioni vettoriali
11