Elementi di
Statistica descrittiva
Parte III
1
Elementi di Statistica descrittiva – Parte III
Paaina 1
Indice di asimmetria (1/2)
Indice di forma che esprime il grado di asimmetria
(skewness) di una distribuzione.
Siano u1, u2,…,un osservazioni numeriche.
Chiamiamo indice di asimmetria l’espressione:
1
ca =
n
n
i =1
ui − x
3
σ
Questo indice misura la tendenza di una distribuzione di valori ad
assumere valori in modo asimmetrico rispetto alla media.
Questo indice è chiamato anche indice beta di Fisher, oltre ad esso sono
stati proposti altri indici per valutare l’asimmetria.
2
La tipologia della distribuzione è visualizzata bene da un istogramma.
Da un’ispezione visiva dell’istogramma si ha infatti una sensazione immediata riguardo al
fatto che la distribuzione sia più o meno raccolta/dispersa oppure simmetrica/asimmetrica.
Gli indici di forma (di cui il coefficiente di asimmetria è l’ultimo che prendiamo in esame)
hanno lo scopo di esprimere una valutazione oggettiva di tali caratteristiche.
Elementi di Statistica descrittiva – Parte III
Paaina 2
Indice di asimmetria (2/2)
1
ca =
n
n
i =1
ui − x
3
σ
PROPRIETÀ:
• Se ca > 0 la distribuzione ha una coda verso destra
• Se ca < 0 la distribuzione ha una coda verso sinistra
• Se ca = 0 la distribuzione è simmetrica
Questa espressione dell’indice fornisce una valutazione distorta, più
sensibile quanto più piccolo è il campione.
Per eliminare questa distorsione si usa l’indice di asimmetria corretto:
c aCORR
n
=
( n − 1)( n − 2 )
n
i =1
ui − x
s
3
dove s è la deviazione standard campionaria.
3
La funzione ASIMMETRIA di Excel fornisce l’indice di asimmetria corretto.
La relazione fra indice corretto e indice è: caCORR = ca(n(n-1))1/2/(n-2)
Elementi di Statistica descrittiva – Parte III
Paaina 3
Esempio di indice di asimmetria
dati
0
fa
8
0 .5
1
18
22
1 .5
21
2
2 .5
13
10
3
4
3 .5
4
5
4
4 .5
2
5
5 .5
1
2
6
1
6 .5
7
1
1
7 .5
2
ca = 1.1 positiva, istogramma con coda a destra
4
Il risultato illustrato è l’indice senza correzione.
Elementi di Statistica descrittiva – Parte III
Paaina 4
Sintesi dei dati
Correlazione fra variabili
5
Correlazione fra variabili
Analisi di tipo comparativo: indagine per stabilire se esiste
una connessione tra due caratteri rilevati su ogni unità
statistica.
Effettuiamo lo studio di correlazione fra due variabili
statistiche utilizzando un diagramma di dispersione
(scatter plot).
Dall’analisi si può concludere che:
•esiste una correlazione diretta;
•esiste una correlazione inversa;
•non esiste alcuna correlazione.
6
Esempi di analisi di correlazione possono riguardare:
Correlazione fra redditi e consumi di una popolazione;
Correlazione fra statura e peso;
Correlazione fra la cilindrata del motore e consumo di carburante in una
popolazione di automobili;
Correlazione fra colore degli occhi e colore dei capelli.
L’ultimo esempio si riferisce a caratteristiche non numeriche. Nel seguito
consideriamo il solo caso di caratteristiche numeriche.
Si tratta in ogni caso di analisi effettuate su una doppia serie di dati ricavati da una
popolazione (o da un campione): da ogni unità statistica otteniamo due valori, uno
di tipo x, uno di tipo y.
Elementi di Statistica descrittiva – Parte III
Paaina 6
Esempio A
Si considerino 2 variabili statistiche di tipo numerico relative al
peso in Kg e all’altezza in m di un campione di 20 persone.
Il peso è stato attribuito ad una variabile x, l’altezza è stata
attribuita ad una variabile y ottenendo le due seguenti serie di
valori:
x1 =64
x2 = 70
x3 =65
x4 =64
x5 = 58
x6 =55
x7 =61
x8 = 48
x9 = 71 x10 = 79
x11 = 63 x12 = 69 x13 = 64 x14 = 58 x15 = 54 x16 = 66 x17 =64 x18 = 72 x19 =52 x20 =60
y1 =1.70 y2 =1.73 y3 =1.67 y4 =1.65 y5 =1.60 y6 =1.58 y7 =1.67 y8 =1.61 y9 =1.72 y10 =1.74
y11 =1.68 y12 =1.70 y13 =1.66 y14 =1.61 y15 =1.63 y16 =1.65 y17 =1.68 y18 =1.72 y19 =1.60 y20 =1.63
7
Elementi di Statistica descrittiva – Parte III
Paaina 7
Esempio A: diagramma di dispersione
Ponendo in ascissa la variabile x (altezza) e in ordinata la variabile y
(peso), si ottiene il diagramma (“nuvola di punti”):
Baricentro della
nuvola di punti
y
x
Si nota una relazione tra le due variabili: i punti di minore ascissa hanno
(in genere) anche minore ordinata. Esiste una correlazione diretta
8
Correlazione diretta significa: “al crescere della variabile x la variabile y – di
massima – cresce”.
Il baricentro è il punto del piano xy che ha per coordinate le medie delle due
distribuzioni.
Elementi di Statistica descrittiva – Parte III
Paaina 8
Esempio B
Si considerino 2 variabili statistiche, relative a un campione di
10 unità, che forniscono la seguente tabella:
x 1 = 100
x 2 = 110
x 3 = 120
x 4 = 130
x 5 = 140
y 1 = 89
y 2 = 85
y 3 = 78
y 4 = 74
y 5 = 70
x 6 = 150
x 7 = 160
x 8 = 170
x 9 = 180
x 10 = 190
y 6 = 66
y 7 = 61
y 8 = 54
y 9 = 51
y 10 = 45
9
Elementi di Statistica descrittiva – Parte III
Paaina 9
Esempio B: diagramma di dispersione
Ponendo in ascissa la variabile x e in ordinata la variabile y, si ottiene:
Si nota una relazione tra le due variabili: i punti di minore ascissa hanno
maggiore ordinata ordinata. Esiste una correlazione inversa
10
Correlazione inversa significa: “al crescere della variabile x la variabile y – di
massima – diminuisce”.
Rispetto al caso A notiamo inoltre che qui la correlazione è molto più stretta: non
esiste ad esempio alcun punto che, al crescere dell’ascissa, diminuisca la propria
ordinata.
Elementi di Statistica descrittiva – Parte III
Paaina 10
Esempio C: diagramma dispersione
Un diagramma di dispersione del tipo:
non suggerisce alcuna relazione tra le variabili. Non esiste correlazione.
correlazione
11
Elementi di Statistica descrittiva – Parte III
Paaina 11
Indicatori di correlazione
Sono espressioni legate alla correlazione tra due variabili.
Covarianza: σ
xy
1
=
n
n
i =1
( x i − x )( y i − y )
La covarianza è la media dei prodotti degli scostamenti dalla media.
Si dimostra che la covarianza può essere espressa come:
σ xy
1
=(
n
n
i =1
x i y i ) − x ⋅ y = xy − x ⋅y
Coefficiente di correlazione: ρ xy =
σ xy
σ xσ y
Il coefficiente di correlazione è il rapporto fra l’indice di
covarianza e il prodotto delle deviazioni standard di x e y.
12
Elementi di Statistica descrittiva – Parte III
Paaina 12
Proprietà degli indicatori di correlazione
1. σxy può essere positiva o negativa
2. ρxy ha lo stesso segno di σxy
3. ρxy è un numero puro (quantità adimensionale).
•
•
•
Se σxy >0 x e y sono dette direttamente correlate
Se σxy <0 x e y sono dette inversamente correlate
Se σxy =0 x e y sono dette non correlate
13
Elementi di Statistica descrittiva – Parte III
Paaina 13
Osservazioni sugli indicatori di correlazione
Si dimostra che:
• σ xy ≤ σ x σ y → ρ xy≤1 → -1≤
≤ ρ xy ≤1
• ρ xy= ±1 ⇔ esistono due costanti a, b tali che yi= a +b xi (i=1,2,…,n)
• In particolare ρxy =1 allora b>0, se ρxy = -1 allora b<0
Di conseguenza:
• Se ρ xy =1 tra le variabili esiste correlazione diretta completa:
completa
tutti i punti sono disposti su una retta e tra le due variabili c’è
una relazione funzionale lineare per cui yi= a+bxi con b>0.
• Se ρ xy = -1 tra le variabili esiste correlazione inversa completa:
completa
tutti i punti sono disposti su una retta e tra le due variabili c’è
una relazione funzionale lineare per cui yi= a+bxi con b<0.
• Se ρ xy = 0 le variabili sono non correlate;
correlate
• Se ρ xy ≅ 0 fra le variabili esiste scarsa correlazione;
correlazione
• Se ρ xy ≅ 1 fra le variabili c’è forte correlazione lineare diretta;
diretta
• Se ρ xy ≅ -1 fra le variabili c’è forte correlazione lineare inversa.
inversa
14
Elementi di Statistica descrittiva – Parte III
Paaina 14
Retta di regressione
È la rappresentazione grafica di una possibile relazione lineare fra le due
variabili.
Date n coppie di valori osservati (x1,y1),(x2,y2)…,(xn,yn), si vuole
determinare l’equazione y=a+bx di una retta che passi “il più possibile
vicino” ai punti (xi,yi).
a = INTERCETTA sull’asse y;
b = PENDENZA (coeff. angolare della retta).
y
Retta di regressione
tgα = PENDENZA
x
INTERCETTA
15
Le funzioni INTERCETTA e PENDENZA di Excel forniscono direttamente l’intercetta e la
pendenza.
NB: queste due funzioni richiedono come 1° parametro la tabella delle y (variabile
dipendente) e come 2° parametro la tabella delle x (variabile indipendente). Ad esempio:
INTERCETTA(D8:D34;C8:C34) calcola l’intercetta sull’asse y della retta di regressione che
approssima una nuvola di punti aventi i valori x contenuti nelle celle C8:C34 e i valori y
contenuti nelle celle D8:D34, similmente il coefficiente angolare della retta è dato da
PENDENZA(D8:D34;C8:C34). Si deve porre attenzione a introdurre i parametri della
funzione nell’ordine corretto.
In Excel la nuvola di punti viene generata mediante il comando (dalla barra dei menu)
Inserisci-Grafico… e scegliendo il tipo “Dispers. (X,Y)”.
Una volta generata la nuvola di punti è possibile sovrapporvi la retta di regressione
selezionando il grafico generato e inserendo il comando Grafico-Aggiungi linea di
tendenza…
Elementi di Statistica descrittiva – Parte III
Paaina 15
Determinazione della retta di regressione (1/2)
a e b vengono determinati attraverso il metodo dei minimi
quadrati, ossia in modo da rendere minima la somma
degli scarti elevati al quadrato, quindi l’espressione:
n
S (a , b ) =
i =1
( y i − ( a + bx i )) 2
S (a , b ) = ( y 1 − a − bx 1 ) + ( y 2 − a − bx 2 )2 + ... + ( y n − a − bx n )2
2
Derivate parziali:
Sa (a,b) = −2(y1 − a − bx1) − 2(y2 − a − bx2 ) + ...− 2(yn − a − bxn )
Sb (a,b) = −2x1(y1 − a − bx1) − 2x2(y2 − a − bx2 ) − ...− 2xn (yn − a − bxn )
n
Sa (a,b) = −2 (yi − a − bxi )
i =1
n
Sb (a,b) = −2 xi (yi − a − bxi )
i =1
16
Gli scarti presi in considerazione sono le differenze fra il generico valore yi della variabile
indipendente e il corrispondente valore che l’ordinata della retta di regressione assume per
x=xi.
Queste differenze sono poi elevate al quadrato in modo da ottenere valori tutti positivi
evitando così che scarti uguali in valore assoluto ma di segno opposto si neutralizzino.
Scambiando fra di loro le variabili (ossia assumendo alternativamente una oppure l’altra
come variabile indipendente x) si ottengono in genere due diverse rette di regressione.
Elementi di Statistica descrittiva – Parte III
Paaina 16
Determinazione della retta di regressione (2/2)
Uguagliando a zero le derivate parziali si ottiene il sistema:
n
i =1
n
i =1
(yi − a − bxi ) = 0
xi (yi − a − bxi ) = 0
le cui soluzioni risultano essere:
a=y −
b=
σ xy
σ x2
σ xy
x
σ x2
In corrispondenza di tali valori la funzione S(a,b) ha un
minimo.
17
L’annullamento delle due derivate parziali fornisce a rigore solo un punto di stazionarietà
(punto critico) della funzione. Tuttavia, dato che la funzione S(a,b) ha solo questo punto
critico, non è mai negativa e può assumere valori positivi comunque grandi, si conclude che
tale punto è un minimo.
Il coefficiente b (PENDENZA) può assumere valori positivi o negativi comunque grandi in
valore assoluto (il valore assoluto può tendere a ∞ per σ2X→0), pertanto la retta di
regressione può assumere qualunque inclinazione nel piano. Il segno di b è lo stesso segno
della covarianza.
Esaminando la struttura di a e di b si vede che la retta di regressione passa per il baricentro
della nuvola di punti.
Elementi di Statistica descrittiva – Parte III
Paaina 17
Osservazioni sul metodo dei minimi quadrati
Con il metodo dei minimi quadrati è possibile determinare
altri tipi di curve, oltre la retta, che interpretino
l’andamento del fenomeno osservato. Ad esempio:
1. Si osserva che i valori rilevati si dispongono lungo una
linea di tipo parabolico; o più in generale:
2. Si nota che tra le due variabili c’è un legame di potenza
y=xn (si visualizza facilmente utilizzando un diagramma
a scala logaritmica sull’asse delle y, l’andamento risulta
lineare con pendenze proporzionali alla potenza)
3. …
Conseguenze:
Si utilizza nella ricerca di minimizzazione di un
funzionale la curva approssimante più opportuna.
18
In Excel è possibile sovrapporre a una nuvola di punti invece che una retta di regressione
una curva più complessa (ad esempio una polinomiale di grado dato) e inserendo il
comando Grafico-Aggiungi linea di tendenza… e quindi selezionando l’appropriato tipo di
curva dal menu che viene presentato (cartella Tipo).
Elementi di Statistica descrittiva – Parte III
Paaina 18
Esempio A: retta di regressione
Tenendo presente il diagramma di dispersione dell’esempio A, e tenendo
conto che ρ ≅ 0.89, costruiamo la retta di regressione:
Se ne osserva la significatività sia in termini di aderenza alla nuvola di
punti, sia attraverso il coefficiente angolare positivo (correlazione diretta)
19
Questo esempio è stato generato con Excel.
Dopo avere richiesto grafico della nuvola di punti si è dato il comando Grafico-Aggiungi linea
di tendenza…, selezionato il tipo Lineare (cartella Tipo), e infine selezionato Visualizza
l’equazione sul grafico (cartella Opzioni). In tal modo sul grafico appaiono immediatamente
visualizzati i due valori dell’intercetta a (-168,18) e del coefficiente angolare b (139,05).
Per avere i valori più precisi (ad esempio per utilizzarli in calcoli ulteriori) occorrono le due
funzioni INTERCETTA e PENDENZA.
Elementi di Statistica descrittiva – Parte III
Paaina 19
Esempio B: retta di regressione
Tenendo presente il diagramma di dispersione dell’esempio B, e tenendo
conto che ρ ≅ -0.99, costruiamo la retta di regressione:
Se ne osserva la significatività sia in termini di aderenza alla nuvola di
punti, sia attraverso il coefficiente angolare negativo (correlazione inversa)
20
Anche questo esempio è stato generato con Excel, con le stesse modalità del precedente
Elementi di Statistica descrittiva – Parte III
Paaina 20