Cosa vuol dire fare statistica ?
Affermazioni di tipo statistico
“il profitto di questa classe è in media sufficiente”
“quest’anno sono di moda le vacanze in sardegna”
La statistica è la scienza che ha come fine
lo studio quantitativo e qualitativo di fenomeni collettivi.
Tale studio avviene mediante la
RACCOLTA, CLASSIFICAZIONE e ANALISI
dei dati che esprimono tali fenomeni
I dati devono essere organizzati, riassunti, presentati, analizzati e infine
interpretati, trarne conclusioni appropriate.
Usualmente con il termine “statistica” si indicano anche i risultati
numerici (le come ad esempio PIL, inflazione, disoccupazione etc.) di un
processo di sintesi dei dati osservati.
1
Statistica descrittiva e inferenziale
Statistica descrittiva:
SCOPO: descrivere la massa dei dati sperimentali con pochi numeri o grafici
significativi, ovvero “fotografare” una data situazione e sintetizzarne le
caratteristiche salienti
METODI:
indicatori statistici , indicatori di centralità, di dispersione
(varianza, media, moda, quartili, percentili, coefficienti di correlazione,
covarianza, etc)
rappresentazioni grafiche come tecnica di presentazione dei
dati che affianca la presentazione in forma tabellare, con lo scopo di
aiutare l'analisi (diagrammi a barre, a torta, istogrammi, boxplot)
2
Statistica descrittiva e inferenziale
Statistica inferenziale:
SCOPO: utilizza i dati statistici, anche opportunamente sintetizzati dalla
statistica descrittiva, per fare previsioni di tipo probabilistico su situazioni
future o comunque incerte: ad esempio esaminando un piccolo campione
estratto da una grande popolazione si cerca di valutare la frazione della
popolazione che possiede una certa caratteristica.
METODI:
variabili aleatorie, test statistici, intervalli confidenza, significatività,
stimatori, etc
3
Popolazioni, campioni, unità e caratteri
Popolazione
Insieme o collezione di oggetti che sono oggetto di
analisi e studio (ad esempio misure o osservazioni)
origine
L’uso della parola Popolazione in statistica deriva storicamente dal fatto che le prime
statistiche venivano fatte per descrivere fenomeni demografici o economici
Campione
Parte della popolazione sulla quale si conduce l’indagine
Unità statistica
Un elemento della popolazione
4
Esempio
Il preside di una Facoltà vuole condurre un sondaggio
per conoscere il parere degli studenti sull’organizzazione
dei corsi e degli orari. In questo caso
Popolazione
Tutti gli studenti iscritti
Campione
Alcuni studenti selezionati che
partecipano al sondaggio
Unità statistica Lo studente Mario Rossi
(che è uno degli iscritti)
5
Popolazioni, campioni, unità e caratteri
Lo studio delle proprietà di una popolazione avviene
mediante l’analisi caratteri.
Carattere
espressione elementare di una qualche proprietà
osservabile sperimentalmente che contraddistingue
ogni unità statistica.
Modalità
I valori ammissibili per un carattere sono dette modalità
6
Popolazioni, campioni, unità e caratteri
caratteri qualitativi (mutabili o categoriali)
Tipo di attributo non numerico
caratteri qualitativi sconnessi
non è significativo stabilire un ordine tra
le diverse modalità
ex. Religione: mussulmano, cristiano, …
ex. Nazionalità : italiano, francese,…
ex. Sesso: maschio, femmina (… ?)
caratteri qualitativi ordinati
è possibile stabilire ordinamenti significativi tra le
diverse modalità
ex. Titolo di studio:
diploma < laurea < dottorato
ex. Nel feudalesimo:
servi della gleba < contadini liberi < valvassori vassalli < Imperatore
7
Popolazioni, campioni, unità e caratteri
caratteri quantitativi
(variabile)
Tipo di attributo numerico
discreti
L’insieme delle modalità è finito o numerabile
Carattere
ex. numero di figli:
ex. Clienti in un negozio:
ex. Numero di testa in 5 lanci di una moneta:
Ex. Numero di atomi nell’universo:
modalità
0,1,2,3,… ∞
0,1,2,… ∞
0,12,3,4,5
0,1,2,…, ∞
continui
L’insieme delle modalità è equipotente a R
Carattere
ex. Altezza in metri di un individuo:
ex. Peso in grammi di una trota:
ex. Reddito in euro di un individuo:
ex. Conto in banca di un individuo:
modalità
[0,+∞[
[0,+∞[
[0,+∞[
]- ∞,+∞[
8
Scale di misura
I caratteri possono essere classificati in modo analogo
mediante la scala di misura che si usa per rappresentarli
SCALA NOMINALE
Per caratteri qualitativi sconnessi dove l’unico confronto possibile tra unità
statistiche avviene verificando se presentano o no la stessa modalità
SCALA ORDINALE
Per caratteri qualitativi ordinati in cui il risultato della misura è un numero
che da indicazioni sul fatto che una certa unità statistica sia più o meno
dotata di una certa proprietà , ma dove la differenza tra i valori di modalità
non restituisce informazioni significative
ex. carattere
modalità
Titolo
diploma, laurea, dottorato
Ha senso dire
laurea > diploma
ma non ha senso definire la differenza
laurea – diploma
9
Scale di misura
SCALA INTERVALLARE
Per caratteri quantitativi in cui sono significative le differenze tra i risultati
delle misure ma non i rapporti. In sintesi si usano scale intervallari dove
non vi è un unico e significativo inizio della scala.
ex. Temperatura, Anno
Se in una settimana la temperatura a Napoli è passata da 20 a 40 gradi
centigradi, ha senso dire che
“la temperatura è aumentata di 20 gradi”,
ma non ha senso dire che
“la temperatura è raddoppiata”.
Infatti il risultato dipende dalla scala di misura usata
(se si usasse la scala Fahrenheit il rapporto cambierebbe)
SCALA RAPPORTALE
Per caratteri quantitativi in cui il risultato della misura sono significative
anche i rapporti le differenze ovvero è possibile stabilire un inizio assoluto
della scala.
ex. Reddito, numero di figli, peso,
10
Perché estrarre un campione ?
Campioni statistici si estraggono continuamente
Esempi
- Il professore interroga un campione di allievi per
verificare la preparazione della classe.
- Il cuoco assaggia un campione di pasta per
valutarne la cottura.
- Il ricercatore valuta la risposta ad un farmaco su
un campione di pazienti.
- La ditta di sondaggi prevede l’esito delle elezioni
interrogando un campione della popolazione (exit-pool)
…
I risultati su un campione permettono di trarre conclusioni
generali valide per tutta la popolazione da cui il campione è
stato estratto. Questo processo si chiama INFERENZA
STATISTICA.
11
Percorso dell’inferenza statistica:
CAMPIONAMENTO
Campione
ANALISI DEI DATI (dati grezzi)
(MODALITA’ ASSUNTE DAL
CARATTERE O CARATTERI)
STATISTICHE
(STIMATORI)
1. estrazione di un campione della popolazione
2. calcolo delle statistiche a partire dalle modalità osservate sul campione (dati grezzi)
3. stima di un parametro del carattere sull’intera popolazione
in base alle statistiche ottenute dal campione
12
ELEMENTI DI STATISTICA DESCRITTIVA
Premessa
Per l’analisi di dati in statistica esiste attualmente un gran
numero di software disponibile.
Tra questi uno dei principali è software libero R
http://it.wikipedia.org/wiki/R_(software)
http://www.r-project.org/
Un altro dei principali software per l’analisi di dati
(e con molte altre funzionalità) è l’ambiente di risoluzione
di problemi Matlab che offre un vasto toolbox statistico
http://www.mathworks.com/products/statistics/
Nella stesura di questo materiale didattico è stato usato Matlab
ELEMENTI DI STATISTICA DESCRITTIVA
Si vuole studiare un carattere di una popolazione che assume
caso discreto carattere con k possibili modalità
Y1 < Y2 < … < Yh < … < Yk
Consideriamo un campione di n unità statistiche e denotiamo con
Di l’i-esimo dato (modalità osservata per la i-esima unità)
I valori assunti dalle unità (dati) possono essere “sistemati” in un vettore (array)
D  ( D1 , D2 , , Dn )
Esempio
Popolazione
Italiani
Campione
n=8 persone selezionate (M.Rossi, … , F.Bianchi)
Carattere
Peso in kg (approssimato al kg)
modalità possibili
Modalità osservate
0,1,2,…,100,…,200,…
D  (71,70,58,80,70,50,53,58)
ELEMENTI DI STATISTICA DESCRITTIVA
I valori assunti dalle unità (dati) possono essere “sistemati” anche in una tabella
Partendo dai dati grezzi (caso discreto - carattere con k modalità)
Unità statistica
carattere Y
1
D1
2 …
D2 …
…
…
i
Di
n
Dn
il fenomeno può quindi essere sintetizzato in vari livelli
1° livello di sintesi – Distribuzioni in frequenza
Modalità
Frequenze assolute
Valori di Y
Frequenze relative
Y1
n1
Y1
f1
n
fi  i
n
Y2 …
n2 …
Y2 …
f2 …
Yh …
nh …
Yh …
fh …
i  1,2,..., k
ni Frequenza assoluta
della modalità Yi
(cioè numero di unità
statistiche per le quali si
osserva il valore Yi)
Yk
nk
fi Frequenza relativa
della modalità Yi
Yk
fk
k
n   nh
h 1
(cioè porzione di unità
statistiche per le quali si
osserva il valore Yi)
ELEMENTI DI STATISTICA DESCRITTIVA
Nel caso vengano rilevati più caratteri della popolazione (statistica bivariata o
multivariata) i dati grezzi vengono ancora una volta rilevati come segue:
Unità statistica
carattere X
carattere Y
2 …
D21 …
D22 …
1
D11
D12
i
…
Di1 …
Di2 …
n
Dn1
Dn2
D1i modalità osservata
del carattere X per la
i-esima unità
1° livello di sintesi – Distribuzione doppia in frequenza
tabella a doppia entrata (matrice k x t ):
Valori di Y
Y2
Yj
… n1j
n12
n22
… n2j
…
…
nkj
… nht
…
…
Yt
… n1t
… n2t
…
…
…
nhj
…
nk1 nk2
…
Xk
…
…
nh1 nh2
…
Xh
…
Y1
n11
n21
…
Valori di X
X1
X2
… nkt
D2i modalità osservata
del carattere Y per la
i-esima unità
ni j Frequenza assoluta
della coppia di
modalità (Xi, Yj)
(cioè numero di unità
statistiche per le quali si
osserva il valore Xi sul
primo carattere e il valore Yj
per il secondo carattere )
Istogramma
A partire dalle distribuzioni in frequenza è possibile rappresentare la
distribuzione mediante un istogramma
Un istogramma è un grafico della distribuzione delle frequenze assolute dei
dati del campione
7
Esempio
6.5
6
40 unità statistiche
di cui si osservano
modalità variabili tra
3e7
modalità
5.5
5
4.5
4
3.5
3
0
5
10
15
20
25
30
unità statistiche
35
40
Istogramma
Esempio
40 unità statistiche
di cui si osservano
modalità variabili tra 3 e 7
1
0.8
0.6
0.4
0.2
min
max
0
-0.2
-0.4
-0.6
-0.8
-1
2.5
3
3.5
4
4.5
5
5.5
6
6.5
7
7.5
Istogramma
Esempio
40 unità statistiche
di cui si osservano
modalità variabili tra 3 e 7
cutoff
bins
1
0.8
0.6
0.4
0.2
0
-0.2
- dividiamo l’intervallo
che contiene i valori di modalità osservati in m sottointervalli
-0.4
(eventualmente di uguale ampiezza) dette classi o bins (bins)
- gli estremi di-0.6tali intervalli sono detti cutoff
- si conta il numero
di dati del campione in ogni bin
-0.8
(frequenza della classe) e si visualizza una barra verticale per ogni bin con altezza
-1
pari alla frequenza
2.5
3
3.5
4
4.5
5
5.5
6
6.5
7
7.5
Istogramma
Esempio
40 unità statistiche
di cui si osservano
modalità variabili tra 3 e 7
12
9
8
10
7
8
6
5
6
4
4
3
2
2
1
0
2.5
3
3.5
4
4.5
5
5.5
6
6.5
7
Istogramma con 10 bins
7.5
0
2.5
3
3.5
4
4.5
5
5.5
6
6.5
7
Istogramma con 7 bins
7.5
ELEMENTI DI STATISTICA DESCRITTIVA
L’analisi statistica dei caratteri quantitativi permette tuttavia un livello di
sintesi maggiore cioè quello legato allo studio dei parametri di sintesi dei
fenomeni studiati. Una descrizione della popolazione può infatti essere
basata anche sulla quantificazione di valori quali media e variabilità del
fenomeno di interesse.
2° livello – Parametri della popolazione
La conoscenza congiunta dei valori che tali costanti assumono nella popolazione
permette di descrivere in maniera molto sintetica il fenomeno osservato nella
popolazione. Si può distinguere in:
 Indici di posizione
 Indici di variabilità:
 Indici di forma
Indici di posizione
La definizione di molti indici di posizione è legata solo alla posizione che la
modalità osservata ha nel campo di variazione di valori (quantili, percentili,
mediana, …) altri indici di posizione sono invece legato anche al valore che
la modalità assume.
Definizione:
Si definisce funzione cumulativa empirica dei dati del campione
(o funzione di ripartizione empirica o funzione di distribuzione cumulativa)
una funzione F :  [0,1] che ad ogni valore reale x associa la porzione di
dati che assume modalità minore o uguale ad x.
Dato il campione D=(D1,D2,…,Dn) e la sua distribuzione in frequenza relativa
Valori di Y
Frequenze relative
Y1
f1
Y2 …
f2 …
si ha
Yh …
fh …
Yk
fk

se
0

F ( x)   f j se
 j i
1
se

x  y1
y i  x  y i 1
yn  x
Indici di posizione
funzione cumulativa empirica
Empirical CDF
x  y1
1
0.9
y i  x  y i 1
0.8
0.7
yn  x
0.6
F(x)

se
0

F ( x)   f j se
 j i
1
se

0.5
0.4
0.28
0.3
0.2
Circa il 28% dei dati assume un
valore minore o uguale a 4.6
cioè
F(4.6)=0.28
0.1
0
2.5
3
3.5
4
4.5
4.6
5
x
5.5
6
6.5
7
7.5
Indici di posizione
Definizione:
Si definisce moda campionaria (o moda del campione o valore modale)
la (o le) modalità più frequente nel campione
Esempio
D  (71,70,58,80,70,50,53,58)
Valori di Y
Frequenze assolute
50
1
53
1
La moda campionaria è 70
La moda campionaria è anche 58
58
2
70
2
71
1
80
1
Indici di posizione
Definizione:
Si definisce media campionaria (o media) la media aritmetica dei dati
(modalità) del campione
D1  D2    Dn
1 n
M n  M n ( D) 
  Di
n
n i 1
Esempio
D  (71,70,58,80,70,50,53,58)
La media campionaria è data da
M8 
71  70  58  80  70  50  53  58
 63.75
8
Indici di posizione
Formula alternativa
La media campionaria si può calcolare anche a partire dalla distribuzione in
frequenza relativa o assoluta
n
Mn  
i 1
1 n
f iYi   niYi
n i 1
fi frequenza relativa della modalità Yi
ni frequenza assoluta della modalità Yi
Esempio
D  (71,70,58,80,70,50,53,58)
Valori di Y
Frequenze assolute
50
1
53
1
58
2
70
2
71
1
80
1
Valori di Y
50
53
58
70
71
80
0.125
0.125
0.25
0.25
0.125
0.125
Frequenze relative
La media campionaria è
M 8  50 * 0.125  53 * 0.125  58 * 0.25  70 * 0.25  71* 0.125  80 * 0.125  63.75
Indici di posizione
Proprietà della media
 se i dati del campione sono tutti uguali a una costante D allora la media è D
 la media è sempre compresa tra il più grande e il più piccolo dei dati del campione
 la media di una trasformazione lineare dei dati è uguale alla trasformazione lineare della
media
D  ( D1 , D2 , , Dn )
campione
Z  ( z1 , z2 , , zn )
campione trasformato
z1  aD1  b, z2  aD2  b,, zn  aDn  b,
z1  z 2    z n
M n (Z ) 
 aM n ( D )  b
n
Indici di posizione
Proprietà della media
 la somma delle differenze dei dati dalla media campionaria (gli scarti) è sempre 0
n
 (D
i
i 1
 Mn)  0
 la somma dei quadrati degli scarti da una qualsiasi costante è minima se e solo se la
costante è la media campionaria
n
n
2
(
D

M
)

(
D

c
)
 i
 i
n
2
i 1
i 1
c  R, c  M n
Indici di posizione
Approssimazione della media
 Se non si conoscono i dati, ma solo una distribuzione delle loro frequenze (assolute)
in m classi (bins)
classi
[c0 , c1 ) [c1 , c2 )  [cm 1 , cm ]
frequenze
assolute
n1
n2
la media può essere approssimata come
n
Mn 
n d
i 1
n
n
i 1
con
i
i
1 n
  ni d i
n i 1
i
ci 1  ci
di 
2

nm
Indici di posizione
 ordinare i dati
 sia Oi l’i-simo dato ordinato (parametro ordinale)
Definizione:
La mediana campionaria Mdn è il parametro ordinale centrale se n è dispari, la media
dei due parametri ordinali centrali se n è pari
Esempio
D  (71,70,58,80,70,50,53,58,90,40)
ordino i dati
O  (40,50,53,58,58,70,70,71,80,90)
n pari, considero i parametri ordinali centrali 58 e 70
Mdn = (58+70)/2=64
Indici di posizione
 ordinare i dati
 sia Oi l’i-simo dato ordinato (parametro ordinale)
Definizione:
La mediana campionaria Mdn è il parametro ordinale centrale se n è dispari, la media
dei due parametri ordinali centrali se n è pari
Esempio
D  (71,70,58,80,70,50,53,58,90)
ordino i dati
O  (50,53,58,58,70,70,71,80,90)
n dispari
la mediana è il parametro ordinale centrale
Mdn= 70
Indici di posizione
Proprietà della mediana
 la mediana è un numero che è maggiore o uguale del 50% dei dati del campione e minore
o uguale del restante 50%
 Approssimativamente la mediana Mdn è il valore in cui la funzione cumulativa empirica
assume valore 0.5, cioè
F(Mdn)=0.5
 la somma dei valori assoluti degli scarti da una qualsiasi costante è minima se la costante
è la mediana campionaria
n
| D
i 1
i
n
 Md n |   | Di  c |
i 1
c  R, c  Md n
Indici di posizione
Esempio
ordino i dati
D  (71,70,58,80,70,50,53,58,90,40)
O  (40,50,53,58,58,70,70,71,80,90)
mediana
valore
64
F(Mdn)=0.5
F(64)=0.5
0.5
64
Indici di posizione
 ordinare i dati
 sia Oi l’i-simo dato ordinato (parametro ordinale)
Definizione:
il campo di variazione campionario è la On – O1
Definizione:
il midrange campionario è la quantità (On +O1)/2
Esempio
D  (71,70,58,80,70,50,53,58,1000)
ordino i dati
O  (50,53,58,58,70,70,71,80,1000)
campo di variazione
1000-50=950
midrange
(1000+50)/2=525
Indici di posizione
 ordinare i dati
 sia Oi l’i-esimo dato ordinato (parametro ordinale)
Definizione:
il quantile-p con p in [0,1] è un numero che
è maggiore o uguale del 100xp% dei dati del campione e
è minore o uguale del restante 100x(1-p)%
Esempio
D  (71,70,58,80,70,50,53,58,90,40)
ordino i dati
O  (40,50,53,58,58,70,70,71,80,90)
51, 52.3
quantile-0.2 Possibili valori 51, 52.3
il 20% dei dati è a sinistra di 51
e 80% a destra
il 20% dei dati è a sinistra di 52.3 e 80% a destra
Indici di posizione
Proprietà dei quantili-p
 il quantile-0.50 è un numero che è maggiore o uguale del 50% dei dati del campione e
è minore o uguale del restante 50%, cioè è la mediana
 il quantile-p con p in [0,1] è maggiore o uguale del 100xp% , cioè ad una porzione pari a
p dei dati
approssimativamente il quantile-p è un qualunque valore in cui la funzione cumulativa
empirica assume valore p, cioè
Osservazione
F(quantile-p)=p
La definizione data di quantile lascia aperta qualche ambiguità nella sua interpretazione.
Ad esempio se i dati sono 10, il quantile 0.25 lascerebbe alla sua sinistra il 25% dei dati ma il
25% di 10 dati è due (dati) e mezzo! Allora quale valore scegliere?
In situazioni così ambigue sono possibili vari approcci (che non discutiamo) per il calcolo del
quantile, simili per qualche verso al calcolo della mediana nel caso di n pari.
Tuttavia è bene osservare che se i dati diventano abbastanza numerosi (n grande) tutti questi
metodi calcolano per il quantile approssimativamente lo stesso valore
Indici di posizione
Esempio
ordino i dati
D  (71,70,58,80,70,50,53,58,90,40)
O  (40,50,53,58,58,70,70,71,80,90)
quantile-0.2
Possibili valori
51, 52.3
F(quantile-p)=p
F(51)=0.2
0.2
51
Indici di posizione
Definizioni:
Il quantile-0.25 è detto quartile primo e indicato con Q1n
o solo Q1
Il quantile-0.75 è detto quartile terzo e indicato con Q3n o solo Q3
I quantili con p=0,01,..,0,99 sono detti percentili
La differenza SIQn=Q3n-Q1n è detta scarto interquartile (o range interquartile)
Esempio
D  (71,70,58,80,70,50,53,58,90,40,200,40)
ordino i dati
O  (40,40,50,53,58,58,70,70,71,80,90,200)
Mdn = (58+70)/2
Q3n=(71+80)/2=75.5
Q1n=(50+53)/2=51.5
SIQn = 75.5-51.5 = 24
box & whiskers plot = diagrammi a scatola con baffi
A partire dagli indici di posizione è possibile dare una rappresentare grafica
della distribuzione dei dati mediante un diagramma a scatola con baffi
Il diagramma scatola con baffi (box-and-whiskers plot)
è un ideogramma che descrive in modo schematico un insieme di dati
Proprietà della scatola con baffi
 La scatola corrisponde alla parte centrale della distribuzione (intervallo delimitato dal primo
e dal terzo quartile) e comprende circa il 50% dei casi.
 I baffi corrispondono alle code di sinistra (fino al primo quartile) e di destra ( dal terzo
quartile in poi).
baffo sotto [Q1 - 1.5 x SIQ, Q1]
baffo sopra [Q3, Q3 +1.5 x SIQ]
 La mediana è individuata dalla linea verticale all'interno della scatola.
 I dati (eventuali) esterni all'intervallo [Q1 - 1.5SIQ, Q3 + 1.5SIQ] sono considerati
statisticamente anomali e sono rappresentati individualmente.
box & whiskers plot = diagrammi a scatola con baffi
A partire dagli indici di posizione è possibile dare una rappresentare grafica
della distribuzione dei dati mediante un diagramma a scatola con baffi
outlier
Q3+1.5 x SIQ
6
Values
5.5
5
4.5
4
3.5
Scarto
interquartile
6.5
campo di variazione
7
Q3
mediana
Q1
3
1
Column Number
Q1-1.5 x SIQ
box & whiskers plot = diagrammi a scatola con baffi
Esempio
D  (71,70,58,80,70,50,53,58,90,40,200,40)
O  (40,40,50,53,58,58,70,70,71,80,90,200)
200 outlier
Mdn = (58+70)/2
Q3n=(71+80)/2=75.5
Q1n=(50+53)/2=51.5
-40 outlier
box & whiskers plot = diagrammi a scatola con baffi
Altri esempi
8
7
7.5
6.5
7
6
6.5
Values
5.5
5
5
4.5
4.5
4
4
3.5
3.5
1
Column Number
9
1
1
Column Number
9
Empirical CDF
0.9
8
8
7
7
6
6
5
5
4
4
0.4
3
3
0.3
2
2
0.2
1
1
0.8
0.7
0.6
0
3.5
4
4.5
5
5.5
6
6.5
7
7.5
8
0
F(x)
Values
5.5
6
0.5
0.1
3
3.5
4
4.5
5
5.5
6
6.5
0
2.5
7
3
3.5
4
4.5
5
x
5.5
6
6.5
7
Indici di variabilità
Indici di variabilità dei dati (dispersione dei dati attorno alla media )
Definizione:
Si definisce varianza campionaria il valore
n
1
2
S n2  S n2 ( D) 
(
D

M
)
 i
n
n  1 i 1
Definizione:
Si definisce deviazione standard campionaria (o scarto quadratico
medio, root mean square) il valore
S n  S n ( D) 
n
1
2
(
D

M
)


i
n
n  1 i 1
S n2
Indici di variabilità
Proprietà della varianza
 La varianza di dati trasformati linearmente mediante la funzione
f(x)= ax+b
è a2 volte la varianza iniziale
 La varianza non risente di traslazioni sui dati (f(x)=x+b)
Proprietà della deviazione standard
 La deviazione standard di dati trasformati linearmente mediante la
funzione f(x)= ax+b è |a| volte la deviazione standard iniziale
 La deviazione standard non risente di traslazioni sui dati (f(x)=x+b)
Indici di variabilità
Definizione:
Si definisce coefficiente di variazione il rapporto tra deviazione campionaria
standard e media campionaria
Sn
CVn 
Mn
Proprietà del coefficiente di variazione
 Il coefficiente di variazione di dati trasformati linearmente mediante la
funzione f(x)= ax coincide con il coefficiente di variazione dei dati non
trasformati
 Il coefficiente di variazione risente di traslazioni sui dati
standardizzazione dei dati
i dati vengono trasformati linearmente mediante la funzione
x  Mn
Mn
x
f ( x) 


Sn
Sn
Sn
D  ( D1 , D2 ,, Dn )  G  (G1 , G2 ,, Gn )
Dati
dati standardizzati
Dk  M n
Dk
Mn
Gk 


Sn
Sn
Sn
Proprietà
 I dati standardizzati hanno media campionaria nulla
e varianza campionaria unitaria
Indici di forma
Definizione:
Si definisce skewness (asimmetria) la media dei cubi dei dati standardizzati
 Di  M n
1
skewn   
n i 1 
Sn

n




3
Proprietà
 skewness positiva denota asimmetria
verso destra (coda verso i valori più alti)
 skewness negativa denota asimmetria
verso sinistra (coda verso i valori più bassi)
Indici di forma
Definizione:
Si definisce curtosi la media delle quarte potenze dei dati standardizzati
4
diminuita di 3
n
 Di  M n
1
curt n  3   
n i 1 
Sn

Proprietà
 curtosi (forma rispetto alla normale)
negativa appiattimento
positiva picco più pronunciato




STATISTICA DESCRITTIVA MULTIVARIATA
Nel caso vengano rilevati più caratteri della popolazione si parla di
statistica bivariata (2 caratteri) o multivariata (più di 2 caratteri).
I dati grezzi possono essere organizzati
in una tabella come segue
Unità statistica
carattere X
carattere Y
1
D11
D12
o in una matrice
2 …
D21 …
D22 …
i
…
Di1 …
Di2 …
n
Dn1
Dn2
D1i modalità osservata
del carattere X per la
i-esima unità
D2i modalità osservata
del carattere Y per la
i-esima unità
Unità statistiche
caratteri
D
 D11

 D21
D


D
 n1
D12 

D22 
 

Dn 2 

matrice dei dati (nx2)
STATISTICA DESCRITTIVA BIVARIATA
Esempio
Si considerano il peso in kg e l’altezza in cm di 4 persone (unità st.)
persone
X(peso)
Y(altezza)
1
75
175
2
64
164
3
81
179
4
66
162
Dij
 75

 64
D
81

 66

175 

164 
179 

162 

Indica la modalità con cui si
presenta il j-esimo carattere
della i-esima unità statistica
STATISTICA DESCRITTIVA MULTIVARIATA
m caratteri (variabili), n unità (dati) per ogni variabile
Unità statistiche
caratteri
D
 D11 D12

D21 D22

D


 Dn1 Dn 2
matrice dei dati
(nxm)
Dij
Indica la modalità con cui si
presenta il j-esimo carattere
della i-esima unità statistica
D1m 

D2 m 


Dnm 
STATISTICA DESCRITTIVA BIVARIATA
Cosa si può dire una campione multivariato?
1. Si possono analizzare le singole variabili come nella statistica descrittiva univariata
m1 media campionaria
primo carattere
C11 media campionaria
primo carattere
m2 media campionaria
secondo carattere
C22 media campionaria
secondo carattere
2. Si può indagare sull’esistenza di relazioni (non note a priori)
tra caratteri diversi studiando la variabilità di un carattere rispetto all’altro
(ad esempio osservare se al crescere della modalità di un carattere cresce
o descresce la modalità per l’altro)
Osserviamo i dati rappresentati su un diagramma di dispersione
(Grafico delle coppie (xi,yi ) )
STATISTICA DESCRITTIVA BIVARIATA
Unità statistiche
caratteri (X, Y)
11
7
14
11
43
38
61
75
38
28
12
18
18
17
19
32
42
57
44
114
35
13
11
13
17
13
51
46
132
135
88
36
12
27
19
15
36
47
65
66
55
145
58
9
diagramma di dispersione
Grafico delle coppie (xi,yi )
150
114 145
100
50
0
0
20
40
60
80
100
120
STATISTICA DESCRITTIVA BIVARIATA
Il grafico di dispersione mostra coppie di modalità dei caratteri quasi allineate
ovvero osservando ad esempio la modalità del primo carattere con molta probabilità
si avrà un carattere grande anche per la modalità del secondo carattere
Quale statistica usare per misurare questa tendenza dei dati ad allinearsi?
Definizione:
Si definisce covarianza campionaria tra la prima e la seconda variabile il
valore
n
1
C12  C21 
( Di1  m1 )( Di 2  m2 )

n  1 i 1
Definizione:
Si definisce matrice di covarianza (o matrice delle varianze e covarianze o
matrice di dispersione) la matrice simmetrica 2 x 2
 C11 C12 
C 

C
C
 21
22 
STATISTICA DESCRITTIVA BIVARIATA
Proprietà della covarianza
 C12 è un indicatore dell’esistenza di una relazione lineare tra le
osservazioni delle due variabili
C12 positivo
gli scarti delle modalità dei due caratteri rispetto alle rispettive
medie tendono ad avere lo stesso segno
C12 negativo
gli scarti delle modalità dei due caratteri rispetto alle rispettive
medie tendono ad avere segno opposto
L’ordine di grandezza di C12 non è significativo (da solo)
STATISTICA DESCRITTIVA BIVARIATA
Osservazione
Se indichiamo il primo carattere con X e il secondo con Y
X , Y media di X , Y
Unità statistiche
X
Y
1 n
C12  Cov( X , Y ) 
( x1  X )( yi  Y )

n  1 i 1
1 T
C
Z Z
n 1
Dove Z è la matrice
 x1  X

x2  X

Z


 xn  X
y1  Y 

y2  Y 


yn  Y 
STATISTICA DESCRITTIVA BIVARIATA
Quale statistica usare per misurare questa tendenza dei dati ad allinearsi?
A partire dalla matrice covarianza si può ottenere una matrice 2 x 2 con
entrate in modulo non superiori ad uno
Definizione:
Si definisce coefficiente di correlazione tra la prima e la seconda variabile il
valore
R12  R21   
C12
C11C22
Definizione:
Si definisce matrice di correlazione la matrice simmetrica 2 x 2 con R11=R22=1
 R11
R
R
 21
R12 

R22 

STATISTICA DESCRITTIVA BIVARIATA
Osservazione
Se indichiamo il primo carattere con X e il secondo con Y
X , Y media di X , Y
dev(X) la deviazione standard
campionaria di X
R12 
cov  X , Y 
dev  X  dev Y 
Poichè
dev  X  dev(Y )  cov  X , Y   dev  X  dev(Y )
segue
 1  R12  1
STATISTICA DESCRITTIVA BIVARIATA
Proprietà del coefficiente di correlazione
 R12 è un indicatore dell’esistenza di una relazione lineare tra le
osservazioni delle due variabili
R12 =1
le osservazioni delle due variabili sono in (completa) relazione lineare (diretta)
R12 =-1
le osservazioni delle due variabili sono in (completa) relazione lineare (inversa)
R12 =0
le osservazioni delle due variabili non sono in relazione lineare
STATISTICA DESCRITTIVA BIVARIATA
Esempio
Si considerano
il peso in kg e l’altezza
in cm di 4 persone
 75

 64
D
81

 66

175 

164 
179 

162 

 63 64 

C  
 64 68.66 
0.97 
 1

R  
1 
 0.97
R12 R12-0.8486
=0.97
i dati sono “quasi” allineati su una retta
con coefficiente angolare positivo
STATISTICA DESCRITTIVA BIVARIATA
3
2.5
2
1.5
1
0.5
0
-2
-1
0
1
2
3
4
R12  -0.8486
i dati sono “quasi” allineati su una retta
con coefficiente angolare negativo
STATISTICA DESCRITTIVA BIVARIATA
150
100
50
0
0
20
40
60
80
100
R12  0.9331
i dati sono “quasi” allineati su una retta
con coefficiente angolare positivo
120
Cenni di STATISTICA INFERENZIALE
Lo scopo dell’indagine campionaria è far luce su una o più
costanti parametri che descrivono il carattere ignoto per una
popolazione
Il carattere può essere pensato come una v.a. con una sua
media e varianza
Lo strumento di indagine è costituito dagli STIMATORI
esempi
- media campionaria (stimatore della media del carattere)
- varianza campionaria (stimatore della varianza del carattere)
Cenni di STATISTICA INFERENZIALE
proprietà incognita:
a
Un classico modo di fare inferenza statistica
è quello di cercare stime puntuali e stime per intervallo dei parametri
stima puntuale
(ad esempio uno dei valori osservati per la media campionaria una
stima puntuale della media incognita)
stime per intervallo
identificare una regione di valori che contenga con una certa
“confidenza” (fiducia) il vero valore del parametro
(che non può essere con certezza quello stimato)
intervalli fiduciari (confidence interval)
aˆs  a  aˆd
aˆs , aˆd 
con una certa probabilità
Il Teorema del limite centrale e stime per intervalli
Come stabilire gli estremi dell’intervallo di confidenza?
Si usano conoscenze ci calcolo delle probabilità:
Sotto opportune ipotesi è nota la distribuzione di probabilità dello stimatore
Ovvero sono noti i valori che lo stimatore può assumere e le relative probabilità
Teorema 1 (correttezza e coerenza della media campionaria)
Se si estraggono n campioni da una popolazione avente media μ e
varianza σ2 La media campionaria Mn ha valore atteso
E[Mn]=μ
e varianza
Var[Mn]= σ2 /n
Standardizziamo la media campionaria
e otteniamo una nuova variabile
Zn 
n
Mn  

Il Teorema del limite centrale e stime per intervalli
Si dimostra un teorema fondamentale in statistica
Zn 
Teorema del limite centrale
n
Mn  

Se si estraggono n campioni da una popolazione X avente media E[X] e
varianza σ2 La v.a. ottenuta standardizzando la media campionaria Mn è
una v.a. La cui distribuzione di probabilità tende alla distribuzione normale
standard, ovvero
lim P(a  Z n  b)  FN (b)  FN (a)
n
Osservazione 1
Empiricamente si verifica che un campione con n >29 unità è sufficiente per
usare l’approssimazione
Osservazione 2
Zn  NS
Se i campioni provengono da una popolazione normale X allora
Zn è normale anche per ogni valore di n (anche minore di 30)
Zn  NS
Il Teorema del limite centrale e stime per intervalli
Il Teorema del limite centrale e stime per intervalli
Il TCL risultato precedente può essere usato così
- Fissiamo a=0.01 valore che riteniamo improbabile, ovvero il nostro procedimento
ci porterà a conclusioni sbagliate solo nel 1% dei casi
- Usando la tabella della normale standard determiniamo il quantile z = z1-a/2
per il quale risulta
FN ( z1a / 2 )  1  a / 2  0.995
- Dalla simmetria della normale standard NS osservando il grafico si ha
FN ( z1 a / 2 )  a / 2  0.005
FN ( z1a / 2 )  1  a / 2  0.995
Area 0.005
-z1-a/2 = -2.57
P( z  N S  z )  FN ( z1a / 2 )  FN ( z1a / 2 )
 0.995  0.005  0.99
Area 0.005
z1-a/2 = 2.57
Il Teorema del limite centrale e stime per intervalli
Il Teorema del limite centrale e stime per intervalli
Il TCL risultato precedente può essere usato così
0.99  1  a  FN ( z )  FN ( z )  P( z  Z n  z ) 
Mn  
z 
 z


P  z  n
 z   P 
 Mn   


n
n



z 

 
 z

P 
   Mn 
 n  M n  z
  P M n  z

n
n
n
n


= probabilità che la media incognita vera u si trovi nell’intervallo

 

,Mn  z
M n  z

n
n


INTERVALLO DI CONFIDENZA PER LA MEDIA AL 99%
(1-a)*100 %
Il Teorema del limite centrale e stime per intervalli
INTERVALLIDI CONFIDENZA PER LA MEDIA
esempio
determinare un intervallo fiduciario per la media di
una variabile casuale X con distribuzione normale
(media incognita, deviazione standard =3) usando
il seguente campione casuale
1.2,3.4,0.6,5.6
M 4  2.7
Z n
Teor.
centrale
M 4  E  X

2
M 4  E  X
3
ha distribuzione normale,
con media 0 e var 1
Il Teorema del limite centrale e stime per intervalli
INTERVALLIDI CONFIDENZA PER LA MEDIA
Z n
M 4  E  X

2
M 4  E  X
1
pz 
e
2
3
z2

2
non dipende dal parametro incognito E[X]
si può calcolare la probabilità che Z assuma
un valore compreso
tra due numeri scelti arbitrariamente
Il Teorema del limite centrale e stime per intervalli
INTERVALLIDI CONFIDENZA PER LA MEDIA
Z n
M 4  E  X

2
M 4  E  X
3
1
pz 
e
2
per es.
p  1.96  Z  1.96 
1.96

1.96
1.96  Z  1.96 
1
e
2
z2

2
dz  0.95
M 4  E  X
3/2
E  X  M 4   3/2 1.96  M 4  2.94
z2

2
Il Teorema del limite centrale e stime per intervalli
INTERVALLIDI CONFIDENZA PER LA MEDIA
Z n
M 4  E  X

2
M 4  E  X
3
per es.
p  1.96  Z  1.96 
1.96

1.96
Z  1.96 
1
e
2
M 4  E  X
3/2
z2

2
1
pz 
e
2
dz  0.95
 1.96
E  X  M 4   3/2 1.96  M 4  2.94
z2

2
Il Teorema del limite centrale e stime per intervalli
INTERVALLIDI CONFIDENZA PER LA MEDIA
Z n
M 4  E  X

2
M 4  E  X
3
per es.
p  1.96  Z  1.96 
1.96

1.96
1
e
2
z2

2

1
pz 
e
2
z2

2
dz  0.95

p  M 4  2.94  E  X  M 4  2.94  0.95
M 4  2.7   0.24, 5.64
intervalli
fiduciari
del 95%
Il Teorema del limite centrale e stime per intervalli
l’intervallo (-0.24, 5.64) è il valore
dell’intervallo casuale
 M 4  2.94, M 4  2.94
quando M4=2.7
La probabilità che l’intervallo casuale
 M 4  2.94, M 4  2.94
contenga la media incognita E[X] è 0.95