Probabilità e Statistica per l`analisi di dati sperimentali Statistiche

Probabilità e Statistica per l’analisi di dati sperimentali
Statistiche descrittive e rappresentazioni grafiche
Sviluppo e gestione di Data Center per il calcolo scientifico ad alte prestazioni
Master Progetto PRISMA, UniBA/INFN
Alessio Pollice
Dipartimento di Scienze Economiche e Metodi Matematici
Università degli Studi di Bari Aldo Moro
[credits: G. Jona Lasinio, S. Arima @ Sapienza Università di Roma]
(Master PRISMA)
11/02/14
1 / 32
Obiettivi del corso
Obiettivo generale: formare utenti consapevoli della Statistica
NO - conoscenza di dettagli tecnici
SI - comprensione e consapevolezza di assunzioni, ipotesi e significato
delle tecniche di analisi illustrate
(Master PRISMA)
11/02/14
2 / 32
Obiettivi del corso
Obiettivo generale: formare utenti consapevoli della Statistica
NO - conoscenza di dettagli tecnici
SI - comprensione e consapevolezza di assunzioni, ipotesi e significato
delle tecniche di analisi illustrate
Percorso: dall’idea alla realizzaione
Scelta delle tecniche giuste per ottenere dai dati le informazioni che si
desiderano
Implementazione in R
Corretta lettura e interpretazione dei risultati ottenuti
(Master PRISMA)
11/02/14
2 / 32
Statistiche descrittive
Ad ogni tecnica statistica risponde una domanda, una richiesta di
informazione
Primo passo di un’analisi statistica è chiarire quali siano le domande a
cui si vuole rispondere
(Master PRISMA)
11/02/14
3 / 32
Statistiche descrittive
Ad ogni tecnica statistica risponde una domanda, una richiesta di
informazione
Primo passo di un’analisi statistica è chiarire quali siano le domande a
cui si vuole rispondere
Ad esempio:
1
Quale è il valore centrale attorno a cui oscillano i miei dati?
La media: descrive il valore attorno al quale oscillano i dati
Se immaginiamo i dati come un corpo rigido è il baricentro dell’oggetto
2
Sotto (o sopra) quale valore si trova il 50% dei dati?
La mediana: è il valore che divide la distribuzione a metà (50% delle
osservazione alla sua sinistra e alla sua destra)
È il centro della distribuzione
3
Quanto sono variabili i dati (quanto sono dispersi attorno alla media)?
La deviazione standard: è la distanza euclidea media dalla media
È la distanza media dal baricentro dell’oggetto
(Master PRISMA)
11/02/14
3 / 32
Statistiche descrittive
In generale ci interessa costruire delle grandezze che diano informazioni
sintetiche ed esaurienti
Non è quasi mai sufficiente fornire una sola grandezza alla volta, né solo dei
numeri. Ad esempio:
(Master PRISMA)
11/02/14
4 / 32
Statistiche descrittive
In generale ci interessa costruire delle grandezze che diano informazioni
sintetiche ed esaurienti
0.3
0.04
0.4
0.05
Non è quasi mai sufficiente fornire una sola grandezza alla volta, né solo dei
numeri. Ad esempio:
mediana
media
0.2
Density
0.0
0.00
0.01
0.1
0.02
Density
0.03
mediana
media
−30
−20
−10
0
10
20
30
40
x
µ = 2.11 σ = 7.91 asim= 0
(Master PRISMA)
0
5
10
15
y
µ = 1.99 σ = 1.98 asim= 1.9
11/02/14
4 / 32
Statistiche descrittive
400
500
Quando la media funziona davvero male: esempio teorico
300
0
100
200
Frequency
mediana
media
−10
0
10
20
30
40
50
x1
µ = 9.85 σ = 12.05
(Master PRISMA)
11/02/14
5 / 32
Statistiche descrittive
Quando la media funziona davvero male: esempio reale distribuzione dei
morti per età nel Canton Ticino
Morti % per classi di età nel Caton Ticino
anno 1950
Morti % per classi di età nel Caton Ticino
anno 2005
mediana
media
mediana
media
0
5−9
15 − 19
25 − 29
35 − 39
45 − 49
55 − 59
65 − 69
1950
(Master PRISMA)
75 − 79
>90
0
5−9
15 − 19
25 − 29
35 − 39
45 − 49
55 − 59
65 − 69
75 − 79
>90
2005
11/02/14
6 / 32
Statistiche descrittive
Passando dal 1950 al 2005 possiamo osservare un maggiore
addensamento dei dati verso le età più anziane (testimoniato
dall’aumento sia della media che della mediana)
Questa percezione intuitiva di una minore dispersione può essere
evidenziata anche considerando l’intervallo di valori in cui si collocano
il 50% dei dati, ossia quelli compresi tra il 25-esimo e il 75-esimo
percentile
Indice
25%
mediana
75%
media
(Master PRISMA)
1950
52
64
76
63
2005
72
80
85
78
11/02/14
7 / 32
Statistiche descrittive
L’ampiezza di questo intervallo, è detta distanza interquartile: differenza
tra il valore che delimita il primo quarto della distribuzione dei dati da
quello che ne delimita l’ultimo quarto
La distanza interquartile, (IQR -IntraQuartile Range), è un indice di
dispersione di uso generale
Nell’esempio la distanza interquartile passa da 19 a 13
In R: IQR = quantile(x,prob=0.75) - quantile(x,prob=0.25)
(Master PRISMA)
11/02/14
8 / 32
Statistiche descrittive
0.4
Percentili
Sono i valori della variabili d’interesse X che ne dividono la
distribuzione in 100 parti uguali
la mediana è il 50 esimo percentile, il massimo è il 100esimo
percentile, il minimo il percentile di ordine 0
0.0
0.0
0.2
0.1
0.4
0.6
Γ(2, 3)
0.8
0.3
0.2
dnorm(x)
percentili
0.25 e 0.75
mediana
media
1.0
percentili
0.25 e 0.75
mediana
media
−4
−2
0
2
4
x
Distribuzione simmetrica
asimmetria= 0
(Master PRISMA)
0
1
2
3
4
x
Distribuzione asimmetrica
asimmetria= 1.5 positiva
11/02/14
9 / 32
Statistiche descrittive
Percentili
2
0
1
density
3
percentili
0.25 e 0.75
mediana
0.0
0.2
0.4
0.6
0.8
1.0
1.2
x
asimmetria= −0.49 negativa
(Master PRISMA)
11/02/14
10 / 32
Statistiche descrittive
Variabilità campionaria: un’analisi statistica parte generalmente da
un campione di n osservazioni o unità y1 , ..., yn
(Master PRISMA)
11/02/14
11 / 32
Statistiche descrittive
Variabilità campionaria: un’analisi statistica parte generalmente da
un campione di n osservazioni o unità y1 , ..., yn
Si dice statistica una funzione delle osservazioni campionarie
s = s(y1 , ..., y2 )
Le statistiche servono a sintetizzare aspetti importanti delle distribuzioni
(dati)
(Master PRISMA)
11/02/14
11 / 32
Statistiche descrittive
Esempi:
n
1X
ȳ =
yi (posizione)
n
i=1
(Master PRISMA)
n
1 X
s =
(yi − ȳ )2 (scala)
n−1
2
i=1
11/02/14
12 / 32
Statistiche descrittive
Esempi:
n
1X
ȳ =
yi (posizione)
n
i=1
n
1 X
s =
(yi − ȳ )2 (scala)
n−1
2
(
y
median(yi ) = 1(n+1)/2
2 (y(n/2) + y(n/2+1)
(Master PRISMA)
i=1
n dispari
(centro)
n pari
11/02/14
12 / 32
Statistiche descrittive
Esempi:
n
1X
ȳ =
yi (posizione)
n
i=1
n
1 X
s =
(yi − ȳ )2 (scala)
n−1
2
(
y
median(yi ) = 1(n+1)/2
2 (y(n/2) + y(n/2+1)
i=1
n dispari
(centro)
n pari
n
EDF (y ) =
1X
I {xi ≤ t} (funzione di ripartizione empirica)
n
i=1
(Master PRISMA)
11/02/14
12 / 32
Statistiche descrittive
La variabilità di una distribuzione statistica è un’informazione essenziale
che può essere misurata mediante diversi indicatori
Range o campo di variazione: minimo e massimo valore della serie di
dati (range(x))
La varianza è la distanza euclidea media degli
Pn elementi2della
distribuzione xi dalla media aritmetica x̄: i=1 (xi − x̄) /n
In R: mean((x-mean(x))^2)
La varianza
è leggermente diversa dal punto di vista del
Pn campionaria
2 /(n − 1)
calcolo:
(x
−
x̄)
i=1 i
n − 1 gradi di libertà al denominatore della varianza campionaria:
utilizziamo tutto il campione per calcolare la media ed usiamo la
media nel calcolo della varianza. In questo modo vincoliamo la
distribuzione per la quale calcoliamo la varianza ad avere proprio quel
valore calcolato della media
In R: var(x) per la varianza campionaria e sd(x) per la deviazione
standard
(Master PRISMA)
11/02/14
13 / 32
Statistiche descrittive
Altre misure di dispersione
Per confrontare la variabilità di distribuzioni espresse con unità di
misura diverse si può ricorrere al coefficiente di variazione: CV =
deviazione standard / media (sd(x)/mean(x))
Il coefficiente di asimmetria è pari alla media dello scarto cubico
dalla media, diviso il cubo della deviazione standard: l’indice è nullo
se la distribuzione dei dati è simmetrica, è positivo se ha una coda
verso destra, negativo nel caso contrario
(mean((x-mean(x))^3)/(sd(x)^3))
(Master PRISMA)
11/02/14
14 / 32
Statistiche descrittive
Natura dei dati e misure statistiche
Variabili quantitative continue: massimo contenuto informativo medie aritmetiche, geometriche, varianze, ecc.
Variabili quantitative discrete: medie aritmetiche, geometriche,
indici di posizione (mediana, percentili)
Variabili qualitative ordinate: indici di posizione - esempio: titolo di
studio
Variabili qualitative sconnesse: distribuzioni di frequenze - esempio:
colore degli occhi.
(Master PRISMA)
11/02/14
15 / 32
Statistiche descrittive
Come valutiamo la variabilità se abbiamo dei dati qualitativi?
Per dati ordinati si può usare IQR
Possiamo costruire misure di eterogeneità pe distribuzioni di frequenze
Indice di Gini
Entropia
(Master PRISMA)
P
ni
G =1− K
PK nik=1 N ni H = − i=1 N log N
Varia tra 0 e 1 − K1
Varia tra 0 e log(K )
11/02/14
16 / 32
Statistiche descrittive
Rappresentazioni Grafiche
Tipi di
grafico
Variabile
Quantitativa
Discreta
Variabile
Qualitativa
Continua
Non Ordinata
grafico a segmenti
grafico ramo
Foglia, box plot
Istogramma
grafico ramo
Foglia box plot
Grafico a dispersione
Grafico a dispersione
(Master PRISMA)
grafico
a barre
grafico a
Torta
Ordinata
grafico
a barre
grafico a
torta
11/02/14
17 / 32
Statistiche descrittive
Rappresentazioni Grafiche
Grafico a dispersione
2.5
IRIS
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
● ●
●
●
●
●
● ●
●
●
●
●
2.0
●
●
● ●
●
●
● ●
● ●
●
●
●
●
● ●
●
●
●
●
●
●
● ●
● ●
● ●
● ●
● ●
● ●
●
●
●
●
●
●
● ●
●
●
●
●
1.5
●
●
Petal Width
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
1.0
●
●
●
●
● ●
● ●
● ●
●
●
●
●
●
●
● ●
● ●
●
●
● ●
● ●
●
●
● ●
● ●
● ●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
● ●
●
●
● ●
●
●
●
●
● ●
●
●
●
●
0.5
●
●
●
●
● ●
●
●
● ●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
● ●
●
●
4.5
5.0
●
●
●
●
●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
●
●
●
●
●
●
setosa
versicolor
virginica
●
●
5.5
6.0
6.5
7.0
7.5
8.0
Sepal Length
(Master PRISMA)
11/02/14
18 / 32
Statistiche descrittive
Rappresentazioni Grafiche
Nel grafico a dispersione cerchiamo di individuare le relazioni tra
due variabili quantitative
Se si dispongono lungo una curva, se si raggruppano o se insieme
danno luogo ad altri pattern individuabili ad occhio nudo
Se una delle due variabili è il tempo ci permette di visualizzare la serie
storica degli eventi che stiamo studiando e capire che relazioni
possono esistere tra osservazioni successive
(Master PRISMA)
11/02/14
19 / 32
Statistiche descrittive
Rappresentazioni Grafiche
Grafico a dispersione per una serie storica: è chiaramente visibile una
periodicità con cicli sia secolari che di minor durata
150
100
0
50
sunspot.month
200
250
Macchie solari dal 1749 al 1997
1750
1800
1850
1900
1950
2000
Time
(Master PRISMA)
11/02/14
20 / 32
Statistiche descrittive
Rappresentazioni Grafiche
Boxplot:
Il box-plot (o anche box and whiskers plot, letteralmente:
“diagramma a scatola e baffi”) è una forma di rappresentazione
grafica che serve per descrivere in modo sintetico la distribuzione di
una variabile quantitativa
Rettangolo in un piano cartesiano, i cui estremi sono il primo e terzo
quartile (Q1 e Q3), è tagliato a metà da una linea che rappresenta la
mediana (Q2). Il minimo della distribuzione viene indicato con (Q0),
mentre il massimo con (Q4).
Abitualmente vengono aggiunte due righe (dette anche baffi)
corrispondenti ai valori distanti 1.5 volte la distanza interquartile
(Q3-Q1) a partire rispettivamente dal primo dal terzo quartile. Alle
volte vengono anche rappresentati nel grafico i valori che fuoriescono
dall’intervallo delimitato dai due baffi come punti isolati
(valori anomali)
Pare che a John Wilder Tukey venne chiesto perch é nella determinazione dei valori adiacenti superiore ed inferiore fosse
stata scelta una distanza limite dai quartili pari a 1.5 e lui avrebbe risposto perché 1 è poco e 2 troppo.
(Master PRISMA)
11/02/14
21 / 32
Rappresentazioni Grafiche
3
115
Statistiche descrittive
●
max
●
1
105
2
110
max
100
Q3
0
Q3
Q2
−1
95
Q1
85
−2
90
Q1
●
−3
min
●
senza valori anomali
(Master PRISMA)
min
con valori anomali
11/02/14
22 / 32
Statistiche descrittive
Rappresentazioni Grafiche
2.5
iris Petal Width
1.5
5
6
2.0
6
8
7
iris Petal Length
1.0
4
4
●
●
●
3
●
2
●
0
1
2
0.5
●
Sepal.Length
Sepal.Width
(Master PRISMA)
Petal.Length
Petal.Width
●
●
setosa
virginica
setosa
virginica
11/02/14
23 / 32
Statistiche descrittive
Rappresentazioni Grafiche
In R i boxplot vengono costruiti nel modo seguente:
Si calcolano il 25-esimo ed il 75-esimo percentile (Q1 e Q3 )
Si costruisce la distanza interquartile: IQR = Q3 − Q1 questa
definisce la lunghezza del lato della scatola
Gli estremi della scatola vengono disegnati in corrispondenza dei
valori osservati più vicini a Q1 , Q3 .
Tutti i valori che superano di 1.5(Q3 − Q1 ) uno dei due estremi della
scatola vengono considerati anomali, quindi i “baffi” del boxplot
vengono tracciati a partire dagli estremi della scatola fino al valore
osservato più piccolo minore di Q1 − 1.5(Q3 − Q1 ), per l’estremo
inferiore, e fino al valore osservato più grande minore di
Q3 + 1.5(Q3 − Q1 ).
(Master PRISMA)
11/02/14
24 / 32
Statistiche descrittive
Rappresentazioni Grafiche
Iris setosa
Valori
1
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.9
Totale
Frequenze
1
1
2
7
13
13
7
4
2
50
Q1 = 1.4 Q3 = 1.575 ≈ 1.6 mediana= 1.5, IQR= 1.6 − 1.4 = 0.2
(Master PRISMA)
11/02/14
25 / 32
Statistiche descrittive
Rappresentazioni Grafiche
Iris setosa
iris data: Petal Length setosa
circa Q3
IQR= 0.2
Q1
1.2
1.4
1.6
1.8
1.9
1.0
1.1
(Master PRISMA)
●
11/02/14
26 / 32
Statistiche descrittive
Dati Qualitativi
Dati Qualitativi: Adulti presenti sul Titanic per sesso e classe
Classe
1st
2nd
3rd
Crew
(Master PRISMA)
Male
175
168
462
862
Female
144
93
165
23
11/02/14
27 / 32
Statistiche descrittive
Dati Qualitativi
Dati Qualitativi: grafici a barre
1st
2nd
3rd
Crew
0
0
10
200
20
400
30
600
40
1st
2nd
3rd
Crew
50
800
Adulti presenti sul Titanic distinti per sesso
Male
Female
valori assoluti
(Master PRISMA)
Male
Female
percentuali per sesso
11/02/14
28 / 32
Statistiche descrittive
Dati Qualitativi
Dati Qualitativi: grafici a barre
1st
2nd
3rd
Crew
0
0
10
200
20
400
30
600
40
1st
2nd
3rd
Crew
50
800
Adulti presenti sul Titanic distinti per sesso
Male
Female
valori assoluti
Male
Female
percentuali per sesso
percentuali costruite rispetto al totale dei presenti per ciascun genere
(Master PRISMA)
11/02/14
28 / 32
Statistiche descrittive
Dati Qualitativi
Dati Qualitativi: Morti adulti del Titanic per sesso e classe
Classe
1st
2nd
3rd
Crew
(Master PRISMA)
Male
118
154
387
670
Female
4
13
89
3
11/02/14
29 / 32
Statistiche descrittive
Dati Qualitativi
Morti % per sesso
80
Morti
1st
2nd
3rd
Crew
0
0
100
20
200
300
40
400
60
500
600
1st
2nd
3rd
Crew
Male
Female
valori assoluti
(Master PRISMA)
Male
Female
percentuali per sesso
11/02/14
30 / 32
Statistiche descrittive
Dati Qualitativi
Morti % per sesso
80
Morti
1st
2nd
3rd
Crew
0
0
100
20
200
300
40
400
60
500
600
1st
2nd
3rd
Crew
Male
Female
valori assoluti
Male
Female
percentuali per sesso
percentuali costruite rispetto al totale dei morti per ciascun genere
(Master PRISMA)
11/02/14
30 / 32
Statistiche descrittive
Dati Qualitativi
Visualizziamo la tavola intera dei dati del Titanic: grafico a mosaico
Survival on the Titanic
1st
Adult
2nd
Child Adult
Child
3rd
Adult
Child
Crew
Adult
Female
Yes
No
Sex
Male
Yes
No
Child
Class
(Master PRISMA)
11/02/14
31 / 32
Statistiche descrittive
Dati Qualitativi
100
Morti
Male
Female
0
0
100
20
200
40
300
60
400
500
80
600
Male
Female
1st
2nd
3rd
valori assoluti
Crew
1st
2nd
3rd
Crew
percentuali per classe
le percentuali sono calcolate rispetto al totale dei morti (maschi+femmine)
per ciascuna classe
(Master PRISMA)
11/02/14
32 / 32