Probabilità e Statistica per l’analisi di dati sperimentali Statistiche descrittive e rappresentazioni grafiche Sviluppo e gestione di Data Center per il calcolo scientifico ad alte prestazioni Master Progetto PRISMA, UniBA/INFN Alessio Pollice Dipartimento di Scienze Economiche e Metodi Matematici Università degli Studi di Bari Aldo Moro [credits: G. Jona Lasinio, S. Arima @ Sapienza Università di Roma] (Master PRISMA) 11/02/14 1 / 32 Obiettivi del corso Obiettivo generale: formare utenti consapevoli della Statistica NO - conoscenza di dettagli tecnici SI - comprensione e consapevolezza di assunzioni, ipotesi e significato delle tecniche di analisi illustrate (Master PRISMA) 11/02/14 2 / 32 Obiettivi del corso Obiettivo generale: formare utenti consapevoli della Statistica NO - conoscenza di dettagli tecnici SI - comprensione e consapevolezza di assunzioni, ipotesi e significato delle tecniche di analisi illustrate Percorso: dall’idea alla realizzaione Scelta delle tecniche giuste per ottenere dai dati le informazioni che si desiderano Implementazione in R Corretta lettura e interpretazione dei risultati ottenuti (Master PRISMA) 11/02/14 2 / 32 Statistiche descrittive Ad ogni tecnica statistica risponde una domanda, una richiesta di informazione Primo passo di un’analisi statistica è chiarire quali siano le domande a cui si vuole rispondere (Master PRISMA) 11/02/14 3 / 32 Statistiche descrittive Ad ogni tecnica statistica risponde una domanda, una richiesta di informazione Primo passo di un’analisi statistica è chiarire quali siano le domande a cui si vuole rispondere Ad esempio: 1 Quale è il valore centrale attorno a cui oscillano i miei dati? La media: descrive il valore attorno al quale oscillano i dati Se immaginiamo i dati come un corpo rigido è il baricentro dell’oggetto 2 Sotto (o sopra) quale valore si trova il 50% dei dati? La mediana: è il valore che divide la distribuzione a metà (50% delle osservazione alla sua sinistra e alla sua destra) È il centro della distribuzione 3 Quanto sono variabili i dati (quanto sono dispersi attorno alla media)? La deviazione standard: è la distanza euclidea media dalla media È la distanza media dal baricentro dell’oggetto (Master PRISMA) 11/02/14 3 / 32 Statistiche descrittive In generale ci interessa costruire delle grandezze che diano informazioni sintetiche ed esaurienti Non è quasi mai sufficiente fornire una sola grandezza alla volta, né solo dei numeri. Ad esempio: (Master PRISMA) 11/02/14 4 / 32 Statistiche descrittive In generale ci interessa costruire delle grandezze che diano informazioni sintetiche ed esaurienti 0.3 0.04 0.4 0.05 Non è quasi mai sufficiente fornire una sola grandezza alla volta, né solo dei numeri. Ad esempio: mediana media 0.2 Density 0.0 0.00 0.01 0.1 0.02 Density 0.03 mediana media −30 −20 −10 0 10 20 30 40 x µ = 2.11 σ = 7.91 asim= 0 (Master PRISMA) 0 5 10 15 y µ = 1.99 σ = 1.98 asim= 1.9 11/02/14 4 / 32 Statistiche descrittive 400 500 Quando la media funziona davvero male: esempio teorico 300 0 100 200 Frequency mediana media −10 0 10 20 30 40 50 x1 µ = 9.85 σ = 12.05 (Master PRISMA) 11/02/14 5 / 32 Statistiche descrittive Quando la media funziona davvero male: esempio reale distribuzione dei morti per età nel Canton Ticino Morti % per classi di età nel Caton Ticino anno 1950 Morti % per classi di età nel Caton Ticino anno 2005 mediana media mediana media 0 5−9 15 − 19 25 − 29 35 − 39 45 − 49 55 − 59 65 − 69 1950 (Master PRISMA) 75 − 79 >90 0 5−9 15 − 19 25 − 29 35 − 39 45 − 49 55 − 59 65 − 69 75 − 79 >90 2005 11/02/14 6 / 32 Statistiche descrittive Passando dal 1950 al 2005 possiamo osservare un maggiore addensamento dei dati verso le età più anziane (testimoniato dall’aumento sia della media che della mediana) Questa percezione intuitiva di una minore dispersione può essere evidenziata anche considerando l’intervallo di valori in cui si collocano il 50% dei dati, ossia quelli compresi tra il 25-esimo e il 75-esimo percentile Indice 25% mediana 75% media (Master PRISMA) 1950 52 64 76 63 2005 72 80 85 78 11/02/14 7 / 32 Statistiche descrittive L’ampiezza di questo intervallo, è detta distanza interquartile: differenza tra il valore che delimita il primo quarto della distribuzione dei dati da quello che ne delimita l’ultimo quarto La distanza interquartile, (IQR -IntraQuartile Range), è un indice di dispersione di uso generale Nell’esempio la distanza interquartile passa da 19 a 13 In R: IQR = quantile(x,prob=0.75) - quantile(x,prob=0.25) (Master PRISMA) 11/02/14 8 / 32 Statistiche descrittive 0.4 Percentili Sono i valori della variabili d’interesse X che ne dividono la distribuzione in 100 parti uguali la mediana è il 50 esimo percentile, il massimo è il 100esimo percentile, il minimo il percentile di ordine 0 0.0 0.0 0.2 0.1 0.4 0.6 Γ(2, 3) 0.8 0.3 0.2 dnorm(x) percentili 0.25 e 0.75 mediana media 1.0 percentili 0.25 e 0.75 mediana media −4 −2 0 2 4 x Distribuzione simmetrica asimmetria= 0 (Master PRISMA) 0 1 2 3 4 x Distribuzione asimmetrica asimmetria= 1.5 positiva 11/02/14 9 / 32 Statistiche descrittive Percentili 2 0 1 density 3 percentili 0.25 e 0.75 mediana 0.0 0.2 0.4 0.6 0.8 1.0 1.2 x asimmetria= −0.49 negativa (Master PRISMA) 11/02/14 10 / 32 Statistiche descrittive Variabilità campionaria: un’analisi statistica parte generalmente da un campione di n osservazioni o unità y1 , ..., yn (Master PRISMA) 11/02/14 11 / 32 Statistiche descrittive Variabilità campionaria: un’analisi statistica parte generalmente da un campione di n osservazioni o unità y1 , ..., yn Si dice statistica una funzione delle osservazioni campionarie s = s(y1 , ..., y2 ) Le statistiche servono a sintetizzare aspetti importanti delle distribuzioni (dati) (Master PRISMA) 11/02/14 11 / 32 Statistiche descrittive Esempi: n 1X ȳ = yi (posizione) n i=1 (Master PRISMA) n 1 X s = (yi − ȳ )2 (scala) n−1 2 i=1 11/02/14 12 / 32 Statistiche descrittive Esempi: n 1X ȳ = yi (posizione) n i=1 n 1 X s = (yi − ȳ )2 (scala) n−1 2 ( y median(yi ) = 1(n+1)/2 2 (y(n/2) + y(n/2+1) (Master PRISMA) i=1 n dispari (centro) n pari 11/02/14 12 / 32 Statistiche descrittive Esempi: n 1X ȳ = yi (posizione) n i=1 n 1 X s = (yi − ȳ )2 (scala) n−1 2 ( y median(yi ) = 1(n+1)/2 2 (y(n/2) + y(n/2+1) i=1 n dispari (centro) n pari n EDF (y ) = 1X I {xi ≤ t} (funzione di ripartizione empirica) n i=1 (Master PRISMA) 11/02/14 12 / 32 Statistiche descrittive La variabilità di una distribuzione statistica è un’informazione essenziale che può essere misurata mediante diversi indicatori Range o campo di variazione: minimo e massimo valore della serie di dati (range(x)) La varianza è la distanza euclidea media degli Pn elementi2della distribuzione xi dalla media aritmetica x̄: i=1 (xi − x̄) /n In R: mean((x-mean(x))^2) La varianza è leggermente diversa dal punto di vista del Pn campionaria 2 /(n − 1) calcolo: (x − x̄) i=1 i n − 1 gradi di libertà al denominatore della varianza campionaria: utilizziamo tutto il campione per calcolare la media ed usiamo la media nel calcolo della varianza. In questo modo vincoliamo la distribuzione per la quale calcoliamo la varianza ad avere proprio quel valore calcolato della media In R: var(x) per la varianza campionaria e sd(x) per la deviazione standard (Master PRISMA) 11/02/14 13 / 32 Statistiche descrittive Altre misure di dispersione Per confrontare la variabilità di distribuzioni espresse con unità di misura diverse si può ricorrere al coefficiente di variazione: CV = deviazione standard / media (sd(x)/mean(x)) Il coefficiente di asimmetria è pari alla media dello scarto cubico dalla media, diviso il cubo della deviazione standard: l’indice è nullo se la distribuzione dei dati è simmetrica, è positivo se ha una coda verso destra, negativo nel caso contrario (mean((x-mean(x))^3)/(sd(x)^3)) (Master PRISMA) 11/02/14 14 / 32 Statistiche descrittive Natura dei dati e misure statistiche Variabili quantitative continue: massimo contenuto informativo medie aritmetiche, geometriche, varianze, ecc. Variabili quantitative discrete: medie aritmetiche, geometriche, indici di posizione (mediana, percentili) Variabili qualitative ordinate: indici di posizione - esempio: titolo di studio Variabili qualitative sconnesse: distribuzioni di frequenze - esempio: colore degli occhi. (Master PRISMA) 11/02/14 15 / 32 Statistiche descrittive Come valutiamo la variabilità se abbiamo dei dati qualitativi? Per dati ordinati si può usare IQR Possiamo costruire misure di eterogeneità pe distribuzioni di frequenze Indice di Gini Entropia (Master PRISMA) P ni G =1− K PK nik=1 N ni H = − i=1 N log N Varia tra 0 e 1 − K1 Varia tra 0 e log(K ) 11/02/14 16 / 32 Statistiche descrittive Rappresentazioni Grafiche Tipi di grafico Variabile Quantitativa Discreta Variabile Qualitativa Continua Non Ordinata grafico a segmenti grafico ramo Foglia, box plot Istogramma grafico ramo Foglia box plot Grafico a dispersione Grafico a dispersione (Master PRISMA) grafico a barre grafico a Torta Ordinata grafico a barre grafico a torta 11/02/14 17 / 32 Statistiche descrittive Rappresentazioni Grafiche Grafico a dispersione 2.5 IRIS ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 2.0 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 1.5 ● ● Petal Width ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 1.0 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.5 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 4.5 5.0 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● setosa versicolor virginica ● ● 5.5 6.0 6.5 7.0 7.5 8.0 Sepal Length (Master PRISMA) 11/02/14 18 / 32 Statistiche descrittive Rappresentazioni Grafiche Nel grafico a dispersione cerchiamo di individuare le relazioni tra due variabili quantitative Se si dispongono lungo una curva, se si raggruppano o se insieme danno luogo ad altri pattern individuabili ad occhio nudo Se una delle due variabili è il tempo ci permette di visualizzare la serie storica degli eventi che stiamo studiando e capire che relazioni possono esistere tra osservazioni successive (Master PRISMA) 11/02/14 19 / 32 Statistiche descrittive Rappresentazioni Grafiche Grafico a dispersione per una serie storica: è chiaramente visibile una periodicità con cicli sia secolari che di minor durata 150 100 0 50 sunspot.month 200 250 Macchie solari dal 1749 al 1997 1750 1800 1850 1900 1950 2000 Time (Master PRISMA) 11/02/14 20 / 32 Statistiche descrittive Rappresentazioni Grafiche Boxplot: Il box-plot (o anche box and whiskers plot, letteralmente: “diagramma a scatola e baffi”) è una forma di rappresentazione grafica che serve per descrivere in modo sintetico la distribuzione di una variabile quantitativa Rettangolo in un piano cartesiano, i cui estremi sono il primo e terzo quartile (Q1 e Q3), è tagliato a metà da una linea che rappresenta la mediana (Q2). Il minimo della distribuzione viene indicato con (Q0), mentre il massimo con (Q4). Abitualmente vengono aggiunte due righe (dette anche baffi) corrispondenti ai valori distanti 1.5 volte la distanza interquartile (Q3-Q1) a partire rispettivamente dal primo dal terzo quartile. Alle volte vengono anche rappresentati nel grafico i valori che fuoriescono dall’intervallo delimitato dai due baffi come punti isolati (valori anomali) Pare che a John Wilder Tukey venne chiesto perch é nella determinazione dei valori adiacenti superiore ed inferiore fosse stata scelta una distanza limite dai quartili pari a 1.5 e lui avrebbe risposto perché 1 è poco e 2 troppo. (Master PRISMA) 11/02/14 21 / 32 Rappresentazioni Grafiche 3 115 Statistiche descrittive ● max ● 1 105 2 110 max 100 Q3 0 Q3 Q2 −1 95 Q1 85 −2 90 Q1 ● −3 min ● senza valori anomali (Master PRISMA) min con valori anomali 11/02/14 22 / 32 Statistiche descrittive Rappresentazioni Grafiche 2.5 iris Petal Width 1.5 5 6 2.0 6 8 7 iris Petal Length 1.0 4 4 ● ● ● 3 ● 2 ● 0 1 2 0.5 ● Sepal.Length Sepal.Width (Master PRISMA) Petal.Length Petal.Width ● ● setosa virginica setosa virginica 11/02/14 23 / 32 Statistiche descrittive Rappresentazioni Grafiche In R i boxplot vengono costruiti nel modo seguente: Si calcolano il 25-esimo ed il 75-esimo percentile (Q1 e Q3 ) Si costruisce la distanza interquartile: IQR = Q3 − Q1 questa definisce la lunghezza del lato della scatola Gli estremi della scatola vengono disegnati in corrispondenza dei valori osservati più vicini a Q1 , Q3 . Tutti i valori che superano di 1.5(Q3 − Q1 ) uno dei due estremi della scatola vengono considerati anomali, quindi i “baffi” del boxplot vengono tracciati a partire dagli estremi della scatola fino al valore osservato più piccolo minore di Q1 − 1.5(Q3 − Q1 ), per l’estremo inferiore, e fino al valore osservato più grande minore di Q3 + 1.5(Q3 − Q1 ). (Master PRISMA) 11/02/14 24 / 32 Statistiche descrittive Rappresentazioni Grafiche Iris setosa Valori 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.9 Totale Frequenze 1 1 2 7 13 13 7 4 2 50 Q1 = 1.4 Q3 = 1.575 ≈ 1.6 mediana= 1.5, IQR= 1.6 − 1.4 = 0.2 (Master PRISMA) 11/02/14 25 / 32 Statistiche descrittive Rappresentazioni Grafiche Iris setosa iris data: Petal Length setosa circa Q3 IQR= 0.2 Q1 1.2 1.4 1.6 1.8 1.9 1.0 1.1 (Master PRISMA) ● 11/02/14 26 / 32 Statistiche descrittive Dati Qualitativi Dati Qualitativi: Adulti presenti sul Titanic per sesso e classe Classe 1st 2nd 3rd Crew (Master PRISMA) Male 175 168 462 862 Female 144 93 165 23 11/02/14 27 / 32 Statistiche descrittive Dati Qualitativi Dati Qualitativi: grafici a barre 1st 2nd 3rd Crew 0 0 10 200 20 400 30 600 40 1st 2nd 3rd Crew 50 800 Adulti presenti sul Titanic distinti per sesso Male Female valori assoluti (Master PRISMA) Male Female percentuali per sesso 11/02/14 28 / 32 Statistiche descrittive Dati Qualitativi Dati Qualitativi: grafici a barre 1st 2nd 3rd Crew 0 0 10 200 20 400 30 600 40 1st 2nd 3rd Crew 50 800 Adulti presenti sul Titanic distinti per sesso Male Female valori assoluti Male Female percentuali per sesso percentuali costruite rispetto al totale dei presenti per ciascun genere (Master PRISMA) 11/02/14 28 / 32 Statistiche descrittive Dati Qualitativi Dati Qualitativi: Morti adulti del Titanic per sesso e classe Classe 1st 2nd 3rd Crew (Master PRISMA) Male 118 154 387 670 Female 4 13 89 3 11/02/14 29 / 32 Statistiche descrittive Dati Qualitativi Morti % per sesso 80 Morti 1st 2nd 3rd Crew 0 0 100 20 200 300 40 400 60 500 600 1st 2nd 3rd Crew Male Female valori assoluti (Master PRISMA) Male Female percentuali per sesso 11/02/14 30 / 32 Statistiche descrittive Dati Qualitativi Morti % per sesso 80 Morti 1st 2nd 3rd Crew 0 0 100 20 200 300 40 400 60 500 600 1st 2nd 3rd Crew Male Female valori assoluti Male Female percentuali per sesso percentuali costruite rispetto al totale dei morti per ciascun genere (Master PRISMA) 11/02/14 30 / 32 Statistiche descrittive Dati Qualitativi Visualizziamo la tavola intera dei dati del Titanic: grafico a mosaico Survival on the Titanic 1st Adult 2nd Child Adult Child 3rd Adult Child Crew Adult Female Yes No Sex Male Yes No Child Class (Master PRISMA) 11/02/14 31 / 32 Statistiche descrittive Dati Qualitativi 100 Morti Male Female 0 0 100 20 200 40 300 60 400 500 80 600 Male Female 1st 2nd 3rd valori assoluti Crew 1st 2nd 3rd Crew percentuali per classe le percentuali sono calcolate rispetto al totale dei morti (maschi+femmine) per ciascuna classe (Master PRISMA) 11/02/14 32 / 32