Metodi Statistici e Probabilistici per l’Ingegneria ELEMENTI DI STATISTICA DESCRITTIVA Corso di Laurea in Ingegneria Civile Facoltà di Ingegneria, Università di Padova Docente: Dott. L. Corain E-mail: [email protected] Home page: www.gest.unipd.it/~livio/Corso_Civile.html ELEMENTI DI STATISTICA DESCRITTIVA 1 SOMMARIO ¾ Statistica descrittiva vs. Statistica inferenziale ¾ Gli aspetti della statistica descrittiva descrizione e forma della distribuzione posizione o tendenza centrale variabilità o dispersione ¾ Gli strumenti della statistica descrittiva tabelle e grafici indici di sintesi ¾ Statistica descrittiva per serie temporali ¾ Statistica descrittiva per i dati multivariati ELEMENTI DI STATISTICA DESCRITTIVA 2 STATISTICA DESCRITTIVA vs STATISTICA INFERENZIALE La statistica descrittiva è un insieme di tecniche usate per descrivere le caratteristiche di base dei dati raccolti in un esperimento/studio. Esse forniscono una sintesi semplice del campione e delle misure raccolte. Insieme alla semplice analisi grafica, costituisco la base iniziale di partenza di qualsivoglia analisi quantitativa dei dati. Mentre con le statistiche descrittive si sta semplicemente descrivendo ciò che si osserva o ciò che i dati evidenziano nei loro tratti essenziali, con la statistica inferenziale, si tenterà di raggiungere conclusioni che si estendono oltre i dati raccolti nel loro immediato e che possono essere valide e riferibili ad un contesto più ampio rispetto a quello dei dati di quel singolo esperimento/studio. ELEMENTI DI STATISTICA DESCRITTIVA LA STATISTICA DESCRITTIVA: DEFINIZIONE Con il termine statistica descrittiva si intende un insieme di tecniche e strumenti finalizzati ad assolvere uno dei principali compiti assegnati della Statistica: descrivere, rappresentare e sintetizzare in maniera opportuna un insieme o campione di dati relativamente ad un problema (popolazione) di interesse. Per popolazione si intende la totalità dei casi, ovvero delle unità sulle quali e possibile rilevare una variabile di interesse, ad esempio i provini ottenuti da una miscela cemento/calcestruzzo su cui si esegue una prova di compressione allo scopo di misurare il carico di rottura. Per estensione, con popolazione si intende anche il prodotto/processo/fenomeno oggetto di indagine. Per campione si intende invece un insieme finito di n unità che si può ritenere rappresentativo dell’intera popolazione (che per definizione ha invece numerosità infinita). ELEMENTI DI STATISTICA DESCRITTIVA 4 STATISTICA DESCRITTIVA vs STATISTICA INFERENZIALE Mentre la statistica descrittiva si occupa di rappresentare l’informazione contenuta in un dato insieme o campione di dati, la statistica inferenziale utilizza tale informazione per fare delle affermazioni più generali riguardanti i parametri (solitamente µ e σ) della popolazione, da cui il campione è stato estratto. Le affermazioni della statistica inferenziale sono di due tipi: 9 STIMA: si vuole indicare un valore plausibile per il parametro della popolazione, sotto una delle 2 forme: 1. un valore ben definito (STIMA PUNTUALE) 2. un intervallo in cui molto verosimilmente il parametro sia incluso (STIMA INTERVALLARE) 9 VERIFICA DI IPOTESI: indicare quale tra due specifiche ipotesi sul parametro (nulla o alternativa) sia da accettare ELEMENTI DI STATISTICA DESCRITTIVA 5 STATISTICA DESCRITTIVA vs STATISTICA INFERENZIALE Si noti la netta distinzione concettuale tra parametri (solitamente µ e σ) della popolazione: si tratta di quantità non osservabili (ma stimabili); stime dei parametri (media e deviazione standard campionaria): si tratta di valori plausibili per un parametro della popolazione e che possiamo calcolare attraverso i dati campionari. Assunto un modello di probabilità rappresentativo della popolazione, attraverso le stime dei parametri possiamo inoltre: stimare il profilo della distribuzione della popolazione; costruire degli intervalli di confidenza per i parametri. Si noti che l’assunzione che un data distribuzione di probabilità sia rappresentativa della popolazione non assicura affatto che tale distribuzione rappresenti il vero modello della popolazione. ELEMENTI DI STATISTICA DESCRITTIVA 6 LA STATISTICA DESCRITTIVA: ASPETTI E STRUMENTI Per descrivere e sintetizzare l’informazione campionaria di un fenomeno numerico di interesse, la statistica descrittiva si focalizza su 3 principali aspetti: 1. la descrizione e la forma della distribuzione 2. la posizione o tendenza centrale 3. la variabilità o dispersione Gli strumenti messi a disposizione dalla statistica descrittiva possono essere sia di tipo grafico sia numerico. In questo ultimo caso si tratta di opportuni indici di sintesi, che in unico valore esprimono una specifica caratteristica della distribuzione dei dati: la tendenza centrale, la variabilità e la forma della distribuzione. ELEMENTI DI STATISTICA DESCRITTIVA 7 LA STATISTICA DESCRITTIVA: DETTAGLIO STRUMENTI Grafici: 9 Dotplot 9 (tabella ed) istogramma di frequenza ¾ frequenza assoluta, frequenza relativa ¾ frequenza, frequenza cumulata 9 boxplot 9 probability plot Indici di sintesi: 9 indici di posizione o tendenza centrale ¾ media, mediana, moda 9 indici di variabilità o dispersione ¾ varianza, deviazione standard (scarto quadr. medio) range, range interquartile 9 indice di asimmetria ELEMENTI DI STATISTICA DESCRITTIVA 8 UN ESEMPIO: SPESSORE DI UNA LASTRA In uno studio sugli spessori di una lastra nervata in fibrocemento si sono effettuate delle misurazioni (mm), in corrispondenza a 30 posizioni della lastra. ELEMENTI DI STATISTICA DESCRITTIVA 9 UNA PRIMA RAPPRESENTAZIONE GRAFICA Una prima sintetica rappresentazione grafica dei dati è fornita dal dotplot, dove ogni distinto valore osservato corrisponde ad un pallino: Dotplot dello Spessore della lastra (mm) Osserviamo che la maggior parte dei dati tende a “addensarsi” attorno ad un valore 5.7 5.8 5.9 6.0 6.1 6.2 6.3 6.4 centrale (6 mm). Spessore (mm) Possiamo inoltre notare che i dati cadono in un range (intervallo) di 0.8 mm, calcolato come differenza tra il valore massimo (6.4) e minimo (5.6) osservato. ELEMENTI DI STATISTICA DESCRITTIVA 10 LA TABELLA E L’ISTOGRAMMA DI FREQUENZA Per approfondire la descrizione della distribuzione dei dati, partendo dal valore minimo 5.6, dividiamo l’intervallo di osservazione dei dati (di ampiezza 0.8 mm) in 8 intervalli di uguale ampiezza pari a 0.1 mm: [5.6, 5.7[, [5.7, 5.8[, ..., [6.3, 6.4[. Se contiamo il numero di unità che cadano all’interno di ciascun intervallo, otteniamo la tabella ed il corrispondente istogramma di frequenza (assoluta o relativa). Freqequenza relativa percentuale Istogramma della frequenza relativa dello Spessore Conteggio Frequenza Spessore Assoluta Relativa 5.6-5.7 1 3.3% 5.7-5.8 0 0.0% 5.8-5.9 7 23.3% 5.9-6.0 9 30.0% 6.0-6.1 8 26.7% 6.1-6.2 2 6.7% 6.2-6.3 2 6.7% 6.3-6.4 1 3.3% TOTALE 30 100.0% 30 25 20 15 10 5 0 5.6 5.7 5.8 5.9 6.0 6.1 6.2 6.3 6.4 Spessore ELEMENTI DI STATISTICA DESCRITTIVA 11 LA TABELLA E L’ISTOGRAMMA DI FREQUENZA Con il termine frequenza assoluta si intende il numero/conteggio di unità che cadano in una determinata classe (intervallo). La frequenza assoluta somma ad n. Con il termine frequenza relativa si intende la frazione (o la percentuale) di unità (rispetto al numero totale di unità) cadano in una determinata classe (intervallo). La frequenza relativa somma ad 1 (o 100%). Per frequenza cumulata si intende invece il numero di unità che sono inferiori ad una data soglia (appartengono all’intervallo [−∞, soglia[). La frequenza cumulata può essere sia assoluta sia relativa. ELEMENTI DI STATISTICA DESCRITTIVA 12 LA FREQUENZA CUMULATA Se sommiamo via via le frequenze in maniera cumulata rispetto agli intervalli, si ottiene la cosiddetta frequenza cumulata, che ci dice quante osservazioni cadono fino ad una certa soglia. Per costruzione, il valore della frequenza cumulata rispetto all’ultima soglia sarà il numero totale di osservazioni o il valore 100% rispettivamente per la frequenza cumulata assoluta o relativa. Istogramma della frequenza relativa cumulata dello Spessore Freqequenza relativa percentuale cumulata Conteggio Frequ. comulata Spessore Assoluta Relativa <5.7 1 3.3% <5.8 1 3.3% <5.9 8 26.7% <6.0 17 56.7% <6.1 25 83.3% <6.2 27 90.0% <6.3 29 96.7% <6.4 30 100.0% 100 80 60 40 20 0 5.6 5.7 5.8 5.9 6.0 6.1 6.2 6.3 6.4 Spessore ELEMENTI DI STATISTICA DESCRITTIVA 13 LA DEFINIZIONE DEGLI INTERVALLI Nella definizione degli intervalli è utile seguire alcune semplici regole empiriche: porre il limite inferiore della prima classe leggermente al di sotto del valore minimo osservato, preferibilmente individuando un valore di riferimento che faciliti l’interpretazione dei dati scegliere un numero di intervalli da un minimo di 4-5 ad un massimo di 14-15; in base al numero di intervalli calcolare la corrispondente ampiezza in alternativa, scegliere una ampiezza opportuna dell’intervallo, preferibilmente in modo che il numero di classi sia coerente con il punto precedente ELEMENTI DI STATISTICA DESCRITTIVA 14 LA FREQUENZA NEL CASO DI VARIABILI QUALITATIVE In un’analisi statistica siamo talvolta interessati a esaminare il comportamento simultaneo di due variabili qualitative: per esempio ci possiamo chiedere se esiste un legame fra il livello delle acque ed un particolare bacino idrico, sulla base ad es. delle osservazioni mensili negli ultimi 10 anni. La tabella di contingenza è una tabella a doppia entrata in cui le osservazioni relative a due variabili categoriali vengono rappresentate/sintetizzate simultaneamente. LIVELLO DELLE ACQUE DEL BACINO Basso Medio Alto Totale BACINO IDRICO A B C 40 19 25 10 11 20 70 90 75 120 120 120 Totale 84 41 235 360 ELEMENTI DI STATISTICA DESCRITTIVA LA FREQUENZA NEL CASO DI VARIABILI QUALITATIVE Al fine di analizzare la possibile associazione esistente fra le due variabili qualitative, è opportuno convertire le frequenze congiunte assolute in frequenze relative (o percentuali). Questa operazione può essere realizzata riferendosi (condizionandosi) alternativamente al: 1. totale complessivo (rappresentato nel nostro caso dalle 360 osservazioni mensili) 2. totale di riga (rispetto al numero totale di mesi per altezza del livello delle acque) 3. totale per colonna (rispetto al numero totale di mesi di osservazione per ciascun bacino) Il risultato e l’informazione che se ne ottiene dipende dallo specifico totale che viene scelto a riferimento. ELEMENTI DI STATISTICA DESCRITTIVA LA FREQUENZA NEL CASO DI VARIABILI QUALITATIVE Ad esempio, per analizzare lo stato di salute del livello idrico rispetto a ciascuna area, è opportuno riferirsi alla tabella di frequenza condizionata al totale di colonna. LIVELLO DELLE ACQUE DEL BACINO Basso Medio Alto Totale BACINO IDRICO A B C 33.3% 15.8% 20.8% 8.3% 9.2% 16.7% 58.3% 75.0% 62.5% 100.0% 100.0% 100.0% Totale 23.3% 11.4% 65.3% 100.0% Frequenza nel livello delle acque per bacino idrico 80.0% 70.0% Livello delle acque Frequenza 60.0% 50.0% Basso Medio Alto 40.0% 30.0% 20.0% 10.0% 0.0% A B C Bacino ELEMENTI DI STATISTICA DESCRITTIVA MEDIANA E QUARTILI: DEFINIZIONE Oltre ai valori massimo e minimo, altri indici statistici di posizione possono fornirci informazioni importanti di sintesi sulla distribuzione dei dati. Se ordiniamo i dati, dal più piccolo al più grande: Posizione ordinata Spessore Dato ordinato Indice 1 5.69 5.69 MIN 2 5.81 ... ... 8 5.89 5.89 Q1 ... ... 15 16 5.97 5.98 5.975 MEDIANA (Q2) ... ... 23 6.04 6.04 Q3 ... ... 29 6.24 30 6.37 6.37 MAX la media dei due valori nella posizione centrale ((30+1)/2=15.5, cioè 15° e 16°) definisce la MEDIANA il valore più vicino alla posizione ¼ ((30+1)/4=7.75 quindi l’8° dato della serie ordinata) definisce Q1 (primo QUARTILE) il valore più vicino alla posizione ¾ ( (30+1)*3/4=23.25 quindi il 23° dato) definisce Q3 (terzo QUARTILE) ELEMENTI DI STATISTICA DESCRITTIVA 18 IL BOXPLOT La rappresentazione Boxplot dello Spessore grafica dei 5 numeri di sintesi: MIN, Q1, Q1 Q3 MEDIANA, Q3 e MAX, MIN MAX restituisce il cosiddetto BOXPLOT. Per costruzione, all’interno MEDIANA della “scatola” è contenuto il 50% dei dati osservati. La posizione, dimensione e forma della scatola (cioè la distanza tra i due quartili e la mediana) ed il modo in cui si allungano i tratti laterali (“baffi”) danno un’indicazione rispettivamente: della tendenza centrale, della variabilità (“intensità” della dispersione) e della simmetria della distribuzione. Si noti che il boxplot può essere visto come una rappresentazione “stilizzata” della distribuzione dei dati. 5.7 5.8 5.9 6.0 Spessore 6.1 6.2 6.3 ELEMENTI DI STATISTICA DESCRITTIVA 19 MEDIANA E QUARTILI: REGOLA DEFINIZIONE POSIZIONI Sia n il numero di osservazioni del campione di dati. In base al fatto che n sia pari o dispari e che sia divisibile per 4, la mediana ed i quartili vengono così definiti: MEDIANA: se n è dispari, la mediana è il valore della serie ordinata nella posizione (n+1)/2, mentre se n è pari, la mediana è la media aritmetica dei due valori della serie ordinata nelle posizioni n/2 e n/2+1 Q1 e Q3: se n+1 è divisibile per 4, Q1 e Q3 sono i valori della serie ordinata nelle posizioni (n+1)/4 e (n+1)*3/4, mentre se n+1 non è divisibile per 4, se (n+1)/4 e (n+1)*3/4 cadano esattamente tra 2 posizioni (es. 32.5 e 94.5) allora Q1 e Q3 sono definiti dalla media aritmetica dei due valori adiacenti della serie ordinata (es. 31-32 e 94-95), altrimenti sono definiti come i valore che sta nella posizione corrispondente al valore (n+1)/4 e (n+1)*3/4 una volta arrotondato all’intero più vicino ELEMENTI DI STATISTICA DESCRITTIVA 20 IL BOXPLOT MODIFICATO Se nella costruzione del boxplot, MIN e MAX sono sostituiti o MIN*=max{MIN,Q1-1.5*(Q3-Q1)} o MAX*= min{MAX,Q3+1.5*(Q3-Q1)} otteniamo il cosiddetto boxplot modificato. In questo caso, se sono presenti alcuni valori che oltrepassano le soglie MIN* e MAX*, essi sono indicati con un asterisco, ad indicare che si potrebbe considerare come dati anomali (outlier) nel campione di dati. Boxplot dello Spessore MIN MAX* outlier 5.6 5.7 5.8 5.9 6.0 Spessore 6.1 6.2 6.3 6.4 ELEMENTI DI STATISTICA DESCRITTIVA 21 IL BOXPLOT PER IL CONFRONTO TRA SERIE DI DATI Boxplot (e dotplot) sono particolarmente efficaci nella confronto tra due o più serie di dati, per la comparazione tra tendenza centrale, variabilità e forma della distribuzione. Ad es., per confrontare i Ad es., per analizzare la valori di indice di rimbalzo di tensione di rottura di barre prove sclerometriche per d’acciaio di 3 differenti accertare la stima speditiva diametri (12,14,16) via prova della resistenza meccanica di trazione. di due colonne (A/B). Boxplot della Rottura per Spessore 630 34 620 32 610 Rottura Indice di rimbalzo Boxplot dell'Indice di rimbalzo per Colonna 36 30 28 26 600 590 580 570 24 560 22 550 A B 12 14 16 Spessore Colonna ELEMENTI DI STATISTICA DESCRITTIVA 22 LA FREQUENZA PER IL CONFRONTO TRA SERIE DI DATI Anche la frequenza può essere utilizzata a scopi comparativi, per evidenziare differenze ad analogie in diverse serie di dati. Una curva più a destra o sotto/a destra rispetto ad un’altra, rispettivamente per la frequenza o frequenza cumulata, indica che la corrispondente serie di dati è distribuita su valori tendenzialmente più elevati. Frequenza cumulata della Rottura Spessore 12 14 16 Frequenza Percentuale 40 30 20 10 0 560 580 600 620 Frequenza Cumulata Percentuale Frequenza della Rottura 50 Spessore 12 14 16 100 80 60 40 20 0 560 Rottura 580 600 620 Rottura ELEMENTI DI STATISTICA DESCRITTIVA 23 IL PROBABILITY PLOT Un probability plot è un grafico a due dimensioni in cui le osservazioni sono riportate sull’asse verticale e a ciascuna di esse viene fatto corrispondere sull’asse orizzontale il relativo quantile di una distribuzione di probabilità (normale, log-normale,ecc.). Se i punti del grafico si trovano approssimativamente su una linea retta immaginaria inclinata positivamente, allora possiamo affermare che i dati osservati si distribuiscono approssimativamente secondo una determinata legge di distribuzione di probabilità. ELEMENTI DI STATISTICA DESCRITTIVA 24 IL PROBABILITY PLOT Probability Plot of Spessore Normal - 95% CI 99 Mean 5.991 StDev 0.1412 N 30 AD 0.557 P-Value 0.137 95 90 Percent 80 70 60 50 40 30 20 10 5 1 5.5 5.6 5.7 5.8 5.9 6.0 6.1 6.2 6.3 6.4 Spessore Probability Plot of Indice di rimbalzo Probability Plot of Rottura Normal - 95% CI Normal - 95% CI 99 95 90 90 80 Percent 70 60 50 40 30 60 50 40 30 20 10 10 5 5 15 20 25 30 35 1 40 Mean 589.3 595.1 610.9 70 20 1 Spessore 12 14 16 95 Mean StDev N AD P 30.5 2.838 10 0.167 0.912 27.5 3.689 10 0.245 0.682 80 Percent 99 Colonna A B 500 550 600 650 StDev 27.67 14.36 14.93 N AD P 8 0.419 0.243 8 0.126 0.972 8 0.443 0.209 700 Rottura Indice di rimbalzo ELEMENTI DI STATISTICA DESCRITTIVA 25 INDICI STATISTICI DI POSIZIONE O TENDENZA CENTRALE La posizione o tendenza centrale di una serie di dati può essere utilmente rappresentata da un unico valore di sintesi come la mediana. Si noti che la mediana non è influenzata dalla presenza di dati anomali e per questo è detta essere un indicatore robusto. Una alternativa è data dalla media campionaria dei valori n osservati ovvero x x= x1 + x2 + ... + xn = n ∑ i =1 i n La media campionaria è una sorta di “baricentro” dei dati e, a differenza della mediana, tende ad essere “trascinata” verso i dati anomali. Un’ulteriore alternativa (poco usata) è la moda, definita come il valore più frequente in una serie di dati. ELEMENTI DI STATISTICA DESCRITTIVA 26 INDICI STATISTICI DI VARIABILITÀ O DISPERSIONE La variabilità o dispersione dei dati indica il grado di “oscillazione” o variazione dei valori rispetto alla loro tendenza centrale, misurata ad esempio con la media campionaria. L’indice statistico s2, definito come n s2 = ∑ (x − x ) 2 i i =1 n −1 è detto varianza campionaria. Dato che s2 è definito nel quadrato della unità di misura di X, per facilità di interpretazione si preferisce usare la deviazione standard o scarto quadratico medio s = s 2 . Per comparare la variabilità di X e Y, se misurati su unità di misura diverse si utilizza il coefficiente di variazione: CV = s / x ELEMENTI DI STATISTICA DESCRITTIVA 27 INDICI STATISTICI DI VARIABILITÀ O DISPERSIONE Se in luogo della media campionaria, consideriamo come indice di posizione la mediana, la variabilità dei dati può essere misura dal Range Interquartile definito come IQR = Q3-Q1 si noti che, per costruzione, tale indice di dispersione è sempre ≥ 0, risultando tanto più grande quanto più i dati sono variabili rispetto alla mediana. Una ulteriore alternativa è fornita dal Range, ovvero Range = MAX – MIN Tale indice tuttavia è di scarso rilievo data la sua evidente dipendenza dalla presenza di eventuali dati anomali. ELEMENTI DI STATISTICA DESCRITTIVA 28 INDICI STATISTICI DI SIMMETRIA Confrontando i due indici di tendenza centrale media campionaria e mediana è possibile trarre delle indicazioni in merito alla simmetria della distribuzione dei dati: z media < mediana: asimmetria negativa o distribuzione obliqua a sinistra z media = mediana: simmetria z media > mediana: asimmetria positiva o distribuzione obliqua a destra Una indicazione più precisa è data dall’indice di asimmetria (skewness), che in base al valore assunto, positivo o negativo, ci indica l’intensità ed il tipo dell’eventuale asimmetria. ELEMENTI DI STATISTICA DESCRITTIVA 29 INDICI STATISTICI DI SINTESI Summary dello Spessore A nderson-Darling Normality Test A -Squared P-Value Mean StDev Variance Sk ewness Kurtosis N 5.7 5.8 5.9 6.0 6.1 6.2 6.3 Minimum 1st Quartile Median 3rd Quartile Maximum 6.4 0.56 0.137 5.9913 0.1412 0.0199 0.638190 0.953411 30 5.6900 5.8900 5.9750 6.0450 6.3700 95% C onfidence Interv al for Mean 5.9386 6.0441 95% C onfidence Interval for Median 9 5 % C onfidence Inter vals 5.9046 Mean 6.0277 95% C onfidence Interv al for StDev 0.1125 Median 5.900 5.925 5.950 5.975 6.000 6.025 0.1898 6.050 ELEMENTI DI STATISTICA DESCRITTIVA 30 INDICI STATISTICI DI SINTESI Summary for Indice di rimbalzo Colonna = A A nderson-Darling Normality Test A -Squared P-Value Mean StDev Variance Sk ewness Kurtosis N 22 24 26 28 30 32 Minimum 1st Quartile Median 3rd Quartile Maximum 34 0.17 0.912 30.500 2.838 8.056 0.091120 -0.761950 10 26.000 28.000 30.500 32.500 35.000 95% C onfidence Interval for Mean 28.470 9 5 % Confidence Inter vals 32.530 95% C onfidence Interv al for Median Mean 28.000 Median 32.685 Summary for Indice di rimbalzo 95% C onfidence Interval for StDev 28 29 30 31 32 1.952 33 Colonna = B 5.182 A nderson-Darling Normality Test A-Squared P-Value Mean StDev Variance Sk ewness Kurtosis N 22 24 26 28 30 32 Minimum 1st Quartile Median 3rd Quartile Maximum 34 0.24 0.682 27.500 3.689 13.611 0.08298 -1.24255 10 22.000 24.000 27.000 30.500 33.000 95% C onfidence Interval for Mean 24.861 9 5 % Confidence Inter vals 30.139 95% C onfidence Interv al for Median Mean 24.000 Median 30.685 95% C onfidence Interval for StDev 24.0 25.5 27.0 28.5 30.0 31.5 2.538 6.735 ELEMENTI DI STATISTICA DESCRITTIVA 31 CONFRONTO TRA INDICI STATISTICI L’informazione che si può desumere dagli indici statistici di sintesi può essere particolarmente apprezzata in caso di comparazione tra più serie di dati, come risulta chiaramente dall’esempio tensione di rottura di barre d’acciaio di 3 differenti diametri. Spessore 12 14 16 Spessore 12 14 16 Indice di posizione Media Mediana 589.25 587.5 595.13 596 610.88 612 Skewness 0.24 -0.02 -0.19 Indice di variabilità Dev.std IQR 27.7 50.25 14.4 25.75 14.9 30.75 ELEMENTI DI STATISTICA DESCRITTIVA 32 STATISTICA DESCRITTIVA PER SERIE TEMPORALI Spostiamo ora l’attenzione su alcune tecniche descrittive utilizzate per identificare eventuali pattern nei dati provenienti da serie temporali, ovvero sequenze di misure di uno stesso fenomeno/variabile di interesse e che seguono prefissato ordine non casuale (es. il livello delle piogge, maree, la pendenza di un campanile, ecc. misurate ad intervalli di ogni ora, giorno, ecc.). A differenza delle analisi dei campioni di dati che sono discussi nel contesto della maggior parte delle tecniche statistiche descrittive, l'analisi delle serie temporali si basa sul presupposto che i valori successivi nel set di dati rappresentano delle misurazioni, rilevate successivamente una altra in una ben determinata sequenza e ad intervalli di tempo equidistanti. ELEMENTI DI STATISTICA DESCRITTIVA 33 STATISTICA DESCRITTIVA PER SERIE TEMPORALI Ci sono due obiettivi principali nell’analisi delle serie temporali: 1. Identificare la natura del fenomeno rappresentato dalla sequenza di osservazioni, e 2. Forecasting: prevedere valori futuri della serie temporale Entrambi questi obiettivi richiedono che un modello esplicativo alla base dei dati della serie temporale osservata sia identificato e descritto più o meno formalmente. Una volta che il modello viene stabilito, siamo in grado di interpretare e integrare con altri dati, con l'obiettivo di estrapolare il modello individuato per predire eventi futuri. Dal punto di vista descrittivo questo può essere fatto mediante un approccio di tipo grafico e per mezzo di due strumenti: trend analysis e smoothing. ELEMENTI DI STATISTICA DESCRITTIVA 34 STATISTICA DESCRITTIVA PER SERIE TEMPORALI Trend Analysis Plot della Precipitazione annua (Grandi Laghi) Quadratic Trend Model Yt = 31.0169 - 0.0235468*t + 0.000777357*t**2 Variable A ctual Fits 40.0 A ccuracy MA PE MA D MSD 35.0 Measures 6.04344 1.92261 5.85462 mediante trend quadratico 32.5 30.0 27.5 25.0 1900 1908 1917 1926 1935 1944 1953 1962 1971 1980 Anno Smoothing Esponenziale Precipitazione annua (Grandi Laghi) Variable A ctual Fits 40.0 37.5 Lisciamento mediante smoothing Precipitazione Precipitazione 37.5 Trend analysis Smoothing C onstant A lpha 0.104448 A ccuracy MA PE MA D MSD 35.0 32.5 Measures 6.21611 2.00235 6.55249 30.0 27.5 25.0 esponenziale 1900 1908 1917 1926 1935 1944 1953 1962 1971 1980 Anno ELEMENTI DI STATISTICA DESCRITTIVA 35 STATISTICA DESCRITTIVA PER DATI BI- o MULTI-VARIATI Quando sulla stessa unità od oggetto vengono rilevati contemporaneamente due o più variabili numeriche, si parla di dati bi- o multi-variati. In questo caso può essere di interesse studiare il modo in cui queste variabili sono eventualmente legate tra loro. Ad esempio possiamo considerare la Resistenza a compressione (Rc), la Prova di compressione edometrica (Ed) e la Resistenza a trazione indiretta (Rt) misurate sugli stessi provini, ottenuti da scarti provenienti da lavorazioni siderurgiche per la realizzazione di rilevati stradali. Il diagramma di dispersione per una coppia di variabili numeriche X e Y, può fornire una prima chiave di lettura dell’eventuale legame esistente tra le variabili. Infatti, a seconda di come si dispone la “nuvola” di punti, possiamo ritenere plausibile un eventuale legame tra le due variabili. ELEMENTI DI STATISTICA DESCRITTIVA 36 MATRIX PLOT Se consideriamo una serie di diagrammi di dispersione per ogni possibile coppia di variabili, otteniamo il cosiddetto matrix-plot, che può fornire una prima chiave lettura del legame esistente tra le variabili. Possiamo dedurre alcune chiare indicazioni: 0 10000 20000 4 8 12 10.0 7.5 Rc 5.0 2000 1000 Ed 0 Matrix Plot di Rc; Ed; Rt Rt 1. tutte le tre misure prestazionali sono correlate positivamente, 2. il legame più forte si osserva tra Rt e Ed mentre quello più debole tra Ed e Rc. ELEMENTI DI STATISTICA DESCRITTIVA 37 IL COEFFICIENTE DI CORRELAZIONE Un modalità più rigorosa che consente di studiare il grado di intensità del legame lineare tra coppie di variabili consiste nel calcolare l’indice di correlazione (lineare) campionaria: n r= ∑ ( x − x )( y − y ) i =1 i i n ∑ (x − x ) i =1 i 2 ⋅ n ∑ ( y − y) i =1 2 Ed Rt Rc 0.45 0.82 Ed 0.65 i La correlazione, varia tra -1 e +1, indicando ¾ r = − 1 (+1): perfetta correlazione negativa (positiva) ¾ − 1 < r < − 0.7 (+ 1 < r < + 0.7): forte correlazione negativa (positiva) ¾ − 0.7 < r < − 0.3 (+ 0.7 < r < + 0.3): debole correlazione negativa (positiva) ¾ − 0.3 < r < + 0.3: assenza di correlazione ELEMENTI DI STATISTICA DESCRITTIVA 38