23/04/2012 STATISTICA DESCRITTIVA (variabili quantitative) PRIMO ESEMPIO: Concentrazione di un elemento chimico in una roccia. File di lavoro di STATVIEW Cliccando sul tasto del pane control si ottiene il cosiddetto riassunto di statistica descrittiva: 1 23/04/2012 Riassunto di statistica descrittiva n Media x = 1 x ∑i n 1 n ∑ ( xi − x ) = 0 n i =1 i =1 -- Variabili quantitative -- Vengono usati tutti i valori La distanza dei valori dalla media è 0 Non è una statistica robusta Una statistica è una caratteristica misurabile del campione Una statistica si dice ROBUSTA quando il suo valore numerico è “stabile” rispetto a perturbazioni (=errori) numeriche Qual è il significato statistico della media? 2 23/04/2012 Riassunto di statistica descrittiva Varianza 1 n 2 2 s = x − x ∑( i ) n − 1 i =1 -- Variabili quantitative -- Vengono usati tutti i valori E’ una statistica robusta Qual è il significato statistico della varianza? Deviazione standard 1 n 2 s= x − x ( ) ∑ i n − 1 i =1 Misura la dispersione della popolazione 3 23/04/2012 Riassunto di statistica descrittiva Errore standard Misura la dispersione della media campionaria e= s n ossia è una misura della sua imprecisione 4 23/04/2012 Riassunto di statistica descrittiva Coefficiente di variazione Il coefficiente di variazione o deviazione standard relativa permette di confrontare misure di fenomeni riferite a unità di misure differenti in quanto si tratta di un numero puro (ovvero non riferito ad alcuna unità di misura). reddito in Lire è diverso dal reddito in euro I coefficienti di variazione sono uguali CV = s x = 1 la media non è un indice corretto =0 la media è un indice perfetto > 0.5 la media non è un indice corretto ≤ 0.5 la media è un indice perfetto 5 23/04/2012 Riassunto di statistica descrittiva Range range = max − min Regola empirica per determinare la dispersione di un campione: range >> s / 4 i dati appaiono concentrati range ≈ s / 4 la dispersione è "normale" range << s / 4 i dati appaiono dispersi COUNT: taglia del campione casuale n n SUM ∑ xi i =1 MISSING CELL: dati mancanti SUM of squares ∑x 2 i i =1 6 23/04/2012 Indici di posizione: media ….. Indici di dispersione: varianza range deviazione standard …. MODA E’ il valore che appare maggiormente nel campione casuale. MEDIANA E’ quel valore che divide il campione casuale in due parti di peso 50%. 60,000 87,000 84,000 53,000 71,000 62,000 92,000 57,000 75,000 78,000 62,000 66,000 52,000 63,000 Ordinati in ordine crescente 52,000 53,000 57,000 60,000 62,000 62,000 63,000 66,000 71,000 75,000 78,000 84,000 87,000 92,000 50% 63 + 66 = 64.5 2 50% Ci sono anche altri metodi per determinare la mediana!! 7 23/04/2012 Dal confronto tra media, moda e mediana si può intuire se la distribuzione dei dati del campione sull’asse reale è simmetrica oppure no. ISTOGRAMMA 1. Si dividono i dati del campione in classi di modalità 2. Si conta il numero di dati del campione che ricadono in ciascuna classe.= frequenza assoluta. 3. Il totale deve restituire la taglia. 4. Si alzano delle barre rettangolari aventi per base le classi e per altezza le frequenze assolute Media = 68.71 Mediana = 64.5 Moda = 62 Moda < Mediana < Media Coda destra = asimmetria positiva 8 23/04/2012 Asimmetria positiva Skewness positivo Simmetria Skewness nullo 9 23/04/2012 Asimmetria negativa Skewness negativo Il confronto tra media e mediana non basta! Media = mediana = 5 Media = mediana = 3 Invece il coefficiente di asimmetria vale…2 e -2. 10 23/04/2012 Media geometrica n Mg = n ∏x i i =1 Si applica in genere a tassi di crescita! Risente di meno della presenza di termini estremi. Ex: 10, 9, 11, 14, 97 Media: 28.2 Media geometrica: 16.8 Media armonica Ma = n n 1 ∑ i =1 xi Si applica in genere a dati nei quali si vuole dare importanza ai reciproci. I valori prossimi allo 0 sono più “pesanti” degli altri. Si usa in genere per le velocità. 11 23/04/2012 10% Trimmed mean Si calcola come una media ordinaria, eliminando il 5% dei dati nelle due code della distribuzione. Nell’esempio: 0.05*14 restituisce 1. Quindi… 52,000 53,000 57,000 60,000 62,000 62,000 63,000 66,000 71,000 75,000 78,000 84,000 87,000 92,000 E’ un indice relativamente robusto rispetto agli outliers Kurtosis Indice di dispersione di confronto con la gaussiana standard. ( x − µ )2 1 f ( x; µ , σ ) = exp − 2 σ 2 σ 2π 12 23/04/2012 MAD=median absolute deviation MAD = mediana ( xi − M ) dove M è la mediana del campione Statistica più robusta rispetto agli outliers della deviazione standard Ex: Per (1, 1, 2, 2, 4, 6, 9) la mediana è 2. I residui sono (1, 1, 0, 0, 2, 4, 7) che ordinati restituiscono (0, 0, 1, 1, 2, 4, 7). La dev. standard vale 3.99. Se l’istogramma si avvicina alla forma di una curva gaussiana standard allora: s ≈ 1.48 MAD IQR = Interval Inter-quartile IQR = Q3 − Q1 52,000 53,000 57,000 60,000 62,000 62,000 63,000 66,000 71,000 75,000 78,000 84,000 87,000 92,000 Indice di dispersione 25% Q1 50% 25% Q2 25% Q3 50% 25% QUARTILI 13 23/04/2012 52,000 53,000 57,000 60,000 62,000 62,000 63,000 66,000 71,000 75,000 78,000 84,000 87,000 92,000 OUTLIERS 3 Sono quei valori che superano Q3 + IQR 4 Sono quei valori che sono inferiori 3 Q1 − IQR 4 14 23/04/2012 PERCENTILI 52,000 53,000 57,000 60,000 62,000 62,000 63,000 66,000 71,000 75,000 78,000 84,000 87,000 92,000 • x p = quel valore • p è una percentuale che lascia a sinistra tra 0 e 100 il p% dei dati Come modificare l’istogramma L’istogramma è stato creato con i seguenti passi: Selezionare Analyze, poi Descriptive statistics ed infine Frequency Dist-continuous 15 23/04/2012 Appare la seguente finestra di dialogo. Doppio click sulla variabile in esame: Example e poi OK Per modificare il grafico che si ottiene… Cliccare su Edit Analysis Appare il seguente DIALOG-BOX 16 23/04/2012 Per la curtosi 17 23/04/2012 Per realizzare questo grafico… Qualche considerazione finale sulla lettura degli istogrammi in geologia 1. Un istogramma con due mode è generalmente dovuto alla presenza di due sottopopolazioni con medie differenti. 2. Un coefficiente di asimmetria positivo può essere imputabile alla presenza di due popolazioni sovrapposte con media e deviazione standard diverse. 18 23/04/2012 3. Un istogramma con un elevato Kurtosis è originato dalla sovrapposizione di due popolazioni. 4. Una asimmetria positiva è spesso interpretata come presenza di elevate concentrazioni di un determinato elemento o minerale, probabilmente nei pressi della sorgente. 19