Sintesi dei dati in una tabella • • • Misure di variabilità (cap. 4) Misure di forma (cap. 5) Statistica descrittiva (cap. 6) Sintesi dei dati Spesso si vuole effettuare una sintesi dei dati per ottenere indici che misurino gli aspetti più rilevanti. ◦ Indici di posizione (misure di tendenza centrale: medie, mediana, moda, quartili e percentili cap. 3: scorsa lezione) ◦ Indici di variabilità (cap. 4) ◦ Indici di forma (cap.5) Le misure (indici) di variabilità I valori medi (nelle varie forme) condensano i dati in un solo valore (spesso indicato come centro della distribuzione). Purtroppo non è sufficiente per rappresentare le osservazioni effettuate. Quindi si affiancano indici che forniscono informazioni sulla dispersione, cioè sulla distanza delle osservazioni dal valore medio. Minore è la distanza delle osservazioni dal centro • maggiore è la rappresentatività del valore medio • minore è la variabilità Se l’indice di variabilità è nullo allora tutti i valori sono uguali tra loro. Per analizzare la distribuzione, occorre: ◦ Calcolare valore medio ◦ Valutare la dispersione: Calcolare quanto distano le osservazioni dal valore medio Calcolare quanto distano i valori tra loro Vedremo: Campo di variazione, varianza, scarto quadratico medio Campo di variazione (range) E’ la differenza tra l’osservazione più piccola e quella più grande In Excel usiamo max e min Nella cella scriviamo (se A1:E2 è la matrice dati) =MAX(A1:E2)-MIN(A1:E2) PROVATE VOI SU UNA TABELLA PRECEDENTE Varianza E’ la media dei quadrati degli scarti dalla media aritmetica 1 n 2 ( xi - x ) 1 n 1 In Excel usiamo la funzione VAR(num1;num2;…) se gli argomenti sono un campione della popolazione. Se si tratta di tutta la popolazione, si usa la funzione VAR.POP Come sempre, i valori testo e logici sono ignorati. Se si vuole considerarli, usare la funzione MEDIA.VALORI PROVATE VOI SU UNA TABELLA PRECEDENTE Scarto quadratico medio o deviazione standard La varianza esprime un indice in funzione del quadrato dell’unità di misura delle osservazioni. E’ preferibile calcolare la radice quadrata della varianza, detta deviazione standard (per mantenere la stessa unità di misura). = 1 n 2 ( x x ) i n 1 1 In Excel si usa la funzione DEV.ST(num1;num2;…) se gli argomenti sono un campione della popolazione. Se si tratta di tutta la popolazione, si usa la funzione DEV.ST.POP Come sempre, i valori testo e logici sono ignorati. Se si vuole considerarli, usare la funzione DEV.ST.VALORI PROVATE VOI SU UNA TABELLA PRECEDENTE Sintesi dei dati Spesso si vuole effettuare una sintesi dei dati per ottenere indici che misurino gli aspetti più rilevanti. ◦ Indici di posizione (scorsa lezione; cap. 3) ◦ Indici di variabilità (cap. 4) ◦ Indici di forma (cap.5) Misure di forma Si tratta di misure che evidenziano se una distribuzione è simmetrica rispetto ad un valore e se risulta più o meno appiattita Vedremo Asimmetria e curtosi (appiattimento) rispetto ad alcune distribuzione note Asimmetria (skewness) Indica l’assenza di specularità rispetto all’asse di simmetria della distribuzione Esistono diversi indici di asimmetria Si possono usare media aritmetica, moda e mediana (x, Mo, Me) per verificare se una distribuzione è asimmetrica o meno ◦ Se coincidono, è simmetrica ◦ Se Mo<Me< x, è asimmetrica positiva (coda verso destra) ◦ Se x < Me<Mo, è asimmetrica negativa (coda verso sinistra) Asimmetria in Excel Usa l’indice di simmetria aF (proposto da Fisher), in cui al denominatore compare la deviazione standard Si tratta della funzione ASIMMETRIA(num1;num2;…) di almeno 3 argomenti e tale che la deviazione standard sia diversa da zero; se così non è, viene restituito un errore ◦ aF = 0 simmetrica rispetto la media aritmetica ◦ aF > 0 asimmetrica a destra ◦ aF < 0 asimmetrica a sinistra Esempio asimmetria positiva Data la seguente tabella di voti riportati da 18 studenti N. casi 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 voti 3 4 4 4 4 4 4 4 5 5 5 6,5 6,5 7 7 8 8 9 Analisi dati Per convenzione, se la coda più lunga è a destra della media (cioè esistono molti valori con forti scarti positivi e pochi valori con deboli scarti negativi) si parla di asimmetria positiva e si vuole che il valore dell'indice di asimmetria assuma segno positivo. Media = 5,4 Asimmetria = 0,61 Il valore di asimmetria è maggiore di zero, quindi la curva si presenta così: PROVIAMO Curtosi Fa riferimento alla maggiore o minore gibbosità di una distribuzione, in prossimità del suo massimo (e quindi alla lunghezza delle code) Per valutare l’aspetto della curva, si paragona ad una curva «normale» (teorica nota) avente stesse frequenza complessiva, media e deviazione standard Si usa un altro indice di Fisher, che coinvolge la deviazione standard al denominatore: vale 0 se la curva è normale; positivo o negativo se è più appuntita o meno di una normale In Excel è la funzione CURTOSI(num1;num2;…) di almeno 4 argomenti e tale che la deviazione standard sia diversa da zero; se così non è, viene restituito un errore CURTOSI: leptocurtica In nero la curva «normale» mesocurtica CURTOSI: platicurtica distribuzione platicurtica In nero la curva «normale» mesocurtica Principali indici statistici I grafici finora analizzati ci danno informazioni qualitative; possiamo quantificarle ricorrendo ai seguenti indici. Sianox1 , x2 ,..., xn n osservazioni numeriche MODA di posizione MEDIANA MEDIA QUARTILI E PERCENTILI SCARTO QUADRATICO MEDIO INDICI di dispersione VARIANZA RANGE di forma ASIMMETRIA (SKEWNESS) CURTOSI ( KURTOSIS) di dispersione di posizione •media: Indici: Schema riassuntivo x x i i N •moda: punto di max della distribuzione •mediana: valore sotto al quale cadono la metà dei valori campionari. Si dispongono i dati in ordine crescente e si prende quello che occupa la posizione centrale (N dispari) o la media dei 2 valori in posizione centrale (N pari) •varianza •deviazione standard •range s2 i s xi x 2 N 1 R xmax xmin di di forma >0 coda a ds •skewness (coeff. di asimmetria) <0 coda a sin =0 simmetrica •curtosi: misura quanto la distribuzione è appuntita > 0 più appuntita < 0 meno appuntita Statistica descrittiva (cap.6) Molti indici trattati finora sono generati automaticamente da Excel, usando Statistica descrittiva del menù Analisi dei dati. Proviamo ◦ Etichette nella prima riga/Etichette nella prima colonna: deselezionarle se l’intervallo non contiene etichette (altrimenti selezionare quella appropriata, come nell’esempio 6.3) Esempio 6.1 PROVIAMO La tabella seguente riporta il peso in grammi di un campione di 100 tavolette di cioccolato. Proviamo a richiamare la funzione Riepilogo statistiche Media Errore standard Mediana Moda 99,79652336 0,010062453 99,79312502 #N/D Deviazione standard Varianza campionaria Curtosi Asimmetria Intervallo Minimo Massimo Somma Conteggio Più grande(1) Più piccolo(1) 0,100624532 0,010125296 0,083114239 0,069723767 0,484818884 99,55261744 100,0374363 9979,652336 100 100,0374363 99,55261744 Non esistono duplicati Esempio 6.3 PROVIAMO La tabella seguente riporta la quantità (in quintali) di semilavorati stoccati in un magazzino negli ultimi 9 anni. Proviamo a richiamare la funzione Riepilogo statistiche • selezionare le celle escludendo la prima colonna •Etichette nella prima riga/Etichette nella prima colonna: selezionare l’opzione appropriata