Fondamenti di Informatica 2 Ester Zumpano Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva Lezione 3 Formule e Funzioni Funzioni u Formule predefinite per il calcolo di espressioni matematiche complesse § Sintassi: =Funzione(arg1;arg2;…;argn) u Categorie: § § Finanziarie Data e ora § Matematiche e trigonometriche § § § § § § § Statistiche Ricerca e riferimento Database Testo Logiche Informative Definite dall’utente Introduzione Sistemi Informativi e Basi di Dati 1 Alcune funzioni per l’analisi dei dati u Obiettivo: definire delle misure che forniscano una descrizione di un insieme di dati § Dati di ingresso: un insieme di celle del foglio di lavoro § Dati in uscita: un insieme di celle § Contenenti la descrizione di proprietà delle celle in ingresso Introduzione Sistemi Informativi e Basi di Dati Statistica descrittiva u La statistica descrittiva mette a disposizione il calcolo di indicatori sintetici che individuano, con un singolo valore, proprieta` statistiche di un campione/popolazione rispetto ad una sua variabile/attributo. u In particolare: § indicatori di centralita`: media aritmetica, moda, mediana; § § § indicatori di variabilita`: varianza, deviazione standard; § § per individuare il valore intorno al quale i dati sono raggruppati offrono una lettura rapida delle caratteristiche più importanti dei di dati per definire la forma più o meno raccolta della distribuzione misure di raggruppamento: quartili, percentili. Introduzione Sistemi Informativi e Basi di Dati 2 Media Aritmetica u Un indice di posizione centrale dà un'idea di dove sia il centro della distribuzione della variabile § Qual è il valore più tipico 1 n x = ( x1 + x2 + ... + x1n ) = ∑ xi n i =1 § Esempio: età media degli iscritti al corso di Fondamenti di Informatica § Funzione MEDIA(Intervallo) Introduzione Sistemi Informativi e Basi di Dati Media Aritmetica u La media è chiaramente un valore `centrale' fra quelli delle osservazioni u Si potrebbe pensare che, confrontando la media con l'istogramma dei dati da cui è ricavata la media, essa stia in mezzo, nel senso che all'incirca il 50% delle osservazioni sia al di sotto, il 50% di sopra. § Ciò non è affatto vero, perché la media è molto sensibile ai valori estremi. § Supponiamo per esempio che ci siano 9 persone che guadagnano 10.000 $ e una che guadagna 110.000 $: il reddito medio di tali 10 persone è uguale a 20.000 $, ossia il doppio del reddito del 90% della popolazione. Introduzione Sistemi Informativi e Basi di Dati 3 Media aritmetica in EXCEL u AVERAGE(number1,number2,...) § Number1, number2, ... sono da 1 a 30 argomenti di cui calcolare la media aritmetica § Gli argomenti debbono essere o numeri o nomi, array, riferimenti a campi che contengono numeri. § se un argomento di tipo array o riferimento contiene testo, valori logici o celle vuote, questi valori sono ignorati; sono invece conteggiati gli zero presenti. Introduzione Sistemi Informativi e Basi di Dati Mediana u La precedente osservazione fa, in alcuni casi, preferire alla media la mediana come indice di posizione centrale. u La mediana è quel valore m tale che almeno metà delle osservazioni sono maggiori o uguali a m, e almeno metà sono minori o uguali a m. § Il valore centrale in un insieme ordinato di dati u È una misura robusta § poco influenzata dalla presenza di dati anomali u Esempio: l’età mediana degli iscritti 1 7 12 18 23 34 54 x = 21.3 M = 23 u In EXCEL: MEDIANA(number1,number2,...) Introduzione Sistemi Informativi e Basi di Dati 4 Misure di centralita`: moda u la moda e` il valore con frequenza piu` alta nell’insieme delle osservazioni u Non risente di picchi u Molto instabile u In EXCEL MODE(number1,number2,...) uEsempio: età modale degli iscritti u Esempio : valore più frequente all’interno del seguente campione aabbccadbcaecbaa moda = a (f = 6) Introduzione Sistemi Informativi e Basi di Dati Indici di Dispersione u Chiariscono se una distribuzione è molto dispersa § o, al contrario, concentrata intorno alla posizione centrale u Insieme all’indice di tendenza riassumono bene l'insieme della distribuzione § se tale distribuzione ha una forma “a campana” § se invece, la distribuzione è molto differente la sintesi della distribuzione nei due indici è poco riuscita Introduzione Sistemi Informativi e Basi di Dati 5 Varianza, deviazione standard u misure di mutua variabilità tra i dati di una serie u Devianza empirica n dev = ∑ ( xi − x ) 2 i =1 u Varianza s2 = u Coefficiente di variazione § misura relativa V= 1 n (xi − x )2 ∑ n i =1 s x In EXCEL: • STDEV(range) • VAR(range) Introduzione Sistemi Informativi e Basi di Dati Esercizio u Con riferimento ai dati relativi ai pazienti, calcolare § Scarto medio assoluto § Varianza e Deviazione standard Relativamente ai seguenti dati § Età § Na § K Introduzione Sistemi Informativi e Basi di Dati 6 Quartili e percentili u Dato un campione ordinato il percentile ennesimo e` il valore che separa n% dei dati dal resto u p.e. esempio la mediana puo` essere interpretata come il 50esimo percentile u In Excel PERCENTILE(range, perc) u Il Quartile separa un quarto dei dati dal resto. u Si parla di primo (25%), secondo (50%), terzo (75%) quartile u In Excel QUARTILE(range,n) dove n puo` essere 1, 2 o 3 Introduzione Sistemi Informativi e Basi di Dati Altre misure descrittive u MIN(range) calcola il valore minimo di un campione memorizzato in range u MAX(range) calcola il valore massimo di un campione u RANGE(range) calcola la differenza tra il valore minimo e massimo, ovvero il campo di variabilita` dei valori del campione. Introduzione Sistemi Informativi e Basi di Dati 7 Rappresentazioni Boxplot n Max Rappresentano ¨ ¨ ¨ il grado di dispersione o variabilità dei dati (w.r.t. mediana e/o media) la simmetria la presenza di valori anomali Secondo Quartile Mediana n n Le distanze tra i quartili definiscono la dispersione dei dati Primo Quartile non direttamente disponibile in Excel Min Introduzione Sistemi Informativi e Basi di Dati Distribuzioni di frequenza u La rappresentazione con istogramma delle frequenze dei valori di una variabile numerica su un intervallo partizionato in categorie continue e` la rappresentazione di una distribuzione di frequenza u puo` essere interpretata come una approssimazione del grafico di una funzione che descrive come varia la frequenza di un valore rispetto al crescere (decrescere) del valore stesso u Le distribuzioni di frequenza osservate spesso sono cosi` regolari da poter essere viste come casi particolari di distribuzioni di frequenze teoriche, descritte da ben precise funzioni matematiche Introduzione Sistemi Informativi e Basi di Dati 8 Distribuzioni di frequenza teoriche u Distribuzione uniforme: ogni evento (categoria) ha la stessa frequenza u Distribuzione normale (o Gaussiana, o a campana) 1 −( y − µ ) 2 f ( y) = e σ 2π µ = media 2σ 2 σ = deviazione standard Introduzione Sistemi Informativi e Basi di Dati Introduzione Sistemi Informativi e Basi di Dati Esempio di gaussiana 9 Simmetria n Si ha simmetria quando media, moda e mediana coincidono ¨ condizione necessaria, non sufficiente ¨ Asimmetria sinistra: moda, mediana, media ¨ Asimmetria destra: media, mediana, moda Introduzione Sistemi Informativi e Basi di Dati Simmetria (Cont.) n Indici di asimmetria ¨ medie interquartili ¨ n x p = ( x1− p + x p ) 2 Momenti centrali 1 n (xi − x )k mk = ∑ n − 1 i =1 indice di Fisher ¨ γ nullo per distribuzioni simmetriche ¨ ¨ γ >0: sbilanciamenti a destra γ<0: sbilanciamento a sinistra Introduzione γ = m3 ŝ 3 Sistemi Informativi e Basi di Dati 10 Simmetria (Cont.) n Indici di asimmetria ¨ medie interquartili ¨ n x p = ( x1− p + x p ) 2 Momenti centrali mk = indice di Fisher ¨ γ nullo per distribuzioni simmetriche ¨ γ >0: sbilanciamenti a destra ¨ γ<0: sbilanciamento a sinistra 1 n (xi − x )k ∑ n − 1 i =1 γ = m3 ŝ 3 Introduzione Sistemi Informativi e Basi di Dati Curtosi (cont.) n Indice di Pearson ¨ β=3: distribuzione mesocurtica ¨ β >3: distribuzione leptocurtica ¨ β <3: distribuzione platicurtica n Coefficiente di curtosi ¨ Una distribuzione leptocurtica ha K ~ 1/2 ¨ platicurtosi: k~0 Introduzione β= K= 1 m4 ŝ 4 (x.75 − x.25 ) (x.90 − x.10 ) 2 Sistemi Informativi e Basi di Dati 11