Fondamenti di Informatica 2
Ester Zumpano
Programmazione con Foglio di
Calcolo
Cenni di Statistica Descrittiva
Lezione 3
Formule e Funzioni
Funzioni
u Formule predefinite per il calcolo di espressioni matematiche complesse
§ Sintassi: =Funzione(arg1;arg2;…;argn)
u Categorie:
§
§
Finanziarie
Data e ora
§
Matematiche e trigonometriche
§
§
§
§
§
§
§
Statistiche
Ricerca e riferimento
Database
Testo
Logiche
Informative
Definite dall’utente
Introduzione
Sistemi Informativi e Basi di Dati
1
Alcune funzioni per l’analisi dei dati
u Obiettivo: definire delle misure che forniscano una descrizione di
un insieme di dati
§ Dati di ingresso: un insieme di celle del foglio di lavoro
§ Dati in uscita: un insieme di celle
§
Contenenti la descrizione di proprietà delle celle in ingresso
Introduzione
Sistemi Informativi e Basi di Dati
Statistica descrittiva
u La statistica descrittiva mette a disposizione il calcolo di indicatori
sintetici che individuano, con un singolo valore, proprieta`
statistiche di un campione/popolazione rispetto ad una sua
variabile/attributo.
u In particolare:
§ indicatori di centralita`: media aritmetica, moda, mediana;
§
§
§
indicatori di variabilita`: varianza, deviazione standard;
§
§
per individuare il valore intorno al quale i dati sono raggruppati
offrono una lettura rapida delle caratteristiche più importanti dei di dati
per definire la forma più o meno raccolta della distribuzione
misure di raggruppamento: quartili, percentili.
Introduzione
Sistemi Informativi e Basi di Dati
2
Media Aritmetica
u Un indice di posizione centrale dà un'idea di dove sia il centro della
distribuzione della variabile
§ Qual è il valore più tipico
1 n
x = ( x1 + x2 + ... + x1n ) = ∑ xi
n i =1
§ Esempio: età media degli iscritti al corso di Fondamenti di
Informatica
§ Funzione MEDIA(Intervallo)
Introduzione
Sistemi Informativi e Basi di Dati
Media Aritmetica
u La media è chiaramente un valore `centrale' fra quelli delle
osservazioni
u Si potrebbe pensare che, confrontando la media con
l'istogramma dei dati da cui è ricavata la media, essa stia in
mezzo, nel senso che all'incirca il 50% delle osservazioni sia al
di sotto, il 50% di sopra.
§ Ciò non è affatto vero, perché la media è molto sensibile ai
valori estremi.
§ Supponiamo per esempio che ci siano 9 persone che
guadagnano 10.000 $ e una che guadagna 110.000 $: il
reddito medio di tali 10 persone è uguale a 20.000 $, ossia il
doppio del reddito del 90% della popolazione.
Introduzione
Sistemi Informativi e Basi di Dati
3
Media aritmetica in EXCEL
u AVERAGE(number1,number2,...)
§ Number1, number2, ... sono da 1 a 30 argomenti di cui
calcolare la media aritmetica
§
Gli argomenti debbono essere o numeri o nomi, array,
riferimenti a campi che contengono numeri.
§
se un argomento di tipo array o riferimento contiene testo,
valori logici o celle vuote, questi valori sono ignorati; sono
invece conteggiati gli zero presenti.
Introduzione
Sistemi Informativi e Basi di Dati
Mediana
u La precedente osservazione fa, in
alcuni casi, preferire alla media la
mediana come indice di posizione
centrale.
u La mediana è quel valore m tale che
almeno metà delle osservazioni
sono maggiori o uguali a m, e
almeno metà sono minori o uguali a
m.
§ Il valore centrale in un insieme
ordinato di dati
u È una misura robusta
§ poco influenzata dalla presenza di
dati anomali
u Esempio: l’età mediana degli iscritti
1 7 12 18 23 34 54
x = 21.3
M = 23
u In EXCEL:
MEDIANA(number1,number2,...)
Introduzione
Sistemi Informativi e Basi di Dati
4
Misure di centralita`: moda
u la moda e` il valore con frequenza piu` alta nell’insieme delle
osservazioni
u
Non risente di picchi
u
Molto instabile
u In EXCEL
MODE(number1,number2,...)
uEsempio: età modale degli iscritti
u Esempio : valore più frequente all’interno del seguente campione
aabbccadbcaecbaa
moda = a (f = 6)
Introduzione
Sistemi Informativi e Basi di Dati
Indici di Dispersione
u Chiariscono se una distribuzione è molto dispersa
§ o, al contrario, concentrata intorno alla posizione centrale
u Insieme all’indice di tendenza riassumono bene l'insieme della
distribuzione
§ se tale distribuzione ha una forma “a campana”
§ se invece, la distribuzione è molto differente la sintesi della
distribuzione nei due indici è poco riuscita
Introduzione
Sistemi Informativi e Basi di Dati
5
Varianza, deviazione standard
u misure di mutua variabilità tra i dati di
una serie
u Devianza empirica
n
dev = ∑ ( xi − x )
2
i =1
u Varianza
s2 =
u Coefficiente di variazione
§ misura relativa
V=
1 n
(xi − x )2
∑
n i =1
s
x
In EXCEL:
• STDEV(range)
• VAR(range)
Introduzione
Sistemi Informativi e Basi di Dati
Esercizio
u Con riferimento ai dati relativi ai pazienti, calcolare
§ Scarto medio assoluto
§ Varianza e Deviazione standard
Relativamente ai seguenti dati
§ Età
§ Na
§ K
Introduzione
Sistemi Informativi e Basi di Dati
6
Quartili e percentili
u Dato un campione ordinato il percentile ennesimo e` il valore che
separa n% dei dati dal resto
u p.e. esempio la mediana puo` essere interpretata come il 50esimo percentile
u In Excel
PERCENTILE(range, perc)
u Il Quartile separa un quarto dei dati dal resto.
u Si parla di primo (25%), secondo (50%), terzo (75%) quartile
u In Excel
QUARTILE(range,n) dove n puo` essere 1, 2 o 3
Introduzione
Sistemi Informativi e Basi di Dati
Altre misure descrittive
u MIN(range) calcola il valore minimo di un campione memorizzato
in range
u MAX(range) calcola il valore massimo di un campione
u RANGE(range) calcola la differenza tra il valore minimo e
massimo, ovvero il campo di variabilita` dei valori del campione.
Introduzione
Sistemi Informativi e Basi di Dati
7
Rappresentazioni Boxplot
n
Max
Rappresentano
¨
¨
¨
il grado di dispersione o variabilità
dei dati (w.r.t. mediana e/o media)
la simmetria
la presenza di valori anomali
Secondo Quartile
Mediana
n
n
Le distanze tra i quartili definiscono
la dispersione dei dati
Primo Quartile
non direttamente disponibile in
Excel
Min
Introduzione
Sistemi Informativi e Basi di Dati
Distribuzioni di frequenza
u La rappresentazione con istogramma delle frequenze dei valori
di una variabile numerica su un intervallo partizionato in
categorie continue e` la rappresentazione di una distribuzione di
frequenza
u puo` essere interpretata come una approssimazione del grafico
di una funzione che descrive come varia la frequenza di un
valore rispetto al crescere (decrescere) del valore stesso
u Le distribuzioni di frequenza osservate spesso sono cosi`
regolari da poter essere viste come casi particolari di distribuzioni
di frequenze teoriche, descritte da ben precise funzioni
matematiche
Introduzione
Sistemi Informativi e Basi di Dati
8
Distribuzioni di frequenza teoriche
u Distribuzione uniforme: ogni evento (categoria) ha la stessa
frequenza
u Distribuzione normale (o Gaussiana, o a campana)
1
−( y − µ ) 2
f ( y) =
e
σ 2π
µ = media
2σ 2
σ = deviazione standard
Introduzione
Sistemi Informativi e Basi di Dati
Introduzione
Sistemi Informativi e Basi di Dati
Esempio di gaussiana
9
Simmetria
n
Si ha simmetria quando media, moda e mediana coincidono
¨
condizione necessaria, non sufficiente
¨
Asimmetria sinistra: moda, mediana, media
¨
Asimmetria destra: media, mediana, moda
Introduzione
Sistemi Informativi e Basi di Dati
Simmetria (Cont.)
n
Indici di asimmetria
¨ medie interquartili
¨
n
x p = ( x1− p + x p ) 2
Momenti centrali
1 n
(xi − x )k
mk =
∑
n − 1 i =1
indice di Fisher
¨ γ nullo per distribuzioni
simmetriche
¨
¨
γ >0: sbilanciamenti a destra
γ<0: sbilanciamento a sinistra
Introduzione
γ =
m3
ŝ 3
Sistemi Informativi e Basi di Dati
10
Simmetria (Cont.)
n
Indici di asimmetria
¨ medie interquartili
¨
n
x p = ( x1− p + x p ) 2
Momenti centrali
mk =
indice di Fisher
¨ γ nullo per distribuzioni
simmetriche
¨ γ >0: sbilanciamenti a
destra
¨ γ<0: sbilanciamento a
sinistra
1 n
(xi − x )k
∑
n − 1 i =1
γ =
m3
ŝ 3
Introduzione
Sistemi Informativi e Basi di Dati
Curtosi (cont.)
n
Indice di Pearson
¨ β=3: distribuzione mesocurtica
¨ β >3: distribuzione leptocurtica
¨ β <3: distribuzione platicurtica
n
Coefficiente di curtosi
¨ Una distribuzione leptocurtica
ha K ~ 1/2
¨ platicurtosi: k~0
Introduzione
β=
K=
1
m4
ŝ 4
(x.75 − x.25 )
(x.90 − x.10 )
2
Sistemi Informativi e Basi di Dati
11