aa 2009/10 Laurea triennale in Scienze della Natura Matematica ed

a.a. 2009/10
Laurea triennale in Scienze della Natura
Matematica ed Elementi di Statistica
Statistica descrittiva
Avvertenza
Questi sono appunti “informali” delle lezioni, che vengono resi disponibili per comodità
degli studenti. Parte del materiale presentato è tratto dai libri di testo consigliati, la cui
consultazione è vivamente incoraggiata.
– p. 1/2
Terminologia
Gli oggetti della nostra indagine prendono il nome di unità statistiche.
Le unità statistiche possono essere persone, animali, cose, ma anche
gruppi di persone, animali, cose, oppure una stessa persona, animale,
cosa osservata più volte.
Tutte le unità statistiche costituiscono la popolazione statistica; di solito
eseguiamo le osservazioni su un campione.
Perché? E come si sceglie il campione?
Le caratteristiche che vogliamo osservare prendono il nome di variabili
statistiche.
Matematicamente parlando, una variabile statistica è una funzione, che a
ogni unità statistica in esame associa uno e un solo valore.
Le variabili possono essere
• non numeriche (qualitative, categoriche, attributi)
• numeriche (quantitative, misurabili), discrete o continue
Quando si svolge un’indagine statistica occorre specificare:
• quali e quante sono le unità statistiche
• quali e quante sono le variabili, e in quali unità di misura sono espresse
– p. 2/2
Esempio
Per gli studenti seduti nelle prime due file possiamo considerare le
seguenti variabili:
– sesso (maschio, femmina)
non numerica
– età (anni)
numerica discreta
– scuola di provenienza (L, IP, IT, altro)
non numerica
– voto di maturità (centesimi)
numerica discreta
– altezza (centimetri)
numerica continua
Esempio
Numero di risposte esatte fornite al test di valutazione di settembre 2009
(vedi Foglio 1).
– p. 3/2
Distribuzione di una variabile
Determinare la distribuzione di una variabile significa stabilire
quali “valori” essa assume e le frequenze (assolute, relative, percentuali)
con cui li assume.
Esempio
Determiniamo la distribuzione delle variabili
“scuola di provenienza” (L, IP, IT, altro)
“altezza” (in centimetri)
per gli studenti seduti nelle prime due file.
Esempio
Determiniamo la distribuzione della variabile “risposte esatte” fornite al
test di settembre 2009 (vedi Foglio 2).
– p. 4/2
Dati grezzi e dati raggruppati
Dati poco numerosi −→ dati grezzi
Dati numerosi −→ dati raggruppati
• suddivisione dei dati in classi
• variabile non numerica: modalità
• variabile numerica: gruppi di valori contigui
• calcolo delle frequenze (assolute, relative, percentuali) di ogni classe
Nella determinazione delle classi per una variabile numerica:
• numero “giusto” (regola pratica: ⌊log2 N ⌋ + 1 )
• ampiezza (stessa ampiezza o ampiezze diverse)
• estremi (classi non sovrapposte)
• rappresentante della classe: valore centrale
Esempio: vedi Foglio 3
– p. 5/2
Esempio
Nella seguente tabella sono riportate le durate (in giorni) dei ricoveri
ospedalieri di 60 pazienti in un certo reparto:
9
6
14 11
7 6 13 12 15
7
6 7 15
8 13 7
3 13
8 9
7 11 10 18
8
8 13 11
5
6 12 13 8 14 13 16 11 20 4 12
13 14
6 7 17
1 10
7 11 6
9 12
9
4 10
7 10 13 14 11
Suddividere opportunamente i dati in classi e costruire la corrispondente
tabella delle frequenze. (Vedi Foglio 4)
Per esercizio:
costruire la tabella delle frequenze (assolute, relative) cumulate.
– p. 6/2
Rappresentazione grafica di una variabile categorica
• grafici a torta (aerogrammi) (note tutte le categorie)
• grafici a barre (per le frequenze assolute o relative)
Esempi: vedi Foglio 5
Esercizio
I decessi di giovani tra i 15 e i 24 anni avvenuti negli U.S.A. nel 2000
hanno avuto le seguenti cause principali:
incidenti d’auto 13 616
omicidi
3 877
tumore
1 688
malattie di cuore
931
difetti congeniti
425
a) Rappresentare i dati con un grafico a barre.
b) Si può realizzare un grafico a torta? Spiegare.
– p. 7/2
Rappresentazione grafica di una variabile quantitativa
Per insiemi di dati non molto numerosi: diagrammi fusto-foglia
(stem and leaf)
Altrimenti: istogrammi
• Passo 1: suddivisione dei dati in classi (gruppi di valori contigui)
– uguale ampiezza
– numero “giusto”
– non sovrapposte
• Passo 2: calcolo delle frequenze (assolute o relative) di ogni classe
• Passo 3: disegno dell’istogramma, cioè il grafico a barre delle
frequenze (assolute o relative) delle classi.
– Asse orizzontale: scala della variabile
– Asse verticale: scala della frequenza
Esempi: vedi Fogli 6 e 7
Classi di ampiezza non costante?
– p. 8/2
Cosa possiamo “leggere” su un istogramma?
• Forma
presenza di picchi
distribuzione simmetrica
distribuzione asimmetrica (a destra, a sinistra)
• Centro (punto che divide a metà l’area dell’istogramma)
• Dispersione (intervallo dei dati)
• Outlier (valori che si discostano molto da “tutti gli altri”)
– p. 9/2
Rappresentazione numerica di una distribuzione
Sia X una variabile statistica numerica e siano X1 , X2 , . . . , XN i valori
dei dati relativi a un campionamento.
Introduciamo delle statistiche, ossia delle grandezze numeriche calcolabili
a partire dai dati X1 , . . . , XN , che sintetizzino i dati stessi, mettendo in
evidenza alcune proprietà della distribuzione della variabile X .
In particolare:
• misure del centro: media, mediana, moda
• misure della dispersione: varianza, deviazione standard, scarto
interquartile
– p. 10/2
Media campionaria
La media (campionaria) mX è definita dalla formula
mX
X1 + X2 + · · · + XN
:=
N
N
X
1
=
Xk
N
k=1
Osservazione
La media si calcola agevolmente a partire dalla tabella delle frequenze.
Infatti, se x1 , . . . , xn sono i valori distinti assunti dai dati e F1 , . . . , Fk
sono le rispettive frequenze assolute, si ha
n
n
n
X
X
1 X
Fi
Fi xi =
xi =
fi xi ,
mX =
N
N
i=1
i=1
i=1
Fi
dove fi :=
è la frequenza relativa del valore xi .
N
Esempio
Calcoliamo la media delle età degli studenti seduti oggi in prima fila.
– p. 11/2
Mediana campionaria
La mediana (campionaria) M è definita dal seguente procedimento:
• disponiamo gli N dati del campione in ordine crescente;
• se N è dispari, M è il valore del dato che corrisponde all’intero
successivo a N/2 ;
• se N è pari, M è la media aritmetica dei dati in posizione
N/2 e N/2 + 1 .
Esempio
Calcoliamo la mediana delle età degli studenti seduti oggi in prima fila.
Osservazioni
• la mediana separa in due parti uguali l’insieme dei dati;
• (almeno) metà dei dati sono minori o uguali a M e (almeno) metà
dei dati sono maggiori o uguali a M ;
• anche la mediana si calcola agevolmente a partire dalla tabella delle
frequenze.
– p. 12/2
Confronto tra media e mediana
• Se la distribuzione è esattamente simmetrica, media e mediana
coincidono;
• se la distribuzione è asimmetrica, la media si trova “più all’esterno
sulla coda lunga” rispetto alla mediana;
• la media dipende dalle osservazioni “estreme”;
• la mediana non dipende dalle osservazioni estreme (è una misura
robusta del centro)
Esempi: vedi Foglio 8
– p. 13/2
Classi modali e moda
Supponiamo che i dati siano espressi mediante la loro appartenenza a
diverse classi.
La distribuzione si dice unimodale se esiste un’unica classe la cui
frequenza è massima. Tale classe è detta classe modale.
Se le classi sono individuate da numeri, il numero che individua la classe
modale si chiama moda.
Osservazioni
Si può parlare di classe modale anche per una variabile non numerica.
Non tutte le distribuzioni sono unimodali; se esistono più valori con
frequenza massima, ciascuno di essi è detto valore modale.
Esempi
Calcoliamo la moda (o i valori modali) delle età degli studenti seduti oggi
in prima fila.
Individuiamo la moda (o i valori modali) delle distribuzioni dei Fogli 5
e 7.
– p. 14/2
Varianza e deviazione standard campionarie
Sia X una variabile statistica numerica e siano X1 , X2 , . . . , XN i valori
dei dati relativi a un campionamento. Sia mX la media campionaria.
La varianza campionaria s2X è definita dalla formula
N
s2X
1 X
:=
(Xi − mX )2
N −1
i=1
La deviazione standard campionaria sX è la radice quadrata della
varianza:
v
u
N
u 1 X
(Xi − mX )2 .
sX := t
N −1
i=1
Media, varianza e deviazione standard della popolazione. . .
– p. 15/2
Esempio
Calcoliamo media, varianza e deviazione standard campionarie dei due
insiemi di dati:
A : 3, 4, 6, 7, 10
B : −20, 5, 15, 24
Osservazione
L’esempio precedente mostra che due distribuzioni possono avere medie
uguali e deviazioni standard diverse.
Inoltre, due distribuzioni possono avere stessa media e deviazione
standard ma forme molto diverse.
Esempio: vedi Foglio 9
Ciò vuol dire che la media mX e la deviazione standard sX da sole non
bastano a caratterizzare una distribuzione.
– p. 16/2
La disuguaglianza di Chebyshev
Sia assegnato un insieme di dati X1 , . . . , XN con media mX e deviazione
standard sX > 0 . Per ogni α ≥ 1 sia nα il numero di indici i tali che
mX − αsX < Xi < mX + αsX .
Risulta:
nα
1
> 1 − 2.
N
α
↑
percentuale dei dati compresi
tra mX − αsX e mX + αsX
Per esempio, quali che siano i dati,
• almeno il 55% di essi è compreso tra mX − 1.5sX e mX + 1.5sX
• almeno il 75% di essi è compreso tra mX − 2sX e mX + 2sX
• almeno l’88% di essi è compreso tra mX − 3sX e mX + 3sX
Esempio: vedi Foglio 10
– p. 17/2
Insiemi di dati approssimativamente normali
Diciamo che un insieme di dati è approssimativamente normale se
• circa il 68% dei dati è compreso tra mX − sX e mX + sX ;
• circa il 95% dei dati è compreso tra mX − 2sX e mX + 2sX ;
• circa il 99.7% dei dati è compreso tra mX − 3sX e mX + 3sX .
L’istogramma di un insieme di dati approssimativamente normale ha una
forma “a campana”.
(Torneremo sull’argomento in seguito.)
Esempio: vedi Foglio 10
– p. 18/2
Percentili (indici di posizione)
Sia k un numero intero con 0 ≤ k ≤ 100 .
Assegnato un insieme di dati numerici, vogliamo individuare il dato
(o i dati) con la proprietà di essere contemporaneamente maggiore o
uguale di almeno il k percento dei dati e minore o uguale di almeno
il (100 − k) percento dei dati.
Disponiamo gli N dati in ordine crescente
X1 ≤ X2 ≤ . . . ≤ XN
e poniamo p = k/100 .
• Se N p è un numero intero, sia XN p che XN p+1 hanno la proprietà
richiesta; in questo caso, definiamo il k -esimo percentile come la
media aritmetica di XN p e XN p+1 .
• Se N p non è un numero intero, l’unico dato con la proprietà richiesta
è X⌊N p⌋+1 ; in questo caso, il k -esimo percentile è, per definizione,
proprio X⌊N p⌋+1 .
– p. 19/2
Alcuni percentili “speciali”:
• il 50-esimo percentile, ossia la mediana M : almeno il 50% dei dati è
minore o uguale di M e almeno il 50% dei dati è maggiore o uguale
di M ;
• il 25-esimo percentile, detto primo quartile e denotato con Q1 :
almeno il 25% dei dati è minore o uguale di Q1 e almeno il 75% dei
dati è maggiore o uguale di Q1 ;
• il 75-esimo percentile, detto terzo quartile e denotato con Q3 :
almeno il 75% dei dati è minore o uguale di Q3 e almeno il 25% dei
dati è maggiore o uguale di Q3 ;
• il decimo percentile, detto primo decile: almeno il 10% dei dati è
minore o uguale del primo decile e almeno il 90% dei dati è
maggiore o uguale del primo decile;
• il 20-esimo percentile, detto secondo decile;
• . . . e così via . . .
Esempi: vedi Foglio 11
Procedimento alternativo per il calcolo dei percentili. . .
– p. 20/2
Misure della dispersione legate agli indici di posizione:
• Massimo − Minimo
campo di variazione o range
• IQR := Q3 − Q1
scarto interquartile
Confronto tra deviazione standard, range e scarto interquartile:
• la deviazione standard dipende dalle osservazioni “estreme”;
• il range dipende dalle osservazioni “estreme”;
• lo scarto interquartile non dipende dalle osservazioni “estreme”.
Esempio: vedi Foglio 12
Identificazione degli outlier sospetti
Un dato viene considerato un possibile outlier se si trova più di 1.5 × IQR
al di sotto del primo quartile oppure al di sopra del terzo quartile.
Esempio: vedi Foglio 12
– p. 21/2