Appunti di Statistica sociale - Università degli studi di Bergamo

Appunti di Statistica sociale
(Draft)
Ilia Negri
[email protected]
10 dicembre 2015
2
Indice
1 Indroduzione: perché la statistica sociale
5
1.1
Perché la statistica serve a tutti . . . . . . . . . . . . . . . . . . . . . . . . .
5
1.2
La statistica nella vita di tutti i giorni . . . . . . . . . . . . . . . . . . . . .
7
2 Rappresentare i dati e le loro distribuzioni
11
2.1
Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2
Prime definizioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3
Diversi dati diverse variabili . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4
Dati e tavole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.4.1
2.5
Distribuzioni di più variabili congiuntamente . . . . . . . . . . . . . . . . . 21
2.5.1
2.6
2.8
Frequenze cumulate . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Dati e grafici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.6.1
2.7
Frequenze assolute, relative e percentuali . . . . . . . . . . . . . . . 18
Distribuzioni per le variabili numeriche
. . . . . . . . . . . . . . . . 32
Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.7.1
Il geyser Old Faithful . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.7.2
Un caso di attribuzione letteraria . . . . . . . . . . . . . . . . . . . . 40
2.7.3
Il primo bacio non si scorda mai . . . . . . . . . . . . . . . . . . . . 43
Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3 Valori medi
51
3.1
La moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.2
La media artitmetica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.2.1
3.3
Media aritmetica per i dati in classi . . . . . . . . . . . . . . . . . . 56
La mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.3.1
Mediana per i dati in classi . . . . . . . . . . . . . . . . . . . . . . . 62
3.4
Simmetria e asimmetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.5
Quale media scegliere? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.6
Quartili, percentili e quantili
. . . . . . . . . . . . . . . . . . . . . . . . . . 66
1
2
INDICE
3.7
Il box-plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.8
Soluzione degli esercizi assegnati . . . . . . . . . . . . . . . . . . . . . . . . 69
4 La variabilità
73
4.1
Il range e lo scarto interquartile . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.2
Scarto quadratico medio e varianza . . . . . . . . . . . . . . . . . . . . . . . 76
5 Operazioni sui dati
79
5.1
Trasformazioni di scala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.2
Standardizzazione
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
6 Siamo tutti normali?
87
6.1
La curva è normale! . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
6.2
La normale standardizzata . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
6.3
Un po’ di formule matematiche e un po’ di storia . . . . . . . . . . . . . . . 98
7 Dal campione alla popolazione
101
7.1
Campionamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
7.2
Dalla popolazione al campione: il caso della media . . . . . . . . . . . . . . 104
8 Intervalli di confidenza
109
8.1
La media campionaria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
8.2
Gli ingredienti e la ricetta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
9 La proporzione
115
9.1
Il modello . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
9.2
Intervallo di confidenza per la proporzione π . . . . . . . . . . . . . . . . . . 117
10 Test statistici
121
10.1 Verifica d’ipotesi: la teoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
10.2 Verifica d’ipotesi: la pratica . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
10.2.1 Test per la media di popolazione normale: σ nota
. . . . . . . . . . 124
10.2.2 Test per la media di popolazione normale: σ non nota . . . . . . . . 127
10.2.3 Test per la proporzione . . . . . . . . . . . . . . . . . . . . . . . . . 130
10.3 Il livello di significativià del test: α . . . . . . . . . . . . . . . . . . . . . . . 132
10.4 Il p-value e il suo rapporto con α. . . . . . . . . . . . . . . . . . . . . . . . . 133
10.5 Intervalli di confidenza e test bilaterali . . . . . . . . . . . . . . . . . . . . . 133
10.6 Test con alternativa unilaterale . . . . . . . . . . . . . . . . . . . . . . . . . 135
10.7 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
INDICE
11 Confronto di medie
11.1 Differenza delle medie per popolazioni normali
11.2 Differenza per due proporzioni . . . . . . . . .
11.3 Il p-value . . . . . . . . . . . . . . . . . . . . .
11.4 Esercizi . . . . . . . . . . . . . . . . . . . . . .
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
141
. 141
. 145
. 146
. 147
A Tavole Statistiche
151
B Soluzioni di alcuni esercizi
159
4
INDICE
Capitolo 1
Indroduzione: perché la statistica
sociale
1.1
Perché la statistica serve a tutti
Che ci pensiate o meno e che ci crediate o meno la vostra vita è piena degli embrioni dei
concetti che trovano la loro esatta formulazione nella statistica. Qualche esempio? Pensate
a quando la mattina prima di uscire di casa decidete se prendere o meno l’ombrello. Se
avrete successo o meno ad un incontro che vi interessa particolarmente. O al voto che
prevedete di prendere in questo esame. Quello che state facendo è elaborare un concetto
statistico sulla base dei dati che avete immagazzinato con la vostra esperienza.
La statistica non è altro che quella disciplina che si occupa di capire e che utilizza i
dati. I dati possono essere di qualunque tipo o natura. Qualche esempio? La serie storica
delle precipitazioni in una qualunque città, la rilevazione del quoziente di intelligenza, il
numero di volte che uno scrittore usa un certo tipo di parole non contestuali ogni mille
parole (tipo: da, allora, quindi, . . . ), il numero di giorni che una persona passa in vacanza
in un anno.
Nel nostro corso ci occuperemo di due tipi di statistica. Il primo tipo è la statistica
descrittiva che consiste nei metodi per descrivere e sintetizzare le caratteristiche salienti
di un certo insieme di dati. Le caratteristiche salienti di un insieme di dati sono in genere
la loro distribuzione, il loro valore medio e la loro variabilità.
I metodi utilizzati per descrivere i dati che abbiamo a disposizione e per prepararli per
essere analizzati sono principalmente i grafici e le distribuzioni di frequenza, che vedremo
nel Capitolo 2, e poi metodi numerici (occorrerà fare qualche calcolo) per dare informazioni
sulla media, che vedremo nel Capitolo 3, e sulla variabilità, introdotta nel Capitolo 4.
Osservazione importante: la variabilità è la caratteristica fondamentale della statistica.
Se non ci fosse variabilità non ci sarebbe la statistica e vivremmo in un mondo banale
tutto uguale ad una media!
5
6
CAPITOLO 1. INDRODUZIONE: PERCHÉ LA STATISTICA SOCIALE
Il secondo tipo di statistica è quella inferenziale, che si occupa di utilizzare quel poco di
cui siamo a conoscenza (e che abbiamo descritto con i metodi della statistica descrittiva)
per estenderlo, facendo una stima o delle previsioni, a tutto quello che non possiamo
conoscere.
Per questo tipo di statistica un ruolo importante riveste la teoria della probabilità. La
teoria della probabilità è infatti in grado di fornire un modello matematico per l’incertezza
dei possibili risultati di un fenomeno. In questo senso la probabilità può essere vista
come una misura dell’incertezza. Possiamo dire che la statistica è capace di quantificare
l’incertezza, tramite la probabilità. Essa mette gli statistici in grado di fare affermazioni
categoriche, cioè in completa sicurezza, circa il loro grado di incertezza!
Ad esempio, l’istat conduce ogni anno le indagini sul benessere delle famiglie italiane.
Si registrano in ogni provincia il numero di famiglie monogenitoriali su un certo numero di
capifamiglia intervistati. La percentuale di famiglie monogenitoriali in una certa provincia rilevata tra gli intervistati, può essere usata come stima per la percentuale di famiglie
monogenitoriali in quella provincia, e sulla base di questa stima il governo locale può prevedere una serie di servizi legati al welfare. Con la teoria della probabilità potremo avere
un modello di questa percentuale e saremo in grado di dire ad esempio: la percentuale di
famiglie monogenitoriali in Italia non è uguale in tutte le province. La teoria della probabilità ci permette di dire con certezza che questa affermazione potrebbe essere sbagliata
nel 5% dei casi. Cioè si fa un’affermazione certa sul grado di incertezza!
Naturalmente non saremo mai in grado di dire quante sono le famiglie monogenitoriali
in una certa provincia in un certo istante, ma saremo in grado di prevedere in maniera
verosimile la proporzione di tali famiglie.
La statistica è importante nella vita di tutti i giorni perché senza la vita reale non ci
sarebbe bisogno della statistica! Come si diceva sopra, se tutti la pensassero e agissero allo
stesso modo e se tutto fosse sempre uguale a se stesso, non avremmo bisogno di prevedere
nulla! E sarebbe un mondo senza statistica ma molto noioso!
Nella vita reale ogni cosa è diversa e ogni individuo pensa e agisce in modo diverso.
Nelle scienze sociali la statistica è utilizzata per spiegare le differenze tra gruppi di persone
o luoghi. Ad esempio possiamo essere interessati a come varia il numero di famiglie
monogenitoriali rispetto alle condizioni economiche e sociali di un gruppo di famiglie,
oppure rispetto alla posizione geografica.
Come potete rendervi conto se aprite un giornale o un sito web, la statistica viene utilizzata pressoché ovunque, con grafici, opinioni basate su dati e previsioni su andamenti di
vari fenomeni. Spesso queste informazioni possono influenzare anche la vita delle persone
in modo rilevante. Questo corso cercherà di mostrarvi come utilizzare varie tecniche della
statistica, e anche se non le utilizzerete mai più nella vita, come il detto, impara l’arte e
mettila da parte, sarete almeno in grado di capire come vengono fatte certe analisi e come
1.2. LA STATISTICA NELLA VITA DI TUTTI I GIORNI
7
Figura 1.1: Il grafico trasmesso da Fox News
vengono proposte certe previsioni e non vi farete ingannare da chi a volte usa i dati in
modo non appropriato per ingannare o attirare favori!
1.2
La statistica nella vita di tutti i giorni
Questo è un esercizio utile. Prendiamo un giornale qualunque e andiamo a vedere quanti
grafici vengono riportati e in che contesto. Cerchiamo di capire se ci sono descrizioni dei
dati o previsioni. Ci renderemo conto durante il corso come cambierà la nostra sensibilità
di fronte alle notizie che riportano questo tipo di informazioni. Come compito durante il
corso dovrete sempre prendere un giornale e analizzare questo tipo di informazioni.
Se lo farete sarete in grado una volta che lavorerete in una redazione di fermare la messa
in onda di un grafico di questo tipo. Nella Figura 1.1 appare il grafico a torta presentato
durante la trasmissione televisiva Fox News molto seguita negli Stati Uniti d’America.
A un certo numero di persone era stato chiesto quali candidati vedevano favorevolmente
per contrastare Obama. Casa c’è di sbagliato? Cosa può avere indotto questo errore?
Proveremo a rispondere nella Sezione 2.6.
8
CAPITOLO 1. INDRODUZIONE: PERCHÉ LA STATISTICA SOCIALE
Come dicevamo nella sezione precedente l’Istat conduce ogni anno l’indagine campionaria ”Aspetti della vita quotidiana”, che fa parte di un sistema integrato di indagini
sociali (le Indagini Multiscopo sulle famiglie) che ha come scopo quello di rilevare le informazioni fondamentali relative alla vita quotidiana degli individui e delle famiglie. A
partire dal 1993, l’indagine viene svolta ogni anno e le informazioni raccolte consentono
di conoscere le abitudini dei cittadini e i problemi che essi affrontano ogni giorno. Aree
tematiche variegate si susseguono nei questionari, permettendo di capire come vivono gli
individui e se sono soddisfatti del funzionamento di quei servizi di pubblica utilità che devono contribuire al miglioramento della qualità della vita. Scuola, lavoro, vita familiare e
di relazione, abitazione e zona in cui si vive, tempo libero, partecipazione politica e sociale,
salute, stili di vita e rapporto con i servizi sono indagati in un’ottica in cui oggettività dei
comportamenti e soggettività delle aspettative, delle motivazioni, dei giudizi contribuiscono a definire l’informazione sociale. L’indagine rientra tra quelle comprese nel Programma
statistico nazionale, che raccoglie l’insieme delle rilevazioni statistiche necessarie al Paese. (http://www.istat.it/it/archivio/91926). Si tratta di un indagine campionaria,
cioè viene intervistato un campione (la definizione viene data più avanti, Definizione 2.2.2
della popolazione (Definizione 2.2.1) costituita da tutte le famiglie italiane. L’indagine è
eseguita su un campione di circa 24mila famiglie (per un totale di circa 54mila individui)
distribuite in circa 850 Comuni italiani di diversa ampiezza demografica. Ogni famiglia
che rientra nel campione viene estratta con un criterio di scelta casuale dalle liste anagrafiche comunali, secondo una strategia di campionamento volta a costituire un campione
statisticamente rappresentativo della popolazione residente in Italia. L’indagine si svolge
nel primo trimestre di ogni anno. Un rilevatore comunale si reca presso le abitazioni delle
famiglie munito di cartellino identificativo per rivolgere alcune domande ai componenti
del nucleo familiare. Le informazioni vengono raccolte tramite due questionari: uno che
rappresenta il questionario base della rilevazione, contiene i quesiti familiari e una scheda
individuale per ogni componente della famiglia e un questionario che deve essere compilato
da ogni componente in modo autonomo (autocompilazione). I principali risultati dell’indagine vengono resi disponibili sul sito dell’Istat attraverso sia il Datawarehouse I.stat sia
le statistiche report pubblicate nei settori con argomento: Opinioni dei cittadini, Salute e
sanità, Cultura, comunicazione, tempo libero, Partecipazione sociale. Ogni anno, inoltre, i
dati raccolti vengono analizzati e pubblicati anche su volumi a carattere generale (Rapporto annuale, Annuario statistico italiano, Noi Italia, Italia in cifre) e, occasionalmente, nelle
collane di approfondimento o analisi del medesimo Istituto (Collana argomenti, Metodi
e norme). Inoltre, i dati elementari rilevati nel corso dell’indagine sono resi disponibili,
gratuitamente, per gli utenti e i ricercatori che ne facciano richiesta motivata per fini di
ricerca scientifica attraverso i file standard. I dati comunicati, in ogni caso, sono privi degli
elementi identificativi del soggetto al quale si riferiscono, nonché di ogni altro elemento
1.2. LA STATISTICA NELLA VITA DI TUTTI I GIORNI
9
che consenta, anche indirettamente, il collegamento con le famiglie o gli individui intervistati. In questo corso utilizzeremo questi dati (eventualmente opportunamente modificati
a scopo didattico) per gli esempi e gli esercizi.
10
CAPITOLO 1. INDRODUZIONE: PERCHÉ LA STATISTICA SOCIALE
Capitolo 2
Rappresentare i dati e le loro
distribuzioni
In questo capitolo dopo aver dato alcune definizioni importanti e fondamentali per cominciare a studiare e a capire la statistica, presenteremo i diversi tipi di dati con cui possiamo
avere a che fare in indagini statistiche, e quindi mostreremo come questi dati possano
essere rappresentati sia in forma di tabelle che in forma di grafici e disegni.
2.1
Introduzione
Cercheremo di capire il significato della parola distribuzione che è un concetto fondamentale di tutta la statistica. Prima di cominciare ad analizzare i dati occorre introdurre
qualche termine specifico della statistica per capirci e capire di cosa stiamo parlando.
Ogni qualvolta si vuole studiare un fenomeno in cui è presente una certa variabilità della
risposta in presenza delle stesse condizioni entra in gioco la statistica. Proviamo a cercare
qualche esempio nella vita di tutti i giorni. Le famiglie della provincia di Bergamo aventi
un certo reddito e composte da un certo numero di componenti scelgono luoghi diversi e
tempi diversi per le loro vacanze. Se vogliamo studiare il fenomeno riguardante le vacanze
delle famiglie della provincia di Bergamo (fenomeno di interesse per gli enti pubblici, e
o privati e che interessa diversi tipi di studiosi, di sociologia o di economia ad esempio)
entra in gioco la statistica.
I tecnici incaricati di uno studio sulla fattibilità di un impianto in grado di trasformare
in energia elettrica l’energia scaturita durante le eruzioni di vapore acqueo di un geyser
registrano per ogni eruzione il tempo di pausa tra un’eruzione e la successiva e il tipo di
eruzione. Anche in questo caso per decidere sulla fattibilià (dal punto di vista economico,
di impatto ambientale e di gestione delle risorse) entra in gioco la statistica.
I metodi statistici si occupano principalmente
1. di raccogliere i dati;
11
12
CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
2. della presentazione dei dati;
3. dell’analisi dei dati.
Sulla base delle informazioni fornite dai dati ed elaborate dagli statistici starà ai tecnici e
agli studiosi delle diverse discipline prendere decisioni sul fenomeno oggetto di studio, sia
esso un’indagine sulle famiglie monogenitoriali, sulle vacanze degli italiani o sulla fattibilià
di un impianto industriale, piuttosto che risolvere problemi concernenti il disegno e la
progettazione di prodotti e processi industriali. Sulla base delle stesse informazioni si può
considerare anche l’impiego dei dati a fini previsivi e conoscitivi di un fenomeno.
In ultima analisi si può dire che il primo scopo della statistica è la la comprensione
delle cause della variabilità. Per parafrasare e ricordare questo scopo citiamo la Legge di
Murphy (si veda [1]): “Anche sotto le condizioni più rigorosamente controllate un sistema
si comporta come gli pare e piace”; e la sua trasposizione sul territorio coniata dal Prof.
Roberto Colombi come Legge bergamasca: “Non tutte le ciambelle riescono col buco!”
2.2
Prime definizioni
Supponiamo di aver fatto un indagine per capire come lo stato civile, il grado di scolarità e
il reddito influenzino il numero di figli presenti in un certo nucleo famigliare rappresentato
dal capofamiglia (non necessariamente di sesso maschile). Il fenomeno studiato in questo
caso è di tipo sociale. Si intervistano 20 capofamiglia e le loro risposte sono elencate nella
Tavola 2.1.
Le 20 persone intervistate costituiscono un campione della popolazione di tutte le
famiglie. La popolazione in statistica non necessariamente sarà riferita a persone. Si
tratta in generale di un concetto astratto che non può essere osservato nella sua interezza
e completezza e per questo motivo se ne sceglie un campione. Ad esempio nell’esempio
sulla fattibilià dell’impianto per la generazione dell’energia dalle eruzioni del geyser, la
popolazione è costituita da tutte le possibili eruzioni passate, presenti e future del geyser.
Tornaniamo ora all’ultimo esempio, per introdurre l’oggetto principale della statistica. I
quattro argomenti di cui viene richiesto il valore (stato civile, grado di scolarità, numero
dei figli, reddito) sono chiamate variabili. Ogni rispondente è detto unità statistica o caso.
Le risposte che ogni unità statistica dà, ovvero i valori delle variabili osservati sulle unità
statistiche, sono dette osservazioni. In ogni insieme di dati (chiamato dataset) i casi o
le unità statistiche sono gli individui o le unità del campione. Le variabili sono invece le
caratteristiche che assumono valori diversi su ogni unità del campione o individuo. Poiché
repetita iuvant vediamo di fissare questi primi concetti.
Definizione 2.2.1. La popolazione è l’intera collezione di individui, oggetti, eventi,
astratta o concreta, sulla quale si ricercano informazioni.
2.2. PRIME DEFINIZIONI
u
unità
stat.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
13
X
stato
civile
N
S
V
V
C
N
C
C
V
N
N
N
S
C
N
C
V
S
C
C
Y
grado di
scolarità
L
O
A
O
L
S
S
O
L
O
S
A
S
S
S
L
O
O
S
S
Z
numero di
figli
0
1
3
4
1
1
0
2
3
0
1
0
1
4
3
0
2
2
4
4
W
reddito
in ¤
72.50
54.28
50.02
88.88
62.30
45.21
57.50
78.40
75.13
58.00
53.70
91.29
74.70
41.22
65.20
63.58
48.27
52.52
69.50
85.98
Tabella 2.1: Stato civile X, grado di scolarità Y , numero di figli Z, reddito W di 20
capofamiglia intervistati per un indagine sociale.
14
CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
Non è possibile osservare interamente la popolazione, per cui si ricorre ad un sottoinsieme di essa.
Definizione 2.2.2. Un sottoinsieme della popolazione è detto campione. Sono gli elementi della popolazione che si osservano realmente.
Vale la pena osservare che un campione non garantisce di riflettere sempre le caratteristiche della popolazione. A volte può essere sostanzialmente diverso dalla popolazione
da cui viene estratto. Due campioni della stessa popolazione sono diversi uno dall’altro a
volte anche enormemente diversi.
Definizione 2.2.3. Unità statistica o caso è ogni elemento del campione.
Definizione 2.2.4. Variabile è ogni caratteristica di interesse che viene rilevata sugli
elementi del campione.
Definizione 2.2.5. Dataset è l’insieme di tutti i valori di ogni variabile che è rilevata
sugli elementi del campione.
2.3
Diversi dati diverse variabili
Le variabili possono essere di diverso tipo a seconda delle modalità con cui si manifestano
i diversi valori che assumono. I valori che assumono sulle unità del campione sono i nostri
dati. Le due grandi categorie sono le variabili quantitative (o numeriche) e le qualitative
(o categoriche). Tra le quantitative distinguiamo le variabili numeriche discrete (risultato
di un conteggio) e le continue (risultato in genere di una misura di qualunque tipo). Tra
le qualitative distinguiamo tra quelli ordinali (dove è possibile stabilire un ordine tra le
categorie) e nominali (dove questo ordine non è possibile). Il modo migliore per riconoscere
il tipo di variabile è pensare alle operazioni che si possono fare su di loro. La prima
domanda è sicuramente: sono numeri oppure no? Se sono numeri si tratta di variabili
quantitative altrimenti qualitative. Prestare attenzione che a volte nei risultati di un
indagine le qualità possono essere codificate con un codice numerico! Questo non significa
che ad esempio, se il sesso viene codificato con 1 (femmina) e 2 (maschio), il sesso sia una
variabile numerica! Se sono numeri la seconda domanda è: sono il risultato di un conteggio
o di una misurazione (con cronometro, bilancia, o qualsiasi altro strumento) espressa in
una certa unità di misura? Nel primo caso si tratta di variabili numeriche discrete nel
secondo caso di variabili continue. Tutte le variabili inerenti il denaro (reddito, prezzo
di un’azione ad esempio) sono in genere considerate come variabili continue (si misurano
nella unità di valuta corrente, ad esempio ¤). Se non si tratta di numeri la domanda è:
posso ordinare le categorie? Se la risposta è affermativa si tratta di variabili qualitative
ordinabili, altrimenti si tratta di una variabile nominale. Si noti che tutte le variabili
2.3. DIVERSI DATI DIVERSE VARIABILI
15
qualitative presentano al più un numero finito di modalità, quindi anche loro a volte sono
chiamate discrete. Il seguente schema riassume quanto appena descritto per i diversi tipi
di dati o variabili con anche alcuni esempi.
• Numerici o quantitativi
– Risultato di una misura: continui (distanza, reddito, durata, peso)
– Risultato di un conteggio: discreti (numero di figli, numero di esami, numero
di giorni)
• Categorici o qualitativi (nominali o ordinali)
– Ordinali (titolo di studio, scala Mercalli per l’intensità di un terremoto)
– Nominali (genere, religione, trattamento)
Vediamo alcuni esempi.
Esempio 2.3.1. Su un campione di n = 20 capofamiglia sono state rilevate le seguenti
variabili: stato civile (X), livello di scolarità (Y ), numero di figli (Z), reddito in migliaia
di euro (W ). Lo stato civile presenta le seguenti modalità


N = Nubile o celibe



C = Coniugato
X=
V = Vedovo



S = Separato, divorziato
Si tratta di una variabile qualitativa nominale. Il livello di scolarità (Y ), presenta le
seguenti modalià


A = Analfabeta, alfabeta



O = Scuola dell’obbligo
Y =

S = Diploma di scuola superiore



L = Laurea e superiore
Si tratta di una variabile qualitativa ordinale (è possibile dire sempre quale modalità
viene prima di un’altra) La variabile numero di figli (Z) è una variabile numerica discreta.
La variabile reddito (W ) è una variabile numerica continua (misurata in ¤). I risultati
dell’indagine sono riportati nella Tabella 2.1, che rappresenta il nostro dataset.
Esempio 2.3.2. La Tabella 2.2 rappresenta i valori della scala Mercalli per misurare
l’intensità di un terremoto in base agli effetti prodotti. In questo caso non si tratta di un
dataset. Provate però a descrivere un possibile campione e a capire chi è la popolazione.
16
CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
Grado
Denominazione
1
Strumentale
2
Leggerissima
3
Leggera
4
Mediocre
5
Forte
6
Molto forte
7
Fortissima
8
Rovinosa
9
Disastrosa
10
Distruttrice
11
Catastrofe
12
Grande catastrofe
Effetti
È percepita solo dai sismografi.
È avvertita solo dalle persone ipersensibili in
momenti di quiete e ai piani più elevati.
Viene avvertita da un numero maggiore di persone, le quali non si allarmano perché generalmente non si rendono conto che si tratta
effettivamente di scosse telluriche.
Le persone che sono in casa l’avvertono e qualcuna anche tra quelle che si trovano all’aperto.
I lampadari oscillano, i pavimenti possono dare
degli scricchiolii.
Sentita tanto dalle persone che si trovano in casa
quanto da quelle fuori casa. Gli oggetti sospesi oscillano ampiamente, gli orologi a pendolo si
fermano, si hanno tremiti dei vetri e delle stoviglie. Si ha risveglio brusco dal sonno e può
generare panico senza danni alle persone.
Gli oggetti cadono e cosı̀ i calcinacci dei muri in cui si possono formare lievi lesioni. La
popolazione, presa dal panico, abbandona le
case.
Possono cadere comignoli e tegole, mentre i muri
presentano lesioni non molto gravi. Suono di
campane.
Lesioni gravi ai fabbricati, crollo di qualche muro interno. Qualche ferito, raramente
vittime.
Alcuni crolli di case, altri edifici gravemente
lesionati. Molti i feriti, non numerose le vittime.
Crolli di molti fabbricati. Parecchie le vittime,
moltissimi i feriti.
Numerose vittime. Quasi tutti gli edifici crollati.
Formazione di crepacci e frane. Distruzione di
qualsiasi opera umana.
Tabella 2.2: Descrizione delle diverse modalità della scala Mercalli che misura l’intensità
di un terremoto in base agli effetti sulla popolazione.
2.3. DIVERSI DATI DIVERSE VARIABILI
Attesa
76
80
84
50
93
55
76
58
74
75
80
56
80
69
57
Tipo
Lunga
Lunga
Lunga
Corta
Lunga
Corta
Lunga
Corta
Lunga
Lunga
Lunga
Corta
Lunga
Lunga
Lunga
Attesa
90
42
91
51
79
53
82
51
76
82
84
53
86
51
85
Tipo
Lunga
Corta
Lunga
Corta
Lunga
Corta
Lunga
Corta
Lunga
Lunga
Lunga
Corta
Lunga
Corta
Lunga
17
Attesa
45
88
51
80
49
82
75
73
67
68
86
72
75
75
66
Tipo
Corta
Lunga
Corta
Lunga
Corta
Lunga
Lunga
Lunga
Lunga
Lunga
Lunga
Lunga
Lunga
Lunga
Corta
Attesa
84
70
79
60
86
71
67
81
76
83
76
55
73
56
83
Tipo
Lunga
Lunga
Lunga
Lunga
Lunga
Lunga
Corta
Lunga
Lunga
Lunga
Lunga
Corta
Lunga
Corta
Lunga
Tabella 2.3: Durata del periodo dormiente (Attesa) e tipo di eruzione precedente (Tipo)
di un campione di 60 eruzioni del geyser Old Faithful (Wyoming, USA).
Esempio 2.3.3. La Tabella 2.3 registra la durata (in minuti) del periodo dormiente
delle eruzioni e tipo dell’eruzione precedente del geyser Old Faithful (Wyoming, USA).
In questo caso la popolazione sono tutte le possibili eruzioni del geyser. Il campione è
costituito dalle n = 60 eruzioni analizzate. Per ciascuna eruzione viene registrato sia il
tempo di attesa (in minuti) prima di osservare l’eruzione, sia il tipo di pausa dell’eruzione
precedente (classificata semplicemente in Corta o Lunga). Si noti che le eruzioni non sono
prese sequenzialmente, ma scelte a caso tra tutte quelle a disposizione e per ognuna di esse
interessano le due variabili descritte. Le variabili considerate quindi sono due. La prima
nella tabella è indicata con Attesa. Si tratta di una variabile continua (durata dell’attesa,
viene misurata in minuti con un cronometro). La seconda è il Tipo di eruzione precedente
a quella considerata. Si tratta di una variabile qualitativa ordinale. Le eruzioni precedenti
sono classificate secondo questa variabile in due categorie (le modalità della variabile):
Corta o Lunga. È una variabile ordinale poiché si può sempre dire che Corta viene prima
di Lunga. Obiettivo dello studio era capire se periodi di attesa lunghi per l’eruzione
tendessero a raggrupparsi.
Esercizio 2.3.4. Raccogliere da giornali e riviste esempi di indagini statistiche ed identificare il fenomeno, la popolazione, il campione, le unità statistiche, le variabili analizzate.
18
2.4
CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
Dati e tavole
Quando si hanno i dati relativi ad una o più variabili rilevate su un campione di n unità
statistiche la prima volontà dello statistico è quella di rappresentare i dati. Rappresentare
i dati significa in realtà dare un immagine di come si distribuiscono questi dati, cioè dare
un’immagine della distribuzione dei dati. Le tavole di dati sono il primo esempio della
rappresentazione della distribuzione dei dati.
Da qui inseguito per indicare la generica variabile useremo la lettera maiuscola, as
esempio X o Y , mentre per indicare le modalità assunte dalle variabili useremo le lettere
minuscole, as esempio x o y. I valori delle modalità a seconda del tipo di variabili, potranno
essere: categorie (nel caso di variabili categoriche o qualitative), numeri interi (nel caso di
variabili numeriche discrete) oppure numeri reali (nel caso di variabili numeriche continue).
A questo punto è necessaria una precisazione. Esiste una distribuzione della variabile
che stiamo studiando sulla popolazione che non potremo mai sapere come è fatta. Proveremo a immaginarla e a fare qualche ipotesi su di essa. (Ricordiamoci che solo Dio, per
chi crede, conosce questa distribuzione). Noi mortali statistici possiamo solo ricavare la
distribuzione della variabile su un campione e descrivere questa distribuzione (statistica
descrittiva). Dopo questa descrizione, potremo mettere un modello sulla variabile e sulla
base dei dati ricavati sul campione potremo dire se il modello proposto è corretto oppure
no (statistica inferenziale).
Quindi veniamo alle tavole. Torniamo all’Esempio 2.3.1. Concorderete sul fatto che
mostrare la Tavola 2.1 dell’intero dataset non da molte informazioni al lettore. Questo
fatto è ancora più evidente se guardiamo la Tavola 2.3 dei dati dell’Esempio 2.3.3.
Lo scopo delle tavole è quello di rappresentare un insieme di dati. Il tipo di tavole
e le informazioni contenute in essa naturalmente dipendono dal tipo di dati e di quante
variabili andiamo a descrivere la distribuzione.
Anche se si può pensare che fare una tavola sia un operazione assai semplice, come
ci si può rendere conto leggendo un giornale, non sempre sono di facile comprensione.
Dobbiamo tenere presente quando andiamo a fare una tavola che lo scopo principale di
una tavola è trasformare un insieme di dati in un formato che sia facile da capire e che
faccia capire le caratteristiche salienti della distribuzione che andiamo a rappresentare.
2.4.1
Frequenze assolute, relative e percentuali
Le frequenze assolute, relative e percentuali sono le prime quantità statistiche che incontriamo in questo corso e che sintetizzano le informazioni contenute in un data set.
Ricordiamo che in un data set possono essere riportate per ogni singola unità statistica
i valori di più variabili. Per ciascuna di queste variabili prese singolarmente possiamo
calcolare la distribuzione di frequenza di interesse (assoluta, relativa o percentuale). Per
2.4. DATI E TAVOLE
X
N
C
V
S
Totale
19
ni
6
7
4
3
n = 20
fi = ni /n
0.30
0.35
0.20
0.15
1.00
pi = fi · 100%
30
35
20
15
100
Tabella 2.4: Tavola delle frequenze assolute (ni ), relative (fi ) e percentuali (pi ) per la
variabile X stato civile nel campione dell’esempio 2.3.1. X assume i seguenti valori:
N=nubile o celibe, C=coniugato/a, V=vedovo/a, S=separato/a o didorziato/a
due o più variabili prese contemporaneamente potremo invece calcolare le distribuzioni di
frequenza congiunte (assolute o relative) o le frequenze condizionate.
Torniamo per adesso al caso di una variabile. Le frequenze assolute, le frequenze
relative e le frequenze percentuali rispondono a domande del tipo: quante unità statistiche
presentano la modalità x per la variabile X? Esse si possono calcolare per ogni tipo di
variabile. In particolare per le variabili di tipo qualitativo nominali sono le prime e a volte
uniche quantità statistiche che possiamo calcolare.
Come dicevamo sopra il tipo di tavola e le informazioni che può contenere dipendono
dal tipo di variabile i cui dati osservati andiamo a rappresentare. Cominciamo con i dati
dell’Esempio 2.3.1.
Consideriamo la variabile X=Stato Civile. Come abbiamo visto si tratta di una variabile qualitativa non ordinale. Supponiamo di essere interessati a quanti vedovi ci sono
nel campione e alla loro percentuale. Possiamo rispondere a queste domande calcolando
le frequenze assolute, relative e percentuali della distribuzione della variabile Stato Civile.
La Tabella 2.4 le riporta tutte e tre. Si tratta delle frequenze assolute, delle frequenze
relative e delle frequenze percentuali.
Come si calcolano? Le frequenze assolute si calcolano semplicemente contando
quante volte si presenta una certa modalità. Nel campione considerato ad esempio sono
presenti 6 nubili o celibi, 7 coniugati e cosı̀ via. Le frequenze assolute si indicano in
genere con ni dove la i in basso è un indice che sta ad indicare la generica modalità
ovvero la i-esima modalità. Nel nostro esempio n1 (quindi per i = 1) sta ad indicare
la frequenza assoluta dei nubili o celibi, n2 sta ad indicare il numero dei coniugati, n3
il numero dei vedovi ed n4 il numero dei separati. Abbiamo cosı̀ le quattro frequenze
assolute n1 , n2 , n3 ed n4 che si possono anche scrivere ni con i da 1 a 4 ovvero ni ,
i = 1, . . . , 4. Naturalmente la somma delle frequenze assolute deve essere uguale al numero
delle osservazioni, nell’esempio abbiamo: 6+7+4+3 = 20 in formula n1 +n2 +n3 +n4 = n,
dove n = 20. In generale se ci sono k modalità avremo k frequenze assolute (nell’esempio
20
CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
k = 4) e abbiamo la prima formula di questo testo:
k
X
ni = n, ovvero n1 + n2 + · · · + nk = n
i=1
che si legge: la somma delle frequenze assolute è uguale al numero delle osservazioni.
Le frequenze relative sono invece calcolate dividendo ogni frequenza assoluta per
il numero totale di osservazioni. In sostanza fatto un intero la totalità delle osservazioni
(nell’esempio le venti osservazioni diventano l’intero) si va a vedere che parte di questo
intero si prende ciascuna modalità. Ad esempio la frequenza relativa dei nubili è 0.30 e
6
= 0.30. In formula, indicate con fi le frequenze relative esse si ottengono
si ottiene da 20
come
ni
fi = , i = 1, . . . , k
n
La somma di tutte le frequenze relative è 1, ovvero abbiamo la seconda formula di questo
libro
k
X
nk
n
n1 n2
+
+ ... +
= = 1.
fi = f1 + f2 + . . . + fk =
n
n
n
n
i=1
Le frequenze percentuali sono praticamente la stessa cosa delle frequenze relative,
ma l’intero si considera uguale a 100. Nell’esempio, il 30% del campione osservato è
costituito da nubili o celibi. Indicate con pi le frequenze percentuali, il loro calcolo avviene
in questo modo
ni
pi =
· 100% = fi · 100%, i = 1, . . . , k
n
La somma delle frequenze percentuali è 100%.
k
X
pi = 100%.
i=1
Le frequenze relative e quelle percentuali a differenza delle frequenze assolute permettono
un confronto immediato tra distribuzioni con numerosità diverse. Quindi quanti vedovi ci
sono e che percentuale ricoprono? Dalla Tabella 2.4, ricaviamo che ci sono 4 vedovi che
sono il 20% del nostro campione.
Quando si calcolano le tabelle con le distribuzioni di frequenza occorre prestare particolare attenzione agli arrotondamenti e alle cifre decimali. In una tabella occorre che
tutte le frequenze relative abbiano sempre lo stesso numero di decimali. Il problema è
quante cifre decimali? In genere non esiste una regola fissa, a volte può dipendere anche
da esigenze grafiche. Una regola empirica è quella di utilizzare due cifre decimali in più
rispetto a quelle dei numeri sui quali si compie l’operazione. Quindi se abbiamo numeri
interi, cioè numeri con zero cifre decimali, il rapporto può essere espresso con due cifre.
L’importante è che tutti i numeri abbiano lo stesso numero di cifre decimali. Con le cifre
2.5. DISTRIBUZIONI DI PIÙ VARIABILI CONGIUNTAMENTE
21
decimali abbiamo anche il problema dell’arrotondamento. Il numero π = 3.141593 arrotondato alla seconda cifra significativa decimale è 3.14, arrotondato a tre cifre decimali
è 3.142. Infatti arrotondiamo al numero con tre cifre decimali più vicino al numero π.
Abbiamo che 4.141 < 3.141593 < 3.142 e π è più vicino a 3.142. Quindi ogni volta che la
cifra che segue il decimale al quale si vuole arrotondare è maggiore o uguale a 5 si arrotonda al decimale successivo. Ogni volta che è minore di 5 si arrotonda al decimale stesso.
Quando si fanno gli arrotondamenti occorre prestare attenzione anche ad un altro fatto.
La somma totale delle frequenze relative deve essere uno. Può capitare che in seguito agli
arrotondamenti la somma sia più grande o più piccola di uno. In questo caso occorre fare
degli aggiustamenti diversi per far si che la somma dia uno. La regola può essere quella,
se ad esempio la somma delle frequenze relative è maggiore di 1, di arrotondare per difetto il numero decimale tra quelli arrotondati per eccesso che si discosta meno dal 5. Ad
esempio se abbiamo arrotondato a due cifre decimali le frequenze relative 0.1791, 0.1753,
0.1771, 0.4685 otteniamo 0.18, 0.18, 0.18, 0.47. La somma di dei numeri arrotondati è
1.01. osservando i 4 numeri tutti arrotondati per eccesso notiamo che quello che era più
lontano dal suo arrotondamento è 0.1753 e quindi questo sarà arrotondato a 0.17. Quindi
le frequenze relative sono 0.18, 0.17, 0.18, 0.47 e in questo caso la somma è uno. Lo stesso
ragionamento deve essere fatto se la somma è minore di 1, ma questa volta arrotondando
per eccesso il numero che arrotondato per difetto presenta il più piccolo scarto.
2.5
Distribuzioni di più variabili congiuntamente
In molti fenomeni interessa studiare la relazione, se sussiste, tra le variabili. Un caso tipico
è quello di capire se vi sia discriminazione di genere. Ad esempio ci possiamo chiedere se
vi sia una differenza tra uomini e donne nell’accesso al lavoro, nella retribuzione o anche
solo nella presa di posizione in determinate questioni politiche, sociali o economiche. In
questo caso le variabili di interesse sono almeno due, il Sesso e a seconda dell’interesse, il
Reddito o la Condizione lavorativa o altro ancora. Per studiare se esiste una qualche relazione tra le variabili prima di tutto occorre costruire la tavola delle frequenze congiunte.
Per introdurre il concetto consideriamo di nuovo i dati della Tabella 2.1. In particolare consideriamo le due variabili X=Stato Civile e Y =Grado di scolarità. Per costruire
la tabella delle frequenze delle due variabili congiuntamente dobbiamo considerare ogni
coppia di possibili valori delle due variabili. Dobbiamo contare ad esempio quanti sono i
capofamiglia coniugati e laureati. E questo va fatto per ogni modalità delle due variabili.
Dalla Tabella 2.1 è facile contare quanti sono i capofamiglia coniugati e laureati: 2. Se lo
facciamo per ogni coppia di modalità otteniamo la Tabella 2.5. Si noti che se si sommano
le frequenze assolute per riga (nella tabella sono riportate nell’ultima colonna dopo la
barra, si ottiene la distribuzione della variabile X cioè lo stato civile. In effetti la somma
22
CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
X
N
C
V
S
Totali
A
1
0
1
0
2
Y
O
1
1
2
2
6
S
3
4
0
1
8
L
1
2
1
0
4
6
7
4
3
20
Tabella 2.5: Tabella della distribuzione congiunta delle variabili X=Stato civile e
Y =Grado di scolarità. Frequenze assolute. Campione di n = 20 unità.
Y
X
N
C
V
S
Totali
A
0.05
0
0.05
0
0.10
O
0.05
0.05
0.10
0.10
0.30
S
0.15
0.20
0
0.05
0.40
L
0.05
0.10
0.05
0
0.20
0.30
0.35
0.20
0.15
1
Tabella 2.6: Tabella della distribuzione congiunta delle variabili X=Stato civile e
Y =Grado di scolarità. Frequenze relative. Campione di n = 20 unità.
delle frequenze della prima riga corrisponde al numero di capofamiglia che sono nubili o
celibi, indipendentemente dal grado di scolarità. Analogamente se si sommano le frequenze per colonna (nella tabella sono riportate nell’ultima riga dopo la barra) si ottiene la
distribuzione della variabile Y . Tali distribuzioni all’interno della tabella a doppia entrato
sono dette distribuzioni marginali, per distinguerle dalla distribuzione congiunta
delle due variabili considerate congiuntamente.
Da questa tabella si possono ricavare tutte le frequenze relative e percentuali di una
variabile dato il valore di un’altra. Ad esempio, la frequenza relativa di capofamiglia
coniugati e laureati la otteniamo dividendo la frequenza congiunta 2 per la frequenza totale
2
n = 20 quindi abbiamo fCL = 20
= 0.10. Possiamo calcolare anche la frequenza relativa
4
= 0.20, la frequenza relativa di
dei coniugati e diploma di scuola superiore, fCS = 20
1
coniugati e scuola dell’obbligo, fCO = 20 = 0.05, mentre la frequenza relativa di coniugati e
alfabeti e analfabeti, fCA = 0. Da queste si ricavano poi le frequenze percentuale nell’usuale
modo. Si può quindi costruire la distribuzione congiunta con le frequenze relative. Essa
è riportata nella Tabella 2.6. Si noti che in questa tabella occorre dare l’informazione
della numerosità campionaria, altrimenti non si è in grado di ricavarla dalla tabella delle
frequenze relativa congiunte. Dalla Tabella 2.5 possiamo ricavare anche le frequenze
condizionate. Esse rispondono a domande del tipo: tra i capofamiglia coniugati, che
2.5. DISTRIBUZIONI DI PIÙ VARIABILI CONGIUNTAMENTE
Maschi
Femmine
Iscritti alla Società
53.40
46.60
100
23
Avviati al lavoro
59.00
41.00
100
Tabella 2.7: Percentuali degli iscritti ad una società di lavoro interinale in base al sesso e alla condizione rispetto all’avviamento al lavoro. Campione di 10000 unità. Dati
dell’autore. Tra parentesi le numerosità assolute.
parte o che percentuale sono laureati? Per calcolare questa frequenza occorre considerare
solo il gruppo dei capofamiglia coniugati (che sono 7) e contare quanti tra questi sono
laureati (che sono 2). La frequenza relativa condizionata dei capofamiglia laureati tra
quelli che sono coniugati è 72 = 0.29. Ovvero il 29% dei capifamiglia coniugati è laureato.
Si noti che questa percentuale è fatta rispetto al gruppo dei capofamiglia coniugati e
non rispetto a tutti. E si noti come è diversa dalla percentuale di capofamiglia che sono
coniugati e laureati. Quest’ultima è infatti pari al 10%.
Vediamo adesso un esempio in cui occorre ricostruire le frequenze assolute di due
variabili da una tabella di frequenze percentuali.
Esempio 2.5.1. Un campione di 10000 iscritti ad una società di lavoro interinale sono
analizzati in base al sesso e all’avviamento al lavoro. Lo studio ha come obiettivo quello di
capire se ci sia discriminazione di genere. I dati percentuali sono riportati in nella Tabella
2.7. La tabella ci dice che delle 10000 unità intervistate il 53.4% sono maschi e il 46.6% sono
femmine. Per quanto riguarda la condizione lavorativa la tabella ci dice solo che tra coloro
che sono inviati al lavoro dall’agenzia di lavoro, il 59% sono uomini, il 41% sono donne.
Non ci dice però qual è, tra le donne che si è rivolta all’agenzia, la percentuale che è stata
avviata al lavoro. Per farlo dobbiamo risalire alla tabella delle frequenze assolute delle
due variabili. Le frequenze assolute si possono ricavare dalla Tabella 2.7 solo se forniamo
l’ulteriore informazione che gli avviati al lavoro sono 1700, cioè se sono date le numerosità
totali. In questo caso allora possiamo dedurre che ad esempio Il 59% di 1700 è 1003, quindi
sono 1003 gli uomini avviati al lavoro dei 5340 mentre il 41% di 1700 è 697 che sono le donne
avviate al lavoro delle 46601 . Le percentuali in questo caso ci forniscono un indicazione
del fenomeno nel suo complesso permettendo un confronto. Ricaviamo quindi la tabella
a doppia entrata delle due variabili rilevate. In questo esempio il campione è composto
da n = 10000 unità sulle quali sono state rilevate due variabili. La prima è il Sesso.
Variabile qualitativa nominale, con modalità M e F (maschio e femmina). La seconda
variabile è la Condizione lavorativa. Anche questa è una variabile qualitativa nominale, con
1
Per calcolare la quota q di un certo numero n relativa ad una percentuale p occorre risolvere la
t·p
proporzione q : t = p : 100 da cui q = 100
. Nel primo esempio 1003 = 59·1700
.
100
24
CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
Sesso
M
F
Avviato
SI
NO
1003 4337
697 3963
1700 8300
5340
4660
10000
Tabella 2.8: Tabella delle frequenze assolute degli iscritti ad una società di lavoro interinale
in base al sesso e alla condizione rispetto all’avviamento al lavoro. Campione di 10000
unità. Dati dell’autore.
modalità SI e NO. La Tabella 2.8 riporta distribuzione congiunta delle due variabili. Con
la tabella della distribuzione congiunta possiamo calcolare diverse percentuali di interesse.
Occorre fare attenzione alla numerosià rispetto alla quale si basa la percentuale. Se non
fossero fornite le frequenze marginali delle due variabili Sesso e Condizione lavorativa
non potremmo risalire alle frequenze assolute e quindi, ad esempio, calcolare la frequenza
relativa di donne avviate al lavoro: 697/4660 = 0.15 cioè il 15% e la frequenza relativa
di uomini avviati al lavoro 1003/5340 = 0.19 ciè il 19%. Si osservi che quando abbiamo
calcolato la frequenza relativa di donne avviate al lavoro: 697/4660 = 0.1495708 il risultato
è stato arrotondato a 0.15. Quindi in una tabella di frequenze relative o percentuali
occorre dare le informazioni che permettano di risalire ai dati originali, cioè occorre dare
la numerosità totale da cui si ricavano le percentuali.
2.5.1
Frequenze cumulate
Per le variabili qualitative ordinali si possono calcolare le frequenze cumulate, sia assolute
che relative che percentuali. Esse rispondono a domande del tipo: quante osservazioni vi
sono che si presentano con meno di un certo valore? Oppure: quante osservazioni vi sono
che si presentano con almeno un certo valore? Per ottenere la frequenza cumulata di una
modalità si sommano la frequenza di quella modalità e di tutte le precedenti. Per calcolare
le frequenze cumulate assolute si procede in questo modo. Siano k le modalità con
Pk
frequenze assolute n1 , n2 , . . . , nk tali che
i=1 ni = n. La prima frequenza assoluta
cumulata è uguale al valore della frequenza assoluta della prima modalità, N1 = n1 ,
la seconda frequenza assoluta cumulata è data dalla somma delle prime due frequenze
assolute, N2 = n1 + n2 . In generale la i-esima frequenza cumulata è ottenuta sommando
Pi
le prime i frequenze assolute Ni = n1 + n2 + · · · + ni =
j=1 nj . L’ultima frequenza
cumulata, la k-esima si ottiene sommando tutte le frequenze assolute e quindi è uguale a
P
n, Nk = nj=1 nj = n
Le frequenze cumulate relative si ottengono sommando le frequenze relative. Se
Pk
ci sono k modalità con frequenze relative f1 , f2 , . . . , fk tali che
i=1 fi = 1, la prima frequenza relativa cumulata è uguale al valore della frequenza relativa della prima
2.5. DISTRIBUZIONI DI PIÙ VARIABILI CONGIUNTAMENTE
Y
A
O
S
L
Totale
ni
2
6
8
4
n = 20
fi = ni /n
0.10
0.30
0.40
0.20
1.00
pi = fi · 100%
10
30
40
20
100
Ni
2
8
16
20
-
Fi
0.10
0.40
0.80
1
-
25
Pi %
10%
40%
80%
100%
-
Tabella 2.9: Tavola delle frequenze assolute (ni ), relative (fi ) e percentuali (pi ) e frequenze
cumulate assolute (Ni ), telativa (Fi ) e percentuali (Pi ) per la variabile Y grado di scolarità
nel campione dell’esempio 2.3.1. Y assume i seguenti valori: A=analfabeta o alfabeta,
O=scuala dell’obbligo, S=Diploma di scuola superiore, L=laurea o superiore
modalità, F1 = f1 , la seconda frequenza relativa cumulata F2 = f1 + f2 . In generale la i-esima frequenza cumulato è ottenuta sommando le prime i frequenze relative
P
Fi = f1 + f2 + · · · + fi = ij=1 fj , i = 1, . . . , k.
Torniamo ai dati dell’Esempio 2.3.1 e consideriamo la variabile Y Grado di scolarità.
Si tratta di una variabile qualitativa ordinale perché le sue modalità hanno un ordine
naturale. Se chiedo quanti sono i capofamiglia con meno della laurea come grado di
scolarità è una domanda a cui sono in grado di rispondere. Per calcolare le frequenze
cumulate (assolute, relative o percentuali) occorre prima calcolare le frequenze assolute,
relative e percentuali. I risultati per questa variabile sono riportati nella Tabella 2.9.
Si noti che nella riga finale, dove per le frequenze assolute, relative e percentuali, si
riportano i totali (n, la numerosità campionaria, 1, e 100% rispettivamente), per le frequenze cumulate non si riportano in quanto già presenti come ultimo valore in corrispondenza
della modalità maggiore. Quindi il numero di capofamiglia con un grado di scolarità inferiore alla laurea è data dalla frequenza assoluta cumulata corrispondente alla modalità
S. Si noti che meno non include quelli con grado di scolarità pari o superiore alla laurea.
Chiudiamo questa sezione con un altro esempio.
Esempio 2.5.2. È sto rilevato il rendimento su 350 studenti di una scuola superiore
americana. La variabile Rendimento è stata classificata secondo le seguenti modalità (I
insufficiente, S = sufficiente, B = buono e O = ottimo). I dati sono i seguenti. S, S, O,
S, O, O, B, B, B, O, O, B, O, B, B, O, I, B, O, O, B, O, B, B, B, B, O, I, S, I, I, O, B,
O, O, B, O, O, B, S, O, B, O, B, O, I, B, O, I, I, O, O, O, I, B, S, B, B, B, O, B, I, O, I,
B, O, O, O, O, B, O, B, O, B, B, B, O, O, B, S, I, O, O, O, S, S, B, S, O, I, O, B, B, I,
B, O, I, O, O, S, I, O, O, O, B, I, O, O, I, O, B, O, S, I, B, I, O, I, B, B, B, O, O, B, I, S,
O, I, O, O, O, B, B, I, B, B, B, I, S, O, O, B, B, O, S, I, B, B, I, O, B, S, O, B, B, B, B,
O, S, O, O, O, O, O, O, B, B, O, O, O, I, B, B, O, O, O, B, O, B, B, O, B, B, O, B, I,
O, O, O, B, O, O, O, I, O, O, B, O, B, O, O, O, B, S, O, O, B, O, I, O, O, S, I, O, B, O,
I, B, O, B, B, O, O, O, I, B, O, O, S, O, B, O, O, O, B, B, B, O, B, I B, B, B, O, B, B,
26
CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
xi
I
S
B
O
Totale
ni
45
23
124
158
350
fi
0.13
0.07
0.35
0.45
1.00
pi
13%
7%
35%
45%
100%
Ni
45
68
192
350
350
Fi
0.13
0.20
0.55
1
1.00
Pi
13%
20%
55%
100%
100%
Tabella 2.10: Tavola delle frequenze assolute, relative, percentuali, cumulate assolute,
cumulate relative e cumulate percentuali per la variabile Rendimento, rilevata su 350
studenti, I=insufficiente, S=sufficiente, B=buono, O=ottimo.
O, O, O, I, O, O, O, B, I, O, O, B, O, B, O, O, O, B, I, B, B, B, O, I, O, I, B, B, O, O,
O, B, O, S, O, I, O, O, O, B, B, B, B, B, B, B, I, O, O, B, O, B, O, O, B, O, O, O, B, B,
O, B, O, O, B, O, S, B, B, I, O, B, B, B, O, I, B, B, I, B, O, O, B, O, S, O, O, I, O, O,
B, O, O, O, O, B, O, B, B, O, O, B, O, B
Come si può facilmente immaginare se non vengono riassunti in una tabella questi dati
non ci forniscono nessuna informazione utile. La Tabella 2.10 riporta le frequenze assolute
ni , le frequenze relative fi , le frequenze percentuali pi , le frequenze cumulate assolute Ni , le
frequenze relative cumulate Fi e le frequenze cumulate percentuali Pi . Possiamo rispondere
alle seguenti domande direttamente dalle frequenze cumulate. Che proporzione di studenti
hanno un rendimento superiore o uguale a sufficiente? Poicé il 13% ha un rendimento
inferiore a sufficiente, il 100-13=87% ha un rendimento superiore a sufficiente. Quanti
studenti hanno un rendimento superiore o uguale a sufficiente? L’87% degli studenti ha
un rendimento superiore o uguale a sufficiente, prendendo la frequenza relativa 0.87 e
moltiplicandola per il numero di studenti 0.87*350=304.5! come è possibile? Il motivo è
legato agli arrotondamenti sulle frequenze relative. Se consideriamo le frequenze assolute il
numero di studenti con un rendimento superiore o uguale a sufficiente è 23+124+158=305!
Che proporzione di studenti hanno un rendimento inferiore a buono? Equivale a chiedere
la proporzione di studenti che hanno un rendimento inferiore o uguale a sufficiente e quindi
0.20. Che proporzione di studenti hanno un rendimento inferiore o uguale a buono? Questo
valore è dato direttamente dal valore 0.55.
Riassumendo per i dati qualitativi nominali si possono calcolare e rappresentare in una
tabella le seguenti frequenze
P
• frequenze assolute: n1 , n2 , . . . , ni , . . . , nk ; ki=1 ni = n
P
• frequenze relative: fi = nni ; ki=1 fi = 1
P
• frequenze percentuali: pi = fi 100%; ki=1 pi = 100%
Se la variabile è ordinale si possono aggiungere le
2.5. DISTRIBUZIONI DI PIÙ VARIABILI CONGIUNTAMENTE
ni
fi
Ni
Fi
Corta
17
0.28
17
0.28
Lunga
43
0.72
60
1
27
Totale
60
1
–
–
Tabella 2.11: Frequenze assolute, relative e cumulate della variabile tipo di eruzione
precedente per dati dell’Esempio 2.3.3.
• frequenze cumulate assolute: Ni =
• frequenze cumulate relative: Fi =
Pi
j=1 nj ,
Pi
j=1 fj ,
i = 1, . . . , k.
i = 1, . . . , k.
Chiudiamo questo paragrafo con un ultimo esempio
Esempio 2.5.3. Calcoalre le frequenze cumulate assolute e relative per la variabile tipo di
eruzione precedente nell’esempio dei dati del geyser Old Faithful. La Tabella 2.11 calcola
le tre frequenze per la variabile tipo di eruzione precedente. Si noti che essendoci solo due
modalità calcoliamo solo due frequenze assolute e relative e una sola cumulata, in quanto
la seconda e ultima è sempre 1.
Infine riassumiamo nel seguente elenco alcuni suggerimenti da tenere presente quando
si fornisce una tabella di frequenze:
1. Indicare sempre chiaramente cosa contiene la tabella. A chi o a cosa, dove e quando
sono stati rilevati i dati. Se necessario numerare la tavola.
2. Indicare sempre il nome ad ogni colonna e ad ogni riga. Se si usano acronimi indicare
sempre il significato.
3. Indicare sempre l’unità di misura.
4. Indicare i valori totali.
5. Incolonnare propriamente i numeri (i decimali devono stare allineati).
6. Utilizzare lo stesso numero di decimali.
7. Indicare la fonte dei dati.
Per i dati di tipo numerico discreto e continuo le tabelle di frequenza verranno presentate nel prossimo paragrafo dove saranno di ausilio per la rappresentazione grafica ti tali
distribuzioni.
CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
0
1
2
3
freq
4
5
6
7
28
C
N
S
V
stato civile
Figura 2.1: Grafico delle frequenze assolute della variabile Stato civile nell’Esempio 2.3.1.
2.6
Dati e grafici
Produrre bei grafici permette di capire molto dei dataset con solo uno sguardo. Inoltre in
genere per le persone è molto meglio capire un grafico che una tavola piena di numeri.
Vi sono diversi grafici che è possibile utilizzare per rappresentare i dati. Il tipo di
grafico dipende dal tipo di dati.
Se i dati sono qualitativi nominali possono essere rappresentati graficamente in diversi
modi:
• tramite rettangoli
• grafici a torta
• rappresentazione tramite figure
Nella rappresentazione tramite rettangoli, o barre, le modalità x1 , x2 , . . . , xk del carattere si sistemano su un segmento orizzontale in qualsiasi ordine e in modo equispaziato.
In corrispondenza di ciascuna modalità si disegnano rettangoli di stessa base e altezza
proporzionale alle frequenze ni , fi o pi .
2.6. DATI E GRAFICI
29
stato civile
C
N
V
S
Figura 2.2: Grafico a torta delle frequenze assolute della variabile Stato civile nell’Esempio
2.3.1.
Se nello stesso grafico si rappresentano più fenomeni occorre che l’altezza sia proporzionale alle frequenze fi o pi in modo da poterli confrontare.
Nella rappresentazione tramite diagrammi a torta (detti anche grafici a torta) si disegna
un cerchio e si identificano dei settori circolari la cui ampiezza (o la cui area) è proporzionale alle frequenze relative fi o percentuali pi . L’intero cerchio rappresenta quindi la
totalità del fenomeno, cioè vale 1 o 100% a seconda delle frequenze rappresentate. Anche
in questo caso i settori vengono disegnati in un ordine qualsiasi e vengono colorati con
colori diversi a seconda della modalità del carattere. Tornando al grafico riportato in
Figura 1.1 risulta lampante come l’area dell’intero cerchio non possa essere pari al 100%
in quanto sommando le frequenze percentuali il valore 100 è superato abbondantemente.
L’errore nella rappresentazione è dovuta al fatto che ogni intervistato poteva esprimere
scelte multiple sui candidati possibili e quindi la somma delle frequenze relative non poteva
essere 1.
Nella rappresentazione tramite figure si sceglie una figura per rappresentare l’unità di
30
CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
N
C
S
V
|
|
|
|
|
|
^
^
^
^
^
^
|
|
|
|
|
|
|
^
^
^
^
^
^
^
|
|
|
^
^
^
|
|
|
|
^
^
^
^
6
7
3
4
Tabella 2.12: Rappresentazione delle frequenze assolute della variabile Stato civile
nell’Esempio 2.3.1.
xi
A
O
S
L
Totali
ni
2
6
8
4
20
fi
0.1
0.3
0.4
0.2
1.0
pi
10
30
40
20
100
Ni
2
8
16
20
20
Fi
0.1
0.4
0.8
1.0
1
Tabella 2.13: Frequenze assolute, relative, percentuali, cumulate assolute e cumulate
relative del livello di scolarità nell’Esempio 2.3.1.
misura:
|
^
=
1
Si rappresentano le modalità del carattere riportando un numero di figure proporzionale alla frequenza ni . Anche in questo caso le modalità vengono sistemate in un ordine
qualsiasi.
Se la variabile è di tipo qualitativo ordinale come ad esempio la variabile livello di
scolarità (Y ) nell’Esempio 2.3.1, il grafico da utilizzare è preferibilmente il grafico a barre
o a rettangoli dove occorre solo prestare attenzione all’ordine con cui si rappresentano le
modalità che deve andare dal più basso a sinistra al più alto a destra. Si possono anche
utilizzare i grafici a torta ma sono sconsigliati perché si perte l’informazione dell’ordine. I
grafici con i disegni si possono utilizzare con l’accortezza di ordinare anche qui le modalità.
Nel caso della variabile livello di scolarità nell’Esempio 2.3.1 le modalità con cui si presenta
il fenomeno sono k = 4
x1 = A x2 = O x3 = S x4 = L
La Tabella 2.6 riporta le frequenze, mentre nella Figura 2.3 vengono rappresentati tramite
rettangoli le frequenze assolute.
31
4
0
2
freq
6
8
2.6. DATI E GRAFICI
A
O
S
L
grado scolarita'
Figura 2.3: Grafico delle frequenze assolute del livello di scolarità nell’Esempio 2.3.1.
32
CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
xi
0
1
2
3
4
ni
5
5
3
3
4
20
fi
0.25
0.25
0.15
0.15
0.20
1.00
pi
25
25
15
15
20
100
Ni
5
10
13
16
20
Fi
0.25
0.50
0.65
0.80
1.00
Tabella 2.14: Frequenze assolute, relative, percentuali, cumulate assolute e cumulate
relative del numero di figli nell’Esempio 2.3.1.
2.6.1
Distribuzioni per le variabili numeriche
Se la variabile è di tipo quantitativo numerico discreto (conteggio) la distribuzione di
frequenza si costruisce andando a contare quante volte si presentano le diverse modalità
numeriche.
La rappresentazione grafica deve essere di tipo a bastoncino o segmento e l’asse su cui
rappresentano i valori è di tipo numerico, per cui si deve prestare attenzione a come si
rappresentano i valori rispettando l’unità di misura dell’asse.
Nell’Esempio 2.3.1 la variabile numero di figli a carico (Z) è di tipo quantitativo
discreto. Le intensità con cui si presenta il fenomeno sono k = 5
x1 = 0 x2 = 1 x3 = 2 x4 = 3 x5 = 4.
Nella Tabella 2.6.1 sono riportate le frequenze, mentre nella Figura 2.4 sono rappresentate
le frequenze assolute.
Si possono anche rappresentare i grafici delle distribuzioni cumulate. Per i dati numerici discreti si riporta ogni valore della distribuzione cumulata in corrispondenza di ogni
modalità numerica. Quindi si tracciano delle linea verticali dal valore della frequenza cumulata all”asse delle ascisse e delle linee orizzontali dal valore della frequenza cumulata
di una modalità fino ad intersecare la linea verticale della modalità successiva. In questo
modo il grafico delle frequenze cumulate assume la forma di una scala che parte da zero e
fa un salto pari alla frequenza in corrispondenza di ogni modalità. La Figura 2.5 riporta
il grafico delle frequenze cumulate relative per la variabile Numero di figli dell’E sempio
2.3.1.
Se la variabile è di tipo quantitativo continuo, la frequenza con cui si ripete una
qualunque modalità è in genere uno. Quindi i tipi di grafici visti fino ad ora sarebbero privi
di informazione per dati di questo tipo. Occorre dividere i valori possibili per la variabile
in classi o intervalli e contare quanti valori cascano in ogni classe e quindi rappresentare i
dati tramite un istogramma.
33
3
2
0
1
freq. assolute
4
5
2.6. DATI E GRAFICI
0
1
2
3
4
numero di figli
Figura 2.4: Frequenze assolute del numero di figli nell’Esempio 2.3.1.
CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
1.0
Frequanze cumulate relative
0.8
●
●
0.6
●
Fi
0.4
●
0.2
●
0.0
34
−1
0
1
2
3
4
5
figli
Figura 2.5: Frequenze cumulate relative del numero di figli nell’Esempio 2.3.1.
2.6. DATI E GRAFICI
35
xi
40 a 50
50 a 58
58 a 70
70 a 95
ni
3
6
4
7
20
fi
0.15
0.30
0.20
0.35
1.00
Ni
3
9
13
20
20
ai
10
8
12
25
li
0.30
0.75
0.33̄
0.28
Tabella 2.15: Frequenze assolute, relative, percentuali, cumulate assolute ampiezza degli
intervalli e densità assoluta del reddito in euro nell’Esempio 2.3.1. Gli estremi destri degli
intervalli sono inclusi.
Ad esempio la variabile reddito in euro (W ) dell’esempio 2.3.1 è una variabile quantitativa continua
Le modalità o intensità con cui si presenta il fenomeno sono tutte distinte. Ricorriamo
allora al raggruppamento dei dati in classi. Introduciamo 4 classi e andiamo a contare i
valori che cascano in ogni classe e quindi calcoliamo le frequenze assolute relative e cumulate per ogni classe. Accanto a queste frequenze è importante anche riportare l’ampiezza
di ogni classe che denotiamo con ai e la densità di frequenza definita come il rapporto tra
la frequenza della classe e l’ampiezza della classe. Ha il significato di come le unità che
cascano in quella classe si distribuiscono nella classe. Più è alta la densità più le unità
sono dense nell’intervallo. La densità è denotata con li ed è definita come li = ni /ai . Si
possono anche definire le densità relative, come rapporto tra le frequenze relative di una
classe fi e l’ampiezza della classe, di = fi /ai . Il numero di classi e l’ampiezza delle classi
dipende dal numero di dati e dai valori. In genere meno sono i dati meno sono le classi
e l’ampiezza deve essere fissata in modo che in ciascun intervallo caschi almeno un certo
numero di unità. Anche la scelta degli estremi inferiore e superiore del primo e dell’ultimo
intervallo rispettivamente è arbitraria. Il calcolo delle frequenze e la determinazione delle
classi per la variabile reddito in euro dell’esempio 2.3.1 sono riportati nella Tabella 2.15,
mentre l’istogramma è rappresentato nella Figura 2.6.
Per costruire un istogramma i passi da seguire sono i seguenti:
1. Si suddividono i valori osservati in r classi: si denota con ai l’ampiezza della i-esima
classe, i = 1, . . . , r
2. Si dispongono i valori degli estremi degli intervalli delle classi sull’asse delle ascisse
rispettando l’unità di misura dell’asse.
3. Si calcolano le frequenza assolute o relative per ogni classe: ni o fi , i = 1, . . . , r.
4. Si calcolano le densità di frequenza assoluta relativa per ogni classe: li =
ni
ai
o di =
fi
ai
36
CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
0.4
0.0
0.2
Density
0.6
Istrogramma corretto
40
50
60
70
80
90
w
Figura 2.6: Istogramma della variabile reddito in euro nell’Esempio 2.3.1. Gli estremi
destri degli intervalli sono inclusi.
2.7. ESEMPI
37
4
3
0
1
2
Frequency
5
6
7
Istogramma sbagliato!
40
50
60
70
80
90
w
Figura 2.7: Istogramma NON CORRETTO della variabile reddito in euro nell’Esempio
2.3.1 dove l’altezza dei rettangoli è la frequenza assoluta della classe.
5. Si tracciano dei rettangoli che hanno come base gli estremi dell’intervallo e come
altezza la densità di frequenza li o di .
In questo modo l’area di ogni rettangolo dell’istogramma è uguale alla frequenza assoluta
(se l’altezza è li ) o relativa (se l’altezza è di ) della classe che costituisce la base. Infatti
l’area del rettangolo è data da li · ai = ni nel primo caso e di · ai = fi nel secondo caso.
È molto importante che l’altezza dei rettangoli sia la densità (relativa o assoluta) e non
la frequenza assoluta o relativa della classe. In quest’ultimo caso si otterrebbero dei grafici
fuorvianti sul comportamento della variabile. Ad esempio si osservi come nell’istogramma
riportato nella Figura 2.7 si abbia la percezione che vi sia una grandissima parte di redditi
molto alti rispetto all’istogramma nella Figura 2.6.
2.7
2.7.1
Esempi
Il geyser Old Faithful
Per i dati considerati nell’Esempio 2.3.3 vogliamo:
38
CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
xi
40 ` 45
45 ` 50
50 ` 55
55 ` 60
60 ` 65
65 ` 70
70 ` 75
75 ` 80
80 ` 85
85 ` 90
90 ` 95
ni
1
2
7
6
1
5
6
11
13
5
3
60
fi
0.017
0.033
0.117
0.100
0.017
0.083
0.100
0.183
0.217
0.083
0.050
1
ai
5
5
5
5
5
5
5
5
5
5
5
di
0.0033
0.0067
0.0230
0.0200
0.0033
0.0170
0.0200
0.0370
0.0430
0.0170
0.0100
Tabella 2.16: Tavola dei vari tipi di frequenze della variabile Tempo di attesa tra due
eruzioni successive dai dati dell’esempio 2.3.3.
1. rappresentare la distribuzione dei tempi di attesa per tutte le eruzioni;
2. rappresentare la distribuzione dei tempi di attesa per le eruzioni che hanno l’eruzione
di tipo prcedente Corta;
3. rappresentare la distribuzione dei tempi di attesa per le eruzioni che hanno l’eruzione
di tipo prcedente Lunga;
4. calcolare la percentuale di eruzioni ha un tempo di attesa minore di 60 minuti;
5. calcolare la percentuale di eruzioni, tra quelle che hanno l’eruzione precedente di
tipo Corta, ha un tempo di attesa minore di 60 minuti;
6. calcolare la percentuale di eruzioni, tra quelle che hanno l’eruzione precedente di
tipo Lunga, ha un tempo di attesa minore di 60 minuti.
Per fare l’istogramma della distribuzione dei tempi di attesa per tutte le eruzioni
dobbiamo raccogliere i dati in classi. Costruiamo l’istogramma per la durata dei periodi
di attesa dopo ogni eruzione del geyser Old Faithful. Nella Tabella 2.16 riportiamo le
frequenze assolute ni le frequenze relative fi = nni l’ampiezza di ogni classe ai che in
questo caso è 5 per ogni classe, e la densità di frequenza relativa di = afii . Sono le quantità
necessarie per costruire l’istogramma richiesto. L’istogramma per tutti i dati è riportato
in Figura 2.8.
Consideriamo ora il sottocampione costituito dalle eruzioni con Eruzione precedente
Corta e costruiamo l’istogramma per questa distribuzione. La tabella delle frequenze è la
2.17. Le quantità che ci servono per costruire l’istogramma sono riportate nella Tavola
2.7. ESEMPI
39
0.03
0.02
0.00
0.01
Density
0.04
0.05
Istogramma delle durate per tutti i dati
40
50
60
70
80
90
100
Durata (minuti)
Figura 2.8: Istogramma della variabile Tempo di pausa. Il tempo è misurato in minuti.
40
CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
xi
ni
42
1
45
1
49
1
50
1
51
4
53
2
55
2
56
2
58
1
66
1
67
1
Tabella 2.17: Frequenze assolute della variabile Tempo di pausa tra due eruzioni successive
dai dati dell’esempio 2.3.3 solo per il sottocampione con eruzione precedente di tipo corto.
xi
40 ` 45
45 ` 50
50 ` 55
55 ` 60
60 ` 65
65 ` 70
ni
1
2
7
5
0
2
17
fi
0.06
0.12
0.41
0.29
0
0.12
1
ai
5
5
5
5
5
5
di
0.01
0.02
0.08
0.06
0
0.02
Tabella 2.18: Vari tipi di frequenze della variabile Tempo di pausa tra due eruzioni successive dai dati dell’esempio 2.3.3 solo per il sottocampione con eruzione precedente di tipo
corto.
2.18. L’istogramma è riportato nella Figura 2.9 mentre lasciamo come esercizio di costruire
una tavola analoga alla 2.18 per la variabile Durata del tempo di pausa per il sottocampione
relativo alle eruzioni con eruzione precedente lunga. L’istogramma è riportato nella Figura
2.10.
2.7.2
Un caso di attribuzione letteraria
Questo esempio riguarda gli 85 articoli sul federalismo che furono pubblicati negli Stati
Uniti per convincere i cittadini dello stato di New York a ratificare la costituzione. Gli
storici si diedero l’arduo compito di individuare chi erano gli autori di questi articoli. Per
73 di questi articoli non ci sono stati problemi di attribuzione, mentre per i restanti 12
gli storici non erano d’accordo se attribuire questi 12 scritti a Hamilton o a Madison,
entrambi due scrittori di testi politici molto famosi e attivi a quell’epoca. Il contenuto
politico non riesce a determinare quale dei due sia l’autore dei 12 scritti perché entrambi
avevano le stesse idee politiche. Gli istogrammi possono aiutare a dirimere la questione.
Gli autori tendono ad avere differenti stili di scrittura in particolare tendono ad usare
parole non contestuali con un tasso (numero di parole ogni mille) con una distribuzione
che li caratterizza. La Tabella 2.19 riporta il tasso della parola by rilevata ogni 1000
parole in 48 scritti di Hamilton (non solo quelli attribuiti a lui degli 85 sul federalismo) e
in 50 scritti di Madison (anche in questo caso non sono stati considerati solo gli scritti sul
federalismo). In un articolo del 1963, Mosteller e Wallace utilizzarono una metodologia
2.7. ESEMPI
41
0.06
0.04
0.00
0.02
Density
0.08
0.10
Durata del tempo di pausa per eruzione precedente corta
40
50
60
70
80
90
100
Durata (minuti)
Figura 2.9: Istogramma della variabile Durata del tempo di pausa per il sottocampione
con eruzione precedente di tipo Corta.
42
CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
0.06
0.04
0.00
0.02
Density
0.08
0.10
Durata del tempo di pausa per eruzione precedente lunga
40
50
60
70
80
90
100
Durata (minuti)
Figura 2.10: Istogramma della variabile Durata del tempo di pausa per il sottocampione
con eruzione precedente di tipo Lunga.
2.7. ESEMPI
43
Tasso
0a2
2a4
4a6
6a8
8 a 10
10 a 12
12 a 14
14 a 16
16 a 18
Totali
by
H
2
7
12
18
4
5
–
–
–
48
M
–
–
5
7
8
16
6
5
3
50
Tabella 2.19: Tasso della parola by in 48 scritti di Hamilton (H) e in 50 scritti di Madison
(M) (numero di ricorrenze ogni 1000 parole).
Rate
ni
0a2
–
2a4
–
4a6
2
6a8
1
8 a 10
2
10 a 12
4
12 a 14
2
14 a 16
1
16 a 18
–
Tabella 2.20: Tasso della parola by nei 12 scritti contesi sul federalismo (numero di
ricorrenze ogni 1000 parole).
statistica per l’attribuzione dei 12 scritti ad uno dei due autori. Qui prendiamo i loro dati
e tracciamo gli istogrammi (anche per i dati numerici discreti possiamo farlo).
La Tabella 2.20 riporta invece il tasso della parola by nei 12 scritti contesi sul federalismo.
Dopo aver tracciato gli istogrammi per la variabile tasso sia per gli scritti di Hamilton
che per quelli di Madison che per gli scritti contesi, il grafico riportato in Figura 2.11
sembra propendere per attribuire gli scritti contesi ad uno dei due autori senza molti
dubbi.
Si noti che per fare il confronto occorre prestare attenzione affinché in tutti i grafici
la scala sia la stessa e si utilizzano frequenze relative perché il numero di scritti è diverso
nelle tre distribuzioni.
2.7.3
Il primo bacio non si scorda mai
In questo esempio vediamo invece come le frequenze cumulate possono aiutare a capire
meglio un fenomeno. Nella Tabella 2.21 sono riportate le frequenze assolute ni , le frequenze
assolute cumulate Ni e le frequenze relative cumulate della variabile età a cui è stato dato
il primo bacio a sfondo sessuale. Si tratta di una variabile continua (l’età) ed è rilevata su
un campione di 42 giovani uomini (dati privati). Abbiamo calcolato la frequenza cumulata
44
CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
0.10
0.05
0.00
Density
0.15
Scritti di Madison
0
5
10
15
Rate
0.10
0.00
Density
Scritti di Hamilton
0
5
10
15
Rate
0.10
0.05
0.00
Density
0.15
Scritti contesi
0
5
10
15
Rate
Figura 2.11: Istogramma della variabile Tasso della parola by nei 50 scritti di Madison
(M), nei 48 scritti di Hamilton (H) e nei 12 scritti contesi sul federalismo.
2.7. ESEMPI
45
Età
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Totali
ni
1
0
1
0
3
6
5
6
12
2
4
1
0
1
42
Ni
1
1
2
2
5
11
16
22
34
36
40
41
41
42
–
Fi
0.024
0.024
0.048
0.048
0.119
0.262
0.381
0.524
0.810
0.857
0.952
0.976
0.976
1.000
–
Tabella 2.21: Età del primo bacio a carattere sessuale di 42 giovani uomini. Frequenze
assolute, frequenze cumulate e frequenze cumulate relative.
relativa perché ci interessa confrontare questo fenomeno con quello riportato nella Tabella
2.22 in cui viene rilevata sullo stesso gruppo di giovani uomini l’età in cui hanno avuto il
primo rapporto sessuale. La tabella riporta anche in questo caso le frequenze assolute ni ,
le frequenze assolute cumulate Ni e le frequenze relative cumulate.
Dalla Tabella 2.21 ad esempio leggiamo che il più alto numero di uomini ha dato il
primo bacio all’età di 15 anni (frequenza assoluta 12). Ma il dato che descrive meglio il
fenomeno è il fatto che all’età di 15 anni, 34 uomini dei 42 (ovvero l’81%) hanno già dato
il primo bacio (frequenza cumulata 34, frequenza cumulate relativa 0.81). Si deduce anche
che almeno il 50% degli uomini ha dato il primo bacio ad un’età inferiore o uguale ai 14
anni (frequenza cumulata relativa 0.52).
Dalla Tabella 2.22 invece leggiamo che che il primo rapporto sessuale è avvenuto dopo
il primo bacio (prima osservazione età=11), che il più alto numero di uomini ha avuto il
primo rapporto all’età di 18 anni (frequenza assoluta 15). Anche in questo caso il dato che
descrive meglio il fenomeno è il fatto che all’età di 18 anni, 36 uomini dei 42 (ovvero l’86%)
hanno già avuto il primo rapporto sessuale (frequenza cumulata 36, frequenza cumulate
relativa 0.86). Si deduce anche che il 50% degli uomini ha avuto il primo rapporto sessuale
ad un’età inferiore o uguale ai 17 anni (frequenza cumulata relativa 0.50). La tabella 2.23
riporta le due distribuzioni insieme. Per effettuare il confronto l’età è stata fissata da 7 a 21
anni per entrambe le distribuzioni. Le frequenze cumulate relative sono state arrotondate
alla seconda cifra significativa.
46
CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
Età
11
12
13
14
15
16
17
18
19
20
21
Totali
ni
1
0
1
4
4
5
6
15
4
1
1
42
Ni
1
1
2
6
10
15
21
36
40
41
42
–
Fi
0.02
0.02
0.05
0.14
0.24
0.36
0.50
0.86
0.95
0.98
1
–
Tabella 2.22: Età del primo rapporto sessuale di 42 giovani uomini. Frequenze assolute,
frequenze cumulate e frequenze cumulate relative.
Età
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
Totali
nB
i
1
0
1
0
3
6
5
6
12
2
4
1
0
1
0
42
NiB
1
1
2
2
5
11
16
22
34
36
40
41
41
42
42
–
FiB
0.02
0.02
0.05
0.05
0.12
0.26
0.38
0.52
0.81
0.86
0.95
0.98
0.98
1
1
–
nR
i
0
0
0
0
1
0
1
4
4
5
6
15
4
1
1
42
NiR
0
0
0
0
1
1
2
6
10
15
21
36
40
41
42
–
FiR
0
0
0
0
0.02
0.02
0.05
0.10
0.24
0.36
0.50
0.86
0.95
0.98
1
–
Tabella 2.23: Età del primo bacio a carattere sessuale e del primo rapporto sessuale di
42 giovani uomini. Frequenze assolute, frequenze cumulate e frequenze cumulate relative.
(Apice B si riferiscono all’età del primo bacio, apice R all’età del primo rapporto).
2.8. ESERCIZI
47
0.8
1.0
Età al primo bacio e del primo rapporto sessuale
0.0
0.2
0.4
F
0.6
età primo bacio
età primo rapporto
10
15
20
età
Figura 2.12: Grafico delle frequenze cumulate relative per l’età al primo bacio e l’età del
primo rapporto sessuale per 42 giovani uomini. La retta rappresenta F = 0.50.
Nella figura 2.12 le due distribuzioni sono messe a confronto. Come si può osservare
il grafico delle frequenze cumulate relative della distribuzione dell’età del primo rapporto
sessuale sta sempre sotto il grafico delle frequenze cumulate relative dell’età del primo
bacio. Questo significa che la prima distribuzione è sempre maggiore della seconda. Cioè
l’età del primo rapporto sessuale è maggiore dell’eta del primo bacio. La linea orizzontale
tracciata per F = 0.50 ci informa che l’età in cui almeno il 50% del campione ha dato il
primo bacio è 14 anni, mentre l’età in cui almeno il 50% del campione ha avuto il primo
rapporto sessuale è 17 anni. La lunghezza del segmento tra i due punti in cui la retta
F = 0.50 interseca le due linee delle frequenze cumulate relative ci informa sul fatto che
la metà della campione ha avuto il primo rapporto sessuale tre anni dopo che la metà del
campione ha dato il primo bacio.
2.8
Esercizi
Esercizio 2.8.1.
Si considerino le variabili stato civile e numero di figli della tabella 2.1.
48
CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
1. Si costruisca la tabella delle frequenze assolute congiunte delle due variabili.
2. Che percentuale di capofamiglia non ha figli?
3. Che percentuale di capofamiglia è nubile o celibe e non ha figli?
4. Tra i capofamiglia che sono nubili o celibi, che percentuale non hanno figli?
5. Tra i capofamiglia che non hanno figli che percentuale è nubile o celibe?
Esercizio 2.8.2. Dal sito corriere.it, dal quale è stata tratta la foto riportata sotto in
Figura 2.13, sono stati tratti i dati riguardante un indagine sul lavoro durante la maternità. Consideriamo solo le risposte alla domanda: Le è capitato di lavorare mentre era in
congedo di maternità? La domanda è stata rivolta a 4813 mamme lavoratrici dipendenti
e 1087 mamme lavoratrici autonome. Le percentuali delle risposte alla domanda per le
lavoratrici dipendenti sono state le seguenti:
Si è capitato e l’ho apprezzato: 8%
Si è capitato ma ne avrei fatto a meno: 11%
Si è capitato ma ho potuto decidere quando: 18%
No non è capitato: 63%
Le percentuali delle risposte alla domanda per le lavoratrici autonome son state le seguenti:
Si è capitato e l’ho apprezzato: 8%
Si è capitato ma ne avrei fatto a meno: 26%
Si è capitato ma ho potuto decidere quando: 32%
No non è capitato: 34%
1. Ricostruire la tabella delle frequenze assolute della distribuzione congiunta delle due
variabili rilevate sulle mamme: tipo di lavoro (dipendente o autonomo) e Stato
lavorativo mentre era in congedo di maternità rilevata con le 4 modalità date dalle
rispettive domante alla risposta.
2. Calcolare la distribuzione delle frequenze assolute, relative e percentuali della variabile Stato lavorativo durante la gravidanza rilevata con le 4 modalità date dalle
rispettive domante alla risposta.
3. Tra le mamme che non hanno lavorato, qual è la percentuale di mamme che hanno
un lavoro dipendente? E quella delle mamme che hanno un lavoro autonomo?
2.8. ESERCIZI
Figura 2.13: Le è capitato di lavorare durante il periodo di maternità?
Lavoratrici dipendenti
49
50
CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI
Esercizio 2.8.3.
Si faccia riferimento ai dati del Gayser Old Faithful.
1. Costruire la tabella a doppia entrata per le frequenze relative delle due variabili. Per
la variabile tempo di pausa tra due eruzioni successive si mantenga la suddivisione
in classi riportata nella Tabella 2.16.
2. Che percentuale di eruzioni hanno una durata maggiore o uguale a 60 minuti e hanno
quella precedente breve?
3. Che percentuale di eruzioni hanno una durata maggiore o uguale a 60 minuti e hanno
quella precedente lunga?
4. Tra le eruzioni che hanno la precedente di tipo breve, che percentuale hanno una
durata inferiore ai 55 minuti?
5. Che percentuale di eruzioni lunghe dura meno di 65 minuti?
6. Che percentuale di eruzioni dura meno di 65 minuti?
Capitolo 3
Valori medi
Il titolo di questo capitolo è al plurale perché come vedremo ci sono diversi tipi di medie
per un certo tipo di dati e diverse medie per diversi tipi di dati (numerici o nominali).
In inglese il termine average può indicare questo tipo di media mentre viene lasciato al
termine mean il significato di media (aritmetica) di un certo numero di valori numerici. In
italiano non abbiamo una tale ricchezza di vocaboli per cui dovremo prestare attenzione al
fatto se con il termine media ci riferiamo ad un concetto, cioè se indichiamo quel valore che
sintetizza l’intera distribuzione, oppure alla media aritmetica che è solo una delle medie
a cui si riferisce il titolo del capitolo. In genere dal contesto si capirà a cosa ci stiamo
riferendo. Quello che si vuole fare in questo capitolo è condensare in un solo numero
(quando i dati sono di tipo numerico) o in una sola caratteristica (quando sono nominali)
un intero insieme di dati relativi ad una certa variabile. Questo unico numero (nel caso
delle variabili numeriche) viene chiamato, a seconda dei casi, moda, mediana o media
(aritmetica, ma in realtà esiste anche la media armonica e altri tipi di media che non
studieremo)
3.1
La moda
La moda può essere calcolata per qualunque tipo di variabile (o di dati).
Definizione 3.1.1. La moda è la modalità per le variabili nominali (o il numero per le
variabili numeriche) che si presenta con la frequenza maggiore.
Per trovare la moda di una distribuzione bisogna allora calcolare tutte le frequenze
(è indifferente se assolute o relative) e andare a vedere a quale modalità corrisponde la
frequenza maggiore. Tale modalità è la moda della distribuzione o la moda della variabile.
A volte può capitare che due modalità abbiano la frequenza maggiore, in questo caso si
dice che la distribuzione è bi-modale. Anche quando rappresentando i dati graficamente si
osservano due picchi distanti per le frequenze si può dire che la distribuzione è bi-modale.
51
52
CAPITOLO 3. VALORI MEDI
Ad esempio nel caso dei dati sui tempi di pausa del geyser Old Faithful dell’Esempio 2.3.3.
Nella Figura 2.8 si notano due frequenze distinte nettamente più alte delle altre. In questo
caso sono presenti due nette distribuzioni come lo studio dividendo le osservazioni rispetto
alla variabile tipo di eruzione precedente mette in luce.
Esercizio 3.1.2. Calcolare la moda per i dati dell’Esempio 2.5.2 [Ris: Moda= ottimo]
Esercizio 3.1.3. Calcoalre la moda per la variabile X stato civile e Z titolo di studio dei
dati dell’Esempio 2.3.1
3.2
La media artitmetica
Riportiamo la poesia del poeta romano Trilussa (pseudonimo di Carlo Alberto Salustri,
nato nel 1871 e morto nel 1950) dal titolo che non ha bisogno di presentazioni in questo
volume e che presenta il valore medio sottolineando come il questo debba essere considerato
con attenzione e non con leggerezza.
LA STATISTICA
Sai ched’è la statistica? È ’na cosa
che serve pe fà un conto in generale
de la gente che nasce, che sta male,
che more, che va in carcere e che sposa.
Ma pè me la statistica curiosa
è dove c’entra la percentuale,
pè via che, lı̀ la media è sempre eguale
puro co’ la persona bisognosa.
Me spiego: da li conti che se fanno
seconno le statistiche d’adesso
risurta che te tocca un pollo all’anno:
e, se nun entra nelle spese tue,
t’entra ne la statistica lo stesso
perch’è c’è un antro che ne magna due.
Come vedremo introducendo la mediana, non sempre la media aritmetica di cui parla
Trilussa va bene per descrivere fenomeni come questo. Ma teniamo presente il testo della
poesia per capire il significato di media aritmetica.
3.2. LA MEDIA ARTITMETICA
53
La media aritmetica si può fare per le variabili numeriche. Se abbiamo la distribuzione
del numero dei figli possiamo calcolare la media (aritmetica) del numero di figli, se abbiamo
la distribuzione dei redditi possiamo calcolare la media (aritmetica) dei redditi.
La definizione di media aritmetica, che tra le righe della poesia possiamo cogliere è la
seguente:
Definizione 3.2.1. La media aritmetica di n valori è quel valore che se sostituito a tutti
i valori lascia inalterata la somma totale degli n valori.
Per rivederla con Trilussa, se io mangio due polli e tu zero, i due valori sono 2 e 0, il
totale dei polli in gioco, anzi meglio, mangiati è 2+0=2. La media aritmetica è 1, per la
statistica io mangio un pollo e anche tu un pollo, in totale sempre due polli si mangiano.
Se si sostituisce sia a 2 che a 0 la media, 1, la somma totale dei polli mangiati non cambia,
1+1=2.
Per calcolare operativamente la media aritmetica si procede in due passi:
1. Si sommano tutti i valori osservati
2. Si divide la somma ottenuta per il numero di valori osservati
Riprendiamo i dati dell’esempio 2.3.1 della variabile Z numero di figli. I 20 valori che
la variabile assume sulle 20 unità del campione sono:
0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 4, 4
Sommiamo tutti i valori della variabile
0 + 0 + 0 + 0 + 0 + 1 + 1 + 1 + 1 + 1 + 2 + 2 + 2 + 3 + 3 + 3 + 4 + 4 + 4 + 4 = 36
E quindi dividiamo per il numero di unità statistiche nel campione:
36
= 1.8 ∼ 2
20
Il numero medio di figli è poco meno di 2, o circa 2 figli per nucleo famigliare. (Occorre
arrotondare al numero intero più vicino, tenendo presente che il numero medio è più piccolo
di 2). In genere si usa la notazione
x̄ = 1.8 ∼ 2,
dove x̄, che si legge x-bar, o x barrato, denota universalmente la media aritmetica di n
valori. Tale scrittura viene dal fatto che se si indicano con xi gli n valori di una generica
variabile X la media aritmetica si pò scrivere con la formula
n
1X
x̄ =
xi .
n
i=1
54
CAPITOLO 3. VALORI MEDI
La somma dei venti valori della variabile numero di figli, poteva anche essere ottenuta nel
seguente modo:
0 ∗ 5 + 1 ∗ 5 + 2 ∗ 3 + 3 ∗ 3 + 4 ∗ 4 = 36
cioè facendo il prodotto di ogni modalità per il numero di volte in cui questa si presenta, ovvero la sua frequenza assoluta. Quindi la media aritmetica si può anche scrivere,
indicando con ni la frequenza assoluta in cui si presenta la modalità xi , nel seguente modo:
k
1X
ni ∗ xi .
x̄ =
n
i=1
dove k sono il numero di modalità in cui si presenta la variabile di cui stiamo calcolando
la media. Si noti che se fosse possibile avere 1.8 figli e se in tutti i 20 nuclei famigliari
fossero presenti 1.8 figli, la somma totale dei figli sarebbe 36.
Esempio 3.2.2. Calcolare la media aritmetica della variabile Reddito nell’Esempio 2.3.1.
I 20 redditi vanno sommati:
72.50 + 54.28 + 50.02 + 88.88 + 62.30 + 45.21 + 57.50 + 78.40 + 75.13 + 58.00 + 53.70+
+ 91.29 + 74.70 + 41.22 + 65.20 + 63.58 + 48.27 + 52.52 + 69.50 + 85.98 = 1288.18
e quindi la somma divisa per il numero di unità statistiche (20):
1288.18
= 64.4090
20
Il reddito medio è quindi
x̄ = 64.4090.
In questo caso possiamo affermare che se tutti i capifamiglia avessero un reddito di 64.4090
euro, la somma totale dei redditi sarebbe invariata e pari a 1288.18.
Non si può calcolare la media aritmetica di un carattere nominale. Ad esempio se
abbiamo la seguente distribuzione
M
F
Tot.
22
12
44
non possiamo fare la media tra M e F. Possiamo solo dire che in questo campione è
maggiore il numero di maschi, cioè la moda è il carattere o modalità maschio. Neppure se
fossero codificati
M=1
F=2
Tot.
22
12
44
3.2. LA MEDIA ARTITMETICA
55
non possiamo calcolare
1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1+
1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1+
2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 = 46
e quindi dire che la media è 46/44 = 1.05.
Esempio 3.2.3. Riprendiamo i dati relativi alla durata dei tempi di pausa nell’esempio
2.3.3. Consideriamo la variabile Durata del tempo di pausa nel caso l’eruzione precedente
sia di tipo corto. Sono 17 osservazioni del campione che per comodità riportiamo nella
seguente tabella.
xi
ni
42
1
45
1
49
1
50
1
51
4
53
2
55
2
56
2
58
1
66
1
67
1
Calcoliamo la media aritmetica del tempo di pausa per questo sottocampione.
1. Prima si sommano tutti i valori tenendo presente che alcuni di essi si presentano più
di una volta:
42 + 45 + 49 + 50 + 51 + 51 + 51 + 51 + 53 + 53 + 55 + 55 + 56 + 56 + 58 + 66 + 67= 909
2. Si divide il risultato per il numero di valori, in questo caso n = 17:
909
= 53.47
17
Si dice che la media aritmetica dei tempi di pausa tre due eruzioni successive quando
la precedente è di tipo Corto è di 53.47 minuti. La media aritmetica si denota quasi
universalmente con la x barrata. Ovvero si scrive
x̄ = 53.47.
Dal punto di vista inferenziale si può interpretare che se mi metto seduto accanto
al geyser che ha appena avuto un eruzione di tipo corto, mi aspetto di dover aspettare
(scusate il gioco di parole!) circa 53 minuti prima di vedere il geyser emettere il suo
spruzzo di vapore.
Tornando alla definizione, se si sostituisce ai 17 valori osservati il valore medio calcolato
x̄ = 53.47 abbiamo che la somma totale dei tempi di attesa non cambia, infatti sommare
per 17 volte il valore 53.47 equivale a calcolare il prodotto 53.47 · 17 = 908.99 che è uguale
a 909 a meno degli arrotondamenti.
In modo analogo si può calcolare la media aritmetica per il tempo di attesa tra due
eruzioni quando il tipo di pausa prcedente è di tipo lungo. Si ottiene x̄ = 78.19. Mentre
il tempo medio di attesa calcolato per tutte le 60 eruzioni risulta: x̄ = 71.183
56
CAPITOLO 3. VALORI MEDI
Sfruttando la definizione di media aritmetica la media totale di tutti i tempi di attesa
si può anche ottenere come
17 ∗ 53.47 + 43 ∗ 78.19
4271.16
=
= 71.186
60
60
che a meno degli arrotondamenti è la media calcolata.
Esercizio 3.2.4. Calcolare la media aritmetica della variabile Numero di figli nell’Esempio 2.3.1. Risultato: x̄ = 1.8. Cosa significa che la media aritmetica è 1.8 figli?
3.2.1
Media aritmetica per i dati in classi
I dati che provengono da variabili continue di solito vengono forniti direttamente in classi.
Occorre verificare che essendo il dato la realizzazione di una variabile continua le classi
abbiano sempre la forma (a, b] oppure [a, b), dove con la parentesi tonda si intende che
il valore corrispondente non appartiene a quella classe, mentre con la parentesi quadra
si intende che il valore appartiene alla classe. Se le modalità nelle classi non dovessero
essere in questa forma dobbiamo sempre riscriverle in questo modo per facilitare i conti
che dovremo fare per calcolare i valori medi.
Riprendiamo l’esempio della variabile W reddito per i dati dell’Esempio 2.3.1. Supponiamo che i dati siano forniti in classi invece che i singoli valori originali. Quando i dati
sono raccolti in classi e non possiamo risalire ai dati originari da cui sono state costruite
le classi per calcolare la media aritmetica dobbiamo fare delle ipotesi. Nel senso che dobbiamo ipotizzare un valore della classe che rappresenta tutti valori che rientrano in quella
classe. La scelta più naturale è scegliere il valore centrale della classe. Per determinare i
punti centrali abbiamo una formula: se l’intervallo è [a, b) oppure (a, b], il punto centrale
si ottiene sommano gli estremi e dividendo per due
Punto
centrale =
a+b
2
Nella Tavola 3.1 sono riportati i valori centrali, che si ottengono facendo la semisomma
dei valori degli estremi della classe. Si noti che abbiamo cambiato, rispetto alla Tavola
2.15, l’estremo superiore dell’ultima classe per ottenere anche in questo caso un valore
intero. Per calcolare la media aritmetica occorre quindi moltiplicare ogni valore centrale
per la frequenza della classe, sommare tutti i valori ottenuti e dividere per il numero totale
di osservazioni:
k
1X
x̄ =
ci ∗ ni
n
i=1
dove nella formula, ci è il valore centrale della classe i-esima, k sono il numero di classi
e ni è la frequenza assoluta di ogni classe. Per i dati della variabile W della Tavola 3.1
3.2. LA MEDIA ARTITMETICA
57
classi
40 a 50
50 a 58
58 a 70
70 a 96
ni
3
6
4
7
20
ci
45
54
64
83
ci · ni
135
324
256
581
1296
Tabella 3.1: Frequenze assolute, relative della variabile reddito in euro nell’Esempio 2.3.1.
Gli estremi destri degli intervalli sono inclusi. Sono riportati i calcoli per ottenere la media
del reddito. ci valore centrale.
età
meno di 12
13-24
25-34
35-44
45-54
55-64
65-74
75 e più
Totale
Uomini
84
282
391
281
187
168
79
45
1517
Donne
75
297
355
168
127
137
82
132
1373
totale
159
579
746
449
314
305
161
177
2890
Tabella 3.2: Persone pendolari verso un luogo diverso dalla propria abitazione per sesso e
classe di età - Anno 2009 (dati in migliaia). Indagine ISTAT su famiglia e soggetti sociali.
otteniamo quindi
x̄ =
1296
= 64.8
20
Si noti come il valore ottenuto, che è una approssimazione della media aritmetica del
campione, è comunque molto simile al valore ottenuto quando i dati non sono raccolti in
classi.
Vediamo un altro esempio. Dall’indagine dell’ISTAT sulle famiglie e i soggetti sociali
sono presi i dati della Tabella 3.2. Si tratta di tre distribuzioni dell’età dei pendolari
considerati in base al sesso. Vogliamo calcolare l’età media dei pendolari e capire se c’è
differenza tra l’età degli uomini e delle donne.
Poiché l’età è un carattere continuo tutti i valori devono essere considerati. Nella
Tabella 3.3, abbiamo quindi modificato gli estremi dell’intervallo, perché chi ad esempio ha
24 anni e mezzo appartiene alla terza classe non alla seconda. In questa tabella l’intervallo
(a, b] è rappresentato con i simboli a a b. Si noti che per l’ultima classe non era dato
l’estremo superiore quindi abbiamo fatto l’ipotesi che fosse 84, per analogia alle classi
58
CAPITOLO 3. VALORI MEDI
età
0 a 12
12 a 24
24 a 34
34 a 44
44 a 54
54 a 64
64 a 74
74 a 84
Totale
valore centrale
6
18
29
39
49
59
69
79
–
Uomini
84
282
391
281
187
168
79
45
1517
Donne
75
297
355
168
127
137
82
132
1373
totale
159
579
746
449
314
305
161
177
2890
Tabella 3.3: Persone pendolari verso un luogo diverso dalla propria abitazione per sesso e
classe di età - Anno 2009 (dati in migliaia). Indagine ISTAT su famiglia e soggetti sociali.
precedenti. Capita spesso che per la prima e l’ultima classe non siano dati gli estremi
inferiore e superiore rispettivamente.
Per la moda possiamo dire che la classe modale è sia per gli uomini che per le donne
(24, 34]. La moda però non è molto informativa in questo caso. Di solito non si usa per i
dati raccolti in classi.
Per la media aritmetica dovremmo conoscere l’età di ogni unità che casca in una classe.
Poiché non la conosciamo facciamo l’ipotesi che le unità siano distribuite uniformemente
all’interno della classe, che equivale a ipotizzare che tutti abbiano l’età che casca nel punto
centrale dell’intervallo che determina la classe. Ad esempio il punto centrale della classe
(24, 34] è 29. Quindi per calcolare la media dobbiamo calcolare tutti i punti medi e quindi
calcolare la media della nuova distribuzione. Per calcolare la media dell’età degli uomini,
i conti sono riportati nella Tavola 3.4 in cui l’età 6 si presenta 84 volte, l’età 18 si presenta
282 volte e cos via. La media dell’età dei pendolari uomini è si calcola prima facendo il
prodotto di ogni età per la frequenza con cui si presenta:
6 ∗ 84 + 18 ∗ 282 + 29 ∗ 391 + 39 ∗ 281 + 49 ∗ 187 + 59 ∗ 168 + 69 ∗ 79 + 79 ∗ 45 = 55959
e quindi si digita per il numero di osservazioni:
55959
= 36.89.
1517
Si calcoli la media dell’età per le donne e la media dell’età per tutto il campione
costruendo le analoghe tabelle delle frequenze per il calcolo della media partendo dai
valori centrali delle classi. I risultati sono: media etè donne 38.62, media età per tutto
il campione 37.71. Possiamo concludere che le donne che fanno le pendolari hanno quasi
due anni di più degli uomini.
3.3. LA MEDIANA
59
età
0 a 12
12 a 24
24 a 34
34 a 44
44 a 54
54 a 64
64 a 74
74 a 84
Totale
ci
6
18
29
39
49
59
69
79
–
ni
84
282
391
281
187
168
79
45
1517
ci ∗ ni
504
5076
11339
10959
9163
9912
5451
3555
55959
Tabella 3.4: Calcolo dell’età media degli uomini pendolari verso un luogo diverso dalla
propria abitazione - Anno 2009 (dati in migliaia). Indagine ISTAT su famiglia e soggetti
sociali.
3.3
La mediana
La mediana è un modo alternativo di calcolare il valor medio di una distribuzione inteso
come quel valore che sintetizza al meglio la distribuzione dei dati (l’average inglese) e quindi
descrive meglio il fenomeno oggetto di studio. Forziamo la mano a Trilussa. Supponiamo
di avere 10 persone, una di essa che mangia 10 polli e le altre nove che non ne mangiano
neppure uno. Abbiamo 10 valori, x1 = 10 e gli altri valori xi = 0 per i = 2, 3, . . . , 10. La
media aritmetica del numero di polli mangiati a testa è ancora 1, cioè per dirla con Trilussa
il pollo di media t’entra ne la statistica lo stesso perch’è c’è un antro che ne magna dieci!.
Si capisce che in questo caso la media non descrive bene la distribuzione del numero di
polli che si mangiano questi 10 cristiani! La mediana è un modo alternativo di riassumere
la distribuzione che tiene conto di questa disparità.
Definizione 3.3.1. La mediana è l’osservazione, cioè quel valore tra quelli osservati, che
ha alla sua sinistra (cioè più bassi o uguali a se) almeno la metà più una delle osservazioni
e alle sua destra, (cioè più alti) al più l’altra metà delle osservazioni.
La mediana è quindi quel valore che divide divide in due parti uguali le osservazioni.
Vediamo le operazioni per calcolarla.
1. Si ordinano le n osservazioni dalla più piccola alla più grande.
2. Si calcola il valore
n+1
2 .
(a) Se n è dispari l’osservazione che sta nella posizione
n+1
2 -esima
è la mediana.
(b) Se n è pari si prendono le due osservazioni centrali, quella che occupa la posizione n2 -esima e quella che occupa la posizione n2 + 1-esima e la mediana è data
dalla media aritmetica di queste due osservazioni.
60
CAPITOLO 3. VALORI MEDI
La mediana può essere calcolata per tutte le variabili le cui modalità possono essere ordinate, quindi per le variabili numeriche, sia discrete che continue, ma anche per le variabili
qualitative ordinali. Vediamo un esempio.
Esempio 3.3.2. Si considerino i dati relativi al titolo di studio osservato su n = 11
persone. Il titolo di studio è classificato secondo le modalità: Licenza Media=M, Diploma
di scuola Superiore=S, Laurea=L, Master o Dottorato=D. Le osservazioni sono
D L L M
S M
L S S M
S
Cominciamo con ordinare le osservazioni:
Osservazioni : M
P osizione :
1a
M
2a
M
2a
S S S S L L L
D
a
a
a
a
a
a
a
4 5 6 7 8 9 10 11a
Calcoliamo la posizione mediana:
11 + 1
n+1
=
=6
2
2
La mediana è il valore dell’osservazione che occupa la 6a posizione cioè:
P osM e =
Me = S
La mediana è Diploma di scuola Superiore. Si noti che 7 osservazioni (quindi almeno la
metà) hanno un titolo di studio inferiore o uguale a quello mediano, mentre 4 osservazioni
(al più la metà) hanno un titolo di studio superiore a quello mediano.
Si considerino ora i dati relativi al titolo di studio osservato su n = 10 persone. Le
osservazioni sono
D L L M S M L S S S
Rispetto al campione di prima abbiamo un’osservazione in meno. Ordiniamo le osservazioni:
Osservazioni : M M S S S S L L L D
P osizione :
1a 2a 2a 4a 5a 6a 7a 8a 9a 10a
Calcoliamo la posizione mediana:
n+1
10 + 1
=
= 5.5
2
2
Devo considerare i valori che occupano la 5a e la 6a posizione. In entrambi i casi il valore
è S per cui la mediana è:
M e = S.
P osM e =
Nel caso in cui le osservazioni fossero state (le riportiamo già ordinate)
Osservazioni : M
P osizione :
1a
M
2a
M
2a
S S L L L L D
4a 5a 6a 7a 8a 9a 10a
Poichè le due posizioni centrali sono occupate da ue modalità diverse la mediana non è
definita perché non si può fare la media aritmetica di due valori nominali S e L.
3.3. LA MEDIANA
61
La mediana può essere calcolata con la tabella delle frequenze relative cumulate. Infatti
poiché la mediana è quel valore che lascia alla propria sinistra almeno la metà delle osservazioni più una, essa può essere determinata come la modalità la cui frequenza relativa
cumulata supera per la prima volta il valore 0.50. Ad esempio per la prima distribuzione
la tabella delle frequenze relative cumulate è
T itolo ni
M
3
S
4
L
3
D
1
T otali 11
fi
Fi
0.27 0.27
0.37 0.64
0.27 0.91
0.09
1
1
−
La prima frequenza relativa cumulate che supera 0.50 è 0.64 e la modalità corrispondente
è S. Per la seconda distribuzione la tabella per il calcolo delle frequenze cumulate relative
è:
T itolo ni fi
Fi
M
2 0.20 0.20
S
4 0.40 0.60
L
3 0.30 0.90
D
1 0.10
1
T otali 10
1
−
La prima frequenza relativa cumulate che supera 0.50 è 0.60 e la modalità corrispondente
è S.
Consideriamo le n = 17 osservazioni nell’esempio 2.3.3 relative alla variabile Durata
del tempo di pausa nel caso l’eruzione precedente sia di tipo corto. Le 17 osservazioni
ordinate dalla più piccola alla più grande sono:
42, 45, 49, 50, 51, 51, 51, 51, 53, 53, 55, 55, 56, 56, 58, 66, 67
Poiché n è dispari, calcoliamo il valore n+1
= 9. La nona osservazione è il valore 53,
2
dunque la mediana è 53. Scriveremo M e = 53.
Consideriamo adesso le n = 60 osservazioni nell’esempio 2.3.3 relative alla variabile
Durata del tempo di pausa indipendentemente dal valore della variabile Tipo di pausa
precedente.
Questi sono i valori ordinati della durata della pausa dopo un eruzione del Gaiser Old
Faithful.
42
68
80
45
69
80
49
70
80
50
71
81
51
72
82
51
73
82
51
73
82
51
74
83
53
75
83
53
75
84
55
75
84
55
75
84
56
76
85
56
76
86
57
76
86
58
76
86
60
76
88
66
79
90
67
79
91
67
80
93
Per calcolare la mediana, poiché n è pari, 60+1
2 = 30.5, prendiamo i valori nella posizione
n
n
2 = 30 e 2 + 1 = 31, sono 75 e 75, per cui la mediana è M e = 75.
62
CAPITOLO 3. VALORI MEDI
Tornando all’esempio dei polli, se una persona mangia 10 polli e nove persone zero
polli, la distribuzione ordinata delle osservazioni è
0, 0, 0, 0, 0, 0, 0, 0, 0, 10
il valore (10+1)/2 = 5.5, i due valori che occupano la quinta e la sesta posizione sono 0 e 0,
per cui la mediana è zero. Quindi la mediana di questa distribuzione descrive molto meglio
il fenomeno: il numero medio (inteso come sintesi della distribuzione) di polli mangiati da
ciascuno è zero, non 1, con buona pace di Trilussa.
3.3.1
Mediana per i dati in classi
Per il calcolo della mediana quando i dati sono raccolti in classe il metodo migliore è il
metodo grafico. Vediamo i passi per ottenerla
1. Costruiamo il grafico delle frequenze cumulate relative.
2. Individuiamo sull’asse delle ordinate il valore F = 0.50.
3. Tracciamo la retta orizzontale in corrispondenza di F = 0.50 fino ad incontrare la
spezzata delle frequenze cumulate relative.
4. Tracciamo la retta verticale dal punto dove la retta F = 0.50 incontra la spezzata
delle frequenze cumulate relative fino all’incontro dell’asse.
5. La mediana è il punto dove questa retta incontra l’asse delle ascisse.
Questo metodo grafico è in realtà dedotto da un metodo analitico, si individua la classe
mediana, come quella classe in cui la frequenza cumulata relativa è uguale o supera il valore
F = 0.50. Se la cumulata relativa è esattamente 0.50 la mediana è l’estremo superiore della
classe. Sia che sia incluso sia che non lo sia nell’intervallo. Se il valore della frequenza
cumulata supera 0.50, si cerca il valore sull’asse delle ascisse al quale corrisponde sulla
spezzata delle frequenze cumulate il valore sull’asse delle ordinate di 0.50. La formula
è la seguente. Indichiamo con F − e F + i valori delle frequenze cumulate della classe
prima della classe mediana e della classe mediana rispettivamente. Indichiamo con xa e xb
l’estremo inferiore e l’estremo superiore della classe mediana, indipendentemente se siano
inclusi o esclusi dall’intervallo. La mediana è data da
M e = xa +
xb − xa
(0.50 − F − )
F+ − F−
(3.1)
Si noti che se la classe mediana ha come frequenza cumulata esattamente 0.50, allora
nella formula sopra F + = 0.50 e la mediana è proprio xb , l’estremo superiore della classe
mediana. Vediamo un esempio con i dati dell’esempio dell’indagine dell’ISTAT sulle famiglie e i soggetti sociali. Nella Tabella 3.5 sono calcolate le frequenze cumulate relative.
3.3. LA MEDIANA
63
età
0 a 12
12 a 24
24 a 34
34 a 44
44 a 54
54 a 64
64 a 74
74 a 84
Totale
Uomini
84
282
391
281
187
168
79
45
1517
Ni
84
366
757
1038
1225
1393
1472
1517
–
Fi
0.06
0.24
0.50
0.68
0.81
0.92
0.97
1
–
Tabella 3.5: Uomini pendolari verso un luogo diverso dalla propria abitazione per sesso e
classe di età - Anno 2009 (dati in migliaia). Indagine ISTAT su famiglia e soggetti sociali.
40
50
58
70
xi
a 50
a 58
a 70
a 95
ni
3
6
4
7
20
fi
0.15
0.30
0.20
0.35
1.00
Ni
3
9
13
20
20
ai
10
8
12
25
Fi
0.15
0.45
0.65
1
Tabella 3.6: Redditi di 20 capofamiglia.
Dalla colonna delle frequenze cumulate relative deduciamo che la classe (24, 34] è la classe
mediana. Notiamo poi che la frequenza relativa cumulata è proprio 0.50. La mediana
in questo caso è l’estremo superiore della classe mediana, 34 anni. Consideriamo ora la
Tabella 3.6, che riporta i dati del reddito dell’Esempio 2.3.1.
La classe mediana è (58, 70]. Quindi xa = 58 xb = 70. La frequenza cumulata della
classe mediana è F + = 0.65, la frequenza cumulata della classe prima della mediana è
0.45. Applicando la formula per la mediana otteniamo
M e = 58 +
70 − 58
(0.50 − 0.45) = 61
0.65 − 0.45
La mediana del reddito è 61000 euro. (Ricordiamo che i dati del reddito erano in migliaia
di euro). Vediamo un ultimo esempio. L’età mediana delle donne pendolari. La Tabella
3.7 contiene i dati per il calcolo della mediana. Dalla formula 3.1 abbiamo
M e = 24 +
34 − 24
(0.50 − 0.27) = 32.85
0.53 + −0.27
L’etè mediana delle donne pendolari è 33 anni.
Esercizio 3.3.3. Fare il grafico delle frequenze cumulate relative dei dati nelle Tabelle 3.5,
3.6 e 3.7. Dedurre con il metodo grafico il valore della mediana per le tre distribuzioni.
64
CAPITOLO 3. VALORI MEDI
età
0 a 12
12 a 24
24 a 34
34 a 44
44 a 54
54 a 64
64 a 74
75 a 84
Totale
Donne
75
297
355
168
127
137
82
45
1373
Ni
75
372
727
895
1022
1159
1254
1373
–
Fi
0.05
0.27
0.53
0.65
0.74
0.84
0.90
1
–
Tabella 3.7: Donne pendolari verso un luogo diverso dalla propria abitazione per sesso e
classe di età - Anno 2009 (dati in migliaia). Indagine ISTAT su famiglia e soggetti sociali.
Esercizio 3.3.4. Calcolare la mediana dell’età del primo bacio e dell’età del primo rapporto sessuale per i dati nella Tabella 2.23. Dedurre con il metodo grafico il valore della
mediana per le due distribuzioni facendo riferimento alla Figura 2.12.
3.4
Simmetria e asimmetria
L’istogramma dei dati ci permette di capire se la distribuzione dei dati è di tipo asimmetrico o simmetrico. Possiamo tracciare seguendo la forma dell’istogramma una curva continua
che mostra la distribuzione dei dati. La Figura 3.1 si riferisce ai tempi di sopravvivenza di
128 pazienti operati per un tumore ai polmoni (dati personali). Quando la distribuzione,
come quella in figura, mostra la maggior parte dei dati nella parte sinistra o mostra valori
bassi, con pochi valori alti, si dice che la distribuzione presenta un’asimmetria positiva. In
questo caso la media assume un valore più alto della mediana. Quando succede il contrario
(tanti valori alti e pochi bassi), e quindi la media aritmetica è minore della mediana si dice che la distribuzione presenta un’asimmetria negativa. Quando invece la distribuzione è
simmetrica la media e la mediana hanno lo stesso valore. La più importante distribuzione
simmetrica della statistica è la distribuzione Normale. Se i dati sono distribuiti in modo
simmetrico attorno ad una valore centrale e la loro distribuzione ha la cosiddetta forma a
campana, come nella Figura 3.2 dove abbiamo l’istogramma relativo a 1000 osservazioni
di una distribuzione simmetrica, si dice che i dati seguono una distribuzione Normale, che
qui è tracciata con una linea continua. Torneremo ancora molte volte a questa distribuzione perché è la distribuzione più importante di tutta la statistica. I dati provenienti
da indagini sul peso e sull’altezza di una popolazione seguono spesso una distribuzione
Normale. Questo poiché la maggior parte dei pesi o delle altezze, si distribuiscono attorno
ad un valore centrale, in modo simmetrico a sinistra o a destra e di solito con pochi valori
65
Density
0.00
0.05
0.10
0.15
0.20
3.5. QUALE MEDIA SCEGLIERE?
0
5
10
15
t
Figura 3.1: Tempi di sopravvivenza di 128 pazienti operati per un tumore ai polmoni. La
media aritmetica dei tempi è 10 anni. La mediana è 2.3 anni (2 anni e poco più di 3 mesi).
particolarmente alti o bassi.
3.5
Quale media scegliere?
Il compito della media (average) o valore centrale è quello di sintetizzare un’intera distribuzione di dati, quindi l’informazione che ci fornisce deve essere il più possibile vicino alla
distribuzione che li sintetizza. Diamo qui qualche suggerimento non esaustivo per la scelta
della media per una distribuzione di dati.
1. La moda va usata solo per i dati qualitativi. Quasi mai per i dati quantitativi a
meno che la distribuzione sia bimodale. In questo caso fornire il valore delle due
mode è più indicativo che fornire la media o la mediana che farebbero scomparire
l’informazione sulle due sottopopolazioni probabilmente presenti.
2. Quando si è in presenza di distribuzioni asimmetriche è meglio utilizzare la Mediana,
perché la media aritmetica risente dei pochi valori particolarmente alti o bassi come
nel caso dell’Esempio rappresentato in Figura 3.1.
3. Se i dati hanno una distribuzione simmetrica è preferibile utilizzare la media aritmetica.
66
CAPITOLO 3. VALORI MEDI
0.2
0.0
0.1
Density
0.3
0.4
Distribuzione simmetrica, normale
−3
−2
−1
0
1
2
3
x
Figura 3.2: Istogramma di 1000 osservazioni normale e distribuzione Normale (linea
continua). La distribuzione è simmetrica.
4. Se i dati sono soggetti ad errori (ad esempio dovuti alla registrazione) è meglio
anche in questo caso utilizzare la Mediana, in quanto la media è molto influenzata
da osservazioni particolarmente diverse o inusuali. La mediana invece non risente di
questi valori.
3.6
Quartili, percentili e quantili
I quartili e i percentlli o più in generale i quantili sono indici di posizione. Individuano
l’osservazione che lascia alla sua sinistra almeno il 25% delle osservazioni (primo quartile),
almeno il 75% delle osservazioni (terzo quartile), almeno una percentuale p di osservazioni
(p-esimo percentile).
Definizione 3.6.1 (Primo quartile). Quel valore che lascia alla sua sinistra il (o almeno
il) 25% delle osservazioni.
Definizione 3.6.2 (Terzo quartile). Quel valore che lascia alla sua sinistra il (o almeno
il) 75% delle osservazioni.
Definizione 3.6.3 (p-esimo percentile). Per p = 1, 2, . . . , 100 è quel valore che lascia alla
sua sinistra il (o almeno il) p% delle osservazioni.
3.6. QUARTILI, PERCENTILI E QUANTILI
67
Dalle definizioni appena date risulta evidente che il 25-esimo, il 50-esimo e il 75-esimo
percentile sono rispettivamente il primo quartile, la mediana e il terzo quartile. Inoltre il
secondo quartile è la mediana. La procedura per calcolare un’approssimazione dei quartili
o dei percentili si può riassumere nei seguenti passi.
• Si ordinano i valori osservati dal più piccolo al più grande.
• Si calcolano i valori 0.25(n + 1) (primo quartile), 0.75(n + 1), (terzo quartile) ovvero
p
(n + 1) (p-percentile).
il valore 100
• Se è intero l’osservazione che occupa la posizione data dal valore calcolato è il primo
quartile o il terzo quartile o p-esimo percentile.
• Se non è intero si calcola la media (pesata) tra i due valori le cui posizioni precedono
e seguono il valore calcolato.
Si osservi che per semplicità si può prendere il valore medio tra i valori nelle posizioni
indicate. Il valore del quantile corrispondente dovrebbe essere il valore proporzionale alla
parte decimale tra le due osservazioni nelle posizioni date dai due interi che precedono
e seguono il valore non intero calcolato. Se n è elevato conviene procedere calcolando le
frequenze relative cumulate, facendo il grafico di questa ultimo e procedendo trovando il
valore per cui la frequenza relativa cumulata vale quando il percentile che si deve calcolare.
Il valore dell’osservazione per la quale la frequenza relativa cumulata supera 0.25, 0.75,
ovvero p/100 dove p = 1, . . . , 99 è detto primo quartile, terzo quartile o p-esimo percentile.
Esempio 3.6.4. Calcoliamo i quartili e i percentili per i dati dei tempi di pausa prima
di un’eruzione del geyser Old Faithful. I valori ordinati della durata della pausa dopo un
eruzione sono
42
58
75
82
45
60
75
82
• Mediana:
M e = 75.
49
66
76
83
60+1
2
50
67
76
83
51
67
76
84
51
68
76
84
51
69
76
84
51
70
79
85
53
71
79
86
53
72
80
86
55
73
80
86
55
73
80
88
56
74
80
90
56
75
81
91
57
75
82
93
= 30.5. Posizioni 30 e 31, sono i valori 75 e 75, per cui la mediana è
• Primo Quartile: 0.25(61) = 15.25. Posizioni 15 e 16: sono i valori 57 e 58. Il primo
quartile è Q1 = 57.5
• Terzo Quartile: 0.75(61) = 45.75. Posizioni 45 e 46: sono i valori 82 e 82. Il terzo
quartile è Q3 = 82
• Quinto percentile: 0.05(61) = 3.05. Posizioni 3 e 4: sono i valori 49 e 50. Il quinto
percentile è P5 = 49.5
68
CAPITOLO 3. VALORI MEDI
• 95-esimo percentile: 0.95(61) = 57.95. Posizioni 57 e 58: sono i valori 88 e 90. Il
novantacinquesimo percentile è P95 = 89
3.7
Il box-plot
Il box blot è un grafico che permette di dare una rappresentazione della distribuzione di
una variabile molto immediata tramite il calcolo dei quartili e della mediana. Il nome
deriva dal fatto che la distribuzione di una variabile statistica viene rappresentata come
una scatola. Per disegnare il box plot la procedura può essere riassunta dai seguenti passi.
1. gli estremi della scatola sono Q1 e Q3
2. la scatola è tagliata dalla mediana
3. Si calcola il valore Q3 + 1.5 · (Q3 − Q1 ). Il basso superiore coincide con la più grande
osservazione minore o uguale a questo valore.
4. Si calcola il valore Q1 − 1.5 · (Q3 − Q1 ). Il baffo inferiore coincide con la più piccola
osservazione maggiore o uguale a questo valore.
5. Tutti i valori fuori dai baffi si segnano come punti isolati.
Esempio 3.7.1. Consideriamo sempre i dati del geyser Old Faithful nei due gruppi rispetto al tipo di eruzione precedente. Le 43 osservazioni con eruzione precedente di tipo
Lunga ordinate sono le seguenti.
57
74
79
83
90
60
75
79
83
91
67
75
80
84
93
68
75
80
84
69
75
80
84
70
76
80
85
71
76
81
86
72
76
82
86
73
76
82
86
73
76
82
88
Le 17 osservazioni con eruzione precedente di tipo Corta ordinate sono le seguenti.
42
55
45
55
49
56
50
56
51
58
51
66
51
67
51
53
53
Per disegnare il box plot del primo gruppo calcoliamo prima le posizioni della mediana e
del primo e terzo quartile. Esse sono rispettivamente le posizioni
n+1
44
=
= 22,
2
2
n+1
44
=
= 11,
4
4
3
n+1
44
= 3 = 33,
4
4
Quindi la mediana occupa la 22-esima posizione, è il valore 79. Il primo quartile occupa
la 11-esima posizione, si tratta del valore 74. Il terzo quartile occupa la posizione 33, si
tratta del valore 84. Per calcolare i baffi valutiamo dapprima la distanza interquartile.
Q3 − Q1 = 10
3.8. SOLUZIONE DEGLI ESERCIZI ASSEGNATI
69
Quindi
Q3 + 1.5 · (Q3 − Q1 ) = 99,
Q1 − 1.5 · (Q3 − Q1 ) = 59.
La più grande delle osservazioni minori o uguali a 99 è 93. Quindi il baffo superiore viene
posto in corrispondenza a 93 poiché non ci sono altre osservazioni maggiori. Per il baffo
inferiore una osservazione è più piccola di 60. Quindi il baffo inferiore viene posto in
corrispondenza del valore 60. Essendoci ancora un valore più piccolo di 60, il 57, questo
viene rappresentato singolarmente. Analogamente per il secondo gruppo otteniamo
18
n+1
18
n+1
18
n+1
=
= 9,
=
= 4.5, 3
= 3 = 13.5,
2
2
4
4
4
4
Quindi la mediana è 53. Il primo quartile è la media tra i valori che occupano la quarta
e la quinta posizione, Q1 = 50.5. Il terzo quartile è la media tra valori che occupano
la tredicesima e la quattordicesima posizione indi ragion per cui Q3 = 56. Abbiamo che
Q1 − 1.5(Q3 − Q1 ) = 42.25 mentre Q3 + 1.5(Q3 − Q1 ) = 64.25. Poiché c’è un’osservazione
più piccola di 42.25, il 42, in questo gruppo il baffo viene posto in corrispondenza della
più grande osservazione minore o uguale a 42.25 cioè 45. L’osservazione minore viene
disegnata singolarmente. Per quanto riguarda il baffo superiore abbiamo due osservazioni
maggiori di 64.25, precisamente 66 e 67 che vengono disegnate singolarmente, mentre il
baffo viene tracciato all’altezza della più grande osservazione minore di 64.25 ovvero di 58.
Nella Figura 3.3 è riportato il box plot dei tempi di attesa per un’eruzione quando quella
precedente era di tipo lungo e quando era di tipo corto.
3.8
Soluzione degli esercizi assegnati
Esercizio 3.3.3. La classe mediana per la distribuzione dell’età degli uomini è la classe
(24, 34]. Poichè 0.50 viene raggiunto esattamente alla fine di questa classe la Mediana
dell’età è 34 anni. Del resto anche dalla formula 3.1 si deduce M e = 34. La classe
mediana per la distribuzione dei redditi è 58 a 70. Ci sono 4 unità dalla decima alla
tredicesima. Quella che corrisponde alla mediana è la 10.5 che sta tra la decima e la
undicesima. La mediana è 61. La formula per ottenerla è
M e = 58 +
70 − 58
(0.50 − 0.45) = 61.
0.65 − 0.45
Per la distribuzione dell’età delle pendolari donne, la classe mediana à 24 a 34. La mediana
è 33 anni, infatti
34 − 24
M e = 24 +
(0.50 − 0.27) = 32.85.
0.53 + −0.27
La Figura 3.4 riporta il grafico delle frequenze cumulate relative per l’età delle pendolari
donne e dei pendolari uomini. Abbiamo tracciato le rette F = 0.50 e dove queste intersecano la curva delle frequenze relative abbiamo tracciato la corrispondente retta verticale.
CAPITOLO 3. VALORI MEDI
70
80
90
70
60
●
●
50
●
40
●
Long
Short
Figura 3.3: Boxplot dei tempi di attesa per un’eruzione quando quella precedente era di
tipo lungo (a sinistra) e quando era di tipo corto (a destra)
0.8
0.6
0.6
0.8
1.0
Frequenze cumulate uomini
1.0
Frequenze cumulate donne
F=50
0.2
0.4
F
0.2
0.4
F
F=50
età=34
0.0
0.0
età=32.85
0
20
40
età
60
80
0
20
40
60
80
età
Figura 3.4: Frequenze cumulate relative per l’età delle pendolari donne e dei pendolari
uomini
3.8. SOLUZIONE DEGLI ESERCIZI ASSEGNATI
71
Esercizio 3.3.4 L’età del primo bacio è 14 anni. Lo scarto quadratico medio è 2.41 che
possiamo arrotondare a due anni e mezzo. L’età media del primo rapporto risulta 16.88
che possiamo arrotondare a 17 anni, con una standard deviation di 2 anni.
72
CAPITOLO 3. VALORI MEDI
Capitolo 4
La variabilità
Come abbiamo sottolineato all’inizio di questa dispensa si può affermare senza troppi dubbi che lo scopo principale della statistica è la comprensione delle cause della variabilità.
In questo capitolo presentiamo alcuni indici di variabilità che, insieme agli indici dati nel
capitolo precedente, che sintetizzano con un numero tutti i valori osservati sul campione
della variabile, questi ci danno invece informazioni su quanto e come i valori osservati si
distribuiscano attorno al valore centrale. Presenteremo tre di questi indici: il range, lo
scarto interquartile e lo scarto quadratico medio o standard deviation. Accanto a quest’ultimo daremo anche la definizione di varianza che tanta importanza avrà nella parte di
statistica inferenziale. Prima di introdurre tali indici facciamo qualche considerazione di
carattere generale sulla variabilità. Prima di tutto cerchiamo di capire perché non basta
dare solo l’informazione sintetizzata da un valore medio. Osserviamo le due distribuzioni
nel grafico seguente.
50
100
150
0.000 0.005 0.010 0.015 0.020 0.025 0.030 0.035
Istogramma di y
Density
0.000 0.005 0.010 0.015 0.020 0.025 0.030 0.035
Density
Istogramma di x
50
x
100
150
y
Si tratta di due distribuzioni che hanno la stessa media e la stessa mediana, ma non
possiamo certo dire che fornendo solo l’informazione sul valor medio possiamo descrivere
73
74
CAPITOLO 4. LA VARIABILITÀ
due situazioni cosı̀ diverse. D’altro canto anche senza conoscere il valor medio di due
distribuzioni, l’informazione che ricaviamo dalla variabilità osservando le due distribuzioni
nel grafico seguente è fondamentale. Il fenomeno nel grafico di sinistra è poco variabile
e molto concentrato attorno al suo valore centrale. Il fenomeno di destra è molto meno
concentrato e molto più variabile attorno al suo valore medio.
0.3
0.0
0.1
0.2
densità
0.2
0.0
0.1
densità
0.3
0.4
Grande variabilità
0.4
Piccola variabilità
x
x
Il fenomeno rappresentato è l’età al matrimonio di un campione di donne negli anni ’40 e di
un altro campione di donne negli anni 2000. Non sapendo quale che sia l’età media in cui
queste donne si sposavano, (il valore della media delle età x non è indicato) l’informazione
sulla variabilità è fondamentale per dire che negli anni 2000 l’età del primo matrimonio è
molto più variabile.
Consideriamo un altro esempio. La media delle temperature annuali ad Honolulu e
a Phoenix è per entrambe le città 24o C. Le temperature medie nei dodici mesi nelle due
città sono riportate nella seguente tabella:
Honolulu
Phoenix
21
2
22
8
23
18
24
27
25
28
25
35
27
36
26
38
25
35
24
27
24
22
22
12
Come si può notare dai valori in tabella la temperatura ad Honolulu è molto meno variabile
che a Phoenix, quindi l’informazione solo sul valor medio è del tutto fuorviante ad esempio
per l’acquisto di un completo guardaroba in occasione di un trasferimento in ognuna delle
due città. Se ci basassimo solo sul valor medio acquisteremmo solo camice leggere per
entrambe le città. Ma nel caso di Phoenix soffriremmo assai i freddo nei mesi invernali e
le camice non ci servirebbero a molto neppure nei mesi della grande calura estiva!
4.1
Il range e lo scarto interquartile
Il range e lo scarto interquartile sono due misure della variabilità che di solito accompagnano la mediana come misura del valor medio (inteso come valore centrale) di una
4.1. IL RANGE E LO SCARTO INTERQUARTILE
75
distribuzione. Vediamo la definizione di entrambi e poi calcoliamo entrambi gli indici per
i dati di un esempio. Il range (si utilizza il termine inglese che in italiano potrebbe essere
tradotto con campo di variazione) misura l’ampiezza totale del dataset o delle osservazioni.
Definizione 4.1.1 (Range). È definito come la differenza tra il valore più grande osservato
e il valore più piccolo osservato. In formula:
Range = max{x1 , x2 , . . . xn } − min{x1 , x2 , . . . xn }
Lo scarto interquartile a differenza del range non considera tutto il campo di variazione
delle osservazioni ma solo la parte centrale.
Definizione 4.1.2 (Scarto interquartile). Date n osservazioni x1 , . . . , xn , siano Q1 e Q3
rispettivamente il primo e il terzo quartile. Lo scarto interquartile è dato da
IQ = Q3 − Q1 .
Di solito lo scarto interquartile viale utilizzato quando le osservazioni hanno una
distribuzione asimmetrica e si è utilizzata la mediana come misura del valore centrale.
Esempio 4.1.3. Durante la visita dei servizi sociali ad un campo rom alla periferia di
Roma è stato chiesto alle 13 madri presenti al campo il peso dei loro 13 primogeniti alla
nascita. La seguente tabella riporta i pesi dei 13 neonati. Calcolare la mediana il range e
kg
1
2.5
2
4.0
3
3.5
4
3.0
5
3.1
6
3.0
7
4.0
8
2.5
9
3.5
10
3.0
11
2.8
12
3.0
13
4.7
Tabella 4.1: Peso in kg di 13 neonati in un campo rom.
lo scarto interquatile del peso dei tredici neonati. Prima di tutto ordiniamo le osservazioni
dalla più piccola alla più grande. La seguente tabella riporta i dati ordinati.
2.5
2.5
2.8
3.0
3.0
3.0
3.0
3.1
3.5
3.5
4.0
4.0
4.7
Il peso mediano è l’osservazione che occupa la settima posizione (ricordare: (n + 1)/2 =
14/2 = 7). Quindi M e = 3.0 kg. Il range è dato dalla differenza tra l’osservazione più
grande e l’osservazione più piccola:
Range = 4.7 − 2.5 = 2.2
Mentre il primo e il terzo quartile occupano rispettivamente la posizione 0.25(n + 1) = 3.5
e 0.75(n + 1) = 10.5. Quindi
2.8 + 3.0
3.5 + 4.0
= 2.9, Q3 =
= 3.75, IQ = Q3 − Q1 = 3.75 − 2.9 = 0.85.
2
2
Possiamo quindi concludere che il il peso mediano dei neonati è 3 kg con un campo di
variazione di 2.2 kg. Oppure concludere che il il peso mediano dei neonati è 3 kg con una
variabilità (data dallo scarto interquartile) di 0.85 kg, ovvero di 850 g.
Q1 =
76
CAPITOLO 4. LA VARIABILITÀ
4.2
Scarto quadratico medio e varianza
Lo scarto quadratico medio (in inglese standard deviation) misura la variabilità come media
degli scarti al quadrato di ogni osservazione dalla media aritmetica. Di solito si utilizza
quando la media aritmetica viene usata come misura della tendenza centrale.
Definizione 4.2.1 (Scarto quadratico medio). Siano x1 , . . . , xn , n osservazioni e sia x̄ la
media aritmetica delle n osservazioni. La quantità
v
u
n
u 1 X
(xi − x̄)2
(4.1)
s=t
n−1
i=1
si chiama scarto quadratico medio ovvero deviazione standard.
In pratica per calcolare lo scarto quadratico medio occorre calcolare nell’ordine:
1. la media aritmetica x̄ =
1
n
Pn
i=1 xi ;
2. gli n scarti (o residui) delle osservazioni della media: xi − x̄ per ogni i = 1, 2, . . . , n;
3. elevare ogni scarto al quadrato: (xi − x̄)2 per ogni i = 1, 2, . . . , n;
4. sommare tutti i residui al quadrato:
Pn
i=1 (xi
− x̄)2 ;
5. dividere la somma dei residui al quadrato per n − 1:
6. calcolare la radice quadrata:
q
1
n−1
Pn
i=1 (xi
1
n−1
Pn
i=1 (xi
− x̄)2 ;
− x̄)2 .
Il risultato ottenuto si denota con s.
Osservazione 4.2.2. La somma di tutti i residui è nulla. Infatti
n
X
(xi − x̄) =
i=1
n
X
xi − nx̄
i=1
Dividendo entrambi i membri per n e ricordando la definizione di media aritmetica otteniamo
n
1X
n
xi − x̄ = x̄ − x̄ = 0.
n
n
i=1
Da questa osservazione deriva il fatto che la somma di tutti i residui non può essere
usata come indicatore della variabilità perché è sempre nulla. La varianza è semplicemente lo scarto quadratico medio elevato al quadrato, oppure possiamo dire che lo scarto
quadratico medio è la radice quadrata della varianza!
4.2. SCARTO QUADRATICO MEDIO E VARIANZA
77
Definizione 4.2.3 (Varianza). Date n osservazioni x1 , . . . , xn , sia x̄ la media aritmetica
delle n osservazioni. La quantità
n
s2 =
1 X
(xi − x̄)2
n−1
(4.2)
i=1
si chiama varianza.
La varianza è una statistica che rivestirà un ruolo molto importante nell’inferenza
statistica. Come indice di variabilità è invece poco usato perché non è espresso nella
stessa untià di misura delle osservazioni, bensı̀ al quadrato.
Viene spontaneo chiedersi perché dividiamo per n − 1 invece che per n la somma degli
n residui al quadrato per ottenere la varianza e lo scarto quadratico medio. Dopotutto
abbiamo definito la media di n valori come la loro somma divisa per n. Il motivo è legato
al fatto che dividendo per n − 1 si ottiene una stima più precisa della varianza di una
distribuzione. Osserviamo che quando si divide una quantità per n − 1 si ottiene un valore
più grande che se avessimo diviso per n. Cioè se avessimo diviso per n avremmo ottenuto
una stima troppo bassa per la varianza. Questo si può giustificare con il fatto che le n
osservazioni si utilizzano già una volta per ottenere la media (quindi per stimare il valore
centrale) e poi ancora una volta per calcolare la somma egli scarti. Con questa seconda
operazione si dice che si perde un grado di libertà. Ma torneremo più avanti su questo
concetto.
Esempio 4.2.4. Riprendiamo i dati dell’Esempio 4.1.3. La tabella riporta i dati per il
calcolo della standard deviation. La media è x̄ = 3.28 Quindi
1
2
3
4
5
6
7
8
9
10
11
12
13
sum
r
s=
xi
2.50
4.00
3.50
3.00
3.10
3.00
4.00
2.50
3.50
3.00
2.80
3.00
4.70
42.6
(xi − x̄)
-0.777
0.723
0.223
-0.277
-0.177
-0.277
0.723
-0.777
0.223
-0.277
-0.477
-0.277
1.423
0.000
(xi − x̄)2
0.604
0.523
0.050
0.077
0.031
0.077
0.523
0.604
0.050
0.077
0.228
0.077
2.025
4.946
√
1
4.946 = 0.412 = 0.642.
12
78
CAPITOLO 4. LA VARIABILITÀ
Possiamo concludere che il peso medio dei neonati è di 3.28 kg con uno scarto quadratico
medio di 642 grammi. Si scrive x̄ ± s ovvero in questo esempio 3.28 ± 0.64.
Esercizio 4.2.5. Si calcoli la mediana, il range e lo scarto interquartile e quindi la media
aritmetica, la standard deviation e la varianza per i dati dell’Esempio 4.1.3 togliendo
l’ultima osservazione.
Esercizio 4.2.6. I dati nella seguente tabella rappresentano le altezze in cm di 11 giocatori
di una squadra di pallavolo. Calcolare la media aritmetica e lo scarto quadratico medio.
h (cm) 9
1
190
2
185
3
182
4
208
5
186
6
187
7
189
8
179
9
183
10
191
11
179
Fare il grafico dei residui. Calcolare la media e lo scarto quadratico medio quando viene
tolta la quarta osservazioni 208 cm.
Esercizio 4.2.7. La seguente tabella riporta il numero di partner maschili nell’ultimo
anno di 21 donne che hanno usufruito dei servizi offerti da un consultorio nel territorio di
Milano Calcolare la media aritmetica, lo scarto quadratico medio, la mediana e lo scarto
1
2
0
1
3
2
1
0
2
16
1
12
0
1
0
1
1
3
2
3
4
interquartile. Quale dei due gruppi di indici (uno per il valore centrale e uno per la
variabilità descrivono meglio il fenomeno? Perché?
Capitolo 5
Operazioni sui dati
Molto spesso i dati vengono trasformati. Trasformare i dati non significa manipolarli o
falsificarli ma semplicemente renderli più comprensibili o più facili da studiare e analizzare.
Le ragioni per cui trasformare i dati sono le più diverse. Le principali sono dovute al
bisogno di confrontare distribuzioni registrate in diverse scale, per trovare errori nei dati
e per migliorare la qualità dei dati stessi. Ad esempio può essere di interesse studiare
come e se è cambiato il PIL nei paesi della zona Euro prima e dopo l’avvento della moneta
unica. In questo caso dovremo convertire i dati degli anni precedenti il passaggio all’Euro
nella monete comunitaria. Oppure quando vogliamo sapere se un certo punteggio (score) è
sopra o sotto la media. Per quanto riguarda la qualità dei dati a volte alcune informazioni
sono inconsistenti, come ad esempio se l’età del licenziamento avviene prima dell’età del
primo impiego.
Le operazioni che presenteremo sui dati sono le trasformazioni di scala e la standardizzazione.
5.1
Trasformazioni di scala
La seguente tabella riporta il peso di 5 donne prima di una dieta, gli scarti dalla media
q e gli
100
=
scarti al quadrato. Calcoliamo il peso medio x̄ = 60 e la deviazione standard s = 5−1
i
1
2
3
4
5
xi
55
67
56
63
59
300
(xi − x̄)
-5
7
-4
3
-1
0
(xi − x̄)2
25
49
16
9
1
100
5. Dopo 2 settimane di dieta il peso, gli scarti dalla media e gli scarti al quadrato sono
riportati nella seguente tabella. Tutte le donne sono calate di 4 kg. Il peso medio è x̄ = 56
79
80
CAPITOLO 5. OPERAZIONI SUI DATI
i
1
2
3
4
5
xi
51
63
52
59
55
280
(xi − x̄)
-5
7
-4
3
-1
0
(xi − x̄)2
25
49
16
9
1
100
mentre la deviazione standard è ancora s = 5. Si osservi infatti che nella seconda tabella
gli scarti e gli scarti al quadrato non sono cambiati per nessuna delle osservazioni. Questa
è una regola generale: aggiungendo o sottraendo una costante a tutte le osservazioni la
media cambia per il valore di quella costante mentre lo scarto quadratico medio rimane
inalterato. Abbiamo quindi più formalmente la seguente proposizione.
Proposizione 5.1.1. Siano x1 , x2 , . . . , xn , n osservazioni. Indichiamo con x̄ la media
campionaria e con sx la deviazione standard delle n osservazioni. Sia a una costante
qualunque (positiva o negativa). Consideriamo la trasformazione
yi = xi + a
Abbiamo
ȳ = x̄ + a
Mentre la deviazione standard non cambia.
Dimostrazione. Poiché yi = xi + a per ogni i = 1, 2, , . . . , n abbiamo
ȳ =
n
n
i=1
i=1
1X
1
1X
(xi + a) =
xi + na = x̄ + a.
n
n
n
ovvero la media dei dati trasformati ȳ è uguale alla media dei dati da cui siamo partiti x̄ più la costante a. Denotiamo ora con sx lo scarto quadratico medio delle osservazioni x1 , . . . , xn , e analogamente con sy lo scarto quadratico medio delle osservazioni
trasformate. Poichè abbiamo appena dimostrato che ȳ = x̄ + a abbiamo
v
v
u
u
n
n
u 1 X
u 1 X
2
t
t
sy =
(yi − ȳ) =
(xi + a − (x̄ + a))2
n−1
n−1
i=1
i=1
v
u
n
u 1 X
=t
(xi − x̄)2 = sx
n−1
i=1
Lo scarto quadratico medio non cambia se si somma o se si sottrae una costante.
5.1. TRASFORMAZIONI DI SCALA
81
Supponiamo adesso che invece che essere tutte diminuite di 4 kg, tutte le donne abbiano
perso il 10% del loro peso. Indichiamo con zi il peso dopo la diminuzione del 10%. Si ha
zi = xi − 0.1 · xi q
ovvero zi = 0.9 · xi . La media del nuovo peso è z̄ = 54 e la standard
deviation è sz = 81
4 = 4.5. I conti per ottenere la media e lo scarto quadratico medio
sono riportati nella seguente tabella.
i
1
2
3
4
5
zi
49.5
60.3
50.4
56.7
53.1
270
(zi − z̄)
-4.5
6.3
-3.6
2.7
-0.1
0
(zi − z̄)2
20.25
39.69
12.96
7.29
0.81
81
Osserviamo che 54 è il 10% meno di 60, e 4.5 è il 10% meno di 5. Quindi se si moltiplica
o si divide ogni osservazione per una costante sia la media che lo scarto quadratico medio
dei dati trasformati risultano moltiplicati o divisi per quella stessa costante. Abbiamo
quindi la seguente proposizione
Proposizione 5.1.2. Siano x1 , x2 , . . . , xn , n osservazioni. Indichiamo con x̄ la media
campionaria e con sx la deviazione standard delle n osservazioni. Sia b una costante
qualunque (positiva). Consideriamo la trasformazione
yi = bxi
Abbiamo
ȳ = bx̄
sy = bsx
Dimostrazione. Poiché yi = bxi per ogni i = 1, 2, , . . . , n abbiamo
n
n
i=1
i=1
1X
1 X
ȳ =
(bxi ) = b
xi = bx̄.
n
n
Si noti infatti che nella prima somma scritta per esteso abbiamo
n
n
i=1
i=1
bx1 + bx2 + · · · bxn
b(x1 + x2 + · · · + xn )
1 X
1X
(bxi ) =
=
= b
xi
n
n
n
n
ovvero la media dei dati trasformati ȳ è uguale alla media dei dati da cui siamo partiti x̄
moltiplicati per la stessa costante b. Denotiamo ora con sx lo scarto quadratico medio delle
osservazioni x1 , . . . , xn , e analogamente con sy lo scarto quadratico medio delle osservazioni
82
CAPITOLO 5. OPERAZIONI SUI DATI
trasformate. Poichè abbiamo appena dimostrato che ȳ = bx̄ abbiamo
v
v
u
u
n
n
u 1 X
u 1 X
2
t
t
sy =
(yi − ȳ) =
(bxi − bx̄)2
n−1
n−1
i=1
i=1
v
u
n
X
u 1
2
t
b
(xi − x̄)2 = bsx
=
n−1
i=1
ovvero lo scarto quadratico medio dei dati trasformati sy è uguale allo scarto quadratico
medio dei dati da cui siamo partiti sx moltiplicati per la stessa costante b.
2*x
0.4
0.0
0.1
0.2
densità
0.3
0.4
0.3
0.0
0.1
0.2
densità
0.2
0.0
0.1
densità
0.3
0.4
La Figura 5.1 rappresenta come la variabilità di una distribuzione aumenti se moltiplichiamo per una costante più grande di uno, mentre diminuisce se moltiplichiamo per una
costante più piccola di uno.
x
1/2*x
Figura 5.1: La variabilità aumenta (a sinistra) o diminuisce (a destra) a seconda se si
moltiplica per una costante minore o maggiore di uno una distribuzione qualunque (in
centro).
Un vantaggio di questo tipo di trasformazioni è che se sappiamo con che tipo di trasformazione di scala si passa da una osservazione all’altra possiamo calcolare la media e lo
scarto quadratico medio per i dati trasformati senza rifare i conti per i dati trasformati ma
semplicemente trasformando con la stessa trasformazione la media e lo scarto quadratico
medio dei dati trasformati.
5.2
Standardizzazione
L’operazione di standardizzazione di un dato è un’operazione che riveste un ruolo fondamentale in gran parte di tutta la statistica. La standardizzazione ci permette di confrontare
5.2. STANDARDIZZAZIONE
83
e riportare ad una stessa scala dati provenienti da fonti, casi e unità diverse. Per capire
l’importanza partiamo da un esempio. Due studentesse Ada e Bea hanno superato una
l’esame di glottologia con voto 28, l’altra l’esame di filologia germanica con voto 27. Chi
ha ottenuto il miglior risultato? Se si guarda solo al voto si sarebbe tentati di rispondere
che ha ottenuto il miglior risultato Ada prendendo il voto più alto rispetto al 27 di Bea. Il
confronto fatto in questo modo sarebbe corretto se entrambe avessero sostenuto lo stesso
esame. Essendo l’esame diverso non possiamo rispondere senza fare qualche considerazione. Nel corso di laurea seguito dalle due studentesse per l’esame di Glottologia la media
di tutti gli studenti che hanno superato l’esame è 26.5 mentre la deviazione standard è
1.5. Per il corso di Filologia germanica invece la media è 24.2 e la deviazione standard è 2.
Quindi sembra essere molto più difficile prendere un voto alto a Filologia germanica che
a Glottologia. Calcoliamo gli score di entrambi i voti di Ada e Bea. Significa esprimere
quante volte lo scarto quadratico medio il loro voto si è discostato dal valor medio.
27 − 24.2
28 − 26.5
= 1 Bea:
= 1.4
1.5
2
Bea ha ottenuto il risultato migliore, il suo risultato è 1.4 volte la standard deviation
sopra la media, mentre il risultato di Ada è solo 1 volta la s.d. sopra la media. In sostanza
standardizzare un dato vuol dire esprimere la sua distanza dal valor medio come multipli
dello scarto quadratico medio. In pratica si calcola quante volte lo scarto quadratico medio
sta nella differenza tra valore osservato e media. Supponiamo che una terza studentessa
Clio, abbia preso in filologia germanica voto 23. In questo caso il suo voto è inferiore al
valor medio, quindi la differenza tra il voto riportato e la media dei voti in quella materia
è negativo. Lo score risulta
Ada:
23 − 24.2
= −0.60.
2
Quindi Clio ha ottenuto un voto che è 6/10 lo scarto quadratico medio inferiore alla media.
In generale il valore standardizzato di una osservazione proveniente da una popolazione
con media µ e standard deviation σ si può sempre scrivere come
Clio:
z=
x − Media
Standard Deviation
Possiamo scrivere
z=
x−µ
σ
⇒
ovvero
z=
x−µ
σ
x=µ+z·σ
ovvero si può sempre scrivere
x = Media + z · Standard Deviation
ovvero
x=µ+z·σ
Definizione 5.2.1. Lo score o valore standardizzato di un’osservazione xi da una popolazione con media µ e standard deviation σ è calcolato come segue:
xi − µ
zi =
σ
84
CAPITOLO 5. OPERAZIONI SUI DATI
Se µ e σ non sono note non è possibile ricavare il valore standardizzato di una osservazione, allora lo score si può calcolare come
zi =
xi − x̄
sx
dove x̄ è la media calcolata su tutte le osservazioni e sx è la standard deviation calcolata
su tutte le osservazioni.
Lo score misura il numero di standard deviation che un’osservazione si allontana dal
valore medio.
• score positivo: l’osservazione è sopra la media di z volte la standard deviation.
• score negativo: l’osservazione è sotto la media di z volte la standard deviation.
• score nullo: l’osservazione è uguale alla media.
Gli score hanno uno proprietà molto utile. Cerchiamo di derivarla partendo da un
esempio. Per i valori del paso delle 5 donne considerate all’inzio della sezione precedente,
calcoliamo i valori standardizzati (gli score) dei 5 pesi e quindi calcoliamo la media e lo
scarto quadratico medio dei valori standardizzati per i pesi delle 5 donne. I conti sono
riportati nella seguente tabella. Ricordiamo che il peso medio delle 5 donne è x̄ = 60 kg
con una standard deviation sx = 5 kg.
Peso: xi
Peso-media: xi − x̄
score: zi = xis−x̄
x
score2 : zi2
1
55
-5
-1.00
1.00
2
67
7
1.40
1.96
3
56
-4
-0.80
0.64
4
63
3
0.60
0.36
5
59
-1
-0.20
0.04
somma
300
0
0
4
Possiamo quindi calcolare la media e lo scarto quadratico medio dei pesi standardizzati
r
4
media score: z̄ = 0, s.d. score sz =
=1
4
Il fatto che la media degli score sia zero e lo scarto quadratico medio degli score sia 1, non
è un caso.
Proposizione 5.2.2. Siano x1 , x2 , . . . , xn , n osservazioni. Indichiamo con x̄ la media
campionaria e con sx la deviazione standard delle n osservazioni. Indichiamo con zi i
valori standardizzati
xi − x̄
zi =
.
sx
Allora
v
u
n
n
X
u 1 X
1
z̄ =
zi = 0 e s z = t
(zi − z̄)2 = 1
n
n−1
i=1
i=1
5.2. STANDARDIZZAZIONE
85
Dimostrazione. Poiché sx è una costante e la somma di tutti gli scarti è nulla (ricordare
l’Osservazione 4.2.2), abbiamo
n
n n
1 1 X
1 X xi − x̄
1X
=
zi =
(xi − x̄) = 0
z̄ =
n
n
sx
n sx
i=1
i=1
i=1
Passando al calcolo per la standard deviation, poiché z̄ = 0 e per la definizione di sx ,
abbiamo
v
v
v
u
u
u
r
n
n
n
u 1 X
u 1 X
u 1 X
sx
(xi − x̄)2
2
2
t
t
t
=
= 1.
sz =
(zi − z̄) =
zi =
n−1
n−1
n−1
sx
sx
i=1
i=1
i=1
Esempio 5.2.3. Per 6 esami del corso di laurea in lettere le medie e gli scarti quadratici
medi sono riportati nella seguente tabella. Tre studentesse hanno sostenuto i seguenti
Inglese
Tedesco
Francese
Giapponese
Russo
Statistica sociale
media
24.3
25.5
23.8
26.1
25.6
24.4
sd
1.3
2.1
1.4
1.8
2.2
2.3
esami con le votazioni riportate:
• Ada: Inglese 25, Francese 25, Giapponese 27, Russo 28
• Bea: Tedesco 24, Francese 26, Russo 27, Stat. Sociale 28
• Clio: Inglese 23, Tedesco 26, Francese 22, Giapponese 27, Russo 24
Chi ha ottenuto il migliore risultato?
Esercizio 5.2.4. L’indice di deprivazione si basa su tre variabili rilevate in ogni comune:
la percentuale di persone che non possiede un auto, riportata in tabella nella colonna NO
Auto, la percentuale di persone che è affetto da una patologia debilitante grave, riportate
nella colonna Malattia e la percentuale di coloro che non sono proprietari della casa dove
abitano, nella colonna NO Casa. Nella seguente tabella sono riportate le percentuali di
queste variabili rilevate in un campione non specificato in 6 comuni della provincia di
Bergamo. Determinare in quale comune della provincia l’indice di deprivazione è il più
elevato.
Quale è il comune più deprivato?
86
CAPITOLO 5. OPERAZIONI SUI DATI
comuni
Bergamo
Trescore
Dalmine
Albino
Clusone
Osio
NO Auto %
25.4
56.9
31.6
32.6
25.6
24.4
Malattia %
11.3
16.1
11.8
12.5
12.2
11.3
NO Casa %
29.9
56.4
35.3
32.9
34.7
43.8
Capitolo 6
Siamo tutti normali?
In questo capitolo studiamo una distribuzione fondamentale per tutta la statistica: la distribuzione normale. Supporre che un fenomeno sia Normale (cioè abbia una distribuzione
Normale) è abbastanza nomale in diversi settori della ricerca in particolare anche nello
studio dei fenomeni sociali. Ad esempio di qui in avanti supporremo che dal punto di
vista teoriche tutti i fenomeni che abbiamo incontrato siano distribuiti con questa distribuzione: la distribuzione normale. Quindi per rispondere alla domanda che da il titolo al
capitolo: sı̀ siamo tutti normali! A cominciare dalla forma della collina che compare nella
foto riportata in Figura 6.1 e dalla forma della campana riportata in Figura 6.2. Infatti la
distribuzione normale è conosciuta anche come la bell shaped distribution: la distribuzione
a forma di campana.
6.1
La curva è normale!
La distribuzione normale è una distribuzione teorica. Le distribuzioni teoriche si distinguono da quelle empiriche perché non sono determinate partendo dai dati (o almeno non
direttamente) ma perché sono date da una formula matematica che ne fornisce la forma
e le caratteristiche salienti come media e scarto quadratico medio. Fino ad ora abbiamo
avuto a che fare con distribuzioni empiriche: partendo dai dati osservati di una certa
distribuzione venivano costruite le forme delle distribuzioni attraverso l’istogramma e i
valori di sintesi come media (aritmetica) mediana, quartili, percentili, scarto quadratico
medio, varianza, range, scarto interquartile. La distribuzione teorica invece è data da una
formula matematica (che non riportiamo qui ma che riportiamo alla fine del capitolo per
i più curiosi) le cui caratteristiche sono le seguenti:
1. La distribuzione normale è simmetrica attorno al suo valore centrale che coincide
con la media (aritmetica) la mediana e la moda della distribuzione.
87
88
CAPITOLO 6. SIAMO TUTTI NORMALI?
Figura 6.1: La collina normale.
2. La maggior parte dei valori si distribuisce attorno a questo valore centrale secondo
modalità che verrano specificate tra poco.
3. Pochi valori si distribuiscono lontano da questo valore centrale.
4. La curva man mano che si allontana dal valore centrale si avvicina sempre più all’asse
delle ascisse senza però mai toccarlo.
La Figura 6.3 riporta il grafico di tre curve normali per le quali il valore centrale è lo stesso.
Il valore centrale viene indicato con la lettera greca mu, µ. Quindi per le distribuzioni in
figura µ = 15.
Le curve delle distribuzioni normali in Figura 6.3 hanno tutte la stessa media, ma non
si può negare che siano molto diverse tra loro: i fenomeni che rappresentano sono molto
diversi tra loro. Questa diversità è data dalla forma, da quanto i valori della distribuzione
si distribuiscono attorno alla media in termini di multipli dello scarto quadratico medio.
La distribuzione normale è molto comoda perché è caratterizzata oltre che dalla media
µ da solo un’altra grandezza che è lo scarto quadratico medio, che viene indicato con la
lettera greca sigma, che si scrive σ. Le distribuzioni in Figura 6.3 hanno rispettivamente
σ = 1 la blu, σ = 2 la nera e σ = 5 la rossa.
6.1. LA CURVA È NORMALE!
89
Figura 6.2: La campana normale. Foto Ditta Colaci.
Le curve in Figura 6.3 sono molto diverse tra loro, ma quello che hanno in comune sono
alcune caratteristiche. Queste sono date dall’area della curva sotto determinati intervalli
di valori. Precisamente valgono le seguenti proprietà per le aree sotto la curva normale.
Indichiamo con µ la media e con σ lo s.q.m di una Normale. Per ogni distribuzione normale
1. L’area sotto la curva è 1
2. L’area tra µ − σ e µ + σ è 0.682 (il 68.2% delle osservazione sta tra µ − σ e µ + σ)
3. L’area tra µ − 2σ e µ + 2σ è 0.954 (il 95.4% delle osservazione sta tra µ − 2σ e µ + 2σ)
4. L’area tra µ − 3σ e µ + 3σ è 0.998 (il 99.8% delle osservazione sta tra µ − 3σ e µ + 3σ)
La distribuzione Normale ammette, almeno in via teorica che la variabile di interesse
possa assumere valori sempre più grandi e anche sempre più piccoli del valore medio
µ. Il valore più grande che non potrà mai essere raggiunto è più infinito, si indica col
simbolo +∞ e giace all’estremità destra dell’asse dove rappresentiamo il fenomeno (l’asse
delle ascisse). Il valore più piccolo che non potrà mai essere raggiunto è meno infinito,
si indica col simbolo −∞ e giace all’estremità sinistra dell’asse dove rappresentiamo il
fenomeno (l’asse delle ascisse). La curva della distribuzione nomale quindi è centrata in
µ e simmetrica rispetto a µ è tanto più stretta e alta tanto più il valore dello scarto
quadratico medio σ è piccolo (cioè c’è poca variabilità attorno al valor medio µ), mentre
è tanto più larga e bassa tanto più il valore dello scarto quadratico medio σ è grande
90
CAPITOLO 6. SIAMO TUTTI NORMALI?
0.2
0.0
0.1
densità
0.3
0.4
Curva Normale
0
5
10
15
20
25
30
x
Figura 6.3: Distribuzioni normali con la stessa media ma diverso scarto quadratico medio.
(cioè c’è tanta variabilità attorno al valor medio µ). Per ogni valore di µ e σ la curva della
distribuzione Normale si avvicina all’asse delle ascisse da entrambi i lati senza mai toccarla
se non all’infinito (si dice che è asintotica all’asse delle ascisse). L’area complessiva tra la
curva Normale e l’asse delle ascisse vale sempre 1 e la maggior parte di quest’area si trova
tra i valori µ − 3σ e µ + 3σ. Solo per rendere un idea di cosa significa maggior parte, l’area
sotto la curva Normale da µ − 5σ a −∞ è 0.0000003, cioè in genere 3 casi ogni 10 milioni!
Come abbiamo detto la distribuzione normale è una distribuzione teorica. Noi avremo
a che fare con distribuzioni empiriche. Il legame tra la distribuzione empirica e quella
teorica è però molto stretto. Un fenomeno empirico è lecito ritenere che abbia una distribuzione Normale quando calcolati x̄ e s su un campione abbastanza numeroso, e disegnato
l’istogramma delle frequenze relative si osserva che:
1. l’istogramma è simmetrico rispetto alla media aritmetica x̄;
2. circa il 68.2% delle osservazioni del campione sta tra x̄ − s e x̄ + s;
3. circa il 95.4% delle osservazioni del campione sta tra x̄ − 2s e x̄ + 2s;
4. circa il 99.8% delle osservazioni del campione sta tra x̄ − 3s e x̄ + 3s;
5. praticamente nessun valore sta oltre x̄ − 4s e x̄ + 4s
Se un fenomeno riteniamo si possa distribuire come una Normale, secondo quanto descritto
sopra, possiamo ritenere noti la media µ e lo scarto quadratico medio σ della distribuzione
(nella pratica saranno considerati µ = x̄ e σ = s).
6.1. LA CURVA È NORMALE!
91
Esempio 6.1.1. La distribuzione empirica dei voti di 1200 studenti che hanno sostenuto
l’esame di statistica è riportato nella Figura Figura 6.4. Insieme all’istogramma dei voti
di 1200 studenti che hanno sostenuto l’esame di statistica abbiamo tracciato il grafico della
distribuzione Normale con mu pari alla media calcolata sul campione che è x̄ = 24.002 e
deviazione standard σ pari a quella calciata sul campii che è s = 1.5. Come si vede la curva
teorica si sovrappone molto bene all’istogramma ricavato empiricamente e le porzioni di
frequenze relative descritte sopra vengono rispettate.
0.15
0.00
0.05
0.10
Density
0.20
0.25
Distribuzione dei voti, normale
18
20
22
24
26
28
30
x
Figura 6.4: Distribuzione empirica e distribuzione teorica dei voti di 1200 studenti. Istogramma dei voti all’esame di statistica: Media=24.002, Mediana= 24, moda=24, sd= 1.5,
curva normale con media 24 e sd=1.5
È importante notare che dati i valori di µ e σ caratterizziamo completamente la distribuzione normale, cioè la identifichiamo e siamo in grado di disegnarla. Ad esempio se
sappiamo che una certa distribuzione di redditi è normale con media µ = 15000 e standard
deviation σ = 3000, il grafico è quello riportato in Figura 6.5.
Se sappiamo che l’età a cui viene dato il primo bacio (esempio presentato nella Sezione
2.7.3) è distribuita come una normale con media µ = 14 anni e scarto quadratico medio
σ = 2.5 anni (due anni e mezzo) il grafico è riportato in Figura 6.6.
Ancora dall’esperienza personale basata su 1200 esami effettuati, posso ritenere che la
distribuzione del voto di statistica alla facoltà di ingegneria sia normale con media µ = 24
e scarto quadratico medio σ = 1.5. Il grafico è riportato nella Figura 6.7
Possiamo ora rispondere alle seguenti domande e ad altre simili:
1. Che proporzione di popolazione di studenti ha preso un voto che sta tra µ e µ + 2σ,
cioè un voto tra 24 e 27?
92
CAPITOLO 6. SIAMO TUTTI NORMALI?
0.00008
0.00004
0.00000
dnorm(x, 15000, 3000)
0.00012
Distribuzione dei redditi
0
5000
10000
15000
20000
25000
30000
x
Figura 6.5: Distribuzioni dei redditi normale con µ = 15000 euro σ = 3000 euro.
2. Che proporzione di popolazione di redditieri ha un reddito compreso tra µ − σ e µ,
ovvero un reddito comrpeso tra 12000 euro e 15000 euro?
3. Che proporzione di popolazione di redditieri ha un reddito minore di µ − σ, ovvero
un reddito minore di 12000 euro?
4. Che proporzione di popolazione di giovani uomini ha dato il primo bacio ad un età
minore di µ − 2σ o maggiore di µ + 2σ, ovvero minore di 9 anni o maggiore di 19
anni?
Nell’ordine abbiamo
1. L’area sotto la curva normale tra µ e µ + 2σ è 0.954/2, ovvero 0.477. La proporzione
richiesta è il 47.7%.
2. L’area sotto la curva normale tra µ − σ e µ è 0.682/2, ovvero 0.341. La proporzione
richiesta è il 34.1%.
3. L’area sotto la curva normale dal limite inferiore a µ − σ è 0.50 − 0.341 = 0.159. La
proporzione cercata è quindi il 15.9 %
4. L’area sotto la curva normale dal limite inferiore a µ − 2σ e l’area da µ + 2σ è data
da 1 − 0.954 = 0.046. La proporzione richiesta è il 4.6%.
Per ogni distribuzione Normale con valore medio µ e scarto quadratico medio σ possiamo dividere l’area tra la curva e l’asse delle ascisse in settori simmetrici per multipli di
6.2. LA NORMALE STANDARDIZZATA
93
0.10
0.00
0.05
dnorm(x, 14, 2.5)
0.15
Distribuzione dell'età al primo bacio
0
5
10
15
20
25
30
x
Figura 6.6: Distribuzioni dell’età al primo bacio con µ = 14 anni σ = 2.5 anni.
σ e l’area di questi settori è riassunta in questa tabella:
Settore (−∞, µ − 3σ) (µ − 3σ, µ − 2σ) (µ − 2σ, µ − σ)
(µ − σ, µ)
Area
0.001
0.022
0.136
0.341
Settore
(µ, µ + σ)
(µ + σ, µ + 2σ) (µ + 2σ, µ + 3σ) (µ + 3σ, +∞, )
Area
0.341
0.136
0.022
0.001
6.2
La normale standardizzata
Esistono quindi un’infinità di distribuzioni normali, una per ogni valore della media µ e
ogni valore dello scarto quadratico o medio σ. Tra tutte le normali c’è n’è una un po’
più normale delle altre. Si tratta della normale standardizzata che è una distribuzione
normale con media µ = 0 e scarto quadratico medio σ = 1. Questa distribuzione riveste
un ruolo particolare perché è la distribuzione degli Z-scores di ogni distribuzione normale.
Prendiamo uno dei tre esempi della sezione precedente. La distribuzione dei redditi.
Indichiamo con x un reddito generico. La distribuzione di tutti i possibili redditi è una
distribuzione normale con media µ = 15000 e standard deviation σ = 3000. Consideriamo
adesso per un reddito generico x il suo z-score. Lo score del reddito è definito come
z=
x − 15000
3000
per ogni reddito x. La distribuzione di tutti i possibili z-scores dei redditi segue una
distribuzione normale standardizzata, ovvero con media µ = 0 e scarto quadratico medio
σ = 1. Se consideriamo la distribuzione dei voti all’esame di statistica, si tratta di una
94
CAPITOLO 6. SIAMO TUTTI NORMALI?
0.15
0.10
0.00
0.05
dnorm(x, 24, 1.5)
0.20
0.25
Distribuzione dei voti normale teorica
18
20
22
24
26
28
30
x
Figura 6.7: Distribuzioni dei voti all’esame di statistica µ = 24 trentesimi σ = 1.5
trentesimi.
distribuzione normale con media µ = 24 e scarto quadratico medio σ = 1.5. Se indico con
x il voto generico, lo z-score del voto è
z=
x − 24
1.5
Anche in questo caso la distribuzione di tutti i possibili z-scores dei voti segue una distribuzione normale standardizzata, ovvero con media µ = 0 e scarto quadratico medio σ = 1.
Si può generalizzare per ogni tipo di distribuzione normale. Abbiamo infatti il seguente
risultato.
Proposizione 6.2.1. Sia X un fenomeno con una distribuzione Normale con media µ e
scarto quadratico medio σ. Sia x uno dei possibili valori assunti da X. La distribuzione
di tutti i possibili score per ogni valore possibile x,
z=
x−µ
σ
segue una distribuzione normale standardizzata.
Gli z-score sono importanti nella pratica perché riconducono ogni problema ad un
problema relativo a una sola distribuzione. Facendo riferimento agli esempi precedenti,
se si vuole conoscere la proporzione di studenti che ha un voto compreso tra 24 − 1.5 e
24 + 1.5, questa è pari alla proporzione di studenti che ha uno z-score del voto compreso
tra −1 e 1. Se si vuole conoscere la proporzione di redditieri che ha un reddito compreso
tra 15000 − 3000 e 15000 + 3000, questa è pari alla proporzione di redditieri che ha uno
6.2. LA NORMALE STANDARDIZZATA
95
0.15
0.00
0.05
0.10
Density
0.20
0.25
Distribuzione dei voti, normale empirica
18
20
22
24
26
28
30
x
Figura 6.8: Distribuzione empirica dei voti di 1200 studenti. Istogramma dei voti all’esame
di statistica: Media=24.002, Mediana= 24, moda=24, sd= 1.5
z-score del reddito compreso tra −1 e 1. In entrambi i casi trattandosi dell’area sotto una
curva normale di media µ = 0 e s.q.m. σ = 1, so che tale proporzione è pari al 68.26%. Se
voglio sapere la proporzione di redditieri con uno z-score tra −2 e 2, questa è equivalente
alla proporzione di redditieri che hanno un reddito compreso tra il valor medio e più o
meno due standard deviation del reddito, ancora so che tale proporzione è il 95.46%. Ma la
distribuzione degli z score permette di rispondere a domande più interessanti come quelle
nel seguente esempio.
Esempio 6.2.2. La distribuzione dei voti all’esame di statistica è normale con media
µ = 24 e s.q.m. σ = 1.5.
1. Prendete 28. Che proporzione di studenti hanno preso un voto maggiore del vostro?
2. Prendete 23. Che proporzione di studenti ha preso un voto minore del vostro?
3. Qual è il voto minimo che dovete prendere per essere tra il 60% degli studenti più
bravi?
Per la rispondere alla prima domanda occorre calcolare l’area sotto la curva nomale
con media µ = 24 e σ = 1.5 dal valore 28 fino a più infinito. Si noti che 28 non è esprimibile
come µ + kσ per k pari a 1, 2 o 3. Infatti 28 ha uno z score di (28 − 24)/1.5 = 2.67. Quindi
non è esprimibile come multiplo intero di σ, ma invertendo la definizione di z-score,
x = µ + zσ
96
CAPITOLO 6. SIAMO TUTTI NORMALI?
possiamo scrivere 28 = 24+2.67·1.5. L’area da 28 a +∞ sotto la curva normale con media
µ = 24 e s.q.m. σ = 1.5 è uguale all’area sotto la curva nomale standardizzata da 2.67 a
+∞. Si noti che 23 ha uno z score di (23 − 24)/1.5 = −0.67. Quindi non è esprimibile
come multiplo intero di σ. Io devo poter calcolare la proporzione di studenti che hanno
lo z score minore di −0.67. In questo modo conoscerò la proporzione di studenti di cui
sono stato più bravo, ovvero con uno z score minore del mio. Per rispondere alla terza
domanda, devo trovare quel voto per cui la proporzione di voti maggiori di quel voto sia
il 60%. Devo trovare lo z score tale per cui l’area sotto la curva normale standardizzata
dal valore z in poi sia pari a 0.60.
Prima di rispondere a queste domande dobbiamo introdurre la tavola dei valori della
normale standardizzata. Tali tavole riportano i valori dell’area sotto la curva Normale
standardizzata per diversi valori degli z score. Ne riportiamo alcune nell’Appendice A.
Esse sono tutte equivalenti, nel senso che i valori di una tavola possono essere dedotti da
una qualunque delle altre con semplici considerazioni geometriche basate sulla simmetria
della distribuzione Normale. Prendiamo ad esempio la Tabella A.1. I valori nella prima
colonna sono i valori degli z score fino alla prima cifra decimale. Sono i valori da 0.0
a 3.5. La seconda cifra decimale la troviamo invece nella prima riga, sono i valori 0.00,
fino a 0.09. I valori interni alla tavola corrispondono all’area sotto la curva normale da
0 fino al valore dello z score come mostra il grafico sopra la tavola. Per calcolare l’area
sotto la curva per l’intervallo (0, 1.51) si cerca il valore all’incrocio della riga 1.5 e della
colonna 0.01, cioè l’area è 0.434. Quest’area corrisponde alla probabilità che lo z score
assuma valori tra 0 e 1.51. Per capire come le tavole sono tutte equivalenti è chiaro che se
volessimo calcolare la probabilità che lo z score sia maggiore di 1.51, questa probabilità è
data dall’area sotto la curva da 1.51 all’infinito e tale area la ricaviamo da quella da 0 a
più infinito che è 0.5 togliendo l’area da 0 a 1.51 che abbiamo ricavato dalla tavola, cioè
0.500 − 0.434 = 0.066. Il valore 0.066 può essere ricavato direttamente dalla Tabella A.2.
Questa tavola fornisce i valori delle aree da un qualunque z score positivo a più infinito.
In corrispondenza dell’incrocio tra 1.5 e 0.01 di questa tavola troviamo infatti 0.066.
Quindi per rispondere alla prima domanda devo cercare nella Tabella A.2 lo z-score
2.67 e trovare il valore dell’area corrispondente. Il valore lo trovo all’incrocio tra la riga
di 2.6 e la colonna di 0.07: si tratta del valore 0.004. Quindi solo lo 0.4% di studenti
prenderà un voto maggiore di 28. Si noti che tale valore poteva anche essere ricavato
da una qualunque delle altre tavole. Ad esempio dalla Tabella A.4 cercando il valore
corrispondente a 2.67, che è 0.996. L’area cercata è 1 − 0.994 = 0.004. Oppure dalla
Tavola A.3 cercando il valore corrispondente a -2.67, che è 0.496. L’area cercata in questo
caro è 0.500 − 0.496 = 0.004.
Per quanto riguarda il secondo punto devo calcolare l’area da −∞ al valore −0.67.
Posso cercare il valore -0.67 nella Tabella A.3. Lo trovo in corrispondenza della riga con
6.2. LA NORMALE STANDARDIZZATA
97
−0.6 e della colonna con −0.07. Il valore all’incrocio tra questa riga e questa colonna
riporta il valore: 0.249. L’area cercata è quindi 0.500 − 0.249 = 0.251. Posso concludere
che la percentuale cercata è il 25.1%. Lo stesso valore poteva essere ricavato direttamente
osservando che l’area cercata è la stessa calcolata da 0.67 a +∞ e quindi dalla Tabella A.2
incorrispondenza di 0.67, troviamo 0.251.
Per rispondere all’ultima domanda devo utilizzare le tavole in maniera inversa. In
questo caso conosco il valore di un area (trasformo la proporzione 60% in 0.60) e devo
trovare il valore dello z score che lascia alla sua destra sotto la curva normale un’area pari
a 0.60 ovvero alla sua sinistra un’area di 0.40. Cerco quindi tale valore ad esempio nella
Tabella A.4 e noto che nella tavola ci sono i valori 0.599 che lo approssima per difetto e che
corrisponde allo z score 0.25 e il valore 0.603 che lo approssima per eccesso e che corrisponde
allo z score 0.26. Il valore z che cerco può essere scelto un due modi: o prendo il valore
tra i due z score con l’errore più basso, in questo caso 0.25, perché 0.600 − 0.599 = 0.001 è
minore di 0.603 − 0.600 = 0.003. Oppure prendo il punto intermedio 0.255 tra 0.25 e 0.26.
z
Φ(z) = P(Z ≤ z) = ⌠ f(x)dx
⌡−∞
z
0
Figura 6.9: Area sotto la curva normale standardizzata della regione di valori minori del
generico z score.
Esercizio 6.2.3. Il QI nella popolazione è noto che si distribuisce come una normale con
µ = 100 e standard deviation σ = 15.
• Tra quali valori di QI sta il 68.26% della popolazione centrale?
98
CAPITOLO 6. SIAMO TUTTI NORMALI?
• Quale proporzione di popolazione ha un QI minore di 75?
• Quale proporzione di popolazione ha un QI minore di 105?
• Quale proporzione di popolazione ha un QI maggiore di 105?
• Quale proporzione di popolazione ha un QI maggiore di 130?
• Quale proporzione di popolazione ha un QI compreso tra 90 e 115?
• Quale proporzione di popolazione ha un QI compreso tra 95 e 105?
• A che QI corrisponde il 10% della popolazione con QI più alto?
z
0.0
-0.1
-0.2
-0.3
-0.4
-0.5
-0.6
-0.7
-0.8
-0.9
-1.0
-1.1
-1.2
-1.3
-1.4
-1.5
-1.6
-1.7
-1.8
-1.9
-2.0
-2.1
-2.2
-2.3
-2.4
-2.5
-2.6
-2.7
-2.8
-2.9
-3.0
0.00
0.50000
0.46017
0.42074
0.38209
0.34458
0.30854
0.27425
0.24196
0.21186
0.18406
0.15866
0.13567
0.11507
0.09680
0.08076
0.06681
0.05480
0.04457
0.03593
0.02872
0.02275
0.01786
0.01390
0.01072
0.00820
0.00621
0.00466
0.00347
0.00256
0.00187
0.00135
-0.01
0.49601
0.45620
0.41683
0.37828
0.34090
0.30503
0.27093
0.23885
0.20897
0.18141
0.15625
0.13350
0.11314
0.09510
0.07927
0.06552
0.05370
0.04363
0.03515
0.02807
0.02222
0.01743
0.01355
0.01044
0.00798
0.00604
0.00453
0.00336
0.00248
0.00181
0.00131
-0.02
0.49202
0.45224
0.41294
0.37448
0.33724
0.30153
0.26763
0.23576
0.20611
0.17879
0.15386
0.13136
0.11123
0.09342
0.07780
0.06426
0.05262
0.04272
0.03438
0.02743
0.02169
0.01700
0.01321
0.01017
0.00776
0.00587
0.00440
0.00326
0.00240
0.00175
0.00126
-0.03
0.48803
0.44828
0.40905
0.37070
0.33360
0.29806
0.26435
0.23270
0.20327
0.17619
0.15151
0.12924
0.10935
0.09176
0.07636
0.06301
0.05155
0.04182
0.03362
0.02680
0.02118
0.01659
0.01287
0.00990
0.00755
0.00570
0.00427
0.00317
0.00233
0.00169
0.00122
-0.04
0.48405
0.44433
0.40517
0.36693
0.32997
0.29460
0.26109
0.22965
0.20045
0.17361
0.14917
0.12714
0.10749
0.09012
0.07493
0.06178
0.05050
0.04093
0.03288
0.02619
0.02068
0.01618
0.01255
0.00964
0.00734
0.00554
0.00415
0.00307
0.00226
0.00164
0.00118
-0.05
0.48006
0.44038
0.40129
0.36317
0.32636
0.29116
0.25785
0.22663
0.19766
0.17106
0.14686
0.12507
0.10565
0.08851
0.07353
0.06057
0.04947
0.04006
0.03216
0.02559
0.02018
0.01578
0.01222
0.00939
0.00714
0.00539
0.00402
0.00298
0.00219
0.00159
0.00114
-0.06
0.47608
0.43644
0.39743
0.35942
0.32276
0.28774
0.25463
0.22363
0.19489
0.16853
0.14457
0.12302
0.10383
0.08691
0.07215
0.05938
0.04846
0.03920
0.03144
0.02500
0.01970
0.01539
0.01191
0.00914
0.00695
0.00523
0.00391
0.00289
0.00212
0.00154
0.00111
-0.07
0.47210
0.43251
0.39358
0.35569
0.31918
0.28434
0.25143
0.22065
0.19215
0.16602
0.14231
0.12100
0.10204
0.08534
0.07078
0.05821
0.04746
0.03836
0.03074
0.02442
0.01923
0.01500
0.01160
0.00889
0.00676
0.00508
0.00379
0.00280
0.00205
0.00149
0.00107
-0.08
0.46812
0.42858
0.38974
0.35197
0.31561
0.28096
0.24825
0.21770
0.18943
0.16354
0.14007
0.11900
0.10027
0.08379
0.06944
0.05705
0.04648
0.03754
0.03005
0.02385
0.01876
0.01463
0.01130
0.00866
0.00657
0.00494
0.00368
0.00272
0.00199
0.00144
0.00104
-0.09
0.46414
0.42465
0.38591
0.34827
0.31207
0.27760
0.24510
0.21476
0.18673
0.16109
0.13786
0.11702
0.09853
0.08226
0.06811
0.05592
0.04551
0.03673
0.02938
0.02330
0.01831
0.01426
0.01101
0.00842
0.00639
0.00480
0.00357
0.00264
0.00193
0.00139
0.00100
Tabella 6.1: Tavola della Normale standard. Valori di Φ(z) = P (Z < z) per z negativi. Per
calcolare P (Z < −1.51) = Φ(−1.51) si cerca il valore all’incrocio della riga −1.5 e della colonna
−0.01, cioè Φ(−1.51) = 0.06552.
6.3
Un po’ di formule matematiche e un po’ di storia
La formula matematica della curva della distribuzione normale con generica media µ e
generico scarto quadratico medio σ > 0 è la seguente:
f (x) = √
1
2πσ 2
e−
(x−µ)2
2σ 2
,
x∈R
Nella formula oltre ai parametri µ e σ compaiono anche π il numero noto come pi greco il
cui valore approssimato alla seconda cifra decimale è 3.14 e la x. La x è la variabile. Per
6.3. UN PO’ DI FORMULE MATEMATICHE E UN PO’ DI STORIA
99
ogni valore di x ∈ R, dove R è l’insieme dei numeri reali, tutti quanti, f (x) ci da il valore in
ordinata della curva normale. Si noti che al crescere di x verso valori sempre più grandi o
al diminuire di x verso valori sempre più piccoli, ma grandi in valore assoluto, ad esempio
per x = −100 o x = 100, il valore di f (x) per µ = 10 e σ = 4 vale 0.0 . . . 110zeri0117.
Questo è praticamente 0 ma non lo è di fatto! Si noti che l’esponente del numero e (altra
costante universale della matematica, il numero di Nepero, la base dei logaritmi naturali,
che approssimata alla seconda cifra decimale vale 2.27) è negativo, il che significa che al
crescere dell’esponente, diventa sempre più vicino allo zero, ma non lo raggiunge mai. Solo
al limite e−∞ = 0. Il simbolo ∞ è il simbolo matematico che denota il valore infinito,
che non è un valore vero e proprio ma solo una quantità molto molto molto grande. La
distribuzione della normale standard, la distribuzione di tutti gli z-scores è invece data
dalla formula:
1 2
1
f (z) = √ e− 2 z , z ∈ R.
2π
Si tratta delle stessa formula dove abbiamo sostituito a µ il valore zero e a σ abbiamo
sostituito il valore 1 (nella distribuzione normale standardizzata abbiamo µ = 0 e σ = 1).
Abbiamo utilizzato la lettera z invece della lettera x ma questo non ha nessuna importanza.
Avremmo potuto utilizzare ancora la lettera x per indicare un valore qualunque dello z
score. La distribuzione normale prende anche il nome di distribuzione Gaussiana, dal
nome del matematico tedesco Carl F. Gauss (1777-1855) che per primo dedusse il teorema
centrale del limite, o il teorema di normalità asintotica, che studieremo nel prossimo
capitolo e che vide apparire per la prima volta la distribuzione gaussiana. Per una biografia
di Gauss consiglio la lettura del libro La misura del mondo di Daniel Kehlmann (Feltrinelli)
dove la personalità e il carattere molto particolari di Gauss sono descritti in modo sublime
insieme alla personalità di un altro grande scienziato tedesco: Alexander von Humboldt.
100
CAPITOLO 6. SIAMO TUTTI NORMALI?
Capitolo 7
Dal campione alla popolazione
Nelle scienze sociali, come in ogni altra scienza, l’interesse è in genere rivolto ad un particolare gruppo (di persone o di altro tipo). Ad esempio siamo interessati a sapere qual
è la percentuale di giovani che sono disoccupati in Italia. Per trovare questa percentuale
potremmo domandare a tutti i giovani d’Italia se siano o meno disoccupati e quindi calcolarla come numero dei disoccupati diviso numero totale dei giovani in Italia. Si capisce
bene che tale procedura è di fatto irrealizzabile.
Fortunatamente non occorre fare questo per sapere qual è la percentuale dei giovani
senza lavoro. Se lo domandiamo solo ad un campione, purché questo sia scelto in maniera
appropriata, il calcolo della percentuale di giovani disoccupati nel campione potrà essere
esteso a tutta la popolazione dei giovani. La percentuale dei disoccupati valutata sul
campione costituisce una stima della percentuale dei disoccupati nell’intera popolazione.
7.1
Campionamento
Ci sono due concetti molto importanti alla base del campionamento, il concetto di popolazione e quello di campione. La popolazione è il gruppo sul quale vogliamo conoscere
qualche cosa (nell’esempio di prima: la popolazione sono i giovani italiani, l’oggetto di
nostro interesse è la percentuale di disoccupati). Non sempre la popolazione è tangibile
o reale, come in questo caso, dove per forza di cose è finita. A volte la popolazione è
concettuale e non tangibile. Questo è tipico degli esperimenti fisici o dove interessa misurare una quantità e vengono eseguiti un certo numero di esperimenti per ottenere questa
misura. Ogni misura ottenuta in ognuno degli esperimenti è il campione ma la popolazione
è costituita da tutte le possibili misurazioni che si sarebbero potute avere. In genere nelle
scienze sociali la popolazione è costituita da un gruppo ben specificato di persone, quindi
sarà sempre tangibile e costituita da un numero finito di unità.
Definizione 7.1.1 (Popolazione). L’intera collezione di oggetti o persone o eventi sui
quali si ricerca l’informazione di interesse.
101
102
CAPITOLO 7. DAL CAMPIONE ALLA POPOLAZIONE
Prima di tutto la popolazione deve essere ben definita. Se ad esempio si vuole condurre
un’indagine per sapere se gli adulti sono favorevoli alla liberalizzazione della cannabis,
occorre ben definire la categoria degli adulti. Anche la variabile di interesse deve essere
ben definita. Se vogliamo conoscere il reddito medio, dobbiamo specificare cosa intendiamo
per reddito medio. La media aritmetica o la mediana? Il secondo concetto è invece quello
di campione.
Definizione 7.1.2 (Campione). È un sottoinsieme della popolazione che contiene gli
oggetti o le persone o gli eventi sui quali si osserva la quantitè di interesse.
La caratteristica fondamentale di un campione è che deve essere rappresentativo della
popolazione dalle quale è stato scelto. Ad esempio se torniamo al problema di conoscere
la percentuale di disoccupati, per stimare questa percentuale non possiamo scegliere come
campione 100 giovani laureati da tre anni all’università di Milano. Quello che stimeremmo
in questo caso sarebbe la percentuale di disoccupati tra i giovani laureati da tre anni
all’università di Milano, non la percentuale dei disoccupati tra i giovani in Italia.
Vi sono molte ragioni per cui la caratteristica valutata sulle unità del campione non è
in genere uguale alla caratteristica della popolazione. Si tenga presente che noi non saremo
mai in grado di dire quanto è la percentuale dei disoccupati in Italia! Le quantità sulla
popolazione sono di solito chiamate parametri. I parametri possono assumere determinati
valori, uno solo è il vero valore del parametro e noi non lo conosceremo mai: il lavoro dello
statistico è molto triste! Studia per qualcosa che non sarà mai in grado di conoscere!
Quello che però si può fare è fare una stima di questo parametro (la percentuale
dei disoccupati ad esempio) sulla base di un campione scelto bene, e dire quanto si può
sbagliare.
I tipi di errore nel campionamento possono essere di diverso tipo e occorre scegliere il
campione in modo appropriato in modo da minimizzare questi errori. Vediamo alcuni di
questi errori di campionamento.
1. Variabilità del campione. Questo errore è detto anche errore casuale ed è dovuto
al fatto che scegliendo diversi campioni la quantità di interesse calcolata su diversi
campioni sarà diversa. Ad esempio se scegliamo in modo appropriato 1000 campioni
di cento giovani per stimare la percentuale di disoccupati, non osserveremo sempre
la stessa percentuale di disoccupati in ogni campione.
2. Errore di campionamento. Questo tipo di errore detto anche sistematico è più
difficile da individuare e produce in genere stime distorte cioè con un bias. Ad esempio se si sceglie un campione da un elenco telefonico, si escludono automaticamente
tutti coloro che non possiedono un telefono producendo una stima distorta. Errori
di questo tipo sono legati al modo sbagliato con cui viene scelto il campione.
7.1. CAMPIONAMENTO
103
3. Errori non dovuti al campionamento. Questi sono errori che non sono dovuti
al modo con cui è selezionato il campione. Ad esempio: le domande possono essere poste in modo scorretto e che possono essere interpretate in modo sbagliato
dai rispondenti. Oppure gli intervistati possono di proposito rispondere in maniera
diversa da ciò che pensano. Questo ad esempio succede spesso nelle elezioni in cui
i voti ai partiti di estrema destra sono spesso sottostimati negli exit pool perchè
all’uscita del seggio colui che ha votato un tale partito non lo rileva agli intervistatori. Altri errori di questo tipo sono ad esempio quelli dovuti alla codificazione o
digitalizzazione delle risposte.
Per ridurre questo tipo di errori vi sono corsi interi nei corsi di laurea di statistica per
cui non possiamo pretendere di essere esaustivi qui. Ci basta però dare due regole di base
che devono sempre essere applicate. Per tutto il resto si supporrà di avere dei campioni
scelti in modo appropriato. La prima regola è che ogni elemento della popolazione deve
avere la stessa probabilità di essere selezionato come elemento del campione. Si deve
perciò immaginare tutte le unità di una popolazione come delle palline inserite in una
grande urna e la scelta del campione consiste nell’estrarre un certo numero di palline da
quest’urna. In questo caso ogni pallina ha la stessa probabilità di essere selezionata. Un
campione ottenuto in questo modo si chiama campione casuale semplice.
L’altra regola è che il campione deve essere stratificato. Questo tipo di campionamento
deve essere utilizzato quando si sa che vi sono diversi gruppi in una popolazione diversi
tra loro. Ad esempio la stratificazione può avvenire per età o per regione di residenza o
per genere.
Una questione di cui non abbiamo ancora parlato ma che è fondamentale in tutta la
teoria è la grandezza del campionaria: quando deve essere grande un campione? La scelta
dell’ampiezza del campione dipende in generale dai seguenti fattori:
1. La variabilità tra i membri della popolazione. Se in una popolazione è presente
una grande variabilità allora il campione deve essere grande. Per capire questo fatto
pensiamo invece ad una popolazione dove la variabile di interesse non varia affatto
sugli elementi della popolazione, cioè è costante. In questo caso per stimare questa
caratteristica basterebbe solo osservarla su un elemento. Basterebbe un campione
di ampiezza campionaria n = 1, e la stima sarebbe perfetta.
2. Il livello di precisione necessario alla stima. Più abbiamo bisogno di stime
precise più il campione deve essere numeroso. Vedremo che il miglioramento nella
precisione della stima non varia uniformemente con l’aumentare della numerosità del
campione su cui si basa la stima.
104
CAPITOLO 7. DAL CAMPIONE ALLA POPOLAZIONE
3. Costi di campionamento. Intervistare tante persone costa in generale molto non
solo in termini di costo vero e proprio ma anche di tempo. Occorre valutare bene i
benefici che se ne ricavano prima di selezionare campioni troppo grandi con un costo
non sostenibile.
7.2
Dalla popolazione al campione: il caso della media
Il titolo della sezione costituisce il viaggio di andata del titolo del capitolo. Vedremo come
è fatta la distribuzione della media campionaria. Consideriamo la popolazione femminile
in età fertile. Siamo interessati al numero medio di figli che una donna ha in questa
popolazione. Supponiamo di aver estratto diversi campioni di numerosità 5 da questa
popolazione. I campioni sono riportati nella tabella seguente
Campione
1
2
3
4
5
numero di figli
0 2 2 1 1
0 3 0 2 1
1 2 0 2 2
0 2 4 1 0
3 1 2 0 2
x̄
1.2
1.2
1.4
1.4
1.6
s
0.83
1.30
0.89
1.67
1.14
La penultima colonna della tabella riporta la media del numero di figli calcolato in ogni
campione. Le medie di questi diversi campioni sono le medie campionarie. Se i campioni
sono stati scelti in modo corretto la maggior parte delle medie campionarie sarà molto
vicina alla media della popolazione (il parametro incognito) ma comunque qualcuna di
queste medie avrà un valore che si discosta dalla media della popolazione. Se calcoliamo
la media delle medie otteniamo
¯=
x̄
1.2 + 1.2 + 1.4 + 1.4 + 1.6
= 1.36.
5
¯ la media delle medie (quante medie!) Questo numero
Si noti che abbiamo indicato con x̄
possiamo dire che è la migliore stima che possiamo dare della media della popolazione.
consideriamo adesso lo scarto quadratico medio delle medie osservate sui 5 campioni
r
(1.2 − 1.36)2 + (1.2 − 1.36)2 + (1.4 − 1.36)2 + (1.4 − 1.36)2 + (1.6 − 1.36)2
sx̄ =
4
= 0.167
Si noti che questa variabilità è molto più piccola della variabilità della popolazione che può
essere stimata calcolando la media delle standard deviation in ogni campione (riportata
nell’ultima colonna della tabella) che è pari a 1.17. Questo non è dovuto al caso ma è una
proprietà della media campionaria che si può riassumere nei due seguenti fatti:
1. La media della media campionaria è uguale alla media della popolazione.
7.2. DALLA POPOLAZIONE AL CAMPIONE: IL CASO DELLA MEDIA
105
2. Lo scarto quadratico medio della media campionaria è uguale allo scarto quadratico
medio della popolazione diviso per la radice quadrata della numerosità campionaria.
In formula la seconda proprietà si può scrivere, se denotiamo con sigma lo s.q.m. della
popolazione e con n la numerosità campionaria, come
σ
σx̄ = √ .
n
Accanto a questi due fatti abbiamo un risultato ancora più interessante, al punto da
essere noto come teorema fondamentale della statistica. Tale teorema ci assicura che se il
campione è scelto in maniera appropriata non solo valgono i due fatti appena detti ma la
distribuzione della media campionaria è normale.
Teorema 7.2.1 (Fondamentale della statistica). Se abbiamo un campione casuale di ampiezza n estratto da una popolazione con media µ e scarto quadratico medio σ allora la
media campionaria ha una distribuzione che per n elevato è approssimativamente una
normale con la media µ e lo scarto quadratico medio pari a √σn .
Il teorema fondamentale della statistica in sostanza ci dice che quando stimiamo il
valore medio di una quantità che ci interessa con la media campionaria, quella stima ha
una distribuzione Nomale sempre, qualunque sia la popolazione di riferimento. Questo ci
permetterà di valutare gli errori che commettiamo usando quella stima. Inoltre si capisce
il ruolo fondamentale della distribuzione Normale.
Il valore osservato sugli n elementi del campione della media campionaria x̄, è solo uno
dei possibili valori che la media campionaria avrebbe potuto assumere, se avessimo estratto
un altro campione. Se pensiamo alla distribuzione di tutti i possibili valori della media
√
campionaria, questa distribuzione è normale con media µ e scarto quadratico medio σ/ n.
Allora possiamo calcolare lo z-score, il valore standardizzato della media campionaria
z=
x̄ − µ
√σ
n
Gli z- score della media campionaria hanno una distribuzione normale standardizzata.
Vediamo un’applicazione nel seguente esempio
Esempio 7.2.2. Si consideri la popolazione costituita da tutti i lavoratori di imprese di
pulizia. Si supponga che per tale popolazione valgano i seguenti fatti:
• Valore medio paga oraria netta: 4.60 euro
• Deviazione standard: 0.40 centesimi di euro
Tenendo presente il teorema fondamentale della statistica rispondere alle domande seguenti.
106
CAPITOLO 7. DAL CAMPIONE ALLA POPOLAZIONE
1. Qual è la probabilità che un singolo lavoratore scelto a caso guadagni meno di 4.50
euro all’ora?
2. Qual è la probabilità che la media della paga oraria di un campione casuale di 20
lavoratori scelti a caso sia meno di 4.50 euro all’ora?
3. Qual è la probabilità che la media della paga oraria di un campione casuale di 50
lavoratori scelti a caso sia meno di 4.50 euro all’ora?
4. Perché le risposte ai quesiti precedenti sono diverse?
Per rispondere alla prima domanda dobbiamo sapere la distribuzione della paga oraria
per un lavoratore. Denotiamo con X la paga oraria per un lavoratore. Sappiamo dal
testo che X ha una distribuzione normale con media µ = 4.60 e scarto quadratico medio
σ = 0.40. Per calcolare la probabilità richiesta dobbiamo calcolare l’area sotto la curva
normale con media µ = 4.60 e scarto quadratico medio σ = 0.40 da −∞ a 4.50. Ovvero
dobbiamo calcolare l’area sotto la curva normale standardizzata da −∞ allo z score di
4.50. Lo z-score cercato è dato da
z=
4.50 − 4.60
= −0.25.
0.40
L’area cercata è uguale all’area da 0.25 a +∞ e quindi dalla Tavola A.2 ricaviamo in
corrispondenza di 0.25 un area pari a 0.401. Concludiamo quindi che la probabilità che un
lavoratore abbia una paga inferiore a 4.50 euro è del 40.1%, ovvero se pensiamo all’intera
popolazione dei lavoratori delle imprese di pulizie, il 40.1% di essi ha una paga inferiore
ai 4.50 euro all’ora.
Per rispondere alla seconda domanda il teorema fondamentale della statistica ci dice
che la media delle paghe di n = 20 lavoratori ha una distribuzione normale con media
0.40
mu = 4.60 e scarto quadratico medio σ = √
= 0.089. La probbilità cercata è quindi
20
data dall’area sotto la curva nomale con media mu = 4.60 e scarto quadratico medio
σ = 0.089 da −∞ a 4.50, ovvero l’area l’area sotto la curva normale standardizzata da
−∞ allo z score di 4.50. Lo z-score cercato è dato da
z=
4.50 − 4.60
0.40
√
20
=
−0.10
= −1.12.
0.089
L’area cercata è uguale all’area da 1.12 a +∞ e quindi dalla Tavola A.2 ricaviamo in
corrispondenza di 1.12 un area pari a 0.131. Concludiamo quindi che la probabilità che la
paga media di 20 lavoratori sia inferiore a 4.50 euro è del 13.1%.
In modo analogo si risponde alla terza domanda. In questo caso lo z-score va calcolato
rispetto allo scarto quadratico medio della media fatta su n = 50 lavoratori. Abbiamo
z=
4.50 − 4.60
0.40
√
50
=
−0.10
= −1.77.
0.0566
7.2. DALLA POPOLAZIONE AL CAMPIONE: IL CASO DELLA MEDIA
107
L’area cercata è 0.038. Concludiamo quindi che la probabilità che la paga media di 50
lavoratori sia inferiore a 4.50 euro è del 3.8%.
Le risposte ai quesiti sono diverse perché diverso è lo scarto quadratico medio delle
grandezze considerate. La media campionaria ha lo scarto quadratico medio che diventa
sempre minore al crescere di n.
108
CAPITOLO 7. DAL CAMPIONE ALLA POPOLAZIONE
Capitolo 8
Intervalli di confidenza
Possiamo riassumere quanto detto nel capitolo precedente. Abbiamo una popolazione ed
una informazione da ricercare su questa popolazione. L’informazione da ricercare supponiamo sia la media di una certa variabile di interesse (ad esempio ci interessa il numero
medio di figli di una donna italiana). La vera media che ricerchiamo è il parametro di interesse che non è noto. Non potendo conoscere il vero valore del parametro (qual è il vero
valore del numero medio di figli che ha una donna italiana? non lo potremo mai conoscere)
ne facciamo una stima. Scelto propriamente un campione dalla popolazione, rileviamo per
ogni elemento del campione il valore della variabile di interesse e ne calcoliamo la media
aritmetica. Questo valore della media aritmetica ottenuta dai valori rilevati su ogni elemento del campione è la nostra stima del parametro incognito. Quello descritto sopra è
come usualmente si procede alla stima puntuale della media incognita della variabile di
interesse in una popolazione. Per un momento pensiamo però di poter agire in un altro
modo e di poter effettuare la scelta di quanti campioni voglio dalla mia popolazione.
Abbiamo infatti osservato che se avessimo scelto un altro campione dalla popolazione
e avessimo rilevato su ogni elemento di questo campione la variabile di interesse e avessimo
calcolato la media, avremmo osservato un altro valore per la media aritmetica e quindi
avremmo ottenuto un’altra stima per il parametro incognito. Possiamo immaginare di
scegliere tantissimi campioni e calcolare la media aritmetica dei valori osservati in ogni
campione e otterremo tantissime stime per il nostro valore osservato.
Quello che abbiamo concluso nel precedente capitolo è che questi tantissimi valori
hanno una distribuzione normale con media la stessa media della variabile di interesse
sulla popolazione (e quindi non nota) ma uno scarto quadratico medio molto minore, pari
allo scarto quadratico medio della variabile di interessa nella popolazione diviso per radice
quadrata di n, il numero di osservazioni nel campione.
109
110
8.1
CAPITOLO 8. INTERVALLI DI CONFIDENZA
La media campionaria
Ricordiamo come abbiamo denotato la media e lo scarto quadratico medio di una normale
standardizzata nella Sezione 6.2. Abbiamo denotato la media con µ e lo scarto quadratico
medio con σ. Possiamo immaginare che la media della nostra variabile di interesse sia µ
nella popolazione e lo s.q.m sia σ entrambi incogniti. Ora pensiamo alla variabile media
campionaria e a tutti i possibili valori che può assumere nei diversi campioni tutti di
numerosità n. Il teorema fondamentale della statistica ci dice che questa variabile media
campionaria, se n è grande, ha una distribuzione normale, con media che è ancora µ e
scarto quadratico medio che è invece pari a √σn .
Per tornare all’esempio del numero di figli medio per una donna italiana tale numero
non lo conosciamo e lo indichiamo con µ la media incognita della popolazione. Prendiamo
adesso un campione di n = 5 donne (il primo dell’esempio) e stimiamo il valore incognito
con la media del numero di figli calcolato per questo campione x̄ = 1.2. Quindi abbiamo
una stima per il parametro µ e tale stima è 1.2. Un altro risultato molto importante della
statistica ci dice che tale stima è la migliore che possiamo ottenere per la media.
Chiunque di voi potrà obbiettare che se avessimo preso un altro campione e avessimo osservato un altro valore per la media (ad esempio il terzo campione) allora anche
quest’altro valore è la stima migliore che potevamo dare per la media. Ad esempio per
il terzo campione abbiamo x̄ = 1.4. Questo fatto potrebbe sembrare assurdo perchè ho
due stime diverse per la media incognita µ e tutte e due sono la migliore stima possibile!
Questo fatto non è un paradosso se pensiamo che nella realtà la media campionaria ha
una distribuzione normale e quindi se ne osservo più di una esse saranno diverse secondo
la distribuzione normale. La media campionaria è il migliore stimatore puntuale per la
media, cioè è la migliore stima costituita da un solo numero.
Teorema 8.1.1. La media campionaria è la migliore stima puntuale per la media di una
popolazione.
Quello che invece studiamo nella prossima sezione è come dare un intervallo di valori
possibili per la media incognita della popolazione.
8.2
Gli ingredienti e la ricetta
Come dicevamo a volte invece che dare un solo numero è meglio dare un intervallo di valori
per la media incognita di una popolazione. Se vogliamo stimare la percentuale di votanti
per un partito in un sistema bipolare, un conto è dire, stimo la percentuale di votanti per
il partito SX con il 48%, oppure dire che la percentuale di votanti per il partito SX è un
valore nell’intervallo (45%, 51%).
8.2. GLI INGREDIENTI E LA RICETTA
111
Per il Teorema 8.1.1 l’intervallo di confidenza sarà costruito attorno alla media campionaria. Quindi il primo ingrediente è la media campionaria. L’ingrediente fondamentale
per gli intervalli di confidenza è invece dedotto dal livello di confidenza. Questo livello
esprime il grado di confidenza col quale confido che il vero valore del parametro stia nell’intervallo che fornisco. Si possono costruire intervalli di confidenza a qualunque livello
di confidenza, qui considereremo i livelli 95% e 99% che sono i più utilizzati nei fenomeni
sociali, ma credo che tutti saranno in grado di dedurre poi come costruire un intervallo di
confidenza a livello 98% o al 99.9%.
Per dedurre questo ingrediente fondamentale torniamo un attimo al teorema fondamentale della statistica e supponiamo che lo scarto quadratico medio σ sia noto. Sappiamo
che la media campionaria ha distribuzione normale con media µ e scarto quadratico medio
√σ , e quindi gli score della media campionaria z = x̄−µ
√ hanno una distribuzione normale
n
σ/ n
standardizzata. Allora se cerchiamo quei valori sotto una curva normale standardizzata
per cui l’area della parte centrale della distribuzione tra quei valori sia il 95% del totale
(area tratteggiata nella Figura 8.1), dalle tavole troviamo che questi valori sono −1.96
quello a sinistra, e 1.96 quello a destra. Allora possiamo spingerci a sinistra della media
Area 0.95
−1.96
0
1.96
Figura 8.1: L’area tratteggiata vale 0.95. Entrambe le aree non tratteggiate sono 0.025.
campionaria per il fattore −1.96 moltiplicato per la standard deviation divisa per radice
quadrata di n e a destra della stessa quantità positiva. In formula avremo che
σ
σ
Intervallo di confidenza al 95% = x̄ − 1.96 √ , x̄ + 1.96 √
.
n
n
Possiamo cioè dire che
µ∈
σ
σ
x̄ − 1.96 √ , x̄ + 1.96 √
n
n
112
CAPITOLO 8. INTERVALLI DI CONFIDENZA
con un livello di confidenza (o livello di fiducia) pari al 95%. Se lo scarto quadratico medio
non è noto, lo si può stimare con s e se n è sufficientemente grande (in genere maggiore
di 30) possiamo ancora scrivere l’intervallo di confidenza come
s
s
√
√
.
, x̄ + 1.96
Intervallo di confidenza al 95% = x̄ − 1.96
n
n
Esempio 8.2.1. Consideriamo l’età del primo bacio dell’esempio considerato nella Sezione
2.7.3. L’età media del primo bacio in un campione di numerosità n = 42 è x̄ = 14. Lo
scarto quadratico medio è s = 2.41. La formula per l’intervallo di confidenza al 95% è
2.41
2.41
I.C. al 95% =
14 − 1.96 · √ , 14 + 1.96 · √
42
42
2.41
= 0.37 questa è la stima dello scarto quadratico medio della
Facendo i conti abbiamo √
42
media campionaria. Poi ricaviamo 1.96 · 0.37 = 0.73. Questa è l’ampiezza (o meglio la
semi ampiezza) dell’intervallo di confidenza. Quindi possiamo concludere che
I.C. al 95%
=
(14 − 0.73, 14 + 0.73) = (13.27, 14.73)
Si noti che in termini di anni 0.73 sono circa 9 mesi, e quindi l’intervallo di confidenza è
ampio 18 mesi. Il primo bacio viene dato tra i 13 anni e 3 mesi e i 14 anni e 9 mesi con
una confidenza del 95%.
Torniamo ancora un attimo sul significato del livello di confidenza. 95% significa che se
fosse possibile ripetere questo esperimento un numero grande di volte saremmo confidenti
nel credere che tra gli intervalli calcolati circa il 95% contiene il vero valore del parametro
e solo 5 su cento, ovvero uno su venti non lo contiene.
Ricapitolando possiamo dire che per calcolare l’intervallo di confidenza al 95% servono
questi ingredienti:
1. La numerosità campionaria n.
2. La media campionaria x̄.
3. Lo scarto quadratico medio σ.
4. Il valore 1.96.
Con questi ingredienti ricaviamo l’intervallo di confidenza per la media incognita della
popolazione come
σ
σ
√
√
, x̄ + 1.96
.
I.C. al 95% =
x̄ − 1.96
n
n
Se σ non è noto e n è sufficientemente grande possiamo sostituire a σ la sua stimas.
8.2. GLI INGREDIENTI E LA RICETTA
113
Se invece che al 95% volessimo l’intervallo di confidenza al 99%, dobbiamo trovare
quei valori sotto una curva normale standardizzata per cui l’area della parte centrale della
distribuzione tra quei valori sia il 99% del totale (area tratteggiata nella Figura 8.2). Dalle
tavole troviamo che questi valori sono −2.575 quello a sinistra, e 2.575 quello a destra.
Area 0.99
−2.575
0
2.575
Figura 8.2: L’area tratteggiata vale 0.99. Entrambe le aree non tratteggiate sono 0.005.
Quindi ripetendo i ragionamenti sopra l’intervallo di confidenza al 99% per la media
incognita di una popolazione è
s
s
I.C. al 99% =
x̄ − 2.575 √ , x̄ + 2.575 √
.
n
n
Gli ingredienti per ottenere questo intervallo sono
1. La numerosità campionaria n.
2. La media campionaria x̄.
3. Lo scarto quadratico medio σ.
4. Il valore 2.575.
Come si può notare sono gli stessi ingredienti per l’intervallo di confidenza al 95% tranne
l’ultimo valore. Da questo deduciamo che l’intervallo di confidenza al 99% se gli altri
ingredienti sono uguali (in particolare se il campione è lo stesso) sarà più ampio di quello
al 95%. Anche in questo caso se σ non è noto e n è sufficientemente elevato possiamo
sostituire a sigma la sua stima s.
114
CAPITOLO 8. INTERVALLI DI CONFIDENZA
Ad esempio tornando all’esempio precedente l’intervallo di confidenza al 99% per l’età
media in cui gli uomini danno il primo bacio è
2.41
2.41
= (14 − 0.96, 14 + 0.96)
I.C. al 95% = 14 − 2.575 · √ , 14 + 2.575 · √
42
42
= (13.04, 14.96).
Siamo confidenti al 99% che l’età in cui un ragazzo da il primo bacio è compreso tra 13
anni e 15 anni. In questo caso siamo più confidenti ma l’ampiezza dell’intervallo è più
grande: quasi due anni (abbiamo approssimato 0.96 di un anno con 1).
A parità di tute le condizioni (n, campione, quindi stessi valori per la media x̄ e per lo
s.q.m. s calcolati sul campione) se si cambia il livello di confidenza prendendone uno più
grande (voglio essere più confidente che il vero valore sia nell’intervallo che fornisco, quindi
ad esempio passo dal 95% con la possibilità di sbagliare del 5% al 99% con la possibilità
di sbagliare solo dell1%) l’intervallo che fornisco non può che essere più grande. Poiché
√
l’ampiezza dell’intervallo dipende dal fattore n a denominatore, per avere intervalli più
precisi (cioè più stretti) a parità di livello di confidenza dobbiamo aumentare la numerosità
campionaria. Lo vediamo in questo esempio.
Esercizio 8.2.2. Ad un campione di 40 studenti è stato chiesto di dare un voto da 1 a 20
all’operato del primo ministro Letta nei primi 6 mesi del suo mandato su una scala da 1
a 20. La media è stata 12.1 con standard deviation di 3.5.
1. Stimare il voto dato a Letta da tutti gli studenti con un intervallo di confidenza del
95%.
2. Stimare il voto dato a Letta da tutti gli studenti con un intervallo di confidenza del
99%. Questo intervallo come è rispetto al precedente? Più ampio o più stretto?
Perchè?
3. Supponete che la stessa medio e lo stesso s.q.m. sono stati osservati su un campione
di 100 studenti. Stimare il voto dato a Letta da tutti gli studenti con un intervallo
di confidenza del 95%. Questo intervallo come è rispetto al primo intervallo? Più
ampio o più stretto? Perchè?
Esercizio 8.2.3. Con riferimento ai dati dell’esempio della sezione 2.7.3, calcolare Intervallo di confidenza al 95% per l’età del primo rapporto e confrontarla con quella calcolata
per il primo bacio. Quale dei due intervalli è più ampio? I due intervalli si sovrappongono?
Capitolo 9
La proporzione
Fino ad ora abbiamo considerato variabili continue dove la statistica considerata per lo
studio era la media campionaria. In questo capitolo consideriamo invece la proporzione di
un certo evento di interesse valutata su un campione rappresentativo di una popolazione.
Ad esempio possiamo essere interessati alla proporzione di studenti maschi nella facoltà di
lettere e letterature straniere, o alla proporzione di fumatori nella popolazione italiana o
ancora alla proporzione di lavoratori della provincia di Bergamo con un reddito inferiore
a 20000 euro all’anno.
9.1
Il modello
In tutti e tre gli esempi di prima possiamo immaginare la popolazione in cui l’interesse è
per una caratteristica (che viene codificata come successo: il fatto di essere maschi nella
popolazione degli studenti di lettere e letterature straniere, il fatto di essere fumatori nella
popolazione degli italiani, il fatto di essere un lavoratore bergamasco con un reddito di
meno di 20000 euro all’anno).
Indichiamo con π, la lettera pi greca, la vera proporzione di successo nella popolazione
in oggetto. Se vogliamo avere qualche informazione su questo valore incognito π possiamo
scegliere in modo rappresentativo un campione di n elementi nella popolazione e vedere
(contare) quante volte si realizza il successo. Ad esempio possiamo scegliere un campione
di 40 studenti e studentesse dell’Università di Bergamo e contare i maschi. Oppure un
campione di 6000 italiani e contare i fumatori, oppure ancora un campione di 500 lavoratori
della provincia di Bergamo e contare quelli che hanno un reddito inferiore ai 20000 euro.
In tutti questi casi scegliamo un campione di ampiezza n e codifichiamo con 1 il successo
e con 0 l’insuccesso. Registriamo quindi 1 ogni volta che sull’unità del campione osserviamo
il successo e 0 ogni volta che registriamo insuccesso. Se indichiamo con k il numero di
successi avremo che la proporzione di successi nel campione è data dal rapporto tra il
115
116
CAPITOLO 9. LA PROPORZIONE
numero dei successi e il numero delle unità nel campione
1| + 1 +
. . . + 0}
{z. . . + 1} +0
| +{z
p̂ =
k volte
n−k volte
n
=
k
.
n
La quantità p̂ = nk è detta proporzione campionaria e costituisce la grandezza fondamentale
per l’inferenza sulla proporzione vera π.
In particolare vale il seguente risultato, analogo a quello della media campionaria per
la media incognita µ.
Teorema 9.1.1. p̂ è la migliore stima puntuale per π basata su un campione di numerosità
n.
In effetti se si guarda a come è definita p̂, essa è una media campionaria di n grandezze
x1 , x2 , . . . , xn , che possono solo assumere il valore 1 o il valore 0.
Quindi, ad esempio, stimeremo la proporzione vera di studenti maschi alla facoltà di
lettere con la proporzione campionaria valutata sul campione di 40 studenti. Naturalmente
sarà preferibile fornire un intervallo come stima fornendo anche l’informazione su quanto
siamo confidenti che il vero valore stia nell’intervallo fornito come stima. Per costruire
quindi l’intervallo di confidenza con un certo grado di fiducia abbiamo il seguente risultato
che deriva dal teorema fondamentale della statistica.
Teorema 9.1.2. Se n è grande la distribuzione
di p̂ è approssimativamente normale con
q
π(1−π)
.
media π e scarto quadratico medio
n
L’importanza di questo risultato è evidente. Se abbiamo qualche informazione sulla
proporzione di una evento di interesse in una popolazione e osserviamo su un campione di
numerosità n una certa proporzione campionaria p̂, possiamo, dopo aver calcolato lo score
di questa proporzione campionaria, valutare se è un valore attendibile per la popolazione
che stiamo considerando. Prima quindi di vedere come costruire l’intervallo di confidenza
per la proporzione incognita π, vediamo questo esempio.
Esempio 9.1.3. Nell’esame di statistica la proporzione di promossi ad un generico appello
è stata comunicata dalla docente ed è del 70%. Durante l’appello per gli studenti fuori
corso si presentano 17 studenti e 10 passano l’esame di statistica. Possiamo dire che gli
studenti che si sono presentati all’appello per i fuori corso sono particolarmente non bravi?
Al primo appello utile dopo la fine del corso si presentano 92 studenti e 80 passano l’esame.
Cosa possiamo concludere per questi studenti?
La percentuale di studenti che passa l’esame all’appello riservato agli studenti fuori
corso è p̂ = 10
17 = 0.59. Lo score di questa proporzione lo ottengo calcolando prima lo
9.2. INTERVALLO DI CONFIDENZA PER LA PROPORZIONE π
117
standard error per la proporzione
di studenti che passano l’esame di statistica in questo
q
0.70∗0.30
= 0.11. Quindi lo score è
appello. Questo è dato da
17
z=
0.59 − 0.70
= −1
0.11
Calcolando l’area sotto la distribuzione normale standardizzata prima di -1 ho un’indicazione relativa alla probabilità con cui avrei potuto osservare un numero di studenti che
ha passato l’esame inferiore a quello che ho realmente osservato. Dalle tavole ricavo che
il valore della propabilità cercata è circa 0.16. Quindi con una probabilità di circa il 16 %
avrei potuto osservare un numero inferiore di successi. Quindi concludo che gli studenti
fuori corso non sono particolarmente non bravi.
Veniamo al primo appello utile dopo aver seguito il corso.
La proporzione di studenti
q
0.70∗0.30
= 0.05 La probabilità
che ha passato l’esame è p̂ = 0.87. Lo standard error è
92
di osservare più di 80 studenti che passano l’esame su 92 è 0.0003 cioè solo in 3 appelli
su 10000 avrei osservato una simile percentuale di successi, quindi sono particolarmente
preparati gli studenti che sostengono il primo appello utile.
Esercizio 9.1.4. Due sondaggi rappresentativi a livello nazionale sono stati condotti nel
2011 e 2012 su un campione totale di 6167 adulti. La percentuale dei fumatori in Italia
diminuisce, passando dal 22.7% nel 2011 al 20.8% nel 2012. Gli uomini fumano più delle
donne: 25.3% contro il 18.4%.
6
Su un campione di 50 studenti presenti oggi in aula osserviamo p̂ = 50
= 0.12.
1. Calcolare la probabilità che un campione abbia la proporzione più bassa di quella
osservata.
9.2
Intervallo di confidenza per la proporzione π
Quando non si possiede nessuna informazione sulla popolazione e vogliamo stimare la
proporzione incognita di un certo evento che rappresenta il successo, possiamo invece che
fornire solo la stima puntuale, valutata come la proporzione campionaria p̂ del numero di
successi in n osservazioni, fornire un intervallo di confidenza per la proporzione incognita
π. L’intervallo di confidenza al 95% di fiducia è dato dalla seguente formula:
!
r
r
p̂(1 − p̂)
p̂(1 − p̂)
I.C al 95% = p̂ − 1.96
; p̂ + 1.96
.
n
n
Si osservi che nello standar error (o scarto quadratico medio di p̂) non compare il valore
incognito π (e come potrebbe: non ne conosciamo il valore, ne stiamo cercando una stima
con un intervallo di confidenza!), ma compare invece la miglior stima di π dove nella
formula dello standard error compariva π. Si tenga poi presente che tale intervallo è
118
CAPITOLO 9. LA PROPORZIONE
un intervallo che è tanto migliore tanto più è grande n. In modo analogo l’intervallo di
confidenza al 99% di fiducia è dato dalla seguente formula:
!
r
r
p̂(1 − p̂)
p̂(1 − p̂)
; p̂ + 2.575
I.C al 99% = p̂ − 2.575
.
(9.1)
n
n
Esercizio 9.2.1. Supponendo che il campione osservato nell’ Esercizio 9.1.4, sia rappresentativo della popolazione italiana, sulla base del risultato campionario rilevato, calcolare
l’intervallo di confidenza a livello 95% per la proporzione di fumatori in Italia. Tale
intervallo contiene la proporzione fornita dallo studio per il 2012?
Esercizio 9.2.2. La seguente tabella riporta i risultati pubblicati sui quotidiani The Indipendent e The Daily Telegraph nel 1992 sulle intenzioni di voto dei britannici.
Fonte
The Indipendent
The Daily Telegraph
n
1746
2478
Intenzione di voto (in %)
Consevatori
Laburisti
39.0
42.0
38.5
38.0
1. Calcolare l’intervallo di confidenza per le quattro proporzioni.
2. Gli intervalli per la proporzione di votanti per i conservatori e per i laburisti dei due
quotidiani si sovrappongono?
3. Potete concludere da questi dati chi sarà il vincitore delle elezioni e con che distacco?
4. Fare una ricerca per trovare il vincitore e il distacco.
L’esercizio non fornisce il livello di confidenza. In questi casi si assume il livello
95%. Applicando la formula (9.1) otteniamo i seguenti intervalli per i dati forniti dai
due quotidiani:
1. Partito conservatore dati da The Indipendent:
I.C al 95% = (0.380, 0.400) = (36.7%; 41.3%)
2. Partito laburista dati da The Indipendent:
I.C al 95% = (0.397, 0.443) = (39.7%; 44.3%)
3. Partito conservatore dati da The Daily Telegraph:
I.C al 95% = (0.366, 0.404) = (36.6%; 40.4%)
9.2. INTERVALLO DI CONFIDENZA PER LA PROPORZIONE π
119
4. Partito laburista dati da The Daily Telegraph:
I.C al 95% = (0.361, 0.399) = (36.1%; 39.9%)
Si noti come gli intervalli calcolati per il The Daily Telegraph siano più precisi, cioè più
stretti, hanno un’ampiezza di 0.038, cioè 3.8 punti percentuali, rispetto a quelli calcolati
per il The Indipendent, che hanno un’ampiezza di 0.046, cioè di 4.6 punti percentuali.
Questo è dovuto alla maggiore numerosità del campione. Il distacco stimato dal The Indipendent si ottiene facendo la differenza delle due stime, e quindi è di tre punti percentuali,
mentre la stima data dal The Daily Telegraph è praticamente i due partiti con la stessa
percentuale di voti, stimando la differenza con solo mezzo punto percentuale.
I due intervalli calcolati per il giornale The Indipendent non si intersecano e danno la
vittoria al partito laburista. I due intervalli calcolati per il giornale The Daily Telegraph
si intersecano e sembrerebbe in leggero vantaggio il partito conservatore.
I risultati delle elezioni smentirono quasi tutti i sondaggi pre elettorali, soprattutto per
il distacco tra le percentuali dei due partiti.
120
CAPITOLO 9. LA PROPORZIONE
Capitolo 10
Test statistici
I test statistici (detti anche verifica di ipotesi) occupano un posto di rilievo in tutta l’inferenza statistica. Insieme alla stima costituiscono il fulcro di tutta l’inferenza statistica. Se
nel problema della stima si stratta di trovare un valore plausibile per i parametri incogniti di una popolazione (o meglio del modello sulla popolazione), nella verifica d’ipotesi si
tratta di formulare una affermazione sul parametro incognito. La statistica ci fornisce gli
strumenti per arrivare ad una scelta riguardo a questa ipotesi sul parametro (se accettarla
o rifiutarla) quantificando il rischio connesso a questa scelta.
10.1
Verifica d’ipotesi: la teoria
Supponiamo di avere un modello su una popolazione d’interesse e che questo modello
dipenda da un parametro generico θ che è il nostro interesse. (Ad esempio un modello
normale con il parametro di interesse la media µ). Il nostro interesse per il parametro è
costituito da un’affermazione sul possibile valore di questo parametro che noi riteniamo
plausibile. Questo valore dichiarato per il parametro è sottoposto ad una verifica basata
sulle osservazioni sperimentali di un campione scelto dalla popolazione sulla quale è stata
fatta l’affermazione riguardante il valore del parametro.
Definizione 10.1.1. Una ipotesi statistica è una affermazione su θ.
L’ipotesi sottoposta a verifica sperimentale viene di solito chiamata ipotesi nulla ed
indicata con H0 . Di solito H0 specifica il valore di un parametro della popolazione indicato
genericamente con θ. Quindi
H0 : θ = θ0
dove θ0 è un valore fissato. Ad esempio se il parametro della popolazione da sottoporre a
verifica è la media µ scriveremo
H0 : µ = µ0
dove µ0 è un valore della media specificato e noto.
121
122
CAPITOLO 10. TEST STATISTICI
Definizione 10.1.2. Un test statistico è una regola per decidere sulla compatibilità dei
dati con l’affermazione definita dall’ipotesi nulla.
Un test statistico è come un sistema d’allarme che suona in presenza di dati non
compatibili con l’ipotesi nulla. Come tutti i sistemi di allarme il test statistico può produrre
falsi allarmi o dar luogo a mancati allarmi.
Un test conduce sempre a due sole alternative:
• rifiutiamo l’ipotesi nulla H0
• non rifiutiamo l’ipotesi nulla H0
Tale decisione viene presa sulla base delle osservazioni x1 , . . . , xn , di un campione casuale
di ampiezza n proveniente dalla popolazione. Sulla base di queste osservazioni prenderemo
la nostra decisione tramite il valore assunto da quella che è chiamata statistica test e che
sarà diversa per ogni verifica d’ipotesi. La statistica test ci definisce una regola per cui
se la statistica test assume certi valori, che appartengono ad una regione detta regione
di rifiuto si rifiuterà l’ipotesi nulla, se invece assume valori che non appartengono a tale
regione, non si potrà rifiutare l’ipotesi nulla. Si tenga però presente che accettare l’ipotesi
nulla non significa che questa sia vera. Significa che la riteniamo plausibile sulla base delle
nostre osservazioni. Noi non potremo mai sapere qual è il vero valore del parametro.
Trattandosi di un problema di decisione ogni decisione porta con sè la possibilità di
commettere un errore facendo la scelta sbagliata. Se i dati portano a rifiutare un’ipotesi
nulla che è vera si commette un errore chiamato di primo tipo.
La probabilità di commettere questo errore viene indicata con α:
α = P (rifiutare H0 |H0 è vera).
L’errore di primo tipo α è chiamato anche livello di significatività del test.
Nella pratica si deve scegliere la regione di rifiuto in modo da garantire un pre-assegnato
livello di significatività α e in modo da minimizzare la probabilità dell’altro tipo di errore
che si può commettere: l’errore di secondo tipo indicato con β.
Se i dati portano ad accettare una ipotesi nulla che è falsa si commette un errore di
secondo tipo. La probabilità di questo errore viene indicata con β:
β = P (non rifiutare H0 |H0 è falsa).
I due tipi di errore che si possono commettere in relazione alla realtà sono riassunti nella
seguente tabella
10.1. VERIFICA D’IPOTESI: LA TEORIA
Decisione→
Realtà↓
H0 vera
H0 falsa
123
Rifiuto H0
Non Rifuto H0
errore Io tipo
α
nessun errore (OK)
1−β
nessun errore (OK)
1−α
errore di IIo tipo
β
I test che presenteremo nella prossima sezione sono tali da fissare ad un livello che si
ritiene soddisfacente l’errore di primo tipo (nei fenomeni di tipo sociale di solito α = 0.05
o α = 0.01) e hanno il più piccolo errore di secondo tipo.
Il nome errore di primo tipo ha origine storica perchè rappresenta l’errore più grave
che si possa commettere dal punto di vista di chi sottoporne il parametro alla verifica.
Ad esempio nell’ottica dell’allarme l’errore più grave è quello del mancato allarme, perchè
stanno rubando la macchina (qui H0 vera significa che il ladro sta agendo) ma l’allarme
non suona (rifiuto H0 , i dati mi portano a non credere all’ipotesi H0 ).
Un altro modo di interpretare i test consiste nel considerare un test come un processo
fatto ad un imputato. L’imputato è considerato innocente (ipotesi nulla). Se le prove
portate sono tali da far emettere alla giuria un verdetto di colpevolezza, l’imputato viene
condannato. (si rifiuta l’ipotesi nulla). Si noti che nel caso le prove non siano schiaccianti,
e quindi non si possa condannare l’imputato (non si può rifiutare l’ipotesi nulla) questo
non significa che l’imputato sia innocente. Accettare l’ipotesi nulla, o non rifiutarla, non
significa che questa sia vera.
La decisione se accettare o rifiutare l’ipotesi nulla viene fatta sulla base della determinazione di una regione di rifiuto nella quale può rientrare la statistica test basata sui dati.
La regione di rifiuto viene determinata in base all’errore di primo tipo α e in base a quella
che viene chiamata ipotesi alternativa e indicata con HA . A volte l’ipotesi alternativa
viene indicata anche con H1 . Se H0 è data da θ = θ0 l’ipotesi alternativa potrà essere di
tre tipi.
• HA : θ 6= θ0 , detta ipotesi alternativa bilaterale;
• HA : θ > θ0 , detta ipotesi alternativa unilaterale destra;
• HA : θ < θ0 , è detta ipotesi alternativa unilaterale sinistra.
A parità di ipotesi nulla diverse ipotesi alternative producono diversi modi di utilizzare
i dati sperimentali per verificare l’ipotesi nulla.
Nella prossima sezione vedremo come si costruisce la regione di rifiuto per il primo
tipo di ipotesi alternativa, che è in un certo senso la più sicura. Per gli altri due tipi di
ipotesi occorre prestare più attenzione perchè per applicarli occorre essere ben certi della
direzione in cui si è convinti si sia modificato il parametro.
Riassumendo per i test statistici occorre:
124
CAPITOLO 10. TEST STATISTICI
1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA .
2. Trovare la statistica test per il sistema d’ipotesi.
3. Trovare la regione di rifiuto per il sistema d’ipotesi.
4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o
rifiutare H0 .
Nelle prossime sezioni vedremo come si applicheranno questi passi a vari problemi di
verifica d’ipotesi.
10.2
Verifica d’ipotesi: la pratica
Nella pratica la verifica di ipotesi si basa sulla ricerca di statistiche test, che saranno
diverse a seconda dei diversi modelli sulla popolazione e dei diversi parametri da sottoporre
a verifica. Noi prenderemo in considerazione popolazione con distribuzione normale e
saremo interessati a verifiche di ipotesi sulla media nel caso in cui la standard deviation σ
sia nota e nel caso in cui non lo sia. L’altro caso che tratteremo sarà la verifica d’ipotesi
per la proporzione del successo di un certo evento.
10.2.1
Test per la media di popolazione normale: σ nota
Supponiamo di avere un modello normale su una popolazione d’interesse. Ad esempio
un’azienda per la ricerca del personale dichiara che i suoi candidati sono dotati di un
quoziente intellettivo di 120 con una standard deviation di 10. Quello che in sostanza sta
dichiarando l’azienda è che la media µ della sua popolazione normale è 120 e la standard
deviation è σ = 10. Si tratta di dichiarazioni sui parametri di una popolazione. Supponiamo ancora che voi vogliate verificare l’affermazione dell’azienda sul fatto che fornisca
candidati con un quoziente intellettivo di 120. Quello che dovete fare è impostare un test
d’ipotesi per la media della popolazione. In questo caso la popolazione è costituita dai
candidati dell’azienda e la media dichiarata è µ0 = 120. In questo caso siamo interessati
ad una verifica d’ipotesi sul parametro µ, mentre il parametro σ è considerato un parametro di disturbo che in questo caso è noto. Il primo passo consiste nel scrivere il sistema
d’ipotesi:
H0 : µ = 120
HA : µ 6= 120
Il secondo passo consiste nel trovare la statistica test. Se dobbiamo verificare la veridicità
di una affermazione sul valore di una media sembra abbastanza sensato testarla sul valore della media campionaria calcolata su un campione scelto della popolazione. Quindi
dobbiamo avere i dati relativi al quoziente intellettivo di un certo numero n di aspiranti
10.2. VERIFICA D’IPOTESI: LA PRATICA
125
candidati selezionati dall’azienda in questione. I dati sono i seguenti: il quoziente intellettivo medio di n = 36 candidati è stato calcolato e risulta x̄ = 114. L’idea è quella di
rifiutare l’ipotesi nulla se lo z score del valore calcolato della media sul campione risulta
troppo lontano dal valore zero. Perchè se lo z score assume valori troppo grandi positivi
o troppo piccoli negativi vuol dire che riteniamo poco plausibile l’ipotesi nulla. Quindi la
statistica test richiesta dal secondo punto è lo z score
z=
x̄ − µ0
√σ
n
.
Nel caso in considerazione esso vale
z=
114 − 120
√10
36
= −3.6.
A questo punto per determinare la regione di rifiuto (terzo passo) occorre scegliere una
soglia tale per cui se lo z score è oltre tale soglia rifiutiamo l’ipotesi nulla, se non supera
tale soglia accettiamo l’ipotesi nulla. Tale soglia che determinerà la regione di rifiuto viene
calcolata sulla base dell’errore di primo tipo, o livello del test α. Supponiamo che α = 0.05.
Sappiamo che se la popolazione normale ha media 120 solo il 2.5% della popolazione ha
uno z score maggiore di 1.96 e solo il 2.5% della popolazione ha uno z score minore di
-1.96. Allora se la regione di rifiuto è definita come:
R = {z < −1.96 o z > 1.96} ,
in questo caso la probabilità di rifiutare H0 quando H0 è vera è del 5%. Essa corrisponde
all’area tratteggiata nella Figura 10.1.
Poiché −3.6 è minore di −1.96, il valore z calcolato appartiene alla regione di rifiuto R e
siamo portati a credere che l’ipotesi nulla non sia vera e quindi la conclusione è: rifiutiamo
l’ipotesi nulla. E anche il quarto e ultimo punto è stato eseguito. Quindi riassumendo in
questo specifico problema i quattro passi sono i seguenti:
1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA :
H0 : µ = 120
HA : µ 6= 120
2. Trovare la statistica test per il sistema d’ipotesi:
z=
x̄ − µ0
√σ
n
=
114 − 120
√10
36
= −3.6.
3. Trovare la regione di rifiuto per il sistema d’ipotesi:
R = {z < −1.96 o z > 1.96}
126
CAPITOLO 10. TEST STATISTICI
Regione di rifiuto
α 2 = 0.025
−3.6
−1.96
α 2 = 0.025
0
1.96
Figura 10.1: Entrambe le aree tratteggiate sono 0.025. z = −3.6 cade nella regione di
rifiuto di sinistra.
4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o
rifiutare H0 : Poiché −3.6 è minore di −1.96, rifiutiamo l’ipotesi nulla H0 : µ = 120.
Un modo equivalente per verificare il sistema d’ipotesi
H0 : µ = 120
HA : µ 6= 120
consiste nel metodo dell’intervallo di confidenza. Esso si può riassumere in questi passi:
1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA :
H0 : µ = 120
HA : µ 6= 120
2. Calcolare l’intervallo di confidenza al 95% (si noti che il livello di confidenza è l’(1 −
α)%) per la media µ della popolazione:
σ
σ
Intervallo di confidenza al 95% = x̄ − 1.96 √ , x̄ + 1.96 √
= (111, 117)
n
n
3. Decidere se accettare o rifiutare H0 sulla base dell’appartenenza all’intervallo calcolato del valore della media definito dall’ipotesi nulla. Poiché 120 non appartiene
all’intervallo calcolato, rifiutiamo l’ipotesi nulla H0 : µ = 120.
I due metodi sono equivalenti per costruzione. Infatti il valore specificato dall’ipotesi nulla
µ = µ0 appartiene all’intervallo di confidenza all’(1 − α)% se e solo se la statistica test z
score cade nella regione di rifiuto del test con livello α.
10.2. VERIFICA D’IPOTESI: LA PRATICA
10.2.2
127
Test per la media di popolazione normale: σ non nota
Se la standard deviation di una popolazione non è nota, possiamo ancora utilizzare il
metodo della statistica test z score, purché la numerosità campionaria sia grande (in
genere maggiore di n = 30). In questo caso occorre sostituire al parametro σ la stima
s ottenuta dai dati rilevati sul campione. In questo caso l’unico punto che cambia è il
secondo dove lo z score è calcolato come
z=
x̄ − µ0
√s
n
.
Per il resto se il livello del test è α = 0.05 la regione di rifiuto è la stessa
R = {z < −1.96 o z > 1.96} ,
e la decisione è quella di rifiutare H0 se z appartiene alla regione di rifiuto.
Se invece la numerosità n del campione è più piccola di di 30 occorre ricorrere ad
un altra statistica, chiamata t di Student. La distribuzione di questa statistica non è
normale standardizzata ma dipende dal numero di osservazioni. In particolare se abbiamo
n osservazioni allora la statistica t di Student si dice che ha n−1 gradi di libertà. Per il resto
il grafico della distribuzione della t di Student è simmetrico, assomiglia alla distribuzione
normale standardizzata, ma ha le code più alte e la campana più bassa, cioè ha una
maggior variabilità rispetto alla normale standard, nel senso che ci si aspetta di osservare
una percentuale di valori oltre 3 valori della deviazione standard maggiori di quelli di una
normale standardizzata.
La Figura 10.2 riporta il grafico della distribuzione t di Student al variare dei gradi
di libertà. Come si può notare al crescere dei gradi di libertà la distribuzione della t di
Student assomiglia sempre più alla distribuzione normale standard. La distribuzione t di
Student deve il suo nome allo statistico William Sealy Gosset che dedusse la distribuzione
t di Student mentre lavorava come statistico alla famosa birreria irlandese Guinness. La
ditta non gli permise di utilizzare il suo vero nome e lui pubblicò i risultati ottenuti
lavorando presso la Guinness con lo pseudonimo di Student. Vediamo la procedura per
un test t con livello α = 0.05 (viene chiamato in questo modo il test per verificare il valore
di una media di una popolazione normale con σ non noto e numerosità campionaria n
piccola, cioè minore di 30).
1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA . Anche
in questo scriveremo:
H0 : µ = µ 0
HA : µ 6= µ0
128
CAPITOLO 10. TEST STATISTICI
0.4
N(0,1) e t−Student
0.2
0.0
0.1
f(x)
0.3
N(0,1)
t(1)
t(2)
t(10)
t(30)
−5
−4
−3
−2
−1
0
1
2
3
4
5
x
Figura 10.2: Distribuzione t di Student al variare dei gradi di libertà e distribuzione
normale standard.
2. Calcolare la statistica test t. Osservati i valori del campione x1 , x2 , . . . , xn , questa è
data da
x̄ − µ0
t=
s
√
n
3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare la
soglia occorre cercare nella tavola della t di Student con n − 1 gradi di libertà, quei
valori che lasciano a destra un’area pari a 0.025, indichiamo tale valore con tn−1
0.025 ,
e il valore che lascia alla sua sinistra un’area di 0.025 sarà per simmetria il valore
−tn−1
0.025 . La regione di rifiuto è riportata nella Figura 10.3 e si scrive:
n−1
R = t < −tn−1
0.025 o t > t0.025
Il valore tn−1
0.025 si deve cercare nella tavola A.5 come spiegato nell’esempio.
4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o
rifiutare H0 . Se t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla, altrimenti
l’accettiamo.
Esempio 10.2.1. La distribuzione del consumo di alcool tra le donne di età compresa tra
15 e 25 anni in Italia si può considerare normale con media pari 9.5 unità per settimana.
Per capire se il consumo di alcool tra le studentesse dell’università si possa considerare con
la stessa distribuzione si osserva il consumo di alcool di un campione di 14 studentesse.
La media e lo scarto quadratico medio dei valori osservati sono risultati rispettivamente
10.2. VERIFICA D’IPOTESI: LA PRATICA
129
Regione di rifiuto
α 2 = 0.025
α 2 = 0.025
(n−1)
− t0.025
−1
0
(n−1)
t0.025
1
Figura 10.3: Regione di rifiuto per il test t. L’area tratteggiata sotto la distribuzione t di
Student con n − 1 gradi di libertà è 0.05.
x̄ = 10.64 e s = 7.26. Sulla base di questi dati si può accettare l’ipotesi che il consumo di
alcool delle studentesse sia lo stesso di quello delle donne italiane?
Il sistema di ipotesi è il seguente
H0 : µ = 9.5
HA : µ 6= 9.5
La statistica test è:
t=
x̄ − µ0
√s
n
=
10.64 − 9.5
7.26
√
14
= 0.59
Il valore soglia per costruire la regione di rifiuto lo cerchiamo nella Tabella A.5 della t di
Student. In questa tabella p indica la probabilità sotto la curva della distribuzione di una
t di Student con g gradi di libertà. Tale probabilità è data dall’area tratteggiata in Figura
10.4. Quindi il valore che noi cerchiamo è in corrispondenza della colonna con p = 0.975 in
quanto questo valore lascerà alla sua destra un’area sotto la curva pari a 0.025. Essendo
le osservazioni n = 14 i gradi di libertà sono 13, per cui dobbiamo incrociare la colonna
con p = 0.975 con la riga avente g = 13. Il valore corrispondente è 2.16. Quindi la regione
di rifiuto può essere scritta come
R = {t < −2.16 o t > 2.16} .
Poiché la statistica test t = 0.59 non appartiene a questa regione accettiamo l’ipotesi nulla.
Il consumo delle studentesse si può ritenere in linea con il consumo delle donne italiane.
130
CAPITOLO 10. TEST STATISTICI
Area sotto la distribuzione t di Student
g
−5
−3
−1
0
1
tp
3
5
Figura 10.4: Area sotto la curva di una distribuzione t di Student al variare dei gradi di
libertà e di p come riportati in Tabella A.5.
10.2.3
Test per la proporzione
La procedura per la verifica d’ipotesi può essere applicata anche al caso in cui si voglia sottoporre a verifica il valore della proporzione di un certo evento d’interesse su una
popolazione. Vediamo in questo caso i 4 passi.
1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA . Abbiamo un’affermazione sul parametro π:
H0 : π = π0
HA : π 6= π0
2. Per il teorema 9.1.2 calcoliamo lo z score della proporzione campionaria calcolata
sull’osservazione di un campione di ampiezza n. Indicata con p̂ tale proporzione
abbiamo:
p̂ − π0
z=q
π0 (1−π0 )
n
3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare la soglia sempre il Teorema 9.1.2 garantisce che se n è abbastanza grande la distribuzione
degli score è normale standardizzata. Quindi la regione di rifiuto a livello α = 0.05
è ancora
R = {z < −1.96 o z > 1.96}
10.2. VERIFICA D’IPOTESI: LA PRATICA
131
4. Decidere sulla base del valore z. Se z appartiene a R rifiutiamo l’ipotesi nulla,
altrimenti accettiamo l’ipotesi nulla.
Esempio 10.2.2. Un magazzino dichiara di non commettere discriminazione sulla base
dell’etnia dei suoi dipendenti. Metà di essi appartengono infatti a una minoranza etnica.
Osservando i dati dei licenziati nell’ultimo anno i dati dicono che di 28 persone licenziate
23 appartengono alla minoranza etnica. Il magazzino commette il reato di discriminazione
della minoranza?
Se l’affemazione del magazzino fosse vera, cioè se non ci fosse discriminazione il valore
23
= 0.82 dovrebbe essere tale da non far rifiutare l’ipotesi nulla. Applichiamo i
di p̂ = 28
passi per la verifica di ipotesi per la proporzione a questo problema. Il sistema di ipotesi è
H0 : π = 0.50
HA : π 6= 0.50
Calcoliamo quindi lo z score della proporzione osservata p̂ = 0.82:
p̂ − π0
z=q
π0 (1−π0 )
n
0.82 − 0.50
=q
= 3.39.
0.50(1−0.50)
28
Poiché il valore 3.39 appartiene alla regione di rifiuto R = {z < −1.96 o z > 1.96}, rifiutiamo l’ipotesi nulla. Quindi non possiamo credere all’affermazione del magazzino riguardo
alla mancanza di discriminazione.
Esercizio 10.2.3. Determinare il numero massimo di licenziati appartenenti alla minoranza etnica affiché l’ipotesi nulla non sia rifiutata.
Esempio 10.2.4. Un gruppo di n = 9 studenti laureati in sociologia si sottopone ad un
test psicometrico prima di essere assunti da una compagnia. La performance in questo test
di tutti partecipanti ha una distribuzione normale con media µ0 = 62. La media aritmetica
ottenuta dai 9 studenti nel test è x̄ = 66.33, mentre la standard deviation misurata sui 9
studenti è stata s = 4.04. Si può ritenere, a livello α = 0.05, che gli studenti laureati in
sociologia che hanno partecipato al test hanno una performance diversa da quella di tutti
gli altri studenti?
Svolgiamo l’esercizio passo per passo.
1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA .
H0 : µ = 62
HA : µ 6= 62
2. Calcolare la statistica test t. I valori del campione x1 , x2 , . . . , x9 non li conosciamo
ma conosciamo la media x̄ e s. La statistica test è
x̄ − µ0
66.33 − 62
t=
=
= 3.22
s
4.04
√
n
√
9
132
CAPITOLO 10. TEST STATISTICI
3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare la
soglia occorre cercare nella tavola della t di Student con n − 1 = 8 gradi di libertà,
quei valori che lasciano a destra un’area pari a 0.025, indichiamo tale valore con
t80.025 , e il valore che lascia alla sua sinistra un’area di 0.025 sarà per simmetria il
valore −t80.025 . Il valore cercato lo troviamo nella tavola all’incrocio con i gradi di
libertà g = 8 e probabilità p = 0.975 ed è t80.025 = 2.306. La regione di rifiuto è
R = {t < −2.306 o t > 2.306}
4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o
rifiutare H0 . Poiché t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla, infatti
3.22 è maggiore di 2.306.
10.3
Il livello di significativià del test: α
Abbiamo visto nelle sezioni precedenti le regioni di rifiuto per verifiche d’ipotesi con errore
di primo tipo α uguale a 0.05. Se il livello di significativià del test varia, anche la regione
di rifiuto cambia. Ad esempio se il livello diventa α = 0.01 la regione di rifiuto per il primo
caso pratico trattato è
R = {z < −2.575 o z > 2.575}
Il valore −2.575 è quel valore che lascia alla sua sinistra sotto la curva della distribuzione
normale standardizzata un’area pari a 0.005. Mentre per simmetria il valore 2.575 lascia
alla sua destra sotto la curva della distribuzione normale standardizzata un’area pari
a 0.005. Adottiamo un po’ di notazioni. Se indichiamo con α2 la metà del livello di
significatività, siamo in grado di calcolare la regione di rifiuto per qualunque valore di
significativià α. Infatti se indichiamo con z α2 il valore sotto la curva normale che lascia
alla sua destra un’area pari a α2 la generica regione di rifiuto può essere scritta come
n
o
R = z < −z α2 o z > z α2
Si noti che se α = 0.05, α2 = 0.025 e z α2 = 1.96 mentre se α = 0.01, α2 = 0.005 e z α2 = 2.575.
Risulta perciò evidente che se vogliamo calcolare la regione di rifiuto a livello α = 0.02
poiché α2 = 0.01 il valore nelle tavole della Normale standardizzata che lascia alla sua
destra un’area di 0.01 è 2.325. Quindi la regione di rifiuto è
R = {z < −2.325 o z > 2.3255}
Nel caso della verifica d’ipotesi per la proporzione le regioni di rifiuto sono le stesse. Nel
caso invece in cui la verifica d’ipotesi sia per la media della popolazione normale nel caso
in cui σ non sia noto e l’ampiezza campionaria n sia bassa, occorre ricorrere alla tavola
della t di Student per diversi valori di α. Nella tavola fornita occorrerà cercare il valore
per p = 1 − α2 in corrispondenza ai gradi di libertà g = n − 1.
10.4. IL P -VALUE E IL SUO RAPPORTO CON α.
10.4
133
Il p-value e il suo rapporto con α.
Quando si rifiuta l’ipotesi nulla di solito nella pratica si decide di compiere un’azione, in
quanto i dati ci hanno dato conferma che l’ipotesi nulla non è molto plausibile e rifiutandola
siamo propensi a credere che sia più plausibile l’ipotesi alternativa. Nel rifiutare l’ipotesi
nulla sappiamo che possiamo commettere un errore ma l’errore è controllato dal livello
del test α: la probabilità di commettere un errore rifiutando l’ipotesi nulla è inferiore all’
α100%. Risulta evidente che più è grande il valore della statistica test (in valore assoluto)
più siamo sicuri nella scelta di rifiutare l’ipotesi nulla. Il p-value misura esattamente
questo livello di sicurezza. Più è piccolo il p-vale più siamo sicuri della nostra scelta di
rifiutare l’ipotesi nulla. Per il test z, sia z il valore della statistica test. Sappiamo che se
|z| > zα/2 rifiutiamo l’ipotesi nulla. Se andiamo a calcolare l’area sotto la curva normale
dal valore della statistica test |z| a +∞, poichè abbiamo rifiutato l’ipotesi nulla, tale area
sarà minore di α/2. Tanto più tale area è piccola, tanto più il valore della statistica test
|z| è grande. Il p-value è esattamente il valore di questa area. In formula
p−value = P (Z > |z|).
In generale è sempre meglio fornire anche il valore del p-value per il test. La relazione tra
il livello di significatività e il p-value è la seguente:
• Rifiutiamo l’ipotesi nulla se p-value <
• Accettiamo l’ipotesi nulla se p-value ≥
α
2
α
2
Per il test t sia t il valore della statistica calcolato. In questo caso il p-value misura
l’area sotto la curva della distribuzione t con i corrispondenti gradi di libertà. Se ad
esempio sono g i gradi di libertà dobbiamo andare a cercare i valori dell’area dal valore
|t| calcolato fino a +∞ sotto la curva della distribuzione normale con g gradi di libertà.
Poiché a volte le tavole della t di student forniscono solo alcuni valori delle aree, a volte
possiamo solo dare dei valori approssimati del p-value. La decisione per il test t sarà la
stessa che per il test z. L’unica accortezza è che il valore del p-value va cercato nelle tavole
della t di Student con i corretti gradi di libertà.
• Rifiutiamo l’ipotesi nulla se p-value <
• Accettiamo l’ipotesi nulla se p-value ≥
10.5
α
2
α
2
Intervalli di confidenza e test bilaterali
Come si sarà certamente notato il livello di confidenza 1 − α per l’intervallo di confidenza
per la media di una popolazione, deve essere collegato al livello di significatività per il
134
CAPITOLO 10. TEST STATISTICI
test per la verifica dell’ipotesi nulla sulla media di una popolazione contro l’alternativa
bilaterale. In effetti sia per per il test z che per il test t la verifica d’ipotesi può essere
effettuata costruendo l’intervallo di confidenza per la media a livello di fiducia 1 − α dove
α è il livello di significatività del test e la decisione per il test è la seguente:
• Si rifiuta l’ipotesi nulla H0 : µ = µ0 se µ0 non appartiene all’intervallo di confidenza
costruito per la media della popolazione e livello 1 − α
• Non si rifiuta l’ipotesi nulla H0 : µ = µ0 se µ0 appartiene all’intervallo di confidenza
costruito per la media della popolazione e livello 1 − α
Abbiamo già visto come si costruisce l’intervallo di confidenza per la media di una popolazione quando lo scarto quadratico medio σ è noto o quando la numerosità campionaria è
abbastanza elevata e quindi possiamo utilizzare i valori zα/2 della distribuzione normale.
Ad esempio se l’intervallo di confidenza a livello 1 − α = 0.95 per la media µ con σ noto,
risulta
σ
σ
I.C. = (x̄ − 1.96 √ , x̄ + 1.96 √ )
n
n
Se il valore µ0 specificato dell’ipotesi nulla del test a livello di significatività α = 0.05 per
la media della popolazione, appartiene all’intervallo calcolato, non si rifiuta l’ipotesi nulla,
se µ0 non appartiene all’intervallo calcolato, si rifiuta l’ipotesi nulla.
Supponiamo invece di aver calcolato l’intervallo di confidenza a livello 1 − α = 0.95
per la media µ con σ non noto e quindi stimato con s, per una numerosità campionaria n
elevata (maggiore di 30, meglio se maggiore di 50). Esso è dato da
s
s
I.C. = (x̄ − 1.96 √ , x̄ + 1.96 √ )
n
n
Anche in questo caso, se il valore µ0 specificato dell’ipotesi nulla del test a livello di
significatività α = 0.05 per la media della popolazione, appartiene all’intervallo calcolato,
non si rifiuta l’ipotesi nulla, se µ0 non appartiene all’intervallo calcolato, si rifiuta l’ipotesi
nulla.
Per quanto riguarda il test t, quando cioè σ non è noto, la numerosità campionaria è
bassa e possiamo ritenere il fenomeno distribuito come una normale, dobbiamo costruire
l’intervallo di confidenza per la media dela popolazione µ in questo caso. Per fare questo
la procedura è la stessa che nel caso di popolazione Normale con sigma noto o nel caso di
popolazione qualunque ma numerosità elevata, con la sola differenza che dobbiamo calcolar
ein ogni caso s e cercare il valore che determina l’ampiezza dell’intervallo nelle tavole della
t di student, con i gradi di libertà pari a n − 1. Vediamo con ordine gli ingredienti:
P
• Calcolare x̄ = n1 nk=1 xi
q
1 Pn
2
• Calcolare s = n−1
k=1 (xi − x̄)
10.6. TEST CON ALTERNATIVA UNILATERALE
135
• Calcolare i gradi di libertà n − 1
• Cercare il valore corrispondente sulla tavola della t di Student in corrispondenza di
p = 1 − α/2 e gradi di libertà n − 1.
Ad esempio il valore per n = 12 e quindi n − 1 = 11 per un livello di fiducia di 1 − α = 0.95
è dato dal valore t11
0.025 = 2.0099. Tale valore lo troviamo nella Tavola A.5 in appendice
per g = 11 e p = 0.975 in quanto la tavola riporta l’area da −∞ al valore prefissato.
L’intervallo di confidenza risulta quindi
s
s
√ , x̄ + tn−1
√ )
I.C. = (x̄ − tn−1
α/2
α/2
n
n
Anche in questo caso, se il valore µ0 specificato dell’ipotesi nulla del test a livello di
significatività α = 0.05 per la media della popolazione, appartiene all’intervallo calcolato,
non si rifiuta l’ipotesi nulla, se µ0 non appartiene all’intervallo calcolato, si rifiuta l’ipotesi
nulla.
10.6
Test con alternativa unilaterale
A volte si è praticamente sicuri della direzione in cui si è spostato il valore della media,
per cui invece di verificare l’ipotesi se la media è un certo valore contro l’alternativa che
sia diversa (test bilaterale) si verifica se la media è un certo valore contro l’alternativa che
sia maggiore (oppure minore) del valore specificato con l’ipotesi nulla. Si tratta del test
ad una coda ovvero del test con alternativa unilaterale. Per questo tipo di test l’ipotesi
nulla è la stessa
H0 : µ = µ0
mentre l’alternativa può essere di tipo unilaterale destra
HA : µ > µ0
quando siamo convinti che il valore della media sia cresciuto rispetto al valore dichiarato.
Oppure l’alternativa può essere di tipo unilaterale sinistra
HA : µ < µ0
quando siamo convinti che il valore della media sia diminuito rispetto al valore dichiarato.
A questo punto fissato il livello del test α = 0.05 occorre determinare la regione di
rifiuto ed è a questo punto che sta la grossa differenza tra test unilaterali e quelli bilaterali.
In questi ultimi abbiamo visto che l’errore α veniva spezzato in due parti (una a sinistra
e una a destra) della distribuzione della statistica test. Nei test unilaterali questo errore è
invece tutto da una parte. Tale parte ovviamente dipende dal tipo di alternativa unilaterale
136
CAPITOLO 10. TEST STATISTICI
che stiamo verificando. Se ad esempio abbiamo l’ipotesi unilaterale destra µ > µ0 la regione
di rifiuto a livello α = 0.05 è
R = {z > 1.645}
dove 1.645 è il valore sotto la curva normale standardizzata che lascia alla sua destra
un’area pari a 0.05. La regione di rifiuto è riportata in Figura 10.5. Se invece il tet
Regione di rifiuto
α = 0.05
0
1.645
Figura 10.5: Regione di rifiuto per il test unilaterale con alternava destra a livello α = 0.05.
consiste nel verificare l’ipotesi nulla µ = µ0 contro l’alternativa unilaterale sinistra µ < µ0 ,
la regione di rifiuto a livello α = 0.05 è
R = {z < −1.645}
dove −1.645 è il valore sotto la curva normale standardizzata che lascia alla sua sinistra
un’area pari a 0.05. La regione di rifiuto è riportata in Figura 10.6.
Se cambia il livello del test cambia solo il valore soglia da ricavare dalla tavola in
corrispondenza del valore α specificato.
Per il test per la media di una popolazione normale quando lo scarto quadratico medio
non è noto e la numerosità del campione minore di 30 si procede con la statistica t e si
utilizza la tavola della t di Student per determinare la regione di rifiuto quando l’alternativa
è una delle due unilaterale destra o sinistra. Vediamo i passi per questo test nei due casi.
Fissato α = 0.05 consideriamo l’ipotesi alternativa unilaterale destra.
1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA .
H0 : µ = µ0
HA : µ > µ0
10.6. TEST CON ALTERNATIVA UNILATERALE
137
Regione di rifiuto
α = 0.05
−1.645
0
Figura 10.6: Regione di rifiuto per il test unilaterale con alternava sinistra a livello α =
0.05.
2. Calcolare la statistica test t. Osservati i valori del campione x1 , x2 , . . . , xn , questa è
data da
x̄ − µ0
t=
s
√
n
3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare la
soglia occorre cercare nella tavola della t di Student con n − 1 gradi di libertà, quel
valore che lascia a destra un’area pari a 0.05, indichiamo tale valore con tn−1
0.05 . La
regione è:
n−1
R = t > t0.05
4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o
rifiutare H0 . Se t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla, altrimenti
l’accettiamo.
Consideriamo ora l’ipotesi alternativa unilaterale sinistra
1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA .
H0 : µ = µ 0
HA : µ < µ0
2. Calcolare la statistica test t. Osservati i valori del campione x1 , x2 , . . . , xn , questa è
data da
x̄ − µ0
t=
s
√
n
138
CAPITOLO 10. TEST STATISTICI
3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare la
soglia occorre cercare nella tavola della t di Student con n − 1 gradi di libertà, quel
n−1
valore che lascia a sinistra un’area pari a 0.05, indichiamo tale valore con −t0.05
. La
regione è:
n−1
R = t < −t0.05
4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o
rifiutare H0 . Se t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla, altrimenti
l’accettiamo.
Si noti che rispetto ai test bilaterali quello che cambia è unicamente il valore soglia a
parità di statistica test e livello del test in quanto tutto l’errore di prima specie viene
scaricato nella direzione dell’ipotesi alternativa. Se l’ipotesi nulla è vera si sbaglia sono in
una direzione. A parità di livello α la soglia della regione di rifiuto per un test unilaterale
è sempre minore del corrispondente test bilaterale e quindi si rifiuterà l’ipotesi nulla con
più facilità.
Vediamo un esempio
Esempio 10.6.1. Riprendiamo l’Esercizio 10.2.4 Gli studenti laureati in sociologia sono
convinti di essere nettamente sopra la media della performance in questo test. Impostare
una verifica d’ipotesi per stabilire se tale affermazione è credibile.
Svolgiamo l’esercizio passo per passo, anche se con le considerazioni fatte se abbiamo
rifiutato l’ipotesi nulla nel caso di test bilaterale, questa allo stesso livello sarà rifiutata
anche per il test unilaterale destra. Vediamo cosa accade.
1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA .
H0 : µ = 62
HA : µ > 62
2. Calcolare la statistica test t. I valori del campione x1 , x2 , . . . , x9 non li conosciamo
ma conosciamo la media x̄ e s. La statistica test è
t=
x̄ − µ0
√s
n
=
66.33 − 62
4.04
√
9
= 3.22
Come si vede il valore della statistica test non cambia.
3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare la
soglia occorre cercare nella tavola della t di Student con n − 1 = 8 gradi di libertà,
quel valori che lascia a destra un’area pari a 0.05, indichiamo tale valore con t80.05 .Il
10.7. ESERCIZI
139
valore cercato lo troviamo nella tavola all’incrocio con i gradi di libertà g = 8 e
probabilità p = 0.95 ed è t80.05 = 1.86. La regione di rifiuto è
R = {t > 1.86}
Come si vede la regione di rifiuto a destra è più grande della parte destra nel caso
di alternativa bilaterale.
4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o
rifiutare H0 . Poiché t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla, infatti
3.22 è maggiore di 1.86 come lo era di 2.306.
10.7
Esercizi
1. Una ricerca vuole stabilire l’etè media a cui le donne iniziano a fumare. Una ricercatrice intervista 25 fumatrici e chiede loro l’età in cui hanno fumato la prima
sigaretta. La media campionaria sulle 25 intervistate è stata x̄ = 16.8 anni e lo
scarto quadratico medio s = 1.5 anni.
(a) Verificare, con un livello di significatività α = 0.05 se la media dell’età in cui si
fuma la prima sigaretta possa considerarsi 16 anni contro l’alternativa che sia
diversa. (Utilizzare il test t).
(b) Calcolare un intervallo di confidenza per la media dell’età in cui si inizia a
fumare per l’intera popolazione. Fissare il livello di confidenza 1−alpha = 0.95.
(c) Sulla base dell’intervallo calcolato l’esito del test è confermato?
2. Per determinare il grado di tolleranza verso gli stranieri in un campus universitario
agli studenti viene sottoposto un questionario i cui punteggi sono classificati da 1
a 10 dove un punteggio alto indica maggiore tolleranza e un punteggio basso minor
tolleranza. Su 40 questionari riconsegnati è stata calcolata la media x̄ = 6 e lo scarto
quadratico medio s = 1.5.
(a) Verificare l’ipotesi che la media dell’indice di tolleranza nel campus sia µ = 7
contro l’alternativa che sia diverso. Fissare il livello del test α = 0.01.
(b) Il p value per questo test quanto vale?
(c) Costruire l’intervallo di confidenza a livello di fiducia 1 − α = 0.99 e sulla base
dell’intervallo calcolato traete la conclusione per la verifica d’ipotesi precedente.
3. Un indagine vuole determinare se tra i tifosi viene visto favorevolmente il fatto che
ai giocatori di calcio venga fatto il test anti-doping dopo ogni partita. Si intervistano
400 tifosi per i quali risulta che il 64% è favorevole a tale procedura.
140
CAPITOLO 10. TEST STATISTICI
(a) Verificare se la vera proporzione di favorevoli a tale procedura possa ritenersi
pari a π0 = 0.60 contro l’alternativa che sia diversa. Fissare il livello del test a
α = 0.05.
(b) quale sarebbe stata la conclusione del test se lo stesso risultato p̂ = 0.64 fosse
stato ottenuto intervistando n = 1000 tifosi?
Capitolo 11
Confronto di medie
Nei capitoli precedenti abbiamo considerato una sola variabile di interesse, cioè un solo
fenomeno e su di esso abbiamo calcolato gli intervalli di confidenza per la media incognita e
abbiamo fatto delle ipotesi sul valore di questa media incognita (il parametro µ) basandoci
sui risultati del fenomeno osservati su un campione della stessa popolazione. Nei fenomeni
di carattere sociale è invece importante considerare e verificare se sono presenti delle
differenze, ad esempio se il tasso di disoccupazione dei giovani sia diverso tra uomini e
donne o se si possa ritenere uguale e quindi on dipendere dal genere. Oppure se ad esempio
cattolici o protestanti abbiano tendenze diverse sull’essere o meno favorevoli all’aborto. È
importante osservare che nella ricerca (anche in campo sociale) si è interessati a trovare
e studiare differenze piuttosto che a stabilire che queste differenze non esistono. Dalla
constatazione di una differenza nasce spesso lo spunto per intraprendere un nuovo studio
e partire con una nuova ricerca.
11.1
Differenza delle medie per popolazioni normali
Per introdurre le necessarie notazioni, partiamo da un esempio. Supponiamo di voler capire
quale tra due metodi è più efficace per sviluppare la memoria nei giovani che studiano a
livello universitario. Si scelgono a caso tra i giovani 5 soggetti che verranno sottoposti
al metodo A e altri 5 che verranno sottoposti al metodo B. Dopo il trattamento viene
effettuato un test per valutare l’effetto dei due metodi. I risultati del test sono riportati
nella Tabella 11.1 Se vogliamo valutare i risultati dei due metodi confrontando la media
nei due gruppi, come si vede dai risultati riportati nella Tabella 11.1 nel gruppo sottoposto
al metodo A la media ottenuta è 16 e i valori si attestano attorno al questo valore, mentre
nel gruppo che è stato sottoposto al metodo B i valori si attestano attorno al valore 20 che
è la media. Saremmo propensi a credere che ci sia differenza tra i due metodi osservando
i risultati sui due gruppi. Ora si supponga che i risultati nei due gruppi abbiano sempre
dato la stessa media, ma le osservazioni sui singoli soggetti siano diverse. Le riportiamo
141
142
CAPITOLO 11. CONFRONTO DI MEDIE
Metodo A
16
15
17
15
17
x̄A = 16
Metodo B
20
19
21
20
20
x̄B = 20
Tabella 11.1: Risultati primo esperimento test sulla memoria.
Metodo A
20
16
12
13
19
x̄A = 16
Metodo B
15
16
24
20
25
x̄B = 20
Tabella 11.2: Risultati secondo esperimento test sulla memoria.
nella Tabella 11.2. Come si vede le singole osservazioni nei due gruppi sono molto instabili
attorno ai valori medi. In questa situazione siamo più restii a considerare una differenza
effettiva tra i due gruppi. Cercheremo ora di fornire un metodo quantitativo per stabilire
sulla base delle osservazioni se ci sia una differenza tra i due gruppi.
Denotiamo con X1 e X2 le due popolazioni che hanno subito il trattamento A (nell’esempio il gruppo sottoposto al metodo A) e il trattamento B. Supponiamo che le due
popolazioni siano Normali, ciascuna caratterizzata dai propri parametri incogniti media e
scarto quadratico medio.
Sia µ1 il parametro che rappresenta la media incognita nella prima popolazione e sia µ2
il parametro che rappresenta la media incognita nella seconda popolazione. Supponiamo
che la variabilità nella due popolazioni sia la stessa e la denotiamo con σ 2 .
Vogliamo verificare l’ipotesi nulla
H0 : µ1 = µ2
contro l’alternativa bilaterale
HA : µ1 6= µ2
Per verificare questa ipotesi consideriamo per ciascuna delle due popolazioni un campione casuale e andiamo a calcolare la media campionaria nei due campioni. Precisamente
sia x(1) = {x1 , x2 , . . . , xn1 } le osservazioni sul campione dalla prima popolazione e siano
x(2) = {x1 , x2 , . . . , xn2 } le osservazioni sul campione dalla seconda popolazione. Abbiamo
11.1. DIFFERENZA DELLE MEDIE PER POPOLAZIONI NORMALI
143
usato lo stesso simbolo per non appesantire le notazioni. Si noti che i campioni possono
anche avere numerosità diverse, qui indicate con n1 e n2 rispettivamente.
La statistica sulla quale si basa il test è data da
x̄1 − x̄2
(11.1)
t= q
2
s̄p nn11+n
n2
dove x̄1 e x̄2 sono le medie calcolate nei due campioni di ampiezza n1 ed n2 rispettivamente.
La quantità sp è una media pesata secondo le numerosità dei due campioni della
varianza σ 2 ed è definita come segue:
s
(n1 − 1)s̄21 + (n2 − 1)s̄22
sp =
n1 + n2 − 2
dove con s̄1 e s̄2 si sono indicate gli scarti quadratici medi calcolati rispettivamente nei due
campioni. Si noti che nella formula sono elevate al quadrato prima di essere moltiplicate
per (n1 − 1) e (n2 − 1) rispettivamente.
Fissato il livello di significatività del test α, in genere α = 0.05 o α = 0.01, ovvero
fissato il rischio che siamo disposti ad assumerci nel caso si rifiutasse H0 e questa fosse
in realtà vera, il test consiste nel confrontare il valore di t calcolato con la formula (11.1)
con il valore di una t di Student con g = n1 + n2 − 2 gradi di libertà per il corrispondente
valore di α. Indicato con tgα il valore per cui l’area dal valore in poi, sotto la distribuzione
2
di una t si Student con g gradi di libertà è pari ad α2 , la regola di decisione del test a
livello α corrisponde a rifiutare H0 : µ1 = µ2 se |t| > tgα . Si noti che si prende il valore
2
assoluto della statistica t. Se la differenza delle medie nella formula (11.1) fosse negativa,
si considera il valore assoluto.
Vediamo un esempio di applicazione del test. Un sociologo ha effettuato un indagine
per per capire se la recente riforma sanitaria introdotta dal governo è vista di buon grado
dai sostenitori dei partiti di centro destra e dai partiti di centro sinistra. A tal proposito
effettua un indagine tra 12 elettori di centro sinistra e 18 elettori di centro destra. A
ciascuno di essi viene sottoposto un questionario il cui risultato è sintetizzato da un valore
numerico su una scala da 1 a 100 dove più è alto il valore ottenuto più l’individuo è a
favore della riforma. Il sociologo calcola i seguenti valori: media dei valori riportati tra i
12 elettori di centro sinistra: x̄1 = 60; scarto quadratico medio riportato tra gli elettori
di centro sinistra: s1 = 12. Media dei valori riportati tra i 18 elettori di centro destra:
x̄1 = 49; scarto quadratico medio riportato tra gli elettori di centro destra: s2 = 14.
Verificare se il sostegno alla riforma sanitaria possa essere considerato lo stesso tra gli
elettori dei due partiti considerati o se vi è una differenza.
Se indichiamo con µ1 e µ2 i valori medi incogniti nelle due popolazioni del valore del
sostegno dato alla riforma valutabile con il test, si tratta di verificare l’ipotesi
H0 : µ1 = µ2
144
CAPITOLO 11. CONFRONTO DI MEDIE
contro l’alternativa che i due valori siano diversi.
Fissiamo α = 0.05. I gradi di libertà sono 12 + 18 − 2 = 28. Il valore t28
0.025 lo troviamo
sulle tavole della t di Student. Poiché la Tavola A.5 riporta i valori delle aree da −∞ al
valore che cerchiamo, l’area che interessa la troviamo come 1 − α2 = 1 − 0.025 = 0.975. Il
valore corrispondente alla colonna 0.975 e alla riga 28 è 2.048. Si noti che se da −∞ a
2.048 l’area è 0.975, ne consegue che da 2.048 a +∞ l’area `e 0.025. Quindi t28
0.025 = 2.048.
Ora calcoliamo il valore della statistica test sui dati osservati. Abbiamo
r
12 · 122 + ·18 ∗ 142 √
= 187.7143 = 13.70
sp =
12 + 18 − 2
Quindi
t=
60 − 49
q
= 2.15
12.02 · 12+18
12·18
Quindi possiamo rifiutare l’ipotesi nulla, e concludiamo che c’è evidenza che gli elettori di
centro sinistra la pensino in maniera diversa rispetto agli elettori di centro destra riguardo
alla nuova riforma sanitaria.
Se il valore della deviazione standard calcolata sui due campioni fosse stata rispettivamente s1 = 15 ed s2 = 16 avremmo avuto (si verifichi il conto)
sp =
√
261 = 16.16,
da cui
t = 1.83.
A parità della stessa differenza in media (x̄1 − x̄2 non è cambiata) abbiamo un valore
della statistica test più basso che non ci porta a rifiutare l’ipotesi nulla. Questo è dovuto
alla più alta variabilità nelle risposte nei due gruppi che è sintetizzato dai due valori s1 e
s2 . Naturalmente se le medie osservate fossero state x̄1 = 62 e x̄2 = 47 (quindi con una
differenza maggiore) e avessimo sempre s1 = 15 e s2 = 16 allora in questo caso il valore
della statistica test (si verifichi il conto) sarebbe stato
t = 2.49
e avremmo rifiutato anche in questo caso l’ipotesi nulla. Ad ogni modo è evidente che con
variabilità alte occorre una differenza in media elevata per poter rifiutare.
Esercizio 11.1.1. In uno studio di marketing per valutare la soddisfazione dei clienti che
hanno effettuato l’acquisto di umidificatori ad ultrasuoni sono state poste alcune domande
ad un gruppo che ha acquistato la marca che ha effettuato la ricerca di mercato e ad un
altro gruppo che ha acquistato una marca concorrenti Gli acquirenti della marca che ha
11.2. DIFFERENZA PER DUE PROPORZIONI
145
commissionato lo studio ha dato come risultati del test per valoutare il grado di soddisfazione i seguenti valori: 14.0, 14.3, 12.2, 15.1. Per la seconda marca di umidificatori i
risultati al test sono stati 12.1, 13.6, 11.9, 11.2, 12.2.
Si può accettare l’ipotesi nulla che la soddisfazione in entrambi i gruppi sia la stessa a
livello di significatività 0.05?
11.2
Differenza per due proporzioni
Come si è interessati a verificare se c’è una differenza tra le medie di due popolazioni normali si può essere interessati a capire se vi è una differenza tra due proporzioni, ad esempio
se vi è differenza tra la percentuale di fumatori tra le donne e gli uomini, se la percentuale di disoccupati è diversa tra sud e nord e tra uomini e donne. Nelle scienze sociali si
utilizzano spesso le proporzioni per misurare determinate caratteristiche in diversi gruppi
e si capisce come sia importante stabilire se le differenze osservate siano statisticamente
significative.
Siano quindi π1 e π2 le vere proporzioni di una certa caratteristica di interesse sue due
gruppi distinti.
Siano n1 e n2 le numerosità campionarie nei due gruppi di interesse e siano k1 e k2
il numero degli individui nei rispettivi gruppi che soddisfano la caratteristica di interesse
che si sta studiando (ad esempio i fumatori o i disoccupati).
Vogliamo verificare l’ipotesi nulla
H0 : π1 = π2
contro l’alternativa
HA : π1 6= π2
sulla base dei risultati dell’indagine sui campioni nelle due popolazioni considerate (uomini
e donne o residenti al nord e residenti al sud) e del livello di significatività fissato α.
La statistica test ha la forma
p̂1 − p̂2
z=
sp1 −p2
dove
p̂1 =
k1
,
n1
p̂2 =
k2
n2
la standard deviation è data da
s
sp1 −p2 =
p∗ (1
e
p∗ =
−
p∗ )
k1 + k2
.
n1 + n2
n1 + n2
n1 · n2
146
CAPITOLO 11. CONFRONTO DI MEDIE
La regola di decisione consiste nel rifiutare H0 se il valore della statistica test z in valore
assoluto è maggiore del valore zα/2 che troviamo sulle tavole della Normale standardizzata.
Vediamo il seguente esempio. Da un insieme di 22071 medici volontari vennero formati
due gruppi: il gruppo di trattamento e quello di controllo. Gli individui del gruppo
di trattamento ricevevano una dose quotidiana di aspirina mentre quelli di controllo un
farmaco senza il principio attivo, cioè un placebo. Lo studio venne condotto per un periodo
di 5 anni osservando il numero di decessi per infarto. Si ottennero i seguenti risultati:
Esito
Infartuati
Non Infartuati
Totali
239
139
378
10795
10898
21693
11034
11037
22071
Farmaco
Placebo
Aspirina
Vogliamo verificare l’ipotesi nulla che la proporzione dei colpiti da infarto sia uguale nei
due gruppi (quello trattato col farmaco e quello col placebo) contro l’alternativa che sia
diversa. Sia 1 il gruppo di controllo e 2 il gruppo dei trattati. Abbiamo
p̂1 =
239
= 0.0217
11034
e p̂2 =
139
= 0.0126
11037
E quindi
p∗ =
x1 + x2
378
= 0.0171
=
n1 + n2
22071
Il valore della statistica z è
p̂1 − p̂2
z=r
p∗ (1 − p̂∗ ) n11 +
1
n2
0.0217 − 0.0126
=q
1
0.0171 · (1 − 0.0171) 11034
+
1
11037
0.0091
= 0.00175 = 5.2
Confrontiamo z = 5.2 con il valore della tavola della normale z α2 = z0.05 = 1.64. Poiché
z > 1.64 il test rifiuta l’ipotesi nulla e gli sperimentatori concluderanno che vi è un effetto
protettivo del principio attivo contenuto nell’aspirina rispetto al rischio di infarto cardiaco.
11.3
Il p-value
In tutti i test statistici è importante sapere, quando si rifiuta l’ipotesi nulla, quanta convinzione in termini di probabilità c’è in questo rifiuto. Prendiamo i due esempi dei paragrafi
precedenti. Nel primo caso per il confornto di due medie da due popolazioni normali abbiamo calcolato la statistica t = 2.15 e abbiamo rifiutato perché il valore soglia è t28
α/2 = 2.048.
Sempre nello stesso esempio nell’ultimo caso considerato, abbiamo calcolato la statisitca
test che in questo caso vale t = 2.49 e anche in questo caso si rifiuta l’ipotesi nulla perché
11.4. ESERCIZI
147
il valore della statistica è maggiore del valore soglia. Il grado di convinzione della scelta di
rifiutare è chiaro che sarà tanto maggiore tanto più è grande il valore della statistica test,
rispetto al valore soglia. La misura di questa convinzione ci è data dal p-value. Poichè
l’area sotto la curva della distribuzione della statistica test (nel caso considerato una t
di Student con 28 gradi di libertà) dal valore soglia a +∞ vale α2 e poichè il valore della
statisitca test sta a destra del valore soglia, risulta evidente che l’area sotto la curva della
distribuzione della statistica dal valore osservato t a +∞ sarà minore di α2 . Ora tanto più è
piccola questa area tanto più il rifiuto dell’ipotesi nulla è fatto con convinzione. Ebbene il
valore di quest’area è il p-value. Cioè il p-value è un’area, e rappresenta la probabilità che
la statistica test assuma un valore più grande di quello che abbiamo trovato. Se andiamo
sullaTavola A.5 della t di student in corrispondenza della riga con 28 per i gradi di libertà
dobbiamo trovare i due valori tra cui è compreso il valore calcolato: si osserva che
2.048 < 2.15 < 2.467
quindi il p-value in questo caso è tra 0.025 e 0.01. Nel secondo caso
2.467 < 2.49 < 2.763
quindi il p-value è compreso tra 0.01 e 0.005. I valori esatti del p-value si possono ottenere
con un software statistico è sono rispettivamente: 0.02 e 0.009. In entrambi i casi, sono
valori più piccoli di α2 , e in entrambi i casi rifiutiamo l’ipotesi nulla, ma nel secondo
caso la rifiutiamo con più convinzione rispetto al primo caso. Consideriamo anche il caso
nell’esempio sulla verifica dell’uguaglianza tra due proporzioni. La statistica test vale
5.2 e l’area sotto la curva di una distribuzione Normale da 5.2 a +∞ è praticamente 0.
In effetti le tavole in appendice calcolano l’area solo fino al valore 3, e 5 è ben oltre il
valore 3. Sempre con un software statistico il p-value per questo caso è 9.8 · 10−8 quindi
un numero veramente piccolo. In quest’ultimo caso l’evidenza della differenza tra i due
gruppi è grandissima.
11.4
Esercizi
1. Si vuole stabilire se le donne sorridono di più degli uomini. Per questo motivo
vengono videoregistrati alcuni uomini e alcune donne in situazioni particolari e si
contano il numero di sorrisi effettuati. I dati sono riportati nella seguente tabella.
Maschi
8
2
11
4
13
Femmine
15
18
13
19
11
148
CAPITOLO 11. CONFRONTO DI MEDIE
(a) Calcolare la media e lo scarto quadratico medio nei due gruppi degli uomini e
delle donne.
(b) Scrivere l’ipotesi nulla per verificare se le medie incognita del numero di sorrisi
siano le stesse nei due gruppi.
(c) Calcolare il valore della statistica test.
(d) Trovare il valore soglia fissato il livello del test α = 0.05.
(e) Qual è la decisione a livello α = 0.05.
(f) Calcolare il valore approssimato del p-value.
2. Un sociologo è interessato a studiare se esiste qualche differenza dovuta al genere
riguardo alla socialità delle persone. Come misura del grado di socialità di una
persona viene considerato il numero di amici molto cari che ogni persona possiede.
I dati relativi al numero di amici in un gruppo di 8 donne e 7 uomini sono riportati
nella seguente tabella:
Femmine
5
7
8
3
7
6
8
1
Maschi
5
1
8
1
3
2
2
(a) Calcolare la media e lo scarto quadratico medio nei due gruppi degli uomini e
delle donne.
(b) Scrivere l’ipotesi nulla per verificare se le medie incognita del numero di amici
siano le stesse nei due gruppi.
(c) Calcolare il valore della statistica test.
(d) Trovare il valore soglia fissato il livello del test α = 0.05.
(e) Qual è la decisione a livello α = 0.05.
(f) Calcolare il valore approssimato del p-value.
3. È stata svolta un indagine per capire se le persone sopra i 18 anni sono favorevoli
ad una maggior restrizione per il possesso di un’arma da fuoco. I risultati divisi per
genere sono raccolti nella seguente tabella:
11.4. ESERCIZI
149
Favorevoli
Contrari
N
Maschi
92
74
166
Femmine
120
85
205
(a) Calcolare la proporzione di favorevoli ad una maggiore restrizione nei due gruppi
degli uomini e delle donne.
(b) Scrivere l’ipotesi nulla per verificare se le proporzioni incognite dei favorevoli
ad una maggiore restrizione siano uguali nei due gruppi.
(c) Calcolare il valore della statistica test.
(d) Trovare il valore soglia fissato il livello del test α = 0.05.
(e) Qual è la decisione a livello α = 0.05.
(f) Calcolare il valore approssimato del p-value.
150
CAPITOLO 11. CONFRONTO DI MEDIE
Appendice A
Tavole Statistiche
In questa appendice sono riportate le tavole statistiche utilizzate nel testo e che potranno
essere utili per risolvere gli esercizi. La Tavola A.1 riporta i valori dell’area sotto la curva
Normale da 0 a un qualunque valore z positivo. Quest’area è riportata nella Figura A.1.
Si noti come per valori di z maggiori di 3.3 il valore dell’area è approssimato con 0.50 che
0.0
0.1
0.2
0.3
0.4
N(0,1)
−3
−2
−1
0
1
z
2
3
z
Figura A.1: Area sotto la curva normale standardizzata della regione da 0 fino al generico
z score.
è invece l’area sotto la curva fino a + infinito. Si ricordi l’osservazione fatta nel Capitolo
6, dove si è sottolineato che la curva Normale è asintotica all’asse delle ascisse, quindi la
curva si avvicina all’asse delle ascisse senza mai toccarlo.
151
152
APPENDICE A. TAVOLE STATISTICHE
0.0
0.1
0.2
0.3
0.4
N(0,1)
−3
Area
z
0.00
0.0 0.000
0.1 0.040
0.2 0.079
0.3 0.118
0.4 0.155
0.5 0.191
0.6 0.226
0.7 0.258
0.8 0.288
0.9 0.316
1.0 0.341
1.1 0.364
1.2 0.385
1.3 0.403
1.4 0.419
1.5 0.433
1.6 0.445
1.7 0.455
1.8 0.464
1.9 0.471
2.0 0.477
2.1 0.482
2.2 0.486
2.3 0.489
2.4 0.492
2.5 0.494
2.6 0.495
2.7 0.497
2.8 0.497
2.9 0.498
3.0 0.499
3.1 0.499
3.2 0.499
3.3 0.500
3.4 0.500
3.5 0.500
−2
−1
0
1
z
2
3
z
0.01
0.004
0.044
0.083
0.122
0.159
0.195
0.229
0.261
0.291
0.319
0.344
0.367
0.387
0.405
0.421
0.434
0.446
0.456
0.465
0.472
0.478
0.483
0.486
0.490
0.492
0.494
0.495
0.497
0.498
0.498
0.499
0.499
0.499
0.500
0.500
0.500
0.02
0.008
0.048
0.087
0.126
0.163
0.198
0.232
0.264
0.294
0.321
0.346
0.369
0.389
0.407
0.422
0.436
0.447
0.457
0.466
0.473
0.478
0.483
0.487
0.490
0.492
0.494
0.496
0.497
0.498
0.498
0.499
0.499
0.499
0.500
0.500
0.500
0.03
0.012
0.052
0.091
0.129
0.166
0.202
0.236
0.267
0.297
0.324
0.348
0.371
0.391
0.408
0.424
0.437
0.448
0.458
0.466
0.473
0.479
0.483
0.487
0.490
0.492
0.494
0.496
0.497
0.498
0.498
0.499
0.499
0.499
0.500
0.500
0.500
0.04
0.016
0.056
0.095
0.133
0.170
0.205
0.239
0.270
0.300
0.326
0.351
0.373
0.393
0.410
0.425
0.438
0.449
0.459
0.467
0.474
0.479
0.484
0.487
0.490
0.493
0.494
0.496
0.497
0.498
0.498
0.499
0.499
0.499
0.500
0.500
0.500
0.05
0.020
0.060
0.099
0.137
0.174
0.209
0.242
0.273
0.302
0.329
0.353
0.375
0.394
0.411
0.426
0.439
0.451
0.460
0.468
0.474
0.480
0.484
0.488
0.491
0.493
0.495
0.496
0.497
0.498
0.498
0.499
0.499
0.499
0.500
0.500
0.500
0.06
0.024
0.064
0.103
0.141
0.177
0.212
0.245
0.276
0.305
0.331
0.355
0.377
0.396
0.413
0.428
0.441
0.452
0.461
0.469
0.475
0.480
0.485
0.488
0.491
0.493
0.495
0.496
0.497
0.498
0.498
0.499
0.499
0.499
0.500
0.500
0.500
0.07
0.028
0.067
0.106
0.144
0.181
0.216
0.249
0.279
0.308
0.334
0.358
0.379
0.398
0.415
0.429
0.442
0.453
0.462
0.469
0.476
0.481
0.485
0.488
0.491
0.493
0.495
0.496
0.497
0.498
0.499
0.499
0.499
0.499
0.500
0.500
0.500
0.08
0.032
0.071
0.110
0.148
0.184
0.219
0.252
0.282
0.311
0.336
0.360
0.381
0.400
0.416
0.431
0.443
0.454
0.462
0.470
0.476
0.481
0.485
0.489
0.491
0.493
0.495
0.496
0.497
0.498
0.499
0.499
0.499
0.499
0.500
0.500
0.500
0.09
0.036
0.075
0.114
0.152
0.188
0.222
0.255
0.285
0.313
0.339
0.362
0.383
0.401
0.418
0.432
0.444
0.454
0.463
0.471
0.477
0.482
0.486
0.489
0.492
0.494
0.495
0.496
0.497
0.498
0.499
0.499
0.499
0.499
0.500
0.500
0.500
Tabella A.1: Tavola della Normale standard. Valori dell’area sotto la curva Normale da z
positivo a +∞. Per calcolare l’area sotto la curva per l’intervallo (0, 1.51) si cerca il valore
all’incrocio della riga 1.5 e della colonna 0.01, cioè l’area è 0.434.
153
0.0
0.1
0.2
0.3
0.4
N(0,1)
−3
Area
z
0.00
0.0 0.500
0.1 0.460
0.2 0.421
0.3 0.382
0.4 0.345
0.5 0.309
0.6 0.274
0.7 0.242
0.8 0.212
0.9 0.184
1.0 0.159
1.1 0.136
1.2 0.115
1.3 0.097
1.4 0.081
1.5 0.067
1.6 0.055
1.7 0.045
1.8 0.036
1.9 0.029
2.0 0.023
2.1 0.018
2.2 0.014
2.3 0.011
2.4 0.008
2.5 0.006
2.6 0.005
2.7 0.003
2.8 0.003
2.9 0.002
3.0 0.001
3.1 0.001
3.2 0.001
3.3 0.000
3.4 0.000
3.5 0.000
−2
−1
0
1
z
2
3
z
0.01
0.496
0.456
0.417
0.378
0.341
0.305
0.271
0.239
0.209
0.181
0.156
0.133
0.113
0.095
0.079
0.066
0.054
0.044
0.035
0.028
0.022
0.017
0.014
0.010
0.008
0.006
0.005
0.003
0.002
0.002
0.001
0.001
0.001
0.000
0.000
0.000
0.02
0.492
0.452
0.413
0.374
0.337
0.302
0.268
0.236
0.206
0.179
0.154
0.131
0.111
0.093
0.078
0.064
0.053
0.043
0.034
0.027
0.022
0.017
0.013
0.010
0.008
0.006
0.004
0.003
0.002
0.002
0.001
0.001
0.001
0.000
0.000
0.000
0.03
0.488
0.448
0.409
0.371
0.334
0.298
0.264
0.233
0.203
0.176
0.152
0.129
0.109
0.092
0.076
0.063
0.052
0.042
0.034
0.027
0.021
0.017
0.013
0.010
0.008
0.006
0.004
0.003
0.002
0.002
0.001
0.001
0.001
0.000
0.000
0.000
0.04
0.484
0.444
0.405
0.367
0.330
0.295
0.261
0.230
0.200
0.174
0.149
0.127
0.107
0.090
0.075
0.062
0.051
0.041
0.033
0.026
0.021
0.016
0.013
0.010
0.007
0.006
0.004
0.003
0.002
0.002
0.001
0.001
0.001
0.000
0.000
0.000
0.05
0.480
0.440
0.401
0.363
0.326
0.291
0.258
0.227
0.198
0.171
0.147
0.125
0.106
0.089
0.074
0.061
0.049
0.040
0.032
0.026
0.020
0.016
0.012
0.009
0.007
0.005
0.004
0.003
0.002
0.002
0.001
0.001
0.001
0.000
0.000
0.000
0.06
0.476
0.436
0.397
0.359
0.323
0.288
0.255
0.224
0.195
0.169
0.145
0.123
0.104
0.087
0.072
0.059
0.048
0.039
0.031
0.025
0.020
0.015
0.012
0.009
0.007
0.005
0.004
0.003
0.002
0.002
0.001
0.001
0.001
0.000
0.000
0.000
0.07
0.472
0.433
0.394
0.356
0.319
0.284
0.251
0.221
0.192
0.166
0.142
0.121
0.102
0.085
0.071
0.058
0.047
0.038
0.031
0.024
0.019
0.015
0.012
0.009
0.007
0.005
0.004
0.003
0.002
0.001
0.001
0.001
0.001
0.000
0.000
0.000
0.08
0.468
0.429
0.390
0.352
0.316
0.281
0.248
0.218
0.189
0.164
0.140
0.119
0.100
0.084
0.069
0.057
0.046
0.038
0.030
0.024
0.019
0.015
0.011
0.009
0.007
0.005
0.004
0.003
0.002
0.001
0.001
0.001
0.001
0.000
0.000
0.000
0.09
0.464
0.425
0.386
0.348
0.312
0.278
0.245
0.215
0.187
0.161
0.138
0.117
0.099
0.082
0.068
0.056
0.046
0.037
0.029
0.023
0.018
0.014
0.011
0.008
0.006
0.005
0.004
0.003
0.002
0.001
0.001
0.001
0.001
0.000
0.000
0.000
Tabella A.2: Tavola della Normale standard. Valori dell’area sotto la curva Normale da
z positivo a +∞. Per calcolare l’area sotto la curva per l’intervallo (1.51, +∞) si cerca il
valore all’incrocio della riga 1.5 e della colonna 0.01, cioè l’area è 0.066.
154
APPENDICE A. TAVOLE STATISTICHE
0.0
0.1
0.2
0.3
0.4
N(0,1)
−3
Area
z
0.00
0.0 0.000
-0.1 0.040
-0.2 0.079
-0.3 0.118
-0.4 0.155
-0.5 0.191
-0.6 0.226
-0.7 0.258
-0.8 0.288
-0.9 0.316
-1.0 0.341
-1.1 0.364
-1.2 0.385
-1.3 0.403
-1.4 0.419
-1.5 0.433
-1.6 0.445
-1.7 0.455
-1.8 0.464
-1.9 0.471
-2.0 0.477
-2.1 0.482
-2.2 0.486
-2.3 0.489
-2.4 0.492
-2.5 0.494
-2.6 0.495
-2.7 0.497
-2.8 0.497
-2.9 0.498
-3.0 0.499
-3.1 0.499
-3.2 0.499
-3.3 0.500
-3.4 0.500
-3.5 0.500
−2
z
−1
0
1
2
3
z
-0.01
0.004
0.044
0.083
0.122
0.159
0.195
0.229
0.261
0.291
0.319
0.344
0.367
0.387
0.405
0.421
0.434
0.446
0.456
0.465
0.472
0.478
0.483
0.486
0.490
0.492
0.494
0.495
0.497
0.498
0.498
0.499
0.499
0.499
0.500
0.500
0.500
-0.02
0.008
0.048
0.087
0.126
0.163
0.198
0.232
0.264
0.294
0.321
0.346
0.369
0.389
0.407
0.422
0.436
0.447
0.457
0.466
0.473
0.478
0.483
0.487
0.490
0.492
0.494
0.496
0.497
0.498
0.498
0.499
0.499
0.499
0.500
0.500
0.500
-0.03
0.012
0.052
0.091
0.129
0.166
0.202
0.236
0.267
0.297
0.324
0.348
0.371
0.391
0.408
0.424
0.437
0.448
0.458
0.466
0.473
0.479
0.483
0.487
0.490
0.492
0.494
0.496
0.497
0.498
0.498
0.499
0.499
0.499
0.500
0.500
0.500
-0.04
0.016
0.056
0.095
0.133
0.170
0.205
0.239
0.270
0.300
0.326
0.351
0.373
0.393
0.410
0.425
0.438
0.449
0.459
0.467
0.474
0.479
0.484
0.487
0.490
0.493
0.494
0.496
0.497
0.498
0.498
0.499
0.499
0.499
0.500
0.500
0.500
-0.05
0.020
0.060
0.099
0.137
0.174
0.209
0.242
0.273
0.302
0.329
0.353
0.375
0.394
0.411
0.426
0.439
0.451
0.460
0.468
0.474
0.480
0.484
0.488
0.491
0.493
0.495
0.496
0.497
0.498
0.498
0.499
0.499
0.499
0.500
0.500
0.500
-0.06
0.024
0.064
0.103
0.141
0.177
0.212
0.245
0.276
0.305
0.331
0.355
0.377
0.396
0.413
0.428
0.441
0.452
0.461
0.469
0.475
0.480
0.485
0.488
0.491
0.493
0.495
0.496
0.497
0.498
0.498
0.499
0.499
0.499
0.500
0.500
0.500
-0.07
0.028
0.067
0.106
0.144
0.181
0.216
0.249
0.279
0.308
0.334
0.358
0.379
0.398
0.415
0.429
0.442
0.453
0.462
0.469
0.476
0.481
0.485
0.488
0.491
0.493
0.495
0.496
0.497
0.498
0.499
0.499
0.499
0.499
0.500
0.500
0.500
-0.08
0.032
0.071
0.110
0.148
0.184
0.219
0.252
0.282
0.311
0.336
0.360
0.381
0.400
0.416
0.431
0.443
0.454
0.462
0.470
0.476
0.481
0.485
0.489
0.491
0.493
0.495
0.496
0.497
0.498
0.499
0.499
0.499
0.499
0.500
0.500
0.500
-0.09
0.036
0.075
0.114
0.152
0.188
0.222
0.255
0.285
0.313
0.339
0.362
0.383
0.401
0.418
0.432
0.444
0.454
0.463
0.471
0.477
0.482
0.486
0.489
0.492
0.494
0.495
0.496
0.497
0.498
0.499
0.499
0.499
0.499
0.500
0.500
0.500
Tabella A.3: Tavola della Normale standard. Valori dell’area sotto la curva Normale da z
negativo a 0. Per calcolare l’area sotto la curva per l’intervallo (−1.51, 0) si cerca il valore
all’incrocio della riga −1.5 e della colonna −0.01, cioè l’area è 0.434.
155
0.0
0.1
0.2
0.3
0.4
N(0,1)
−3
Area
z
0.00
0.0 0.500
0.1 0.540
0.2 0.579
0.3 0.618
0.4 0.655
0.5 0.691
0.6 0.726
0.7 0.758
0.8 0.788
0.9 0.816
1.0 0.841
1.1 0.864
1.2 0.885
1.3 0.903
1.4 0.919
1.5 0.933
1.6 0.945
1.7 0.955
1.8 0.964
1.9 0.971
2.0 0.977
2.1 0.982
2.2 0.986
2.3 0.989
2.4 0.992
2.5 0.994
2.6 0.995
2.7 0.997
2.8 0.997
2.9 0.998
3.0 0.999
3.1 0.999
3.2 0.999
3.3 1.000
3.4 1.000
3.5 1.000
−2
−1
0
1
z
2
3
z
0.01
0.504
0.544
0.583
0.622
0.659
0.695
0.729
0.761
0.791
0.819
0.844
0.867
0.887
0.905
0.921
0.934
0.946
0.956
0.965
0.972
0.978
0.983
0.986
0.990
0.992
0.994
0.995
0.997
0.998
0.998
0.999
0.999
0.999
1.000
1.000
1.000
0.02
0.508
0.548
0.587
0.626
0.663
0.698
0.732
0.764
0.794
0.821
0.846
0.869
0.889
0.907
0.922
0.936
0.947
0.957
0.966
0.973
0.978
0.983
0.987
0.990
0.992
0.994
0.996
0.997
0.998
0.998
0.999
0.999
0.999
1.000
1.000
1.000
0.03
0.512
0.552
0.591
0.629
0.666
0.702
0.736
0.767
0.797
0.824
0.848
0.871
0.891
0.908
0.924
0.937
0.948
0.958
0.966
0.973
0.979
0.983
0.987
0.990
0.992
0.994
0.996
0.997
0.998
0.998
0.999
0.999
0.999
1.000
1.000
1.000
0.04
0.516
0.556
0.595
0.633
0.670
0.705
0.739
0.770
0.800
0.826
0.851
0.873
0.893
0.910
0.925
0.938
0.949
0.959
0.967
0.974
0.979
0.984
0.987
0.990
0.993
0.994
0.996
0.997
0.998
0.998
0.999
0.999
0.999
1.000
1.000
1.000
0.05
0.520
0.560
0.599
0.637
0.674
0.709
0.742
0.773
0.802
0.829
0.853
0.875
0.894
0.911
0.926
0.939
0.951
0.960
0.968
0.974
0.980
0.984
0.988
0.991
0.993
0.995
0.996
0.997
0.998
0.998
0.999
0.999
0.999
1.000
1.000
1.000
0.06
0.524
0.564
0.603
0.641
0.677
0.712
0.745
0.776
0.805
0.831
0.855
0.877
0.896
0.913
0.928
0.941
0.952
0.961
0.969
0.975
0.980
0.985
0.988
0.991
0.993
0.995
0.996
0.997
0.998
0.998
0.999
0.999
0.999
1.000
1.000
1.000
0.07
0.528
0.567
0.606
0.644
0.681
0.716
0.749
0.779
0.808
0.834
0.858
0.879
0.898
0.915
0.929
0.942
0.953
0.962
0.969
0.976
0.981
0.985
0.988
0.991
0.993
0.995
0.996
0.997
0.998
0.999
0.999
0.999
0.999
1.000
1.000
1.000
0.08
0.532
0.571
0.610
0.648
0.684
0.719
0.752
0.782
0.811
0.836
0.860
0.881
0.900
0.916
0.931
0.943
0.954
0.962
0.970
0.976
0.981
0.985
0.989
0.991
0.993
0.995
0.996
0.997
0.998
0.999
0.999
0.999
0.999
1.000
1.000
1.000
0.09
0.536
0.575
0.614
0.652
0.688
0.722
0.755
0.785
0.813
0.839
0.862
0.883
0.901
0.918
0.932
0.944
0.954
0.963
0.971
0.977
0.982
0.986
0.989
0.992
0.994
0.995
0.996
0.997
0.998
0.999
0.999
0.999
0.999
1.000
1.000
1.000
Tabella A.4: Tavola della Normale standard. Valori dell’area sotto la curva Normale da
z positivo a +∞. Per calcolare l’area sotto la curva per l’intervallo (−∞, 1.51) si cerca il
valore all’incrocio della riga 1.5 e della colonna 0.01, cioè l’area è 0.934.
156
APPENDICE A. TAVOLE STATISTICHE
Area sotto la distribuzione t di Student
g
−5
Area
p
g
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
120
∞
−3
−1
0
1
tp
3
5
0.75
0.90
0.95
0.975
0.99
0.995
0.9995
1.00000
0.81650
0.76489
0.74070
0.72669
0.71756
0.71114
0.70639
0.70272
0.69981
0.69745
0.69548
0.69383
0.69242
0.69120
0.69013
0.68920
0.68836
0.68762
0.68695
0.68635
0.68581
0.68531
0.68485
0.68443
0.68404
0.68368
0.68335
0.68304
0.68276
0.68067
0.67860
0.67654
0.67449
3.07768
1.88562
1.63775
1.53321
1.47588
1.43976
1.41492
1.39682
1.38303
1.37218
1.36343
1.35622
1.35017
1.34503
1.34061
1.33676
1.33338
1.33039
1.32773
1.32534
1.32319
1.32124
1.31946
1.31784
1.31635
1.31497
1.31370
1.31253
1.31143
1.31042
1.30308
1.29582
1.28865
1.28155
6.31375
2.91999
2.35338
2.13185
2.01505
1.94318
1.89458
1.85955
1.83311
1.81246
1.79588
1.78229
1.77093
1.76131
1.75305
1.74588
1.73961
1.73406
1.72913
1.72472
1.72074
1.71714
1.71387
1.71088
1.70814
1.70562
1.70329
1.70113
1.69913
1.69726
1.68385
1.67065
1.65765
1.64485
12.70620
4.30265
3.18245
2.77645
2.57058
2.44691
2.36462
2.30600
2.26216
2.22814
2.20099
2.17881
2.16037
2.14479
2.13145
2.11991
2.10982
2.10092
2.09302
2.08596
2.07961
2.07387
2.06866
2.06390
2.05954
2.05553
2.05183
2.04841
2.04523
2.04227
2.02108
2.00030
1.97993
1.95996
31.82052
6.96456
4.54070
3.74695
3.36493
3.14267
2.99795
2.89646
2.82144
2.76377
2.71808
2.68100
2.65031
2.62449
2.60248
2.58349
2.56693
2.55238
2.53948
2.52798
2.51765
2.50832
2.49987
2.49216
2.48511
2.47863
2.47266
2.46714
2.46202
2.45726
2.42326
2.39012
2.35782
2.32635
63.65674
9.92484
5.84091
4.60410
4.03216
3.70743
3.49948
3.35539
3.24984
3.16927
3.10581
3.05454
3.01228
2.97684
2.94671
2.92078
2.89823
2.87844
2.86093
2.84534
2.83136
2.81876
2.80734
2.79694
2.78744
2.77871
2.77068
2.76326
2.75639
2.75000
2.70446
2.66028
2.61742
2.57583
636.61925
31.59905
12.92398
8.61030
6.86883
5.95882
5.40790
5.04131
4.78091
4.58689
4.43698
4.31779
4.22083
4.14045
4.07277
4.01500
3.96513
3.92165
3.88341
3.84952
3.81928
3.79213
3.76763
3.74540
3.72514
3.70661
3.68959
3.67391
3.65941
3.64596
3.55097
3.46020
3.37345
3.29053
Tabella A.5: Tavola della t di Student. La tavola restituisce i valori di tgp dove g sono i gradi di
libertà. Si tenga sempre conto della relazione tgp = −tg1−p .
157
p
g
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
0.750
0.900
0.950
0.975
0.990
0.995
0.9995
1.32330
2.77259
4.10834
5.38527
6.62568
7.84080
9.03715
10.21885
11.38875
12.54886
13.70069
14.84540
15.98391
17.11693
18.24509
19.36886
20.48868
21.60489
22.71781
23.82769
24.93478
26.03927
27.14134
28.24115
29.33885
30.43457
31.52841
32.62049
33.71091
34.79974
2.70554
4.60517
6.25139
7.77944
9.23636
10.64464
12.01704
13.36157
14.68366
15.98718
17.27501
18.54935
19.81193
21.06414
22.30713
23.54183
24.76904
25.98942
27.20357
28.41198
29.61509
30.81328
32.00690
33.19624
34.38159
35.56317
36.74122
37.91592
39.08747
40.25602
3.84146
5.99146
7.81473
9.48773
11.07050
12.59159
14.06714
15.50731
16.91898
18.30704
19.67514
21.02607
22.36203
23.68479
24.99579
26.29623
27.58711
28.86930
30.14353
31.41043
32.67057
33.92444
35.17246
36.41503
37.65248
38.88514
40.11327
41.33714
42.55697
43.77297
5.02389
7.37776
9.34840
11.14329
12.83250
14.44938
16.01276
17.53455
19.02277
20.48318
21.92005
23.33666
24.73560
26.11895
27.48839
28.84535
30.19101
31.52638
32.85233
34.16961
35.47888
36.78071
38.07563
39.36408
40.64647
41.92317
43.19451
44.46079
45.72229
46.97924
6.63490
9.21034
11.34487
13.27670
15.08627
16.81189
18.47531
20.09024
21.66599
23.20925
24.72497
26.21697
27.68825
29.14124
30.57791
31.99993
33.40866
34.80531
36.19087
37.56623
38.93217
40.28936
41.63840
42.97982
44.31410
45.64168
46.96294
48.27824
49.58788
50.89218
7.87944
10.59663
12.83816
14.86026
16.74960
18.54758
20.27774
21.95495
23.58935
25.18818
26.75685
28.29952
29.81947
31.31935
32.80132
34.26719
35.71847
37.15645
38.58226
39.99685
41.40106
42.79565
44.18128
45.55851
46.92789
48.28988
49.64492
50.99338
52.33562
53.67196
12.11567
15.20180
17.73000
19.99735
22.10533
24.10280
26.01777
27.86805
29.66581
31.41981
33.13662
34.82127
36.47779
38.10940
39.71876
41.30807
42.87921
44.43377
45.97312
47.49845
49.01081
50.51112
52.00019
53.47875
54.94746
56.40689
57.85759
59.30003
60.73465
62.16185
Tabella A.6: Tavola del χ2 . La tavola restituisce i valori di χgp dove g sono i gradi di libertà.
.
158
APPENDICE A. TAVOLE STATISTICHE
Appendice B
Soluzioni di alcuni esercizi
Soluzione dell’Esercizio 2.8.2
1. La Tabella B.1 riporta le frequenze assolute. A solo titolo d’esempio per ottenere i
il valore 385 che rappresenta il numero di mamme con lavoro autonomo e alle quali
è capitato di lavorare e lo hanno apprezzato, occorre partire dalla percentuale 8%
che rappresenta la percentuale di mamme che hanno lavorato e lo hanno apprezzato
tra le mamme con lavoro autonomo. La proporzione è la seguente:
8 : 100 = x : 4813
Dove x è il valore che cerchiamo e si ricava come x = 8 ∗ 4813/100, da cui x = 385.04
che arrotondiamo a 385. Allo stesso modo si ottengono le altre frequenze assolute
all’interno della tabella.
2. La distribuzione delle frequenze assolute della variabile Stato lavorativo durante la
gravidanza la si legge a margine della tabella, nell’ultima colonna. Nella Tabella ??
si riportano le frequenze richieste.
Stato lavorativo
Si è capitato e l’ho apprezzato
Si è capitato ma ne avrei fatto a meno
Si è capitato ma ho potuto decidere quando
No non è capitato
Tipo lavoro
Dipendente Autonomo
385
87
530
283
866
348
3032
369
4813
1087
472
813
1214
3401
5900
Tabella B.1: Tabella delle frequenze assolute delle mamme in base al tipo di lavoro (Dipendente o Autonomo) e allo stato lavorativo durante la gravidanza, catalogato con le 4
modalità riportate. Campione di 5900 unità. Dati dal sito corriere.it.
159
160
APPENDICE B. SOLUZIONI DI ALCUNI ESERCIZI
Stato lavorativo
Si è capitato e l’ho apprezzato
Si è capitato ma ne avrei fatto a meno
Si è capitato ma ho potuto decidere quando
No non è capitato
ni
472
813
1214
3401
5900
fi
0.08
0.14
0.20
0.58
1.00
pi
8%
14%
20%
58%
100%
Tabella B.2: Tabella delle frequenze assolute relative e percentuali della variabile Stato
lavorativo durante la gravidanza, catalogato con le 4 modalità riportate. Campione di 5900
unità. Dati dal sito corriere.it.
Bibliografia
[1] Bloch, A., (1988) La legge di Murphy, E altri motivi per cui le cose vanno a rovescio,
Longanesi.
161