La statistica
Elementi di statistica
descrittiva
Prof.ssa Nadia Andreuzzi
Sai ched'è la statistica? È na' cosa
che serve pe fà un conto in generale
de la gente che nasce, che sta male,
che more, che va in carcere e che se spósa.
Ma pè me la statistica curiosa
è dove c'entra la percentuale,
pè via che, lì,la media è sempre eguale
puro co' la persona bisognosa.
Me spiego: da li conti che se fanno
seconno le statistiche d'adesso
risurta che te tocca un pollo all'anno:
e, se nun entra nelle spese tue,
t'entra ne la statistica lo stesso
perch'è c'è un antro che ne magna due.
Trilussa
STATISTICA
Si definisce statistica la scienza cha ha per
oggetto la raccolta, l’analisi e la
descrizione di fenomeni collettivi.
In generale si distingue tra:
• Statistica descrittiva
• Statistica induttiva o inferenza statistica
• La statistica descrittiva ha lo scopo di
raccogliere ed elaborare dati per
descrivere fenomeni collettivi o di massa
• La statistica induttiva si occupa di stimare
le caratteristiche di un fenomeno collettivo
a partire dall’analisi delle caratteristiche di
un campione.
Unità statistiche
• Definiamo unità statistica il più piccolo
elemento su cui si operano le rilevazioni.
• A sua volta l’unità statistica può essere
suddivisa in :
Unità statistica semplice se corrisponde ad un
solo elemento (persone, automobili etc.)
Unità statistica composta se corrisponde ad
un insieme di elementi (famiglie, categorie
sociali etc.)
DATI E POPOLAZIONE
• Definiamo dato statistico il dato ottenuto da
una rilevazione operata sulle unità statistiche.
• All’insieme sul quale viene svolta l’indagine si dà
il nome di popolazione statistica .
La popolazione statistica può essere un
 Universo statistico se costituita da tutti gli elementi
oggetto di rilevazione
 Campione statistico se costituita da un certo numero
di elementi estratti dalla popolazione.
Caratteri
L’indagine statistica si indirizza su una o più
caratteristiche comuni di una popolazione. Tali
caratteristiche prendono il nome di caratteri
statistici.
Gli aspetti secondo i quali i caratteri si manifestano
si chiamano modalità.
Esse possono essere:
 Qualitative se sono espresse da attributi (colore dei
capelli, marche etc.)
 Quantitative se sono espresse da numeri (altezze,
reddito, pesi etc.)
FASI DELL’INDAGINE
STATISTICA
•
•
•
•
•
•
Pianificazione
Raccolta dei dati
Spoglio
Rappresentazione
Elaborazione
Interpretazione
Sistemazione dei dati
• Tabella a semplice entrata:
– È costituita da due colonne: nella prima sono
riportate le modalità del carattere qualitativo o
le varie intensità del carattere quantitativo.
Nella seconda colonna sono riportate le
frequenze (ossia il numero di unità statistiche
che possiedono quella modalità del carattere).
– Per esempio è una tabella a semplice entrata
la seguente:
Indagine sul tipo di lettura preferita
dagli alunni del Liceo Touschek”
Tipo di lettura
N.di giovani
Narrativa
300
Fantascienza
175
Giallo
200
Storica
150
Scientifica
175
totale
1000
• Tabelle a doppia entrata:
Le unità statistiche vengono classificate
secondo due caratteri.
Sulle righe si riportano le modalità di un
carattere e sulle colonne le modalità
dell’altro carattere.
Nell’ultima colonna e nell’ultima riga si
riportano i totali.
Vediamo un esempio…..
Distribuzione di 100 abitazioni secondo il numero di
vani e i componenti della famiglia
Componenti famiglia
N. vani
1
2
3
4
5
6
Totali
1
10
4
1
0
0
0
15
2
6
10
5
2
0
0
23
3
3
10
12
8
2
1
36
4
1
3
8
4
2
2
20
5
0
1
2
1
1
1
6
totali
20
28
28
15
5
4
100
Frequenza assoluta, relativa e
percentuale
• Frequenza assoluta è il numero di individui il
cui carattere assume una determinata modalità
• Frequenza relativa è il rapporto tra la frequenza
assoluta e la totalità della popolazione statistica
su cui si sta svolgendo l’indagine. Pertanto è un
numero positivo minore o uguale a uno.
• Frequenza percentuale è semplicemente la
frequenza relativa moltiplicata per cento.
Pertanto è un numero positivo minore o uguale a
cento.
Indagine sul tipo di lettura preferita
dagli alunni Liceo Touschek”
Tipo di lettura
Freq. Assolute
Freq. relative
Percentuali
Narrativa
300
0,3
30%
Fantascienza
175
0,175
17,5%
Giallo
200
0,2
20%
Storica
150
0,15
15%
Scientifica
175
0,175
17,5%
totale
1000
1
100%
Rappresentazione grafica di
un’indagine statistica
• Diagrammi cartesiani:
Andamento delle iscrizioni
numero di iscritti
si usano per
rappresentare caratteri
quantitativi:in ascissa si
riportano i valori del
carattere ed in ordinate le
frequenze.
1500
1000
500
0
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010
anno scolastico
Istogrammi
N.B. Con i dati divisi per classi la
costruzione dell’istogramma deve
tener conto anche dell’ampiezza della
classe. Nell’esempio i rettangoli hanno
tutti la stessa base e quindi sono le
altezze ad essere proporzionali alle
frequenze.
Andamento delle iscrizioni
numero di iscritti
• Si usano soprattutto nel
caso di caratteri divisi in
classi. L’asse del
carattere viene suddiviso
in intervalli adiacenti e su
ogni intervallo si disegna
un rettangolo la cui area
è proporzionale alla
frequenza assoluta o
relativa.
1500
1000
500
0
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
anno scolastico
Diagrammi a torta
• Diagrammi a torta (o
a settori circolari):
si divide un cerchio in
settori ciascuno dei
quali ha un’area
(ovvero l’angolo al
centro) proporzionale
alla frequenza
corrispondente.
Letture preferite
175
300
Narrativa
Fantascienza
150
Giallo
Storica
Scientifica
200
175
I valori di sintesi
Spesso è utile descrivere una distribuzione di dati statistici
mediante pochi valori sintetici che possono consentire di:
•Confrontare analisi effettuate in tempi e luoghi diversi
•Farci un’idea della variabilità dei dati.
Per quanto riguarda il primo punto distinguiamo tra:
 Medie di calcolo : sono quelle che dipendono da tutti i
valori della distribuzione e si ottengono mediante una
formula (con la condizione di lasciare invariato un risultato
operato sui dati)
 Medie di posizione: si ottengono considerando solo
alcuni valori della distribuzione.
Media aritmetica
semplice e ponderata
• La media aritmetica è quel valore che
sostituito ai dati lascia invariata la loro
somma.
• Se i dati sono singoli si parla di media
aritmetica semplice:
in
M 

i 1
Xi
n
Esempio
Se i tuoi voti sono:
5,7,8,3,5,6,7,7,7,5
Allora
i

10
X

5

7

8

3

5

6

7

7

7

5

60

i
i

1
10
n=10
X

i
60
M

 6
n 10
i
1
• Se ad ogni valore è
associata una
frequenza allora si
parla di :
media aritmetica
ponderata:
• Dove pi sono le
frequenze associate
al dato i-mo
i n
M
X p
i 1
i n
i
i
p
i 1
i
Esempio di calcolo di una media
aritmetica ponderata:
Dato
Frequenza
Dato x freq.
X
p
Xp
3
2
6
4
4
16
5
5
25
7
3
21
8
5
40
10
1
10
totali
20
118
M=118/20= 5,9
Calcolo di una media aritmetica con dati
divisi per classi
Classe
Valore
Frequenza
Dato x freq.
da
a
centrale
p
Xp
0
5
2,5
2
5
5
10
7,5
4
30
10
15
12,5
5
62,5
15
20
17,5
3
52,5
20
30
25
5
125
30
50
40
1
40
totali
20
315
M=315/20= 15,75
Medie di posizione
• Mediana.
Se i dati sono ordinati in senso non decrescente la
mediana è il valore centrale ossia il valore che
supera la prima metà dei valori ed è superato
dall’altra metà.
• Moda
E’ il valore al quale corrisponde la frequenza più
alta.
….non ci addentriamo oltre nel calcolo delle medie
di posizione
Indici di variabilità
• I valori medi non sono sufficienti a darci un’idea
della distribuzione dei dati attorno al valore
medio. Distribuzioni diverse possono avere la
stessa media ma dati molto diversi tra di loro e
diversi dal valore medio.
• Per quantificare la variabilità di una distribuzione
si utilizzano alcuni indici di variabilità.
Ne vedremo solo alcuni….
Intervallo di variazione
• Non è altro che la
differenza tra il valore
massimo ed il valore
minimo della
distribuzione.
• Per esempio nella
tabella riportata a lato
l’intervallo di
variazione è pari a
(10-3)=7
Dato
X
3
4
5
7
8
10
Varianza a scarto quadratico medio
• Se definiamo scarto di un valore dalla media
aritmetica la differenza di quel valore dalla
media stessa, allora
• La Varianza è il valore medio degli scarti al
quadrato
• Lo Scarto quadratico medio è la radice
quadrata della varianza
….Vedremo nelle prossime diapositive due
esempi di calcolo della varianza e dello s.q.m.
Calcolo della varianza e dello scarto quadratico
medio nel caso di dati singoli
Voti
Scarti
Scarti ^2
5
-1
1
7
1
1
8
2
4
3
-3
9
4
-2
4
6
0
0
9
3
9
somma
42
0
28
media=42/7=
6
Varianza=28/7=
4
S.q.m.= radq(4)=
2
Calcolo della varianza e dello scarto quadratico
medio nel caso di dati con frequenze diverse
Dato
Frequenza
Dato x
freq.
X
p
Xp
v
vp
v^2
v^2p
3
2
6
-2,9
-5,8
8,41
16,82
4
4
16
-1,9
-7,6
3,61
14,44
5
5
25
-0,9
-4,5
0,81
4,05
7
3
21
1,1
3,3
1,21
3,63
8
5
40
2,1
10,5
4,41
22,05
10
1
10
4,1
4,1
16,81
16,81
totali
20
118
1,6
0
35,26
77,80
M=118/20= 5.9
Varianza = 77.80/20= 3.89
S.q.m.= radq(3.89)=1.97
Scarti
Scarti x p
Scarti^2
Scarti^2 x
p
Correlazione tra variabili
Finora abbiamo considerato una variabile alla volta, ora tratteremo analisi di
tipo
comparativo:
a. Osservo una variabile su più gruppi di individui
b. Osservo più variabili su un gruppo di individui
c. Entrambe le situazioni a. e b.
Esiste correlazione tra le variabili?
Scatterplot, diagramma a dispersione
Umidita' Evaporazione del solvente
35,3
11
29,7
11,1
30,8
12,5
58,8
8,4
61,4
9,3
71,3
8,7
74,4
6,4
76,7
8,5
70,7
7,8
57,5
9,1
46,4
8,2
28,9
12,2
Evaporazione del solvente
14
12
10
8
Evaporazione del
solvente
6
4
2
0
0
50
100
Indici di variazione bidimensionali
Date n osservazioni congiunte di 2 variabili
( x1, y1 ),( x2 , y2 ),...,( xn , yn )
Covarianza campionaria
•Se cx,y>0 a valori grandi (piccoli) di x corrispondono valori grandi
(piccoli) di y
x e y sono direttamente correlate
•Se cx,y<0 a valori grandi (piccoli) di x corrispondono valori piccoli
(grandi) di y
x e y sono inversamente correlate
•Se cx,y=0 le variabili non sono correlate
Indici di variazione bidimensionali
Indice di correlazione
r
cx , y
 x y
Date n osservazioni congiunte di 2 variabili
( x1, y1 ),( x2 , y2 ),...,( xn , yn )
| r | 1, cioè  1  r  1
In particolare,
dove il segno di r =segno di a
r  1   a, b costanti tali che yi  axi  b
Diagramma di dispersione e indice di correlazione
y
r = 0.6
r=1
y
x
x
y
y
r = -0.8
r = -1
x
r=0
y
r=0
x
y
x
v
x
Regressione lineare: retta di regressione
Si vuole cercare la relazione lineare tra due variabili x e y.


Date n osservazioni congiunte di 2 variabili ( x , y ),( x , y ),...,( x , y )
1
1
2
2
n
n
cerco due coefficienti a e b tali che y=ax+b passi il più possibile vicino a
questi punti.


Cerco a e b tali che f a , b   yi  axi  b
n
i 1
(Metodo dei minimi quadrati)
2
sia minima
Retta di regressione
ˆ  bˆ
y  ax
aˆ 
cx , y
 x2
cx , y
ˆ
b yx 2
x
N.B. Il coefficiente angolare della retta ha il segno di cx,y
Utilizzando le informazioni ottenute tramite lo scatterplot e il
coefficiente di correlazione, parto dal presupposto che ci sia
relazione lineare tra x e y
Valori stimati:
Residui:
ˆ i  bˆ
yˆi  ax
ri  yi  yˆi
Utilizzando la retta di regressione posso fare delle previsioni
EXCEL: Retta di regressione
Esercizio: Stabilire se c’e’ dipendenza lineare tra
l’umidita’ del magazzino e l’evaporazione di un certo
componente chimico.
Step1: Scatterplot
Evaporazione del solvente
14
12
10
8
6
4
2
0
Umidita' Evaporazione del solvente
35,3
11
29,7
11,1
30,8
12,5
58,8
8,4
61,4
9,3
71,3
8,7
74,4
6,4
76,7
8,5
70,7
7,8
57,5
9,1
46,4
8,2
28,9
12,2
28,1
11,9
Evaporazione del
solvente
0
50
100
Step2: Coefficiente di correlazione
Utilizzando la funzione =CORRELAZIONE(dati_1;dati_2)
ottengo r = - 0.84695
Ha senso determinare la retta di regressione
EXCEL: Retta di regressione
Step3: Retta di regressione
Avendo gia’ lo scatterplot seleziono: Grafico-Aggiungi linea di
tendenza
y = -0,0801x + 13,639
14
12
10
8
Serie1
Lineare (Serie1)
6
4
y = -0,0801x + 13,639
2
0
0
50
100
Buon lavoro da parte della
vostra prof. !!!