Campionamento
e
Statistica Descrittiva
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Statistica, perché ?
• Incertezza nella ripetizione delle
misurazioni (dipendenza da fattori
casuali)
• Trarre conclusioni dai dati
• Costruire esperimenti validi e tracciare
conclusioni affidabili
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Idea di base
Fare inferenze su una popolazione
studiando un campione estratto da
essa.
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Esempio
• Un macchinario produce rondelle d’acciaio per
dispositivi di memoria ottica.
• Specifica per il diametro delle rondelle è
0.45  0.02 cm
• 1000 rondelle prodotte…..quante rispettano la
specifica?
• Su 50 rondelle 46 (=92%) hanno il diametro
nella specifica.
• La proporzione, nella popolazione, di rondelle
col diametro giusto è probabile che differisca dal
92% (proporzione campionaria).
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Domande
• Quanto può essere grande la differenza tra la
proporzione delle rondelle buone nel campione
e nella popolazione? Deviazione Standard
• Come calcolare x tale che la vera percentuale di
rondelle accettabili nella popolazione si trovi,
con ragionevole fiducia nell’intervallo 92%x%?
Intervallo di confidenza
• Come essere sicuri che almeno il 90% delle
1000 rondelle sia accettabile? Test d’ipotesi
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Statistica
inferenziale
Metodi per poter trarre
conclusioni dai dati
Statistica
descrittiva
Metodi per raccogliere
dati e produrre
informazioni da essi
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Indagine Statistica
• Rilevazione dei dati
• Organizzazione dei dati
• Presentazione dei dati organizzati
• Interpretazione dei dati e conclusioni
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Campionamento
Definizioni:
 Una popolazione è l’intera collezione di oggetti
o eventi sui quali si ricerca l’informazione.
 Un campione è un sottoinsieme della
popolazione. Esso contiene gli oggetti o gli
eventi che sono osservati realmente.
 Un campione casuale semplice (ccs) di
ampiezza n è un campione casuale scelto in
modo che ogni elemento degli n abbia la stessa
probabilità di essere incluso nel campione.
Estrazione casuale degli elementi che
costituiscono il campione.
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Campione Casuale Semplice
• Un CCS non rispecchia perfettamente la
propria popolazione.
• CCS differiscono dalla popolazione per diversi
motivi, a volte anche in maniera sostanziale.
• Due differenti campioni da una stessa
popolazione sono diversi l’uno dall’altro.
Tale fenomeno è noto come
variabilità di campionamento.
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Indipendenza
• Gli elementi in un campione casuale
semplice possono essere trattati come
indipendenti nella maggior parte dei casi
che si incontrano nella pratica.
L’eccezione si ha quando la popolazione è
finita e l’ampiezza del campione è
maggiore o uguale al 5% di quella della
popolazione.
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Indipendenza: esempio
Popolazione
Campione
1 0
1
0
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Indipendenza: esempio
Popolazione
Campione
1 0
1
0
Estrazione: uguale probabilità di
estrarre 0 o 1
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Indipendenza: esempio
Popolazione
Campione
1 0
1
0
Estrazione: uguale probabilità di
estrarre 0 o 1
0
1 0
1
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Indipendenza: esempio
Popolazione
Campione
1 0
1
0
Estrazione: uguale probabilità di
estrarre 0 o 1
0
1 0
1
Estrazione: maggiore probabilità di
estrarre 1
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Indipendenza: esempio
Popolazione
Campione
1 0
1
0
Estrazione: uguale probabilità di
estrarre 0 o 1
0
1 0
1
Estrazione: maggiore probabilità di
estrarre 1
1
Statistica Matematica
Cecilia Vernia
0
0
1
Statistica Descrittiva
Indipendenza: esempio
Popolazione
Campione
1
0
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Indipendenza: esempio
Popolazione
Campione
1
0
Estrazione: uguale probabilità di
estrarre 0 o 1
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Indipendenza: esempio
Popolazione
Campione
1
0
Estrazione: uguale probabilità di
estrarre 0 o 1
0
1
0
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Indipendenza: esempio
Popolazione
Campione
1
0
Estrazione: uguale probabilità di
estrarre 0 o 1
0
1
0
Estrazione: probabilità di estrarre 0
o 1 praticamente uguali
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Indipendenza: esempio
Popolazione
Campione
1
0
Estrazione: uguale probabilità di
estrarre 0 o 1
0
1
0
Estrazione: probabilità di estrarre 0
o 1 praticamente uguali
1
Statistica Matematica
Cecilia Vernia
0
0
?
Statistica Descrittiva
Indipendenza: campionamento con reinserimento
Popolazione
Campione
1 0
1
0
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Indipendenza: campionamento con reinserimento
Popolazione
Campione
1 0
1
0
Estrazione: uguale probabilità di
estrarre 0 o 1
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Indipendenza: campionamento con reinserimento
Popolazione
Campione
1 0
1
0
Estrazione: uguale probabilità di
estrarre 0 o 1
0
1 0
1
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Indipendenza: campionamento con reinserimento
Popolazione
Campione
1 0
1
0
Estrazione: uguale probabilità di
estrarre 0 o 1
1 0
1
0
0
reinserimento
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Indipendenza: campionamento con reinserimento
Popolazione
Campione
1 0
1
0
Estrazione: uguale probabilità di
estrarre 0 o 1
1 0
1
0
reinserimento
Statistica Matematica
Cecilia Vernia
0
Estrazione: uguale probabilità di
estrarre 0 o 1
Statistica Descrittiva
Indipendenza: campionamento con reinserimento
Popolazione
Campione
1 0
1
0
Estrazione: uguale probabilità di
estrarre 0 o 1
1 0
1
0
reinserimento
Statistica Matematica
Cecilia Vernia
1 0
0
1
0
Estrazione: uguale probabilità di
estrarre 0 o 1
0
?
Statistica Descrittiva
Ancora Definizioni:
 Una sintesi numerica calcolata su un
campione è detta statistica.
 Una sintesi numerica calcolata su una
popolazione è detta parametro.
Le statistiche vengono spesso utilizzate
per stimare i parametri.
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Popolazione
Campione
Inferenza
Parametro
Statistica Matematica
Cecilia Vernia
Statistica
Statistica Descrittiva
Ancora sui CCS
Definizione: Una popolazione concettuale è
formata da tutti i valori che potrebbero essere
osservati.
• Per esempio, un geologo pesa una pietra
diverse volte su una bilancia elettronica. Ogni
volta la bilancia dà risultati leggermente
differenti
• La popolazione è concettuale ed è composta da
tutte le misurazioni che la bilancia, in teoria,
potrebbe produrre.
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Tipi di dati
• Numerico o quantitativo se una quantità
numerica è assegnata ad ogni elemento nel
campione.
• Altezza
• Peso
• Età
• Categorico o qualitativo se gli elementi del
campione sono classificati in categorie.
• Genere
• Colore dei capelli
• Sigle di province
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Organizzazione dei dati yi
Indici statistici
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Organizzazione dei dati yi
Indici statistici
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Organizzazione dei dati yi
Indici statistici
• Campo di Variazione: minimo intervallo
che contiene tutti gli yi ; r  max yi  min yi
min yi
Statistica Matematica
Cecilia Vernia
max yi
Statistica Descrittiva
Organizzazione dei dati yi
Indici statistici
• Campo di Variazione: minimo intervallo
che contiene tutti gli yi ; r  max yi  min yi
• Classi
min yi
Statistica Matematica
Cecilia Vernia
max yi
Statistica Descrittiva
Organizzazione dei dati yi
Indici statistici
• Campo di Variazione: minimo intervallo
che contiene tutti gli yi ; r  max yi  min yi
• Classi (numero delle classi ed ampiezza)
min yi
nc  1 1.443 log n
Statistica Matematica
Cecilia Vernia
max yi
r
 
nc
Statistica Descrittiva
Funzioni di frequenza
• Funzione di frequenza (x): associa ad ogni classe il numero degli
elementi che la compongono;
• Funzione di frequenza relativa r(x): rapporto tra il numero degli
elementi della classe e il numero totale degli elementi;
 r  x    ( x) n
• Funzioni di frequenza cumulativa c(x): numero degli elementi della
classe e delle classi precedenti;
• Funzione di frequenza cumulativa relativa cr(x):
cr x   c ( x) n
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Funzione di frequenza
n  100
 ( x1 )  3  ( x2 )  7  ( x3 )  20  ( x4 )  45
 ( x5 )  8  ( x6 )  5  ( x7 )  12
min yi
x1 x 2 x 3 x 4 x 5 x 6 x 7
nc

Statistica Matematica
Cecilia Vernia
i 1
max yi
( xi )  100
Statistica Descrittiva
Funzione di frequenza relativa
r ( x)   ( x) / n
 r ( x1 )  0.03  r ( x2 )  0.07  r ( x3 )  0.2
 r ( x4 )  0.45  ( x5 )  0.08  r ( x6 )  0.05
 r ( x7 )  0.12
min yi
x1 x 2 x 3 x 4 x 5 x 6 x 7
nc
max yi
 r ( xi )  1
Statistica Matematica
Cecilia Vernia
i 1
Statistica Descrittiva
Funzione di frequenza cumulativa
n  100
 c ( x1 )  3  c ( x2 )  10  c ( x3 )  30  c ( x4 )  75
 c ( x5 )  83  c ( x6 )  88  c ( x7 )  100
min yi
Statistica Matematica
Cecilia Vernia
x1 x 2 x 3 x 4 x 5 x 6 x 7
max yi
Statistica Descrittiva
Funzione di frequenza cumulativa relativa
 cr ( x )   r ( x ) / n
 cr ( x1 )  0.03  cr ( x2 )  0.1  cr ( x3 )  0.3
 cr ( x4 )  0.75  cr ( x5 )  0.83  cr ( x6 )  0.88
 cr ( x7 )  1
min yi
Statistica Matematica
Cecilia Vernia
x1 x 2 x 3 x 4 x 5 x 6 x 7
max yi
Statistica Descrittiva
Istogramma
• Scegliere i punti di confine
per gli intervalli di classe.
• Calcolare le frequenze e le
frequenze relative per ogni
classe.
• Calcolare la densità per ogni
classe secondo la formula
Densità = frequenza relativa /ampiezza classe
• Disegnare un rettangolo per
ogni classe, la cui altezza sia
uguale alla densità.
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Istogramma
L’altezza di ogni rettangolo dell’istogramma è la densità:
 ( xi )   r ( xi ) / i ,
dove  i è la lunghezza della classe i e  r (x ) è la
frequenza relativa.
L’area totale dell’istogramma è
nc
nc
1n
 ( xi )i   r ( xi )  n  ( xi )  1
i 1
i 1
i 1
dove  (x ) è la frequenza, che soddisfa alla condizione:
c
nc
 ( xi )  n,
i 1
n è l’ampiezza del campione e nc è il numero delle
classi.
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Misure Statistiche di sintesi
• Media Campionaria:
• Varianza Campionaria:
1 n
X   Xi
n i 1
2
1 n
1  n 2
2
s 
X

X

X

nX


 i
 i

n  1 i 1
n  1  i 1

2
• Deviazione Standard Campionaria è la radice quadrata
della varianza campionaria.
•Se X1, …, Xn è un campione, e Yi = a + b Xi ,con a e b
costanti, allora Y  a  bX .
• Se X1, …, Xn è un campione, e Yi = a + b Xi ,con a e b
2
2 2
costanti, allora s y  b s x
s y | b | sx
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Misure di Dispersione
• Varianza dei dati
• Varianza campionaria
• La varianza stima la dispersione nella
popolazione da cui si estrae il campione
(le distanze dalla media campionaria sono
più piccole delle distanze dalla media della
si divide per (n-1))
popolazione
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Moda e Mediana
Definizione: La moda è il valore più presente nel
campione. Se esistono diversi valori con uguale
frequenza, ciascuno di essi è una moda.
Definizione: La mediana come la media è un’altra
misura di tendenza centrale. Per calcolarla si
ordinano i valori in ordine crescente:
 Se n è dispari, la mediana campionaria è il
valore nella posizione: n 2 1 .
 Se n è pari, la mediana campionaria è la media
dei due valori che occupano le posizioni: n2 and n2  1.
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Moda unica
Più mode
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Quartili
Definizioni:
Il primo quartile è la mediana della metà inferiore
dei dati (includere la mediana nella metà inferiore dei
dati se n è dispari).
Il
terzo quartile è la mediana della metà superiore
dei dati (includere la mediana nella metà superiore dei
dati se n è dispari).
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Quartili
Definizioni:
Il primo quartile è la mediana della metà inferiore
dei dati (includere la mediana nella metà inferiore dei
dati se n è dispari).
Il
terzo quartile è la mediana della metà superiore
dei dati (includere la mediana nella metà superiore dei
dati se n è dispari).
•Ex n=99 (
xi
x1
x25  x26
2
Statistica Matematica
Cecilia Vernia
ordinati)
x50
x74  x75
2
x99
Statistica Descrittiva
Percentili
Definizione: Il p-esimo percentile z p di un campione,
con p numero tra 0 e 100, divide il campione in modo
tale che almeno il p% dei valori campionari siano più
piccoli di z p . Per calcolarlo:
 Ordinare i valori del campione in ordine crescente.
 Calcolare la quantità (p/100)(n+1), dove n è l’ampiezza
del campione.
 Se questa quantità è un intero, allora il valore del
campione che occupa questa posizione è il p-esimo
percentile. Altrimenti, è la media dei due valori tra cui si
trova (p/100)(n+1).
 Osserva: il primo quartile è il 25mo percentile, la mediana
è il 50mo percentile, e il terzo quartile è il 75mo percentile.
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Rappresentazioni Grafiche
•
•
•
•
Grafico a punti
Istogramma
Boxplot
Scatterplot (o grafico a dispersione)
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Grafico a punti
• Un dotplot è un grafico che può essere usato
per dare una prima (approssimativa) idea della
forma del campione.
• È utile quando l’ampiezza del campione è non
troppo grande e quando il campione contiene
alcuni valori ripetuti.
• Generalmente non usato nelle presentazioni
formali.
Dotplot for HiAltitude
2
12
22
HiAltitude
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Istogramma
• Scegliere i punti di confine
per gli intervalli di classe.
• Calcolare le frequenze e le
frequenze relative per ogni
 r ( xi )
classe.
• Calcolare la densità per ogni
classe secondo la formula
Densità = frequenza relativa /ampiezza classe
• Disegnare un rettangolo per
ogni classe, la cui altezza sia
uguale alla densità.
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Simmetria e Asimmetria
• Un istogramma è perfettamente simmetrico se la sua
metà di destra è esattamente l’immagine speculare della
sua metà di sinistra.
– Altezze di persone scelte a caso
• Gli istogrammi che non sono simmetrici sono detti
asimmetrici.
• Un istogramma con la coda a destra più lunga si dice
asimmetrico a destra, o con asimmetria positiva.
– L’istogramma del reddito è asimmetrico a destra.
• Un istogramma con la coda a sinistra più lunga si dice
asimmetrico a sinistra, o con asimmetria negativa.
– Votazioni riportate in un test facile: asimmetrico a sinistra.
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Boxplot
• Un boxplot è un grafico che riporta la mediana, il primo e il terzo
quartile e gli outliers presenti nel campione.
• La differenza interquartile (IQR) è la differenza tra il terzo e il
primo quartile. Questa è la distanza che copre la metà centrale dei
dati.
• Passi nella costruzione di un Boxplot

Calcolare la mediana, il primo e il terzo quartile del campione. Indicare
questi valori con linee orizzontali. Disegnare linee verticali per
completare la scatola.
 Trovare il più grande valore del campione che non superi per più di 1.5
IQR il terzo quartile e il più piccolo valore del campione che non sia
inferiore per più di 1.5 IQR del valore del primo quartile. Collegare le
linee dei quartili con delle linee verticali (baffi) a questi punti.
 I Punti più grandi di 1.5 IQR volte il terzo quartile o più piccoli di 1.5 IQR
volte il primo quartile sono definiti outliers e riportati singolarmente
attraverso delle croci.
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Boxplot
max{ xi | xi  t  1.5}
outlier
X
terzo quartile
t
mediana

p
primo quartile
min{ xi | xi  p  1.5}
Statistica Matematica
Cecilia Vernia
X
outlier
Statistica Descrittiva
Esempio: dati del Geyser:
Non ci sono outliers in questo campione.

Osservando le quattro parti del boxplot, si può
dire che I valori del campione sono più addensati
tra la mediana ed il terzo quartile.

Il baffo che si trova in basso è un po’ più lungo di
quello che si trova in alto, il che indica che i dati
hanno una coda leggermente più lunga sulla
parte inferiore che su quella superiore.


La distanza tra il primo quartile e la mediana è
più grande di quella tra la mediana e il terzo
quartile.
90
80
duration

70
60
50
40
Questo boxplot suggerisce che i dati sono
asimmetrici a sinistra.
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Scatterplot
• I dati le cui unità possiedono una coppia di
valori sono detti bivariati ( xi , yi )
• La rappresentazione grafica per i dati bivariati
è lo scatterplot (o grafico a dispersione).
• Esempio di scatterplot:
2
y
1
0
-1
0
1
2
3
4
5
6
7
8
x
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Esempio:Pesi di 50 persone
53 55 56 57 57 58 58 59 59 60
60 60 61 61 61 61 62 62 62 62
63 63 63 63 63 64 64 64 64 64
64 65 65 65 65 65 66 66 66 66
67 67 67 68 68 69 70 71 71 73
Campo di variazione [53,73]
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Suddivisione in classi
• Numero di classi: 7 ([1+1.443 lg 50]=7);
20


 2.86 )
• Ampiezza delle classi: 3 (
7
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Istogramma
•Media:
1 50
1
x   xi  73  71    51  63.22
50 i 1
50
•Mediana:
xmed 
x25  x26 63  64

 63.5
2
2
•Moda
x mod  64
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva
Funzioni di frequenza
•Varianza
2
1 n
1 50
2
  i 1 xi  x  i 1 xi  63.22  17.13
n
50
2
•Deviazione Standard
  17.13  4.14
Statistica Matematica
Cecilia Vernia
Statistica Descrittiva