ELEMENTI STATISTICA METODOLOGICA DISTRIBUZIONI DI

annuncio pubblicitario
ELEMENTI
DI
STATISTICA METODOLOGICA

DISTRIBUZIONI DI PROBABILITA’

STATISTICA INFERENZIALE
SABO
STATISTICA
Il punto di partenza per la statistica è il:
Fenomeno: fatto che si verifica e che viene osservato; può essere
tipico:
soggetto a leggi di tipo generale; si presenta sempre con le stesse
caratteristiche (modello matematico).
atipico: non traducibile in modello matematico se preso singolarmente; acquista una
certa regolarità quando si effettuano molte osservazioni.
La statistica è la scienza che studia i fenomeni atipici, con il metodo induttivo (dall’osservazione di
un singolo fenomeno si traggono leggi di validità generale), per costruire, in base ai principi dell’
analisi matematica e del calcolo delle probabilità, i modelli statistici (statistica teorica).
Lo studio della statistica si suddivide in due branche:
Statistica Metodologica:
detta anche descrittiva, è l’ insieme dei criteri e dei metodi
utilizzati per approfondire la conoscenza dei fenomeni
collettivi in modo da pervenire ad una visione il più possibile
vicino alla realtà.
Statistica Inferenziale:
detta anche applicata, si interessa dei fenomeni collettivi
specifici di ogni ramo scientifico (Stat. Economica, Stat.
Demografica, Stat. Sociale, etc.).
1
STATISTICA METODOLOGICA
Si basa essenzialmente sulla
INDAGINE STATISTICA
- raccolta dati
-spoglio e trascrizione dati
- elaborazione dati
è necessario inquadrare bene il fenomeno, formulando in modo corretto l’ipotesi che si vuole
sottoporre a verifica e scegliendo i dati in modo da consentire lo studio del fenomeno; bisogna, poi,
definire univocamente l’unità statistica, cioè la più piccola unità della quale si raccolgono i dati e
che può avere:
 Carattere qualitativo: modalità del fenomeno (fenomeno designato da aggettivi o nomi);
 Carattere quantitativo: intensità del fenomeno (fenomeno soggetto ad unità di misura);
nonché il tempo dell’indagine:
 Rilevazione continua (senza limiti di tempo; es. nascite, morti, etc.);
 Rilevazione periodica (si ripete ad intervalli regolari; es. censimento);
 Rilevazione occasionale (nel caso si presentino problemi particolari).
Definito ciò si passa alla vera indagine:
-Raccolta dati:
-Spoglio dati:
di tipo globale (es. censimento)
di tipo campionario (una parte campione)
enumerazione dati
classificazione in gruppi
trascrizione in tabelle
-Elaborazione dati:

semplici (due colonne)
composte (più colonne)
doppia entrata (lettura righe
colonne)
è di tipo matematico ed ha lo scopo di individuare alcuni
indicatori sintetici, significativi del fenomeno oggetto di studio.
preventivamente è opportuno, nel caso, effettuare la ponderazione dei dati (raggruppare insieme
dati aventi le stesse caratteristiche), in modo da esplicitare il peso o frequenza dei termini
costituenti il fenomeno oggetto di studio.
Quale utile strumento visivo, i risultati possono essere formulati sotto forma di:
Rappresentazione Grafica:
utile per capire l’ andamento del fenomeno (utilizzabile in alcuni
2
casi anche prima di iniziare l’ elaborazione); si concretizza in:
-coordinate cartesiane
-ideogrammi
-istogrammi
-diagrammi di composizione (torta)
-cartogrammi
-diagrammi a nastro (bande orizzontali)
3
FONDAMENTALI FORME DI ELABORAZIONE
 Rapporti statistici;
 Medie;
 Variabilità e Concentrazione;
 Numeri indici.
Rapporti Statistici
Rapporto di Composizione: è un numero puro; può essere:
assoluto: indica quale peso ha ciascuna frequenza sul totale delle frequenze
 f
i

f

 i




relativo o percentuale: si ottiene dall’ assoluto moltiplicandolo per 100
 fi

 100  x %

f
 i

n. b. i rapporti percentuali rendono più facile il raffronto tra i dati, svincolandoli dal particolare e
riferendoli tutti ad una stessa base (100).
esempio: nella quinta “A”, formata da 16 alunni, vi sono 9 femmine e 7 maschi. Calcolare i rapporti
di composizione.
assoluti:
femmine = 9/16 = 0,5225
maschi = 7/16 = 0,4375
relativi: femmine = (9/16)100 = 52,25%
maschi = (7/16)100 = 43,75%
Rapporto di Coesistenza: evidenzia la relazione tra due fenomeni diversi in uno stesso luogo o di
uno stesso fenomeno in luoghi diversi.
esempio: calcolare il rapporto di coesistenza in quinta “A”
9/7  1,29 ——> per ogni maschio poco più di una femmina
Rapporto di Derivazione: evidenzia la relazione tra fenomeni tra loro dipendenti.
esempio: nella scuola, su 494 alunni, 182 risultano provenienti dalla zona a Nord dell’ autostrada;
calcolare il rapporto di derivazione.
(182/494)100 = 36,84% ——
tale percentuale abita a monte della
autostrada.
4
Rapporto di Densità e di Frequenza: (non sono numeri puri) evidenziano la relazione tra
l’intensità o la frequenza di un fenomeno e la misura di
una grandezza riferita ad un altro fenomeno che può
essere messo in relazione con il primo.
esempio: nella sessione estiva dell’a. s. 93/94 su 87 alunni delle terze classi, 51 sono risultati
promossi alla classe quarta; calcolare i rapporti di densità e di frequenza.
densità:
(51/87)100 = 58,62% —— 6 promossi ogni 10;
frequenza: 87/51 = 1,70 —— circa 3 promossi ogni 5 alunni.
Rapporto di Durata: (numero non puro) evidenzia come varia in un certo intervallo di tempo
l’intensità di un fenomeno a carattere dinamico (che evolve nel tempo); è
utilizzato, in genere, in campo demografico, finanziario, aziendale.
esempio: al mare, nel mese di luglio sono presenti 5.000 villeggianti; durante tutta l’estate ne sono
arrivati 42.300 e ne sono partiti 41.500; alla fine di settembre ce ne sono ancora 3.000;
calcolare il rapporto di durata considerando l’ estate formata di tre mesi.
5000  3000
2
 0,0955  0,0955  3mesi  0,864  0,2864  30gg  9
42300  41500
2
il tempo medio di permanenza di un villeggiante al mare e di circa 9 giorni.
Rapporto di Ripetizione: è l’ inverso del precedente; indica ogni quanto tempo si rinnova un certo
fenomeno.
esempio: calcolare il rapporto di ripetizione relativamente all’esempio precedente
42300  41500
2
 10,475  10,50
5000  3000
2
i villeggianti si rinnovano completamente circa 11 volte in tutta l’ estate.
Rapporto Incrementale: esprime la variazione, positiva o negativa, subita da un certo fenomeno
nel tempo; si può ottenere da:
 differenza tra ogni dato della serie e il precedente;
 differenza tra ogni dato della serie ed il primo dato;
 differenza tra due dati qualunque della serie.
5
può essere assoluto o relativo; quello relativo indica la variazione
percentuale subita dal fenomeno rispetto ad un dato prefissato.
esempio: calcolare i rapporti incrementali relativamente al numero degli alunni della quinta “A”
dall’a. s. 1990/91 all’a. s. 1994/95, rispetto all’a. s. 1990/91.
a. s.
90/91
91/92
92/93
93/94
94/95
N° Alunni Incrementi Assoluti Incrementi Relativi (%)
21
/
/
15
-6
-28,57
16
-5
-23,81
16
-5
-23,81
16
-5
-23,81
gli incrementi relativi si ottengono dividendo l’incremento assoluto per il dato prefissato e
moltiplicando il risultato per 100:
incremento relativo del 91/92 rispetto al 90/91:
15  21
 100  28,57%
21
incremento relativo del 92/93 rispetto al 90/91:
16  21
 100  2381
, %
21
6
VALORI MEDI
Media: valore riassuntivo di un insieme di dati costituenti un fenomeno; è compreso tra il valore
minimo e il valore massimo.
n.b. si possono avere diversi tipi di medie, in relazione alla natura del fenomeno indagato.
Media Aritmetica: indica come l’ intensità totale di un fenomeno si distribuisce su tutti i dati, nell’
ipotesi in cui ciascun dato abbia la stessa intensità (è il valore che sostituito ad
ognuno dei dati non altera la loro somma).
M = (xi/n)
Media Geometrica: è utilizzata quando assume significato, ai fini dell’ elaborazione, il prodotto dei
termini da mediare; in pratica si ricorre alla media geometrica quando i
termini della distribuzione tendono a variare in progressione geometrica.
Mg  n xi
esempio: un grossista acquista della merce venduta con lo sconto del 6%, poiché è un cliente
abituale riceve un ulteriore sconto del 4%; infine pagando in contanti riceve ancora uno
sconto del 2%; calcolare il tasso medio di sconto.
3
1  0,06  1  0,04  1  0,02  0,95986  1-0,95986 = 0,04014 = 4,014%
Media Armonica: si utilizza quando tra i termini da mediare esiste un rapporto di proporzionalità
inverso, cioè quando i termini tendono a variare in progressione armonica ( i
loro reciproci variano in progressione aritmetica). Risulta particolarmente utile
per valutare il potere di acquisto della moneta. M a 
n
 1
xi 
esempio: il ricavo della vendita di un prodotto, pari a Lit. 1.000, è stato ottenuto vendendone 10
pezzi a Lit. 50 con un ricavo di Lit. 500, 25 pezzi a Lit. 20 con un ricavo di Lit. 500;
determinare il prezzo medio.
1000 500 500
1000 500 50  20
1000 50  20
1




 Pm 


 28,5
1
1
Pm
50
20
Pm
50  20
500 50  20

50 20
Media Quadratica: è utilizzata quando, presentando i termini della distribuzione valori positivi e
negativi, si vuole eliminare l’ influenza del segno
Mq 
 x 
i
2
n
Il calcolo di queste medie, dette medie semplici, si effettua quando ogni dato si presenta
una sola volta nella distribuzione.
7
Quando, invece, più dati presentano delle ripetizioni (peso) si utilizza la media ponderata
che prevede esplicitamente il diverso peso di ciascun dato. Indicando con f i il numero di volte che
si presenta il dato xi, risulta: fi = n; il che indica come, in pratica, le formule prima descritte, pur
assumendo forma diversa, non cambiano significato. Considerando, infatti, la media aritmetica
ponderata si ha:
Mp 
 x  f    x
f
i
i
1
 x1 ...   x 2  x 2 ... ... x n  x n ...
i
Relazione tra le Medie:
n

x
i
n
Mq > M > Mg > Mq
Tenendo presente, inoltre, che manipolando opportunamente i termini di una distribuzione,
tutte le medie considerate possono essere riportate alla media aritmetica, risulta evidente che, tra
tutte, è quest’ ultima ad assumere un ruolo preminente ed è, pertanto, la più utilizzata.
MEDIE DI POSIZIONE
sono valori che si ottengono senza dover fare calcoli come è, invece, per le medie precedenti.
Mediana: valore corrispondente al termine posto a metà di tutti gli altri. Rappresenta il termine che
occupa il posto centrale quando i dati sono disposti in ordine crescente. Se si è in
presenza di termini che si ripetono si ricorre alle frequenze cumulate (somma delle
singole frequenze), rappresentando la mediana il termine in corrispondenza del quale la
frequenza cumulata supera la semisomma delle frequenze (cioè il 50%).
Moda: termine al quale corrisponde la massima frequenza. Risulta da ciò che la moda è un valore
calcolabile solo nel caso di una distribuzione ponderata di dati.
8
VARIABILITÀ
Parametro statistico che dà informazioni sulla distribuzione dei dati di un fenomeno rispetto
alla loro media. Si possono avere indici assoluti (riferiti ad uno stesso fenomeno ed espressi nella
stessa unità di misura dei dati), ed indici relativi che, rapportati al valor medio, permettono di
confrontare la variabilità di distribuzioni riferite a grandezze diverse.
Campo di Variazione: differenza tra il valore massimo ed il valore minimo di una distribuzione. E’
un dato molto grezzo che non sempre riesce a fornire informazioni utili
sulla variabilità del fenomeno.
Deviazione Quartile: connesso al concetto di mediana, divide il campo di variazione in quattro
parti:
 1° quartile: valore che supera il 25% della distribuzione (mediana
della prima metà del campo di variazione);
 2° quartile: valore che supera il 50% della distribuzione (coincide
con la mediana);
 3° quartile: valore che supera il 75% della distribuzione (mediana
della seconda metà del campo di variazione);
 4° quartile: comprende il 100% della distribuzione.
La differenza tra il terzo ed il primo quartile dà la deviazione quartile
assoluta.
Scarto Semplice Medio: valore dipendente da tutti i dati del fenomeno; indica di quanto i valori
stessi si discostano dal valore medio. E’ dato dalla media aritmetica dei
valori assoluti degli scarti dal valor medio.
S
xi  
n
Viene utilizzato, soprattutto, quando si considera come valore medio la
mediana, perché la somma dei valori assoluti degli scarti dalla mediana
è minima.
9
esempio: calcolare lo scarto semplice medio tra le classi del corso “A”:
Classe
Corso “A”
1°
2°
3°
4°
5°
Totale
numero Frequenza Frequenza Scarto da  in
Alunni
Relativa
Cumulata valore assoluto
26
26,53%
26,53%
6,4
20
20,41%
46,94%
0,4
17
17,35%
64,29%
2,6
19
19,38%
83,67%
0,6
16
16,33%
100,00%
3,6
98
100,00%
///
13,6
media aritmetica = M = 19,6
Scarto da M in
valore assoluto
7
1
2
0
3
13
mediana = Me = 19
Scarto(media)
= 13,6/5 = 2,72
S(mediana) < S(media) 
Scarto(mediana) = 13,0/5 = 2,60
S(mediana) indica che mediamente le classi variano tre di loro di 2,6 alunni.
Scarto Quadratico Medio: è il più utilizzato tra gli stimatori della variabilità, poiché rappresenta
con buona sensibilità anche le più piccole variazioni tra i valori di un
fenomeno. E’ dato dalla radice quadrata della media degli scarti al
quadrato. E’ utilizzato, soprattutto, quando come valore medio si
utilizza la media aritmetica. Più alto è  più è alta la variabilità del
fenomeno.

 x
i
 
2
n
n. b. il valore di  è fondamentale per la definizione della curva di Gauss che rappresenta
graficamente l’ intensità dei fenomeni aventi distribuzione normale (distribuzione simmetrica
rispetto alla media), cioè di una distribuzione la cui quasi totalità dei dati è interna all’
intervallo  ± 3.
Analiticamente la curva di Gauss è espressa da:
 1  x   2 

y
exp  
2 
 2
 2
1
 - 3

 + 3
10
CONCENTRAZIONE
Aspetto particolare della variabilità, la concentrazione pone in evidenza come i termini di
una distribuzione possono distribuirsi in modo non uniforme e dà, quindi, la possibilità di verificare
se e come è presente l’addensamento dell’intensità di un fenomeno.
L’ indice di concentrazione, R, si ottiene dal rapporto tra la situazione reale e la combinazione delle
situazioni teoriche che prevedono un’equidistribuzione tra i termini e la massima concentrazione di
un solo termine.
0R1
R = area concentrazione
area triangolo OAB
frequenze
cumulate
R = 0  equidistribuzione
R = 1  max concentrazione
A
retta di equidistribuzione
curva di
di concentrazione
area di concentrazione
O
B
termini
n. b. R = 1 indica, in pratica, che tutti i dati sono nulli tranne uno che possiede la massima
intensità.
11
NUMERI INDICI
Rapporti statistici utilizzati per misurare l’ intensità di uno stesso fenomeno o di fenomeni
diversi, in riferimento ad epoche successive. Si suddividono in:
 numeri indici semplici: riferiti ad uno stesso fenomeno;
 numeri indici composti: riferiti a fenomeni diversi.
in entrambi i casi possono aversi:
*
*
numeri indici a base fissa;
numeri indici a base mobile
base fissa: si assume uno dei dati del fenomeno, posto uguale a 100, come riferimento e si
rapportano ad esso tutti gli altri dati.
base mobile: si ottengono dividendo ogni dato per il precedente.
esempio: calcolare i numeri indici relativi alla popolazione scolastica dall’a. s. 1989/90 all’a. s.
1993/94, prendendo come base l’ anno scolastico 1989/90..
Anno
Scolastico
89/90
90/91
91/92
92/93
93/94
Numero
Alunni
480
514
470
414
351
Numeri Indici (%)
a base fissa
100,00
107,08
97,92
86,25
73,12
Numeri Indici (%)
a base mobile
///
107,08
91,44
88,08
84,78
I numeri indici composti rappresentano la variazione complessiva di due o più fenomeni. Possono
calcolarsi o come media dei numeri indici semplici dei singoli fenomeni o come numeri indici delle
medie dei singoli fenomeni.
12
RELAZIONI STATISTICHE
Spesso nello studiare un fenomeno statistico ci si trova di fronte al problema dell’
interpolazione dei dati, sia al fine della descrizione dei fenomeni, sia al fine del sostegno alla
decisione razionale. Si ricorre, in tal caso ad alcune tecniche che permettono di superare il
problema; le più importanti sono:
INTERPOLAZIONE
tecnica utilizzata per determinare i valori mancanti di una serie lacunosa di dati (interpolazione per
punti); oppure per correggere, in una serie di dati, valori affetti da errori accidentali che possono
alterare lo studio del fenomeno (interpolazione tra punti).
Interpolazione per Punti: utilizzata per quei fenomeni retti da leggi del tipo y = f(x). Il caso più
frequente è l’ interpolazione lineare, espressa analiticamente dall’
equazione della retta passante per due punti:
y  y1
x  x1

y 2  y1 x 2  x1
tale metodo permette di ricercare la funzione il cui grafico passa per
tutti i punti assegnati, attraverso una spezzata.
Interpolazione tra Punti: utilizzata per ricercare la retta che meglio si adatta a rappresentare un
fenomeno ad andamento lineare (i valori si addensano intorno ad una
retta). Il calcolo che meglio permette di ricercare la retta interpolante è
espresso dal metodo dei minimi quadrati.
Si tratta, dunque, di ricercare la retta y=mx+p determinando i parametri
m e p in modo che risulti minima la somma dei quadrati degli
scostamenti dei dati teorici (ottenuti dall’ interpolazione) dai rispettivi dati
empirici, rispetto alla somma dei quadrati degli scarti che si otterrebbero
con qualsiasi altra retta interpolante.
p = y - mx
m
  x  x   y
  x  x
i
i
2
 y
i
xi , yi = coppie di valori di cui si vuole determinare la retta dei minimi
quadrati;
x
= media aritmetica dei valori xi;
y
= media aritmetica dei valori yi.
13
Estrapolazione: viene utilizzata per determinare valori esterni all’ intervallo di osservazione;
permette, in pratica, di prevedere l’ evolversi di un fenomeno descritto dalla retta
interpolante.
n. b.
tale tecnica può dare risultati non attendibili quando si ricercano valori molto lontani dall’
intervallo dei valori tabulati.
Perequazione: utilizzata per sostituire valori empirici di un fenomeno (quelli rilevati) con valori
teorici più rispondenti all’ andamento del fenomeno stesso.
Un metodo è quello della funzione interpolante; un altro, meno analitico e più
meccanico, è quello per medie mobili che consiste, essenzialmente, nel sostituire
ciascun termine con la media aritmetica considerando, oltre il termine da sostituire,
un uguale numero di termini a sinistra e a destra di esso (in genere si scelgono
medie di tre o cinque termini).
14
CONNESSIONE - REGRESSIONE - CORRELAZIONE
Vengono utilizzate quando è necessario stabilire se esiste un legame tra i dati di due
fenomeni o tra più dati di uno stesso fenomeno. In particolare, con riferimento a legami di tipo
lineare, si ricorre alla:
Connessione: per studiare il grado di dipendenza tra due caratteri qualitativi;
Regressione: per studiare il grado di dipendenza tra due caratteri quantitativi;
Correlazione: per stabilire il grado di interdipendenza di caratteri quantitativi di un dato fenomeno.
n. b. mentre con la connessione e con la correlazione si ottengono degli indicatori del grado di
dipendenza tra le due grandezze in esame, con la regressione si ha una funzione che, per
legami di tipo lineare, viene detta retta di regressione.
TEORIA DELLA CONNESSIONE
si ordinano i dati rilevati in una tabella a doppia entrata (tabella di connessione) in cui le righe
contengono i valori qualitativi del carattere y e le colonne i valori qualitativi del carattere x; i valori
nij, risultanti dall’ incrocio delle righe e colonne, rappresentano il numero dei dati che hanno
contemporaneamente modalità xj e yi; per essi valgono le relazioni:
Carattere Y
x1
Carattere X
x2
...
xj
...
xk
Totale
y1
n11
n12
...
n1j
...
n1k
n10
y2
n21
n22
...
n2j
...
n2k
n20
ni0 = ni1 + ni2 + ... + nik =  nij (i = 1,...,h)
...
yi
...
ni1
...
ni2
...
...
...
nij
...
...
...
nik
...
ni0
n0j = n1j + n2j + ... + nhj =  nij (j = 1,...,k)
...
yh
...
nh1
...
nh2
...
...
...
nhj
...
...
...
nhk
...
nh0
 ni0 =  n0j =   nij = n
Totale
n01
n02
...
n0j
...
n0k
n
Partendo da questi dati è possibile costruire una nuova tabella (tabella delle frequenze teoriche),
simile nella struttura alla precedente, il cui generico elemento N ij si ottiene dalla proporzione:
Nij : ni0 = n0j : n

Nij = (ni0  n0j)/n
15
supponendo una perfetta indipendenza tra i due caratteri. Se per tutte le coppie di indice i e j
risulta nij = Nij, i due caratteri sono indipendenti; se, invece, per qualche coppia risulta nij  Nij, vuol
dire che esiste una connessione tra i due caratteri. In tal caso si costruisce un’ ulteriore tabella,
sempre simile nella struttura alla prima (tabella di contingenza), i cui elementi si ottengono dalla
relazione:
cij = nij - Nij
noti i valori cij, è possibile calcolare l’ indice di contingenza  (chi-quadro) o di Pearson attraverso
la relazione:
 
2

ij
c 2ij
N ij
e quindi il coefficiente di contingenza di Pearson:
c
2
(0  c  1)
  2  n
c = 0  perfetta indipendenza
c = 1  perfetta dipendenza
esempio: determinare se esiste un qualche legame ed in che misura tra i risultati finali dell’ a. s.
1993/94, avendo suddiviso gli alunni in biennio e triennio.
Promossi
non Promossi
Totale
Biennio
59
113
172
Triennio
193
94
287
Totale
252
207
459
Si costruisce la tabella delle frequenze teoriche in base alla relazione: N ij 
N 11 
ad esempio per calcolare N11 si ha:
Promossi
non Promossi
Totale
n i0  n 0 j
n
252  172
 94,43
459
Biennio
94,43
77,57
172
Triennio
157,57
129,43
287
totale
252
207
459
da questa si costruisce, poi, la tabella di contingenza in base alla relazione: c ij = nij - Nij da cui è
possibile ricavare l’ indice di contingenza  o di Pearson:
 
2
 35,43 2  35,43 2  35,43 2  35,43 2
94,43

157,57

77,57

129,43
 47,141
e quindi il coefficiente di contingenza di Pearson:
16
c
47,141
 0,305
 47,141  459
essendo c molto prossimo a zero si può affermare che i due fenomeni non sono tra loro
influenzati.
TEORIA DELLA REGRESSIONE
Con l’ interpolazione si è visto che, data una serie di valori di x, è possibile stimare
attraverso la retta interpolante i corrispondenti valori di y.
E’ possibile, inoltre, con il metodo dei minimi quadrati descrivere l’ equazione della retta che
regola la dipendenza tra le due variabili x e y e, quindi, di rappresentare graficamente sia i valori
effettivi sia i valori teorici; in particolare la retta che rappresenta i valori teorici prende il nome di
Retta di Regressione
y = mx + p
Nell’ interpretare tale retta assume notevole importanza il coefficiente m (coefficiente di
regressione) che rappresenta la variazione media di y per un incremento unitario di x; in particolare
si ha:
m = 0  non esiste alcuna relazione tra le due variabili;
m > 0  al crescere di x cresce y;
m < 0  al crescere di x decresce y.
Rappresentando, d’ altronde, tale retta dei valori teorici, è opportuno misurare la sua
attendibilità tramite una misura della dispersione dei dati intorno ad essa; ciò può essere fatto
calcolando l’ Errore Standard di Stima
S y,x 
 y  y  2
N
essendo y i valori osservati ed y* i valori calcolati; più quest’ indice è piccolo più è precisa la
relazione tra x e y, al limite se esso è nullo tutti i punti giacciono sulla retta di regressione.
esempio: determinare la relazione esistente tra i promossi e i rimandati del corso “A” nell’ a. s.
1993/94
Classi
corso “A”
Promossi
Rimandati
xi
yi
Scarto
(xi-x)
Scarto
(yi-y)
Prodotto
(xi-x)(yi-y)
1° A
2° A
8
8
8
9
-2,75
-2,75
2,00
3,00
-5,50
-8,25
Scarto quad Scarto quad
(xi-x)2
(yi-y)2
7,56
7,56
4,00
9,00
17
3° A
4° A
Somma
14
13
43
4
3
24
3,25
2,25
///
-2,00
-3,00
///
-6,50
-6,75
-27,00
10,56
5,06
30,75
4,00
9,00
26,00
x = 10,75 ; y = 6,00 ; x = 2,77 ; y = 2,55
costruzione retta di regressione: y = mx + p
m
  x  x   y  y 
  x  x
i
i

i
27,00
 0,88
30,75
p  y  m  x  6,00  088
,  10,75  1544
,
;
y = -0,88x + 15,44
Calcolo dell’ errore di stima:
xi
yi
y*i
(yi - y*i)
8
8
14
13
8
9
4
3
8,40
8,40
3,12
4,00
Somma
0,16
0,36
0,77
1,00
2,29
Sx,y =  (yi - y*i)2/N = 2,29/4  15,44
TEORIA DELLA CORRELAZIONE
E’ utilizzata per misurare il grado di influenza esistente tra due variabili, supposto che tra di
esse esista un certo legame. Per poter stimare il grado di correlazione si utilizza il coefficiente di
correlazione lineare o Indice di Bravais:
r
 x
i
 x   y i  y
n  x  y
essendo n il numero dei dati osservati (stesso valore per x e per y), x lo scarto quadratico medio
della distribuzione x, y lo scarto quadratico medio della distribuzione y.
Il coefficiente r è interno all’ intervallo -1  r  1
r> 0
r< 0
r= 1
r = -1
r= 0





correlazione diretta (al crescere di x cresce y);
correlazione inversa (al crescere di x decresce y);
perfetta correlazione positiva;
perfetta correlazione negativa;
variabili perfettamente indipendenti tra loro.
esempio: calcolare la correlazione esistente tra i promossi e i rimandati del corso “A” nell’ a. s.
1993/94.
Corso “A” Promossi
Rimandati
(x -x)
(y -y)
(x -x)  (y -y)
18
1° A
2° A
3° A
4° A
somma
8
8
14
13
43
8
9
4
3
24
-2,75
-2,75
3,25
2,25
///
2,00
3,00
-2,00
-3,00
///
-5,50
-8,25
-6,50
-6,75
-27,00
Mp = 10,75 ; MR = 6,00 ; p = 2,77 ; R = 2,55
r
27,00
 0,96
 4  2,77  2,55
esiste una correlazione inversa tra i due fenomeni molto marcata, come d’altronde c’era da
aspettarsi, dal momento che all’ aumentare dei promossi diminuiscono i rimandati e viceversa.
19
DISTRIBUZIONI DI PROBABILITA’
Data una distribuzione statistica di un fenomeno caratterizzata da frequenze assolute, è
possibile trasformare queste ultime in frequenze relative potendole, così, interpretare in termini
frequentistici e quindi, per la legge empirica del caso, come probabilità. E' possibile, in tal modo,
leggere una distribuzione statistica come una distribuzione di probabilità di variabile casuale; ciò
risulta di grande importanza pratica perché è possibile, in tal modo assegnare valori numerici,
trattabili matematicamente, agli eventi di uno spazio campione relativo ad una prova e di
quantificarne i suoi risultati in forma tabellare, in forma grafica e mediante formule. Questo assunto
dà la possibilità di sostituire ad un modello statistico concreto un modello probabilistico teorico,
scegliendo tra le distribuzioni di probabilità quella che meglio si adatta alla distribuzione statistica
considerata sulla base del confronto tra la rappresentazione grafica dei dati empirici e la forma
della funzione di distribuzione di probabilità.
E' opportuno, dunque, studiare alcune tra le più importanti e più utilizzate tra le distribuzioni di
probabilità, sia nel discreto che nel continuo.
20
Distribuzione Binomiale
Si consideri il seguente problema: calcolare la probabilità che, lanciando 15 volte due dadi, la
somma delle facce dia per 8 volte come risultato 6. I dati in possesso sono:

Evento richiesto: somma pari a 6
Evento contrario: somma non pari a 6 
p = 5/36
q = 1 - p = 31/36
(i due eventi risultano tra loro indipendenti)
si richiede la probabilità che tale somma esca 8 volte, si tratta, pertanto, di una probabilità
composta (prodotto delle probabilità dei singoli lanci).
La probabilità richiesta sarà data dal prodotto di 8 volte la probabilità che esca tale somma per
7 volte la probabilità che non esca:
8
 5   31 
p     
 36   36 
7
tale espressione, però, ipotizza che si abbiano prima i successi e poi gli insuccessi; mentre,
generalmente essi possono presentarsi distribuiti secondo le combinazioni di 15 elementi presi a
gruppi di 8, l’ espressione, pertanto, assume la forma:
15  5 

8   36 
8
p 
 31 
 36 

7
 3,13  10 4
Generalizzando il discorso, la probabilità che, effettuando n prove, un evento avente probabilità
costante di verificarsi pari a p e probabilità contraria q = 1 - p, si presenti x volte (x  n) è data da:
n x
p
 x
p
 (n  x 
(prove ripetute)
q
Indicando, poi, con X il numero di volte che si presenta l’ evento richiesto nelle n prove, tale
numero è una variabile casuale definita da:
X  0
1
2
 pn,0 pn,1 pn,2
... x .... n
... pn,x ....pn,n
detta Distribuzione Binomiale o di Bernoulli, avente rispettivamente media e varianza:
 = np
;
Var(X)  npq
(x) 
n pq

Di questa distribuzione è, in pratica, importante conoscere il numero n delle prove e la
probabilità p dell’ evento, giacché è proprio al variare di tali valori che varia l’ andamento della
distribuzione.
21
E’ interessante notare, a questo proposito ciò che accade tenendo costante uno dei due valori
e facendo variare l’ altro:
1° caso:
=2
var = 1,8
 = 1,34
n = cost. ; p = variabile
n = 20
p = 0,1
q = 1-p = 0,9
n = 20
 = 10
var = 5
p = 0,5
 = 2,24 q = 1-p = 0,5
in questo caso si nota
che per valori di p lontani da
0,5
la
concentrazione
si
avvicina all’ origine per p<0,5
e se ne allontana per p>0,5
n = 20
 = 18
var = 1,8 p = 0,9
 = 1,34 q = 1-p = 0,1
(le due concentrazioni sono perfettamente simmetriche); nel caso di p =
0,5 la concentrazione, invece, si ha in prossimità del valore centrale di n
(punto per cui passa l’ asse di simmetria della distribuzione).
2° caso:
n = variabile ; p = cost.
in questo caso si nota che pur variando n la concentrazione si
mantiene abbastanza vicino all’ asse delle ordinate quando p < 0,5;
tende, invece, ad allontanarsi quando p > 0,5 ed n è molto alto.
=6
var = 4,8
 = 2,19
 = 14
v a r = 1 1 ,2
 = 3 ,3 5
n = 30
p = 0,2
q = 1-p = 0,8
n = 70
p = 0 ,2
q = 1 -p = 0 ,8
 = 24
var = 4,8
 = 2,19
 = 56
v a r = 1 1 ,2
 = 3 ,3 5
n = 30
p = 0,8
q = 1-p = 0,2
n = 70
p = 0 ,8
q = 1 -p = 0 ,2
22
Distribuzione di Poisson
Quando in una distribuzione binomiale il numero dei successi x è molto piccolo rispetto al
numero delle prove e la probabilità che essi si verifichino è molto bassa (n  e p  0,05) è
possibile fare delle semplificazioni sulla distribuzione binomiale trasformandola in una nuova
distribuzione detta Distribuzione di Poisson, la cui funzione di probabilità è:
P( X) 
x  
e
x!
essendo  una costante positiva (nell’
approssimazione
della
binomiale
 = 15
alla
poissoniana risulta  = np). In pratica la
distribuzione di Poisson viene utilizzata
quando si considerano problemi nei quali
non si conosce il numero delle prove ma di
cui, tuttavia, si conosce la frequenza ,
costante, di un certo numero di successi
che si presentano secondo una certa legge esponenziale.
esempio: si è accertato che nella segreteria telefonica di un ufficio pervengono nel corso di un’ora,
mediamente, 4 telefonate; calcolare la probabilità che in un’ora non arrivino telefonate,
che arrivi una telefonata, che in due ore arrivino due telefonate.
Dai dati risulta  = 4, per cui l’arrivo delle telefonate in un’ora ha probabilità pari a:
P( X) 
4 x 4
e
x!
(x = 1, 2, 3, .....)
a) la probabilità che in un’ora non arrivino telefonate è:
x = 0 
P( x  0) 
4 0 4
e
0!
b) la probabilità che in un’ora arrivi una telefonata è:
x = 1 
P( x  1) 
4 1 4
e
1!
23
c) per calcolare la probabilità che in due ore possano arrivare due telefonate, bisogna tener
presente che possono arrivare due telefonate durante la prima ora e nessuna nella seconda;
oppure nessuna nella prima ora e due nella seconda; o, ancora, una telefonata durante la
prima ora e una durante la seconda ora. Ognuno di questi casi comporta una probabilità
composta e tutti insieme una probabilità totale, per cui la probabilità richiesta è:
 42
4 0 4   4 0 4 4 2 4   4 1 4 4 1 4 
P    e 4 
e  e 
e  e 
 e   0,0107
0!
2!
1!
 2!
  0!
  1!

n. b. la distribuzione di Poisson è caratterizzata dall’avere il valore medio uguale alla varianza:
 = var = 
  
24
Distribuzioni di Variabili Continue
Le distribuzioni finora viste sono relative a variabili casuali che assumono valori interi. Molto
spesso, però, si presentano problemi in cui i casi possibili si presentano con continuità, dando
luogo a variabili casuali continue.
variabile casuale continua: variabile che può assumere qualunque valore all’interno di un
intervallo limitato o illimitato (a, b) con una probabilità P(a < x < b).
Distribuzione di Gauss
Per poter definire la distribuzione di probabilità di una tale variabile bisogna far riferimento ad
una funzione f(x)  0, detta Densità di Probabilità, il cui grafico è una curva continua (curva di
densità) che dovendo, comunque, rispettare le caratteristiche proprie di una variabile casuale,
possiede un asse di simmetria intorno al quale si concentra la maggior parte dei valori, con un
massimo che giace su tale asse e con valori decrescenti via via che ci si allontana da esso.
Ciò porta a concludere che la curva assume un andamento a campana ed è descritta
analiticamente dalla funzione:
P(X  x) 
1
 2

 exp 
x   2 

2 2


detta Distribuzione di Probabilità Normale o Funzione di Gauss, in cui  è il valore medio e 2 è la
varianza della distribuzione.
Questi due parametri caratterizzano fortemente l’ andamento della curva, in particolare:
 = valor medio:
rappresenta il valore massimo assunto dalla curva; controlla la distanza dell’
asse di simmetria dall’ asse delle ordinate.
2 = varianza:
controlla la concentrazione della curva intorno al suo asse di simmetria (
piccolo indica una curva stretta ed alta;  grande indica una curva larga e
bassa).


Da notare, infine, che il fattore 1  2 è un fattore di scala per le ordinate che controlla la
grandezza della curva e rende pari ad 1 l’ area ad essa sottesa.
25
Da quanto detto è facile intuire che la
] -    [ = 68,26%
curva presenta la maggiore concentrazione
nell’ intervallo ]  [ il che porta a dire,
anche, che i punti x =    (e quindi )
rappresentano i punti di flesso della curva, i
punti cioé, dove varia il suo andamento.
Altri intervalli tipici definiti da  sono:
]  [ in cui cade il 95,44% dei punti

della distribuzione e ]  [ in cui cade


il 99,73%; quest’ ultimo intervallo, anzi, permette di affermare che il valore assunto dalla variabile
casuale risulta essere quasi certamente compreso tra tali estremi.
Distribuzione Normale Standard
Ponendo nella distribuzione normale
z
x

con  = 0 e  = 1
si ottiene la funzione:
p( z) 
 z2 
 exp 

 2 
2
1
detta Distribuzione Normale Standard che, non avendo parametri, facilita i calcoli nella maggior
parte dei casi che si possono presentare nella pratica (anche perché tale funzione risulta
tabellata).
Ha, inoltre, il vantaggio che, essendo simmetrica rispetto all’asse delle ordinate, permette di
calcolare la probabilità che la variabile assuma un valore negativo considerando l’opposto di tale
valore, cioè p(-x) = p(x).
Ma soprattutto, tenendo presente che anche nella normale standard l’area sottesa alla curva
deve essere pari ad 1, la normale standard è importante, ed è stata tabellata (tav. 2), per il calcolo
della funzione di ripartizione F(x) di una variabile casuale, cioè quando si vogliono calcolare
distribuzioni di probabilità del tipo F(x) = P(X  x) (probabilità che la variabile casuale X assuma
valore non superiore a x) o del tipo F(x) = P(x1  X  x2).
26
I casi che si possono presentare per questi tipi di calcolo sono:
1° caso: calcolare la probabilità che la variabile casuale assuma un valore compreso tra  e 2
(valore non superiore a 2)
sulla tav. 2 in corrispondenza di z = 2 si legge f(z) = 0,9772 e tale valore è appunto la
probabilità richiesta.
2° caso: calcolare la probabilità che la variabile casuale assuma un valore compreso tra x1 = 0 e
x2 = 1
P(0 x 1) = (area a sinistra di 1) - (area a sinistra di 0) = F(1) - F(0) = 0,8413
- 0,5000 = 0,3413
3° caso: calcolare la probabilità che la variabile casuale assuma un valore compreso tra -1,85 e 0;
per la simmetria rispetto all’asse delle ordinate risulta:
P(-1,85  x  0) = P(0  x  1,85) = F(1,85) - F(80) = 0.9678 - 0,5000 =
0,4678
4° caso: calcolare la probabilità che la variabile casuale assuma un valore non superiore a -3:
per la simmetria risulta:
P(X  -3) = P(X  3) = (area totale) - (area a sinistra di 3) = 1 - F(3) =
1 - 0,9987 = 0,0013
5° caso: calcolare la probabilità che la variabile casuale assuma un valore compreso tra -2 e 1:
P(-2  X  1) = (area a sinistra di 1) - (area a sinistra di -2) =
= F(1) - (area a destra di 2) = F(1) - [(area totale) - (area a sinistra di 2)] =
= F(1) - [1 - F(2)] = F(1) + F(2) - 1 = 0,8413 +0,9772 -1 = 0,8185
27
Aree delle superfici sotto la
curva normale standard
da - al valore z
z
f(z)
0,00 0,5000
0,01 0,5040
0,02 0,5080
0,03 0,5120
0,04 0,5160
0,05 0,5199
0,06 0,5239
0,07 0,5279
0,08 0,5319
0,09 0,5359
0,10 0,5398
0,11 0,5438
0,12 0,5478
0,13 0,5517
0,14 0,5557
0,15 0,5596
0,16 0,5636
0,17 0,5675
0,18 0,5714
0,19 0,5753
0,20 0,5793
0,21 0,5832
0,22 0,5871
0,23 0,5910
0,24 0,5948
0,25 0,5987
0,26 0,6026
0,27 0,6064
0,28 0,6103
0,29 0,6141
0,30 0,6179
0,31 0,6217
0,32 0,6255
0,33 0,6293
0,34 0,6331
0,35 0,6368
0,36 0,6406
0,37 0,6443
0,38 0,6480
0,39 0,6517
0,40 0,6554
0,41 0,6591
0,42 0,6628
0,43 0,6664
0,44 0,6700
0,45 0,6736
0,46 0,6772
0,47 0,6808
0,48 0,6844
0,49 0,6879
0,50 0,6915
z
f(z)
z
f(z)
z
f(z)
z
f(z)
z
f(z)
z
f(z)
z
f(z)
0,50
0,51
0,52
0,53
0,54
0,55
0,56
0,57
0,58
0,59
0,60
0,61
0,62
0,63
0,64
0,65
0,66
0,67
0,68
0,69
0,70
0,71
0,72
0,73
0,74
0,75
0,76
0,77
0,78
0,79
0,80
0,81
0,82
0,83
0,84
0,85
0,86
0,87
0,88
0,89
0,90
0,91
0,92
0,93
0,94
0,95
0,96
0,97
0,98
0,99
1,00
0,6915
0,6950
0,6985
0,7019
0,7054
0,7088
0,7123
0,7157
0,7190
0,7224
0,7257
0,7291
0,7324
0,7357
0,7389
0,7422
0,7454
0,7486
0,7517
0,7549
0,7580
0,7611
0,7642
0,7673
0,7704
0,7734
0,7764
0,7794
0,7823
0,7852
0,7881
0,7910
0,7939
0,7967
0,7995
0,8023
0,8051
0,8078
0,8106
0,8133
0,8159
0,8186
0,8212
0,8238
0,8264
0,8289
0,8315
0,8340
0,8365
0,8389
0,8413
1,00
1,01
1,02
1,03
1,04
1,05
1,06
1,07
1,08
1,09
1,10
1,11
1,12
1,13
1,14
1,15
1,16
1,17
1,18
1,19
1,20
1,21
1,22
1,23
1,24
1,25
1,26
1,27
1,28
1,29
1,30
1,31
1,32
1,33
1,34
1,35
1,36
1,37
1,38
1,39
1,40
1,41
1,42
1,43
1,44
1,45
1,46
1,47
1,48
1,49
1,50
0,8413
0,8438
0,8461
0,8485
0,8508
0,8531
0,8554
0,8577
0,8599
0,8621
0,8643
0,8665
0,8686
0,8708
0,8729
0,8749
0,8770
0,8790
0,8810
0,8830
0,8849
0,8869
0,8888
0,8907
0,8925
0,8944
0,8962
0,8980
0,8997
0,9015
0,9032
0,9049
0,9066
0,9082
0,9099
0,9115
0,9131
0,9147
0,9162
0,9177
0,9192
0,9207
0,9222
0,9236
0,9251
0,9265
0,9279
0,9292
0,9306
0,9319
0,9332
1,50
1,51
1,52
1,53
1,54
1,55
1,56
1,57
1,58
1,59
1,60
1,61
1,62
1,63
1,64
1,65
1,66
1,67
1,68
1,69
1,70
1,71
1,72
1,73
1,74
1,75
1,76
1,77
1,78
1,79
1,80
1,81
1,82
1,83
1,84
1,85
1,86
1,87
1,88
1,89
1,90
1,91
1,92
1,93
1,94
1,95
1,96
1,97
1,98
1,99
2,00
0,9332
0,9345
0,9357
0,9370
0,9382
0,9394
0,9406
0,9418
0,9429
0,9441
0,9452
0,9463
0,9474
0,9484
0,9495
0,9505
0,9515
0,9525
0,9535
0,9545
0,9554
0,9564
0,9573
0,9582
0,9591
0,9599
0,9608
0,9616
0,9625
0,9633
0,9641
0,9649
0,9656
0,9664
0,9671
0,9678
0,9686
0,9693
0,9699
0,9706
0,9713
0,9719
0,9726
0,9732
0,9738
0,9744
0,9750
0,9756
0,9761
0,9767
0,9772
2,00
2,01
2,02
2,03
2,04
2,05
2,06
2,07
2,08
2,09
2,10
2,11
2,12
2,13
2,14
2,15
2,16
2,17
2,18
2,19
2,20
2,21
2,22
2,23
2,24
2,25
2,26
2,27
2,28
2,29
2,30
2,31
2,32
2,33
2,34
2,35
2,36
2,37
2,38
2,39
2,40
2,41
2,42
2,43
2,44
2,45
2,46
2,47
2,48
2,49
2,50
0,9772
0,9778
0,9783
0,9788
0,9793
0,9798
0,9803
0,9808
0,9812
0,9817
0,9821
0,9826
0,9830
0,9834
0,9838
0,9842
0,9846
0,9850
0,9854
0,9857
0,9861
0,9864
0,9868
0,9871
0,9875
0,9878
0,9881
0,9884
0,9887
0,9890
0,9893
0,9896
0,9898
0,9901
0,9904
0,9906
0,9909
0,9911
0,9913
0,9916
0,9918
0,9920
0,9922
0,9925
0,9927
0,9929
0,9931
0,9932
0,9934
0,9936
0,9938
2,50
2,51
2,52
2,53
2,54
2,55
2,56
2,57
2,58
2,59
2,60
2,61
2,62
2,63
2,64
2,65
2,66
2,67
2,68
2,69
2,70
2,71
2,72
2,73
2,74
2,75
2,76
2,77
2,78
2,79
2,80
2,81
2,82
2,83
2,84
2,85
2,86
2,87
2,88
2,89
2,90
2,91
2,92
2,93
2,94
2,95
2,96
2,97
2,98
2,99
3,00
0,9938
0,9940
0,9941
0,9943
0,9945
0,9946
0,9948
0,9949
0,9951
0,9952
0,9953
0,9955
0,9956
0,9957
0,9959
0,9960
0,9961
0,9962
0,9963
0,9964
0,9965
0,9966
0,9967
0,9968
0,9969
0,9970
0,9971
0,9972
0,9973
0,9974
0,9974
0,9975
0,9976
0,9977
0,9977
0,9978
0,9979
0,9979
0,9980
0,9981
0,9981
0,9982
0,9982
0,9983
0,9984
0,9984
0,9985
0,9985
0,9986
0,9986
0,9987
3,00
3,01
3,02
3,03
3,04
3,05
3,06
3,07
3,08
3,09
3,10
3,11
3,12
3,13
3,14
3,15
3,16
3,17
3,18
3,19
3,20
3,21
3,22
3,23
3,24
3,25
3,26
3,27
3,28
3,29
3,30
3,31
3,32
3,33
3,34
3,35
3,36
3,37
3,38
3,39
3,40
3,41
3,42
3,43
3,44
3,45
3,46
3,47
3,48
3,49
3,50
0,9987
0,9987
0,9987
0,9988
0,9988
0,9989
0,9989
0,9989
0,9990
0,9990
0,9990
0,9991
0,9991
0,9991
0,9992
0,9992
0,9992
0,9992
0,9993
0,9993
0,9993
0,9993
0,9994
0,9994
0,9994
0,9994
0,9994
0,9995
0,9995
0,9995
0,9995
0,9995
0,9995
0,9996
0,9996
0,9996
0,9996
0,9996
0,9996
0,9997
0,9997
0,9997
0,9997
0,9997
0,9997
0,9997
0,9997
0,9997
0,9997
0,9998
0,9998
3,50
3,51
3,52
3,53
3,54
3,55
3,56
3,57
3,58
3,59
3,60
3,61
3,62
3,63
3,64
3,65
3,66
3,67
3,68
3,69
3,70
3,71
3,72
3,73
3,74
3,75
3,76
3,77
3,78
3,79
3,80
3,81
3,82
3,83
3,84
3,85
3,86
3,87
3,88
3,89
3,90
3,91
3,92
3,93
3,94
3,95
3,96
3,97
3,98
3,99
4,00
0,9998
0,9998
0,9998
0,9998
0,9998
0,9998
0,9998
0,9998
0,9998
0,9998
0,9998
0,9998
0,9999
0,9999
0,9999
0,9999
0,9999
0,9999
0,9999
0,9999
0,9999
0,9999
0,9999
0,9999
0,9999
0,9999
0,9999
0,9999
0,9999
0,9999
0,9999
0,9999
0,9999
0,9999
0,9999
0,9999
0,9999
0,9999
0,9999
0,9999
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
28
STATISTICA INFERENZIALE
Spesso nell’effettuare una indagine statistica ci si trova di fronte a fenomeni che non
possono essere studiati nella loro completezza; ciò porta a non poter conoscere quei parametri
che caratterizzano la loro distribuzione. Nasce, pertanto, la necessità di stimare tale parametri; ciò
viene fatto tramite la Teoria del Campionamento, che concentra l’attenzione non su tutto l’universo
statistico in esame ma solo su un suo campione, in modo che, applicando il metodo induttivo (dal
particolare al generale), si possa giungere a formulare delle leggi di tipo probabilistico che
descrivano il fenomeno.
Universo o Popolazione: insieme (N) di unità statistiche omogenee rispetto ad uno o più caratteri;
può essere di ampiezza finita o infinita.
Campione: sottoinsieme dell’universo costituito da un numero finito di elementi (inferiore
all’ampiezza dell’ universo: n < N) e scelto in modo che siano rispettate alcune
proprietà che consentano di trasferire le informazioni ottenute da esso a tutto
l’universo.
Il problema, a questo punto, è di definire il grado di attendibilità del campione nei confronti
dell’universo; nasce, cioè, il problema dell’Inferenza Statistica (con quale probabilità le informazioni
fornite dal campione possono essere estese all’ intero universo).
Chiaramente quanto più grande è l’ ampiezza del campione (numerosità, n) tanto più le sue
informazioni si avvicinano a quelle dell’ universo; la scelta della numerosità del campione e, quindi,
del campione stesso è un fattore molto importante poiché deve riprodurre, in modo non deformato,
le caratteristiche dell’ universo da cui proviene; il campione deve essere, cioè, rappresentativo
dell’universo (riprodurre in piccolo le caratteristiche dell’ universo); diventa, pertanto, fondamentale
il modo in cui il campione viene scelto.
Criteri di Scelta di un Campione
si basano, essenzialmente, su due metodi:
scelta ragionata: il campione è scelto in base a criteri soggettivi che possono condurre anche a
risultati lontani dalla realtà.
29
Scelta Casuale: il campione è scelto estraendo a caso le singole unità; può essere ottenuto
utilizzando le tavole dei numeri casuali o, meglio ancora, effettuando delle
estrazioni dall’ universo.
Nell’utilizzare la scelta casuale si possono seguire due metodi:
estrazione bernoulliana: estrazione con ripetizione; si possono avere N n campioni distinti
(disposizione con ripetizione di N elementi di classe n).
estrazione in blocco: estrazione senza ripetizione; si possono avere
N
 
n 
campioni distinti
(combinazione di N elementi di classe n).
Si capisce da ciò che da un universo si possono estrarre diversi campioni, ognuno dei quali
risulta diverso dagli altri e con una sua probabilità di essere formato e, quindi, con una sua
probabilità più o meno marcata di riflettere l’ universo.
Supposto di estrarre tutti i possibili campioni di dimensione n da un universo di dimensione
N e di avere calcolato media e varianza (s.q.m.) di ognuno dei campioni, è possibile considerare
una distribuzione delle medie campionarie e una distribuzione delle varianze campionarie;
d’altronde, in quanto distribuzioni, di esse si possono calcolare la media e la varianza (in genere si
determina solo la media  distribuzione campionaria delle medie o distribuzione della media
campionaria).
Per ottenere, dunque, la distribuzione delle medie campionarie X, bisogna calcolarne la
media M(X) [si dimostra che sia per estrazione bernoulliana sia per estrazione in blocco risulta
M(X) = media dell’ universo] e lo scarto quadratico medio (varianza):

X =
 estrazione bernoulliana
n

n

Nn
 estrazione in blocco
N 1
[ = s.q.m. dell’universo = valore noto]
In pratica, essendo l’estrazione del campione del tutto casuale, la conoscenza di tali valori
sintetici permette di determinare una misura della variabilità della distribuzione della media
campionaria (interpretata come variabile casuale); questo significa che, pur non potendo sapere
qual’è la media del campione che verrà estratto, se tuttavia n è molto grande (n  30), si può
affermare che tale media è interna ad una gaussiana di media M(X) e varianza X con una
approssimazione tanto maggiore quanto più grande è n.
Si può, pertanto, considerare ogni campione come una variabile casuale che può
assumere valori xi con probabilità pi, [Xi(xi,pi)]; si avrà in tal modo un insieme di variabili casuali tra
30
loro indipendenti, aventi tutte la stessa distribuzione di probabilità data dalla distribuzione di
frequenza con cui un carattere si presenta nell’universo. D’altra parte il metodo di estrazione
utilizzato concorre anch’esso a diversificare i campioni, tuttavia se dall’universo è possibile estrarre
un numero elevato di campioni, tutti nelle stesse condizioni, se cioè il tasso di campionamento n/N
è abbastanza piccolo ( 5%  n << N) i due metodi portano alla stessa conclusione e la
distribuzione dei campioni tende ad una distribuzione normale, per cui è possibile trasformare una
distribuzione statistica (modello concreto) in una distribuzione probabilistica (variabile casuale)
(modello teorico); si possono, pertanto, introdurre i concetti propri al calcolo di una variabile
casuale e, quindi, effettuare la stima campionaria sul valore medio e sulla varianza del campione
(stimatori campionari).
media
valori sintetici per l’ analisi del campione
varianza o scarto qudratico medio
valori sintetici per l’ universo  parametri
valori sintetici per il campione  statitiche camponarie o statistiche
stima campionaria: processo di analisi che, partendo dai dati di un campione, determina il
corrispondente valore del parametro dell’ universo.
parametro: valore caratteristico dell’universo (media, varianza)
stimatore: variabile casuale espressa come funzione delle variabili casuali che compongono il
campione; ogni stimatore è dotato di una sua distribuzione, detta distribuzione
campionaria, che può variare in base alla numerosità del campione e anche al tipo di
stimatore considerato.
31
TEORIA DELLA STIMA
Viene utilizzata per ottenere da un campione risultati estendibili all’intero universo,
determinandone la maggiore o minore esattezza di uno o più parametri; per fare ciò, tuttavia, è
necessario che gli stimatori soddisfino a determinate condizioni:
correttezza: uno stimatore è corretto se il suo valore medio è uguale al parametro che deve
stimare (in caso contrario si ha una stima distorta);
efficienza: uno stimatore è efficiente se la varianza delle stime è minore della varianza che si può
ottenere con altri stimatori;
consistenza: uno stimatore è consistente se al crescere della numerosità del campione il suo
valore si avvicina sempre più al parametro da stimare.
Uno stimatore può essere calcolato in due modi diversi:
stima puntuale: l’elaborazione dei dati del campione porta alla determinazione di un unico valore
dello stimatore;
stima per intervallo di confidenza: l’elaborazione dei dati del campione porta all’ individuazione
di un intervallo che contiene, con una data probabilità, lo
stimatore; si fissa, in pratica, un intervallo al quale si associa
un’alta probabilità di contenere il valore reale del parametro
(la precisione della stima è inversa all’ampiezza dell’intervallo, minore è tale ampiezza più precisa è la stima).
STIMA PUNTUALE DELLA MEDIA DELL’ UNIVERSO
Si dimostra che il valore medio della media campionaria per un campionamento casuale,
sia benoulliano sia in blocco, è uguale alla media dell’universo:
media campione = media universo

x = 
cioè la media di tutte le medie campionarie è uguale a quella dell’universo.
32
Per quanto riguarda la sua distribuzione, invece, si ha un valore diverso della varianza in
base al tipo di estrazione effettuata, in particolare per:
2
n
estrazione bernoulliana:
x 
estrazione in blocco:
2 N  n
x  n  N  1
2
2
essendo  la varianza dell’ universo, N l’ampiezza dell’ universo, n la numerosità del campione.
n. b. se per il campione risulta n << N (in genere n inferiore al 20% di N) si ha:
lim
N 
σ2 N  n
σ2


n N1
n
cioè le varianze, per i due tipi di estrazione, tendono a coincidere.
Questo risultato, per la legge dei grandi numeri, può essere esteso anche ad universi con
distribuzioni non normali in base al:
Teorema del Limite Centrale: qualunque sia la distribuzione di un universo rispetto ad un
carattere quantitativo avente media x e varianza x, le medie
dei campioni, al crescere della numerosità del campione,
tendono ad una distribuzione normale di media  e varianza
/n.
STIMA PUNTUALE DELLA VARIANZA DELL’UNIVERSO
detta s2 la distribuzione campionaria della varianza, essa ha media:
M s2  
n 1 2

n
n = dimensione campione
 2
 = varianza universo
essendo, però, M(s2)   la varianza campionaria è uno stimatore non corretto (distorto) della
varianza dell’universo; affinché esso risulti corretto si deve definire la varianza come:
^

n
 2
n 1
in tal modo si ottiene la distribuzione s2 delle varianze campionarie corrette e, quindi, si ha:
33
 n  s2  n  M s2  n   n  1 2
 ^2 
2
Ms   M 
  n  1   n  1  n    
 
 n  1
In pratica, la varianza dell’universo viene assunta come media corretta della distribuzione della
varianza campionaria.
STIMA PER INTERVALLO
Lo stimatore viene individuato da un intervallo (intervallo di fiducia o di confidenza) avente
una prefissata probabilità di contenerlo (livello di fiducia); l’intervallo può essere rappresentato da:
        
essendo  l’errore che si commette nel sostituire il generico stimatore  al corrispondente
parametro  dell’ universo; la relativa probabilità diventa:
p(        ) = 1 - 
essendo  il livello di significatività (rischio di errore) e 1 -  il livello di fiducia che influenza la
quantità .
Per distribuzioni campionarie di tipo normale la stima per intervallo diventa alquanto semplice e la
probabilità che la media dell’universo sia interna all’intervallo di fiducia vale:


p x  zc 
s
n
 m  x  zc 
s
n


 1  a
essendo zc il valore critico che, per un assegnato livello di fiducia (1-) o rischio di errore , si
ricava dalla tabella della distribuzione normale standardizzata.
34
Scarica