II. Misure di tendenza centrale

annuncio pubblicitario
UNIVERSITA’ DEGLI STUDI DI TERAMO
MASTER
IN
COMUNICAZIONE E DIVULGAZIONE
SCIENTIFICA
La divulgazione della Statistica
a.a. 2003/2004
Candidato: dott. Romolo Salini
INDICE
CAPITOLO I: Che cos'è la Statistica
1,1 Etimologia, significato e ambiti della Statistica
pag.4
1,2 Curiosità statistiche
pag.6
CAPITOLO II: Misure di tendenza centrale
2,1 Medie
pag.9
2,2 Moda
pag.11
2,3 Mediana
pag.11
CAPITOLO III: Misure di dispersione
3,1 La dispersione
pag.13
3,2 Campo di variazione
pag.14
3,3 Varianza e scarto quadratico medio
pag.15
CAPITOLO IV: Rappresentazioni grafiche
4,1 Tipi di grafici
pag,15
4,2 Cenni storici
pag.15
4,3 Come scegliere il tipo di grafico per ciascun analisi
pag.16
4,4 Istogrammi
pag.16
4,5 Come si "leggono" le informazioni contenute nel grafico
pag.17
4.6 I poligoni
pag.19
4.7 Diagrammi a rettangoli distanziati
pag.21
4.8 Ortogrammi
pag.21
4.9 Gli aerogrammi
pag.22
4.10 Diagrammi a figure
pag.22
4.11 Cartogrammi
pag.23
CAPITOLO V: Cenni sul campionamento
5.1 Considerazioni generali
pag.25
5.2 Campionamento casuale semplice
pag.26
5.3 Campionamento sistematico
pag.27
5.4 Campionamento stratificato
pag.27
5.5 Selezione delle unità con probabilità differenti
pag.28
5.6 Campionamento a più stadi
pag.28
2
5.7 Campionamento areale
pag.28
5.8 Campionamento non casuale
pag.29
5.9 Campionamento ragionato
pag.29
5.10 Campionamento per quote
pag.29
5.11 Snowball sampling
pag.31
5.12 Indagini multiscopo
pag.31
5.13 I principali risultati
pag.31
CAPITOLO VI:Regressione lineare semplice
6.1 Analisi di regressione
pag.33
6.2 Modelli di regressione
pag.35
6.3 Regressione lineare semplice
pag.36
6.4 Metodo dei minimi quadrati
pag.38
CAPITOLO VII: Regressione lineare multipla
7.1 Generalità
pag.40
7.2 I coefficienti di regressione lineare doppia
pag.41
7.3 Calcolo dei valori numerici dei parametri
pag.44
CAPITOLO VIII: Alcune distribuzioni di probabilità
8.1 Considerazioni iniziali
pag.49
8.2 Valore atteso di una variabile casuale discreta
pag.49
8.3 Varianza e scarto quadratico medio di una variabile casuale discreta
pag.50
8.4 Distribuzione uniforme
pag.51
8.5 Distribuzione binomiale
pag.52
8.6 Distribuzione di Poisson
pag.54
8.7 Distribuzione normale o di Gauss
pag.57
3
I .Che cos’è la statistica
1.1 Etimologia, significato e ambiti della Statistica
La concezione della statistica più diffusa tra la gente comune, ma anche quella
che traspare dai mass-media è notevolmente distante da ciò che questa scienza
“giovane” rappresenta: infatti oggi si confonde sempre più spesso la statistica con
le statistiche
La Statistica è una scienza relativamente giovane, i contributi più importanti per il
suo sviluppo e la sua affermazione sono tutti del ‘900, e tuttora in espansione, in
effetti, è da considerare come una branca delle scienze matematiche applicate,
insieme di metodologie utilizzate nella raccolta, elaborazione, rappresentazione e
previsione di dati relativi a fenomeni collettivi di qualsiasi natura (economica,
demografica, politica, sociale,ecc…).
Essa è presente in tutte le scienze e rappresenta uno strumento essenziale per la
scoperta di leggi e relazioni tra fenomeni. La Statistica interviene in tutte le
situazioni nelle quali occorre assumere decisioni in condizioni di incertezza, e le è
riconosciuto un ruolo fondamentale nella ricerca scientifica, nella pianificazione
economica e nell'azione politica.
L'evoluzione storica della Statistica nasconde due anime che si ritrovano sia nella
didattica e nella ricerca sia nel pensare comune dei non specialisti e, quindi, nel
linguaggio dei mass-media.
Il significato anticamente attribuito al termine statistica è strettamente correlato
alla sua etimologia; infatti “statistica” deriva dal latino “status”, quindi
letteralmente traducibile in scienza dello stato. Anticamente la statistica venne
sviluppata per fornire ai governanti la situazione esatta dei loro stati, era
concepita come un insieme di metodologie per organizzare, raccogliere e
riassumere dati, principalmente riferiti alla popolazione(ad esempio censimenti) o
a possedimenti; era uno strumento determinante per la definizione dei tributi.
La prima apparizione del vocabolo "statistica" in questa accezione sembra essere
quella dell'italiano Ghislini che, nel 1589, indica la Statistica come "descrizione
delle qualità che caratterizzano e degli elementi che compongono uno Stato".
Con la formazione dei grandi Stati europei, si attribuisce all'analisi statistica dei
fenomeni collettivi un interesse pubblico che induce progressivamente le principali
nazioni occidentali a dotarsi di Istituti "centrali" di Statistica, deputati per legge alla
raccolta, organizzazione e diffusione di dati sulla popolazione, sulle abitazioni, sulle
risorse economiche e su tutti gli aspetti che riguardano la vita collettiva di una
nazione, di una Comunità di stati (Unione Europea) o dell'intero pianeta (Nazioni
Unite).
Oggi, gli organismi pubblici che istituzionalmente raccolgono e diffondono
informazioni statistiche sono innumerevoli ed agiscono secondo una gerarchia di
competenze che individua nell'Ente locale la sede prioritaria di raccolta del dato
elementare, mentre al verifica, l'aggregazione e la pubblicazione sono di
competenza dell'Ente centrale (per l'Italia è l'ISTAT).
La seconda anima della Statistica nasce da una constatazione differente che solo
da pochi secoli ha trovato una formalizzazione compiuta. Di fronte alla realtà che
muta, vi sono risultati che meritano più fiducia di altri perchè si ripetono con
4
maggiore regolarità. Ciò viene percepito soprattutto in rapporto al clima e
all'alternanza delle stagioni ma riguarda anche i fenomeni biologici, sociali ecc. In
tali contesti, la mente umana registra regolarità senza certezze, convinzioni non
sicurissime, ripetizioni di eventi non sempre garantiti da un esito univoco. Da un
lato ciò genera paura e impone cautele contro i rischi (la mutualità prima e le
assicurazioni poi), dall'altro sollecita il gioco e la scommessa (inventando
artificialmente l'aleatorietà nel risultato tramite semplici strumenti: palline, dadi,
carte).
Pur essendo concettualmente ben presente nella storia e nella cultura sin dalle
antiche civiltà, la probabilità diventa un concetto importante e ben formalizzato
solo a partire dal secolo XVIII anche se, già in precedenza e grazie soprattutto alle
menti di grandi scienziati, quali Galileo, Pascal e Fermat, inizia a prendere forma
un nuovo modo di applicare la matematica ai giochi, cioè quella nuova disciplina
che sarà poi denominata Calcolo delle probabilità. Si dovrà però aspettare
ancora altri duecento anni perché diventi palese la connessione tra le osservazioni
incerte e la possibilità di prevederle, controllarle e simularle. Così, all'inizio del 1900,
nasce e si diffonde una impostazione verso lo studio della realtà che trova
nell'inferenza il suo nucleo centrale e negli schemi probabilistici degli strumenti utili
ed essenziali per assumere decisioni coerenti.
La saldatura tra queste due anime della Statistica avviene con molto ritardo e solo
quando, di fronte alla natura sempre più sperimentale della conoscenza, ci si
pone il problema della validità delle ipotesi.
Il metodo statistico diviene nei fatti la metodologia della ricerca scientifica e la
prassi nelle analisi dei risultati di laboratorio ancor prima di essere riconosciuto
come strumento di indagine autonomo.
Oggi, anche in conseguenza dei veloci mutamenti tecnologici ed informatici, si
assiste ad un costante tentativo di utilizzare la Statistica a sostegno di tesi
predefinite, cioè come uno strumento di convincimento ideologico.
In sostanza la statistica è la scienza che studia i fenomeni collettivi di tipo
economico, sociale, politico, ecc…ed attraverso l’analisi dei dati deriva le
valutazioni.
La metodologia statistica viene divisa idealmente in due gruppi, che però sono
strettamente in relazione:


Statistica descrittiva
Statistica inferenziale
La prima si occupa appunto della descrizione del fenomeno oggetto di studio
attraverso la classificazione, la rappresentazione e la sintesi dei dati e la
costruzione di indicatori statistici (di posizione, di dispersione, di correlazione,
ecc…).
La seconda è basata sul concetto di probabilità e sul concetto di induzione e può
avere come scopo quello di estendere i risultati ottenuti da un campione
(selezionato opportunamente) a tutta la popolazione di riferimento oppure quello
di verificare delle ipotesi, o fare previsioni o prendere decisioni in condizioni di
incertezza (statistica decisionale).
5
1.2 Curiosità statistiche
Di seguito riportiamo alcune curiosità statistica riportate nei giornali nazionali:
INDAGINE 1: “Se noi potessimo ridurre la popolazione del mondo intero in un
villaggio di 100 persone mantenendo le proporzioni di tutti i popoli esistenti al
mondo, il villaggio sarebbe composto così:”
57
21
14
8
52
48
70
30
70
30
89
11
6
80
70
50
1
1
1
1
asiatici
europei
americani (Nord, Centro e Sud
America)
africani
sarebbero donne
sarebbero uomini
sarebbero non bianchi
sarebbero bianchi
sarebbero non cristiani
sarebbero cristiani
sarebbero eterosessuali
sarebbero omosessuali
persone possiederebbero il 59% della
ricchezza del mondo intero e tutte e 6
sarebbero statunitensi
vivrebbero in case senza abitabilità
sarebbero analfabeti
soffrirebbero di malnutrizione
starebbe per morire
starebbe per nascere
possiederebbe un computer
avrebbe una laurea
6
INDAGINE 2: Esperti che sostengono uno scenario in cui l’ottimismo prevale sul
pessimismo
La caduta delle barriere doganali e l’entrata nel mercato capitalistico di oltre 60
paesi poveri (Cina in testa) ha prodotto:


In 10 anni il raddoppio del reddito reale di 2 miliardi di persone
Dal 1960 al 1990 la speranza di vita è aumentata ovunque nel mondo
(di 17 anni in media)

Il miglioramento della sanità: ogni anno muoiono 5 milioni di bimbi in
meno

Leggere e scrivere sono oggi più diffusi che mai

Il numero di paesi di Africa, America Latina, Asia in grado di sopperire
integralmente ai fabbisogni alimentari è raddoppiato (dal 25% al 50%)

Nell’arco di una generazione c’è stata una riduzione del numero dei
figli per donna (da 6 a 4 figli)

Molte discriminazione (sesso, religione,…) stanno emergendo.

I dati di crescita del reddito di cui si parla sono in realtà delle “medie”

La crescita di reddito (anche forte) riguarda una minoranza, mentre la
maggioranza si va impoverendo

La globalizzazione emargina ancora di più i paesi e le fasce di
popolazione deboli

Sono in crescita tutte le “esternalità negative” della crescita
economica:
disoccupazione,
criminalità,
inquinamento,
disgregazione sociale, etc.

Le tecnologie, sostituendosi alle tecniche, che rappresentano il
prolungamento del braccio umano e delle comunità, si sono
7
trasformate in una forza capace di sottomettere le braccia umane e
le comunità.
Scenario pessimistico e considerazioni:
Le disuguaglianze stanno aumentando sia a livello planetario che
all’interno dei singoli paesi. Nel mondo esistono:
367 persone che posseggono quanto il 40% della popolazione più
povera, anche negli Usa questo rapporto è analogo, in altri paesi più
poveri lo squilibrio è ancora maggiore
ci sono 1,3 miliardi di persone (maggiormente donne) che vivono in
assoluta povertà
800 milioni di persone soffrono la fame e 40 mila bambini muoiono
ogni giorno per malattie e debolezze
gli ambienti vitali delle popolazioni, animali e piante vengono
danneggiate progressivamente
Susan Gorge dice: il 20% più ricco della popolazione si appropria dell’82% della
ricchezza mondiale, mentre al 20% più povero è lasciato solo l’1,3% della ricchezza
prodotta ogni anno. Tre miliardari nel mondo hanno il patrimonio equivalente a
quanto riescono a produrre ogni anno insieme i 48 paesi più poveri del mondo.
Accanto a questo 1 miliardo e mezzo di persone, vive in una condizione di
povertà assoluta.
La Banca Mondiale definisce poveri assoluti tutti coloro che vivono con meno di
un dollaro al giorno (naturalmente non hanno un tetto per poter abitare, sono
persone che sono costrette a vivere sui marciapiedi, etc.).In Italia il 30% della
popolazione vive in condizione di povertà , 6 milioni di italiani hanno un reddito
che è inferiore al 50% dei consumi medi italiani.
8
II. Misure di tendenza centrale
2.1 Medie
È abbastanza comune la consuetudine che, volendo riassumere in un solo numero
dei dati statistici, se ne dia il valore medio: media dei voti di uno studente, età
media di un gruppo di persone, numero medio di auto possedute per famiglia, e
così via. In effetti, la media aritmetica è la più semplice e conosciuta misura di
posizione di una distribuzione statistica. Ricordiamo che essa è definita da:
che in una forma più elegante diventa:
e si definisce somma dei valori di tutte le osservazioni diviso il numero delle
osservazioni.
Dove:
= media del campione
= i-esima osservazione della variabile X
n = numero di osservazioni del campione
= sommatoria di tutti gli
del campione
Allorquando siamo di fronte ad una distribuzione di frequenze raggruppate in
classi occorre utilizzare la media aritmetica di distribuzioni di frequenza, detta
anche media aritmetica ponderata, calcolabile rapidamente mediante la
seguente formula:
n
X 
f
i
 xi
i 1
n
f
i
i 1
dove:
9
= media della distribuzione in classi,
x i = valore medio della i-esima classe di intervallo,
f i = numero di osservazioni della classe i-esima classe,
n = numero di classi,
∑ = sommatoria per tutte le n classi.
X
Quando siamo di fronte a variabili non lineari, ma ottenute da un prodotto o da
un rapporto di valori lineari è utile ed opportuno utilizzare la media geometrica.
Condizione fondamentale per il calcolo della media geometrica è che i valori
siano tutti non negativi (qualora vi fossero dei valori negativi dovremmo ricorrere al
valore assoluto): infatti essa è uguale alla radice (solo positiva) ennesima del
prodotto degli n dati:
Mg  n x1  x 2  ...  x n
Un’importante proprietà di cui gode la media geometrica è che il suo logaritmo è
uguale alla media aritmetica dei logaritmi dei dati:
1
log Mg 
n
n
x
1
i
i 1
Quando dobbiamo mediare dei rapporti, la media geometrica mostra un’altra
sua utile proprietà.
Supponiamo di voler mediare n rapporti
yi
; la media geometrica si può
xi
esprimere nel modo seguente:
1
1
y y
y  n  y  y  ...  y n  n
Mg   1  2  ...  n   1 2
1
xn 
 x1 x 2
x1  x 2  ...  x n  n
ossia la media geometrica dei rapporti è uguale al rapporto delle medie
geometriche dei numeratori e dei denominatori rispettivamente.
Nel caso di distribuzioni di dati in cui debbano essere usati gli inversi la misura di
tendenza centrale più appropriata è la media armonica:
mh 
n
n
1
i 1
i
x
1
Tale proprierà risulta molto utile quando, nei processi di inferenza statistica, si applica una trasformazione logaritmica
dei dati al fine di normalizzare la distribuzione
10
Infine, quando analizziamo dati relativi a superfici è utile calcolare la media
quadratica:
n
mq 
x
2
i
i 1
n
2.2 Moda
Con il termine moda, o norma si indica in statistica la modalità più frequente fra
quelle osservate in un data distribuzione di frequenze.
Non richiede calcoli o confronti e la si può calcolare per qualsiasi tipo di carattere,
quantitativo o qualitativo. La moda, però, tra le misure di tendenza centrale è
l’unica che non sempre esiste; infatti se supponiamo che le frequenze delle classi
A, B, C, D siano 14, 24, 24, 17, esistono due classi (B e C) con frequenza massima,
per cui la moda non esiste.
Per indicare la moda di un carattere X, si usa Mo, ad esempio:
xi
1
3
5
7
ni
15
13
24
17
La moda di questa serie di valori è 5 : Mo=5
2.3 Mediana
A differenza della moda, che si applica ad una serie qualunque di valori, il
concetto di mediana necessita di modalità ordinate secondo ordine crescente;
infatti per mediana si intende il valore che occupa la posizione centrale in una
serie ordinata di dati
Per calcolare la mediana di un gruppo di dati, occorre:
1 - disporre i valori in ordine crescente oppure decrescente e contare il numero
totale n di dati;
11
2 - se il numero (n) di dati è dispari, la mediana corrisponde al valore numerico del
dato centrale,
quello che occupa la posizione (n+1)/2;
3 – se il numero (n) di dati è pari, la mediana è stimata utilizzando i due valori
centrali che
occupano le posizioni n/2 e n/2+1;
Nel caso di poche osservazioni, come mediana viene assunta la media aritmetica
di queste due osservazioni intermedie; mentre nel caso di molte osservazioni
raggruppate in classi, si ricorre talvolta alle proporzioni.
Il concetto di mediana risulta più intuitivo con un esempio:

Supponiamo di avere la seguente serie di osservazioni ordinate:
0 1 3 4 4
7 8 8 9 10
dato che il numero di valori della serie è dispari
rappresentata dal valore centrale: Me=5

(n=11) la mediana è
Se consideriamo la stessa serie di valori, togliendo l’ultimo:
0 1 3 4 4 5 7 8
8
9
in questo caso il numero di valori della serie è pari (n=10) quindi la mediana
sarà data non più da un solo numero, ma da un intervallo di valori [4,5], è
formalmente corretto quindi affermare che sono mediane tutti i numeri reali
compresi in questo intervallo. Nel caso si vuole un indice di posizione
espresso da un solo valore in molti casi si utilizza la semisomma degli estremi
dell’intervallo (nel nostro caso Me=(4+5)/2=4,5).
Naturalmente tale scelta è opportuna quando è ammissibile dal fenomeno
oggetto di studio, altrimenti si preferisce utilizzare come mediana uno degli
estremi dell’intervallo.
12
III. Misure di dispersione
3.1 La dispersione
La dispersione è la seconda importante proprietà che descrive un gruppo di
osservazioni relative ad un dato fenomeno. Essa è definita come grado di
variazione o intervallo di variabilità dei dati.
Le principali misure di dispersione sono quattro: campo di variazione, varianza,
scarto quadratico medio e coefficiente di variazione.
3.2 Campo di variazione
Il campo di variazione è la differenza tra il valore massimo ed il valore minimo
ossia:
Campo di variazione= xMAX – xmin
Il campo di variazione misura quindi l’intero intervallo di variabilità dei dati;
benché facile da calcolare, è assolutamente incapace di considerare come i dati
si distribuiscono tra i due valori estremi.
3.3 Varianza e scarto quadratico medio
Due misure che invece tengono conto di come i valori si distribuiscono all’interno
dell’intervallo sono la varianza e lo scarto quadratico medio. Queste ci indicano in
particolare come i valori si distribuiscono attorno alla media.
La varianza è definita come media degli scarti al quadrato dal valore medio e
cioè:
n
 x
i
 x 2
i 1
2 
n
dove:
= media aritmetica
x i = esimo valore della variabile X
n = numero totale dei valori
x
n
 x
i
 x 2 = sommatoria di tutte le differenze tra i valori xi e x elevate al
i 1
quadrato
Lo scarto quadratico medio o deviazione standard, il cui simbolo è s nel caso della
popolazione ed s nel caso di un campione, è la radice quadrata della varianza.
13
sigma minuscola) sono da attribuire al grande statistico inglese Karl Pearson (1867
– 1936) che l’avrebbe coniato nel 1893; in precedenza era chiamato mean error.
In alcuni testi di statistica è abbreviato anche con SD ed è chiamato root mean
square deviation oppure root mean square,
E' una misura della dispersione della variabile casuale intorno alla media ed ha
sempre valore positivo poiché è indice di distanza dalla media.
n

 x
i
 x 2
i 1
n
14
IV. Rappresentazioni grafiche
4.1 Tipi di grafici
Con lo scopo di aiutare la comprensione dell’analisi dei risultati, in Statistica, si usa
affiancare ai dati in forma tabellare le rappresentazioni grafiche.
I tipi di grafici con i quali vengono presentati i risultati di analisi statistiche sono
molteplici; di seguito riportiamo i più utilizzati:














diagramma
diagramma areale
diagramma a torta
istogramma
diagramma a barre
diagramma a colonne
diagramma a nastri
diagramma cartesiano
diagramma semilogaritmico
box-plot
Box-and-Whisker Plot
piramide delle età
diagramma stem-and-leaf
dendogramma cartogramma grafo ideogramma
4.2 Cenni storici 2
Si ritiene che la nascita di questa tecnica sia dovuta a William Playfair verso la fine
del Settecento, quando utilizzò decine di diagrammi (soprattutto serie storiche, ma
anche il primo diagramma a barre) nel suo Commercial and Politica Atlas del
1786 e introdusse il diagramma a torta nel Statistical Breviary del 1801.
Chiaramente ciò non naque all'improvviso e sarebbe impossibile senza
l'introduzione del sistema cartesiano e delle geometria analitica da parte di
Cartesio nel 1637 (appendice La Géometrie in Discours de la Méthode).
Nel 1760 un matematico svizzero, Johann Heinrich Lambert (Mulhouse,1728-1777),
fece uso di grafici di elevata qualità nella sua opera Photometria.
Lambert-Adolphe-Jacques Quételet (vissuto nell'Ottocento) fece ampio ricorso ai
metodi grafici e in un certo senso li sistematizzò.
I primi cartogrammi vengono attribuiti a A.W.Crome, economista tedesco, con la
sua Producten-Karte von Europa del 1782. Un autore francese, C.T.Minard,
2
Cenni storici tratti dal sito internet http://it.wikipedia.org
15
introdusse i cartogrammi a bande proporzionali e li utilizzò per rappresentare i flussi
di passeggeri tra le diverse stazioni ferroviarie.
4.3 Come scegliere il tipo di grafico per ciascun analisi
Le rappresentazioni grafiche disponibili sono numerose. Esse debbono essere
scelte in rapporto al tipo di dati e quindi alla scala utilizzata.
Per dati quantitativi, riferiti a variabili continue misurate su scale ad intervalli o di
rapporti, di norma si ricorre ad istogrammi o poligoni. Gli istogrammi sono grafici a
barre verticali (per questo detti anche diagrammi a rettangoli accostati).
4.4 Istogrammi
Le misure della variabile casuale sono riportate lungo l'asse orizzontale, mentre
l'asse verticale rappresenta il numero assoluto, oppure la frequenza relativa o
quella percentuale, con cui compaiono i valori di ogni classe.
Grafico 1: Frequenze percentuali
Tabella 1
classe frequenze
1
15%
2
15%
3
10%
4
5%
5
15%
6
10%
7
5%
8
10%
9
5%
10
10%
Istogramma frequenze percentuali
20%
frequenze percentuali
15%
10%
5%
0%
1
2
3
4
5
6
classe
16
7
8
9
10
Istogramma delle altezze
9
8
7
frequenze
6
5
4
3
2
1
0
<160
161-165
166-170
171-175
176-180
181-185
186-190
191-195
>196
classi
Grafico 2: Rappresentazione grafica e tabellare delle altezze di una classe di studenti
Tabella 2
Classe Frequenza
<160
2
161-165
4
166-170
5
171-175
8
176-180
6
181-185
4
186-190
3
191-195
2
>196
1
4.5 Come si “leggono” le informazioni contenute nel grafico?
Nella classe delle ascisse (x) sono riportate le classi, mentre in quella delle ordinate
(y) le frequenze, ossia il numero di persone, nel nostro caso, che hanno un’altezza
compresa nell’intervallo della classe.
Abbiamo quindi 2 persone con un’altezza inferiore ai 160 cm; 4 persone tra i 161 e
i 165 cm; 5 tra 166 e 170 cm e così via…
Da notare che i lati dei rettangoli sono costruiti in corrispondenza degli estremi di
ciascuna classe. Nel nostro caso abbiamo costruito un istogrammi con classi
d’ampiezza uguali fra loro;ma un istogramma deve essere inteso come una
rappresentazione areale: sono le superfici dei vari rettangoli che devono essere
proporzionali alle frequenze corrispondenti. Quando le classi hanno la stessa
17
ampiezza, le basi dei rettangoli sono uguali; di conseguenza, le loro altezze
risultano proporzionali alle frequenze che rappresentano. Solo quando le basi sono
uguali, è indifferente ragionare in termini di altezze o di aree di ogni rettangolo;
ma se le ampiezze delle classi sono diverse, bisogna ricordare che è necessario
rendere l'altezza proporzionale. Tale proporzione è facilmente ottenuta dividendo
il numero di osservazioni per il numero di classi contenute nella base, prima di
riportare la frequenza sull'asse verticale.
Nella costruzione del grafico la base del rettangolo(ascisse) e l’altezza (ordinata)
possono essere scelte a piacere, inquinato non hanno alcun significato statistico.
Tuttavia, per fini puramente estetici è buona norma costruire istogrammi con
altezza pari ai 2/3 della base o, come riportato da molti testi statistici, la base pari
a 1,5 volte l’altezza; in entrambi i casi si otterranno figure graficamente eleganti.
Notevole importanza assume inoltre la suddivisione in classi dei valori: infatti
un’eccessiva suddivisione può alterare o interrompere la regolarità della
distribuzione, quest’ultimo caso si verifica quando il numero delle classi è troppo
elevato rispetto alla quantità di dati (Grafico 3).
Grafico 3
9
8
7
6
5
4
3
2
1
0
<60
60-70
71-80
81-90
91-100
101-110
111-120
18
121-130
131-140
141-150
151-160
161-170
171-180
>181
4.6 I poligoni
I poligoni sono figure utilizzate solitamente per la rappresentazione di frequenze
relative o percentuali di una dato fenomeno osservato. L’area sottesa dal
poligono è sempre pari ad 1 (100%). Come per gli istogrammi sull’asse delle ascisse
si rappresenta il fenomeno suddiviso in classi, mentre su quello delle ordinate la
frequenza relativa o percentuale di ciascuna classe.
I poligoni possono essere costruiti anche a partire dagli istogrammi: si uniscono con
una linea i punti centrali di ogni classe, inoltre gli estremi della linea spezzata
vanno uniti con l’asse delle ascisse (ciò si ottiene con un artificio: si fa
corrispondere ad una classe fittizia antecedente la prima disponibile il valore 0, e
ad una classe fittizia seguente l’ultima disponibile il valore 0).
Grafico 4: Costruzione poligono
9
8
7
6
5
Istogramma
Linea
spezzata
4
3
2
1
0
60-70
71-80
81-90
91-100 101-110 111-120 121-130 131-140 141-150 151-160 161-170
19
>171
Il grafico finale del poligono in esame sarà il seguente:
Grafico 5: Poligono
9
8
7
6
5
Poligono
4
3
2
1
0
60-70
71-80
81-90
91-100
101-110 111-120 121-130 131-140 141-150 151-160 161-170
>171
Quando si analizzano dati qualitativi le rappresentazioni grafiche più utilizzate
sono:
- i diagrammi a rettangoli distanziati,
- gli ortogrammi,
- gli areogrammi (tra cui i diagrammi circolari),
- i diagrammi a figure (o diagrammi simbolici).
20
4.7 Diagrammi a rettangoli distanziati
I diagrammi a rettangoli distanziati, anche detti grafici a colonne, sono formati da
rettangoli con basi uguali ed altezze proporzionali alle intensità (o frequenze) delle
varie classi considerate. A differenza degli istogrammi, i rettangoli non sono tra loro
contigui, ma distaccati; di conseguenza, sull’asse delle ascisse non vengono
riportati misure ordinate ma nomi, etichette o simboli, propri delle classificazioni
qualitative. (Grafico 6)
4.8 Ortogrammi
Gli ortogrammi, o grafici a nastri, sono grafici uguali ai rettangoli distanziati,
solamente che hanno gli assi scambiati per una lettura più comprensibile. (Grafico
7)
Grafico 6: Diagramma a
rettangoli distanziati
Grafico 7: Ortogramma
21
4.9 Gli aerogrammi
Sono grafici in cui le frequenze o le quantità di una variabile qualitativa sono
rappresentate da superfici di figure piane, come quadrati, rettangoli o, più
frequentemente, cerchi oppure loro parti.
Gli areogrammi vengono usati soprattutto per rappresentare frequenze
percentuali; hanno il vantaggio di fare capire con immediatezza che la somma di
tutte le classi è uguale ad 1 (o 100%); lo svantaggio nell’ utilizzo di questo tipo di
grafico sta nel fatto che non evidenziano bene le differenze non troppo marcate.
Nel caso dei diagrammi circolari o a torta, si divide un cerchio in parti
proporzionali alle classi di frequenza (Grafico 8).
Grafico 8: Diagramma a torta
5%
25%
20%
Grafico 8:
diagramma a torta
2%
5%
15%
18%
10%
4.10 Diagrammi a figure
I diagrammi a figure, detti anche diagrammi simbolici o pittogrammi, sono
costituite da figure o oggetti simbolici, ciascuna figura rappresenta un carattere
qualitativo; inoltre l’altezza delle figure deve essere proporzionale alle frequenze
quando le basi sono uguali (Grafico 9).
22
Grafico 9
Pittogramma della produzione mensile di auto di 3 case automobilistiche: la prima
ha prodotto 100 mila auto, la seconda 180 mila e la terza 320 mila.3
4.11 Cartogrammi
I cartogrammi vengono costruiti generalmente a partire da cartine geografiche; i
dati a disposizione vengono suddivisi in classi e a ciascuna classe viene assegnato
un colore(di solito si utilizza una scala di colori). Ciascuna zona(regione, provincia,
comune,stato…) viene quindi colorata a seconda della classe di appartenenza.
Nel grafico 10 è riportato un cartogramma costruito sulla base di dati Istat del
Censimento della popolazione del 2001.
3
Esempio tratto da Statistica univariata e bivariata parametrica e non parametrica – Lamberto Soliani
23
Grafico 10: Rapporto di mascolinità4 per regione (dati Censimento Istat 2001)
4
Per rapporto di mascolinità si intende il numero dei maschi diviso il numero delle femmine
24
V. Cenni sul campionamento
5.1 Considerazioni generali
La scelta del campione di unità statistiche su cui effettuare l’indagine è il punto
centrale di un’analisi statistica. Affinché si possa fare “inferenza” sulla popolazione
di riferimento (si intende l’insieme esaustivo di tutte le unità accomunate da una o
più caratteristiche primarie e rilevanti ai fini della ricerca statistica), è necessario
che il campione sia in qualche modo “rappresentativo” della popolazione stessa.
Realtà
Variabile
statistica
Soggetto
rilevato
Strumento
Soggetto
rilevatore
Rappresentazione
statistica
della
realtà
La rappresentatività di un campione può essere definita come grado di
somiglianza che il campione stesso ha rispetto alla popolazione di riferimento.
Nella realtà pratica risulta più facile verificare la “non rappresentatività” di un
campione piuttosto che la sua “rappresentatività”.
La rappresentatività di un campione dipende da:
1. qualità e completezza dell’archivio contenente la lista delle unità statistiche
della popolazione
2. piano di campionamento
3. numerosità del campione
casuale
Un piano di
campionamento può
essere:
non
casuale
25
Un campione casuale affida al caso la scelta delle unità statistiche da
campionare. “A caso” però non vuol dire “a casaccio”. Il concetto di caso è
infatti strettamente connesso a quello di probabilità: il caso è un concetto intuitivo
strettamente connesso all’idea di impossibilità di previsione, di individuare un
ordine, un legame.
Il campionamento casuale
 Garantisce le migliori proprietà statistiche degli stimatori
 Garantisce la possibilità di stimare la “bontà” dei risultati ottenuti
 A parità di numerosità campionaria (e di costo) fornisce risultati più
attendibili
 Semplifica la costruzioni di modelli statistici, che spesso assumono che i dati
siano stati raccolti in modo casuale
I principali piani di campionamento casuali sono:
1. Campionamento casuale semplice
2. Campionamento sistematico
3. Campionamento stratificato (a grappolo)
4. Campionamento a due o più stadi
5.2 Campionamento casuale semplice
E’ la più semplice fra le modalità di campionamento: tutti i soggetti hanno uguale
probabilità di essere inclusi nel campione. Essa equivale ad associare ad ogni
unità della popolazione una biglia numerata e ad estrarre a caso da un’urna, una
per volta e senza reinserimento, tante biglie quante sono le unità che si vogliono
campionare. Affinché si possa applicare tale metodo è necessario
1) disporre di una lista che elenchi tutte le unità statistiche della popolazione
2) che tutti i soggetti siano ugualmente reperibili.
Purtroppo non è possibile accedere ai dati anagrafici:
 se si facesse ricorso alle liste elettorali mancherebbero tutti coloro che
hanno meno di diciotto anni;
 se utilizzassimo elenchi telefonici mancherebbero tutti quelli che non sono in
possesso di telefono, inoltre avremmo unità riportate più volte (basti
considerare gli intestatari di più utenze)
Dunque i criteri di estrazione casuale sono:
26


Tavole di numeri aleatori: contengono una sequenza casuale di numeri
ottenuti trascrivendo risultati di lotterie, o altri procedimenti equivalenti ad
estrazioni da urne.
Generazione di numeri pseudo-casuali mediante computer
5.3 Campionamento sistematico
E’ una variante del campionamento casuale semplice molto efficiente da
realizzare quando si disponga della lista delle unità statistiche della popolazione
sotto forma di file elaborabile al computer.
1) Si estrae un numero a caso tra 1 e N (numerosità della Popolazione) e si
inserisce nel campione l’unità corrispondente nella lista.
2) Le unità successive sono scelte scorrendo la lista a partire dalla prima unità
prescelta e selezionando nuove unità con un passo dato dal rapporto N/n (o dal
numero intero più vicino a N/n), dove n è il numero di unità che si vogliono inserire
nel campione.
3) Il procedimento deve essere tale che, una volta giunti in fondo alla lista delle N
unità, occorre proseguire il conteggio a partire dall’inizio della lista.
4) Il procedimento termina quando sono state selezionate tutte le n unità da
campionare.
NB. Il campione sistematico non è sempre equivalente ad uno casuale semplice,
a meno che il criterio di ordinamento delle unità statistiche nella lista non sia esso
stesso casuale.
5.4 Campionamento stratificato
Prima di procedere all’estrazione si suddivide la popolazione in due o più gruppi
secondo una o più caratteristiche conosciute sulle unità statistiche. Si procede
quindi all’estrazione delle unità indipendentemente per ogni gruppo (strato).
Questa modalità di pianificazione del campione consente di ottenere stime più
precise, a parità di dimensione del campione, rispetto al campione casuale
semplice purché all’interno degli strati le unità statistiche siano fra loro omogenee
riguardo alle variabili oggetto di studio - studiare con precisione variabile i singoli
strati indipendenti, aumentando le dimensioni di quelli ritenuti maggiormente
importanti per la ricerca
Per poter applicare tale tecnica è necessario che le caratteristiche usate nella
formazione degli strati sia disponibile sulla lista per ogni unità della popolazione.
27
5.5 Selezione delle unità con probabilità differenti
E’ una modalità di estrazione per la quale la probabilità di estrarre una unità nel
campione non è la stessa per tutte le unità della popolazione. Si ricorre a questa
modalità quando c’è ragione di ritenere che alcune unità statistiche apportino
maggiori informazioni piuttosto che altre e quindi si voglia aumentare la
probabilità che queste siano selezionate.
NB. Per il computo delle stime è necessario adottare apposite funzioni
matematiche che tengano conto della differente probabilità di estrazione, pena
l’introduzione di forti distorsioni nelle stime.
Per tutte le unità della lista, è necessario che siano note la o le variabili utilizzate
per la predisposizione delle probabilità di estrazione.
5.6 Campionamento a più stadi
Quando non sia disponibile una lista complessiva delle unità della popolazione è
possibile ricorrere al campionamento a più stadi. Un esempio di tale situazione è
dato dall’anagrafe che non esiste come unico archivio nazionale ma è suddivisa
per comuni italiani.
In questo caso si procede come segue:
- si estrae un campione di comuni (unità di primo stadio)
- per ogni comune selezionato, si estrae un campione casuale di famiglie
(unità di secondo stadio) da ciascuna lista anagrafica
A questo tipo di campionamento si ricorre in generale per necessità in quanto le
stime con esso ottenibili sono di solito meno efficienti (maggior variabilità
campionaria) di quelle calcolate applicando un campione casuale semplice. Un
caso particolare di campionamento a più stadi è il campionamento a grappolo,in
cui tutte le unità dell’ultimo stadio sono incluse nel campione.
5.7 Campionamento areale
Si tratta di una procedura di campionamento utilizzata quando non si dispone di
una lista per la selezione delle unità, ma queste sono dislocate sul territorio.In
questo caso si procede come segue:- si suddivide in parti (aree) l'intero territorio- si
estrae un campione di aree.- si esplorano le aree campionate, allo scopo di
enumerare esaustivamente le unità presenti al loro interno e produrre delle liste
complete.
- dalle liste prodotte, si estraggono le unità campione da contattare per la
rilevazione vera e propria.
Dal punto di vista teorico il campionamento areale deve essere considerato una
forma particolare di campionamento a più stadi.
28
5.8 Campionamento non casuale
I campioni non casuali precedono, dal punto di vista storico, quelli probabilistici.
Non consentono il calcolo dell’errore ammesso e della bontà delle stime.
I principali piani di campionamento non casuali sono:
1. Campionamento ragionato
2. Campionamento per quote
3. Snowball sampling (campionamento a valanga)
4. Campionamento accidentale
5.9 Campionamento ragionato
Si basa sulla conoscenza del fenomeno e sull’ausilio di “esperti” che individuano le
unità statistiche da inserire nell’indagine. Si ottiene una fotografia della realtà che
risente fortemente del punto di vista dell’esperto, ma che può essere anche
fortemente rappresentativa se le conoscenze dell’esperto sono esatte ed
approfondite. In alcune situazioni è preferibile a quello casuale. Ciò accade
soprattutto per ampie indagini che interessano relativamente poche unità
territoriali. Dovendo, ad esempio, eseguire un’indagine a livello regionale, per una
caratteristica da valutare su scala nazionale, non potremo certamente
considerare alla pari, per un’estrazione casuale, le diverse regioni. Questo
problema si presenta abbastanza di frequente nelle ricerche di mercato, quando
si debba sottoporre a test di prova un prodotto oppure una campagna
pubblicitaria. Anche in questa situazione il test-market, ovvero la "provincia di
prova", dovrà rispondere ad una oculata scelta secondo criteri certamente non
casuali. Neyman ha dimostrato che un campione ragionato era in grado di fornire
buone stime solo per variabili in relazione lineare positiva con quelle utilizzate per
la scelta ragionata.
5.10 Campionamento per quote
Nei campioni per quote si seleziona la popolazione oggetto di studio secondo
alcune variabili strutturali, indicando agli intervistatori le quote relative al sesso,
all’età, alla condizione professionale, ecc., per un certo numero di classi di
ampiezza demografica dei Comuni-campione. Gli intervistatori, sulla base delle
indicazioni ottenute, scelgono poi per proprio conto le persone da avvicinare.
• Questo procedimento agevola la rilevazione poiché elimina i vincoli posti
dall’identificazione nominativa degli intervistandi, che invece una serie di liste
(anagrafiche, elettorali, ecc.) impone;
• Non permette, però, di ipotizzare per tutta la popolazione un’uguale probabilità
di entrare a far parte del campione: infatti, gli abitanti ai piani superiori nei
quartieri della lontana periferia, quelli delle piccole località eccentriche rispetto
29
alle grandi strade nazionali o non ben collegate ai centri di residenza degli
intervistatori, hanno una scarsa probabilità di essere intervistati.
Esistono due tipi di campioni per quote:
1. a quote marginali, in cui ognuna delle assegnazioni è indipendente dalle altre
2. a quote associate, le assegnazioni sono fornite a due o a più dimensioni
Il frequente ricorso alle quote indipendenti o marginali si basa sul presupposto che,
ricomponendole per somma logica, si ricostituiscono automaticamente le
distribuzioni congiunte, a due o a più dimensioni, così come esse si presentano
nella popolazione studiata.
In generale, le indagini per quota possono essere impiegate senza eccessivi
inconvenienti quando si abbiano dati assai analitici e vi sia ragione di ritenere che
per l’oggetto dello studio non sussista un elevato livello di correlazione da parte
degli intervistatori e l’atteggiamento dei componenti il campione.
Svantaggi
- maggiore rischio di distorsione rispetto al campione casuale
- minore controllo dei rifiuti a collaborare
- selezione degli intervistati sulla base della loro disponibilità
- possibile sottostima della variabilità (intervista ai simili)
- possibile distorsione iniziale, se l’assegnazione delle quote viene fatta in base a
dati non esatti o aggiornati
- essendo campioni non casuali, non consentono l’applicazioni di test d’ipotesi ed
intervalli di confidenza.
Vantaggi
- maggiore velocità nella fase di rilevazione
- minore costo
- possibilità di eseguire un campionamento misto: casuale stratificato al primo
stadio e per quote al secondo
NB: Il principale inconveniente del metodo per quote è l’estrema difficoltà
nell’operato degli intervistatori, per accertare che ciascuna intervista abbia avuto
luogo con le modalità previste. Il campione può allora non essere rappresentativo,
pur rispettando le quote imposte. Ciò accade quando l’intervistatore sceglie le
unità statistiche fra i conoscenti, oppure, in un luogo particolare come alla coda
davanti al ristorante piuttosto che al cinema. A tal proposito, si osservano alcune
alterazioni grossolane nella scelta delle unità statistiche.
Nei casi più gravi, le interviste possono essere inventate di sana pianta o in parte.
In tali situazioni si ha un errore sistematico nel campione che comunque si rischia di
avere ogni qualvolta si sceglie la persona più facile o comoda da intervistare,
trascurando l’incontro coi meno avvicinabili e quindi anche il loro parere.
30
5.11 Snowball sampling
È un tipo di campionamento non casuale utilizzato per studiare caratteristiche rare
nella popolazione.
Si procede come segue
1. Si seleziona un piccolo gruppo iniziale, di solito mediante campionamento
casuale semplice o per autoselezione
2. Si effettua l’intervista e si chiede al rispondente di identificare amici o
conoscenti con la caratteristica da analizzare
3. Si intervistano le nuove unità individuate e si continua a chiedere di
identificare amici o conoscenti con la caratteristica da analizzare sino ad
ottenere la dimensione del campione desiderata
5.12 Indagini multiscopo
Il Sistema di indagini sociali Multiscopo è costituito da un'indagine annuale sugli
"Aspetti della vita quotidiana", un'indagine trimestrale su "Viaggi e vacanze" e
cinque indagini tematiche che ruotano con cadenza quinquennale su "Condizioni
di salute e ricorso ai servizi sanitari", "Tempo libero e cultura", "Sicurezza del
cittadino", "Famiglie e soggetti sociali", "Uso del tempo".
Indagine multiscopo sulle famiglie "Aspetti della vita quotidiana" - Anno2000 Tratta
gli "Aspetti della vita quotidiana", relativi alle tipologie delle famiglie e dei nuclei
familiari, alle condizioni abitative e alla sicurezza dei cittadini.
L'analisi condotta su un campione di 21.718 famiglie, prende in considerazione le
caratteristiche anagrafiche, sociali e territoriali degli individui in modo da restituire
una immagine della società italiana nella sua complessità, a partire dalla
molteplicità e varietà dei comportamenti individuali.
Viaggi e vacanze nel 2000 A partire dal 1997, l’Istat conduce l’indagine trimestrale
"Viaggi e Vacanze" su un campione nazionale annuo di 14.000 famiglie (3.500 per
trimestre) con l’obiettivo di quantificare e analizzare i flussi turistici dei residenti in
Italia, sia all’interno del paese sia all’estero, e di fornire informazioni circa le
modalità di effettuazione dei viaggi e le caratteristiche socio-demografiche dei
turisti.
I dati sul turismo nel 2000, in parte anticipati in occasione della Borsa Italiana del
Turismo 2001, vengono diffusi integralmente on line.
5.13 I principali risultati
Nel 2000, le persone residenti in Italia hanno effettuato 89 milioni e 55 mila viaggi
con almeno un pernottamento, per un totale di 636 milioni e 865 mila notti.
L’85,6% di questi viaggi è stato realizzato per motivi di vacanza, mentre il 14,4%
èstato effettuato per motivi di lavoro.
31
Le vacanze lunghe, cioè di 4 o più pernottamenti, sono state il 55,6% delle
vacanze, mentre quelle brevi, cioè di durata 1-3 notti, hanno rappresentato il
44,4%.
Come di consueto, nei mesi di luglio e agosto si è registrato il maggior numero di
partenze. Nel bimestre estivo, infatti, si è concentrato il 39,2% dei viaggi di vacanza
effettuati in tutto l’anno e, in particolare, il 56,4% delle vacanze lunghe (il 34,6% di
queste nel solo mese di agosto). Nell’84,2% dei casi, l’Italia è stata la destinazione
principale dei viaggi, mentre l’estero ha costituito la meta prescelta del restante
15,8%. Dei 14 milioni e 55 mila soggiorni all'estero, i paesi più visitati sono stati la
Francia (18,3%), la Spagna (10,2%) e la Germania (8,9%). Il Lazio, la Toscana, la
Lombardia e l’Emilia-Romagna, seguite dalla Liguria e dal Veneto, sono state le
regioni più frequentate dagli italiani, ospitando complessivamente nel 2000 più
della metà dei flussi turistici interni (52,8%). I flussi che più risentono della
componente stagionale sono quelli legati alle vacanze di 4 o più pernottamenti.
Fra questi, nel 2000, sono stati rilevanti i flussi turistici invernali del periodo gennaiomarzo in Trentino-Alto Adige e quelli estivi verso la Calabria e la Puglia. Più stabili
sono risultate, invece, le presenze in località visitate frequentemente per periodi di
vacanza breve, come il Lazio, la Lombardia e la Toscana.
Per effetto del Giubileo e delle numerose celebrazioni che si sono svolte per lo più
nella città di Roma nel 2000, vi è stato un sensibile incremento dei flussi verso il
Centro Italia. Quest’area ha accolto il 26,6% dei flussi turistici interni. Nel 53,3% dei
casi i residenti hanno realizzato viaggi senza provvedere ad alcuna prenotazione;
nel 17,5% si sono rivolti ad una agenzia di viaggio o ad un tour operator. I viaggi
sono stati effettuati prevalentemente in auto (63,7% dei viaggi) e molto meno in
aereo (13,2%), treno (11,9%) o pullman (5,8%). Passando a considerare non più i
viaggi effettuati ma il numero di turisti, i dati trimestrali mostrano che nel solo
periodo estivo (luglio-settembre) gli italiani che hanno trascorso almeno una
vacanza sono stati 25 milioni e 213 mila, pari al 44,1% della popolazione, mentre
nel resto dell’anno la quota dei vacanzieri è oscillata tra il 13,3% del periodo
ottobre-dicembre ed il 21,1% del periodo aprile-giugno. Costanti e comprese tra il
2,7% ed il 3,5% dei residenti, sono state le quote di quanti hanno viaggiato per
lavoro.
32
VI. Regressione lineare semplice
6.1 Analisi di regressione
Quando studiamo un fenomeno nel quale si rilevano congiuntamente due
variabili, è possibile verificare se esse variano simultaneamente e quale relazione
matematica sussiste tra queste due variabili. Ciò è possibile attraverso il ricorso
all'analisi della regressione e correlazione, di norma considerate tra loro
alternative.
L’analisi della regressione viene utilizzata per sviluppare un modello statistico che
può essere usato per prevedere i valori di una variabile, detta dipendente (o
predettaed) individuata come l'effetto, sulla base dei valori dell'altra variabile,
detta indipendente (o esplicativa), individuata come la causa.
L’analisi della correlazione serve per misurare l'intensità dell'associazione tra
duevariabili quantitative, di norma non legate direttamente da causa-effetto,
facilmente mediate da almeno una terza variabile, ma che comunque variano
congiuntamente.
Quando per ciascuna unità di un campione o di una popolazione si rilevano due
caratteristiche, si ha una distribuzione doppia e i dati possono essere riportati
informa tabellare o grafica :
Tabella 1
unità
variabile X
variabile Y
1
X1
Y1
2
X2
Y2
3
X3
Y3
…
…
…
n
Xn
Yn
• quando il numero di dati è ridotto, la distribuzione doppia può riguardare una
tabella che riporta tutte le variabili relative ad ogni unità od individuo misurato
• se il numero di dati è grande, si ricorre ad una sintesi tabellare chiamata
distribuzione doppia di frequenze in cui si suddividono le unità del collettivo in
classi per i due caratteri (Xi e Yj), si riporta la prima (X) nella TESTATA e si riporta la
seconda (Y) nella COLONNA MADRE (Tabella 2)
• si contano le unità che hanno contestualmente entrambe le MODALITÀ (nij)
33
Tabella 2
X1
X2
X3
…
Xi
…
Xn
Totali
Y1
a11
a12
a13
…
a1i
…
a1n
N1
Y2
a21
a22
a23
…
a2i
…
a2n
N2
Y3
a31
a32
a33
…
a3i
…
a3n
N3
…
…
…
…
…
…
…
…
…
Yj
aj1
aj2
aj3
…
aji
…
ajn
Nm
…
…
…
…
…
…
…
…
…
Ym
am1
am2
am3
…
ami
…
amn
T
I totali delle righe e delle colonne rappresentano due distribuzioni semplici e sono
dette distribuzioni marginali della distribuzione doppia.
Le frequenze riportate in una colonna o in una riga sono dette distribuzioni parziali
della doppia distribuzione: ad esempio, nello schema tabellare qui sopra sono
presenti due distribuzioni marginali e 10 distribuzioni parziali (5 per riga e 5 per
colonna).
Una distribuzione doppia può essere rappresentata graficamente con :
• istogrammi : si riportano le frequenze dei raggruppamenti in classi come nelle
distribuzioni di conteggi con dati qualitativi (tabelle m x n )
• diagrammi di dispersione : si riportano le singole coppie di misure osservate
considerando ogni coppia della distribuzione come coordinate cartesiane di un
punto del piano, sicché :
- è possibile rappresentare ogni distribuzione doppia nel piano cartesiano
- si ottiene una nuvola di punti, che descrive in modo visivo la relazione tra le due
variabili
34
6.2 Modelli di regressione
Il diagramma di dispersione fornisce una descrizione visiva espressa in modo
soggettivo, per quanto precisa, della relazione esistente tra le due variabili.
La funzione matematica che la può esprimere in modo oggettivo è detta
equazione di regressione o funzione di regressione della variabile Y sulla variabile
X.
Il termine regressione fu introdotto verso la metà dell'ottocento da Galton nei suoi
studi di eugenica in cui si prefisse di verificare se la statura dei genitori influisse sulla
statura dei figli e se questa corrispondenza potesse essere tradotta in una legge
matematica Galton confrontò anche l'altezza dei padri con quella dei figli
ventenni e osservò che padri molto alti hanno figli alti, ma più vicini alla media dei
loro genitori; parimenti egli osservò che i padri più bassi hanno figli maschi bassi,
ma un po’ più alti, più vicini alla media del gruppo, rispetto ai loro genitori (se egli
avesse osservato l'altezza dei padri in rapporto ai figli avrebbe ugualmente trovato
che i figli più bassi e quelli più alti hanno genitori con un'altezza più vicina alla
media dei genitori) Galton fu colpito da questo fenomeno, è affermò che la
statura tende a “regredire” da valori estremi verso la media; nacque così il
termine, che dal suo significato originario di "ritornare indietro" assunse quella della
funzione che esprime matematicamente la relazione esistente tra la variabile
attesa (o predetta o teorica) e la variabile empirica (o attuale).
La forma più generale di una equazione di regressione è:
y  a  bx  cx 2  dx 3  ...
dove il secondo membro è un polinomio intero di x.
L'approssimazione della curva teorica ai dati sperimentali è tanto maggiore
quanto più elevato è il numero di termini del polinomio :
- è frequente il caso di teorie che spiegano come, all'aumentare della
variabile indipendente, si abbia una diminuzione o un aumento della
variabile dipendente - è raro il caso in cui si può definire una teoria
biologica o ambientale che spieghi una relazione più complessa (curva di
terzo ordine o di ordine superiore)
35
Fig.1 Relazione lineare
positiva
Fig.2 Relazione lineare
Caso A: Relazione lineare positiva
negativa
Caso B: Relazione lineare negativa
Y
Y
X
X
Fig.4 Relazione quadratica positiva
Fig.3 Nessuna relazione
Caso D: Relazione quadratica positiva
Caso C: Nessuna relazione tra X e Y
Y
Y
X
X
Fig.5 Relazione quadratica negativa
Fig.6 Relazione quadratica ad U
Caso E: Relazione quadratica negativa
Caso F: Relazione quadratica ad U
Y
Y
X
X
6.3 Regressione lineare semplice
La forma di relazione matematica più semplice tra due variabili è la regressione
lineare semplice, rappresentata dalla retta di regressione
36
yˆ i  a  bxi
dove :
• ŷ i valore stimato di y per l'osservazione i-esima
• x i valore empirico di x per l'osservazione i-esima
• a intercetta della retta di regressione
• b coefficiente angolare della retta di regressione
L'unica reale incognita è il valore del coefficiente angolare b , poiché l'intercetta
a è stimata da b e dai valori medi di Y e di X
a  y  bx
Per calcolare la retta che meglio approssima la distribuzione dei punti, si può
partire considerando che ogni punto osservato Yi si discosta dalla retta di una
certa quantità i detta errore o RESIDUO
yi  a  bx   i
Ogni valore  i può essere positivo o negativo:
- positivo quando il punto Y sperimentale è sopra la retta
- negativo quando il punto Y sperimentale è sotto la retta
La retta migliore per rappresentare la distribuzione dei punti nel diagramma di
dispersione è quella stimata con il metodo dei minimi quadrati
37
6.4 Metodo dei minimi quadrati
Trovare il miglior adattamento significa trovare la retta secondo la quale le differenze tra i
valori effettivi ( yi ) ed i valori su tale retta di regressione ( ŷi ) sono minime.
Dato che queste differenze potranno essere positive o negative per osservazioni
differenti, possiamo minimizzare:
n
(y
 yˆ i ) 2
i
i 1
dove
y i =valore effettivo di Y per l’osservazione i-esima
ŷ i =valore previsto di Y per l’osservazione i-esima
yˆ i  a  bxi , possiamo minimizzare
Poiché
n
[ y
 (a  bxi )] 2
i
i 1
ottenendo due equazioni:
n
y
I.
n
i
x
 na  b
i 1
n

II.
n
xi y i  a
i 1
i
i 1

n
xi  b
i 1
x
2
i
i 1
Avendo due equazioni in due incognite possiamo risolverle simultaneamente per a
e per b come segue:
n
n
b

i 1
 n
 n

xi y i  
x i 
yi ) 



 i 1  i 1


n
n
x
i 1
2
i

 n


xi 


 i 1 

2
a  y  bx
dove ricordiamo che:
38
n
n
y

i 1
n
yi
;
x
x
i
i 1
n
Naturalmente oggi quando affrontiamo dei problemi reali nei quali occorre
applicare l’analisi di regressione usufruiamo dell’ausilio dei moderni software
statistici come SPSS, SAS, ma anche del più semplice foglio elettronico di Excel, i
quali dispongono tutti di procedure automatiche che leggendo da dati in forma
tabellare ci restituiscono direttamente l’equazione della retta di regressione con il
grafico relativo.
E’ importante però, tutte le volte che si utilizzano procedure automatiche
conoscere e capire quello che tali procedure vanno a produrre, anche nei
passaggi intermedi che non vengono visualizzati sul pc.
39
VII. Regressione lineare multipla
7.1 Generalità
In molti problemi economici , demografici , biologici , sociali , i fenomeni collettivi
appaiono legati ad una complicata rete di rapporti reciproci ; spesso le modalità
di un carattere quantitativo variano per l’associazione esistente con altri caratteri
quantitativi ( sistematici o statistici ) , presenti con i loro diversi valori nelle
medesime unità del collettivo investigato .
E’ intuitivo , in questi casi , che ipotesi esplicative più efficaci per la descrizione
delle relazioni esistenti si ottengono facendo ricorso a modelli multivariati , cioè a
relazioni funzionali in cui la variabile dipendente , poniamo Y* , che rappresenta in
ogni caso un carattere statistico , espressa in funzione di due o più variabili ,
secondo legami del tipo seguente :
Y* = g ( X , Z )
in cui X e Z sono caratteri sistematici o statistici
Y* = h ( X , Z , U )
in cui X , Z , U sono caratteri sistematici o statistici
e analoghe se il numero di variabili assunte come indipendenti è maggiore di tre .
L’analisi statistica delle relazioni tra più variabili presenta maggiore complessità sia
sul piano concettuale , sia su quello dei calcoli ; per tale motivo l’attenzione viene
posta prevalentemente su modelli lineari , che nel caso di 2 e 3 variabili si scrivono
nella forma seguente :
Y* = b0 + b1 X + b2 Z
( modello di regressione lineare doppia )
Y* = b0+ b1 X + b2 Z + b3 U
( modello di regressione lineare tripla )
40
7.2 I coefficienti di regressione lineare doppia
Per distribuzioni triple ,se il numero delle unità N non è rilevante , i risultati si
presentano sotto forma di una successione di terne ( Y1 , X1 ,Z1 ) , e i loro punti
immagine danno luogo ad uno scatter nello spazio tridimensionale ; in caso
contrario , si ha una tabella a tripla entrata , la cui raffigurazione grafica è
alquanto complessa.
La funzione
Y* = b0 + b1 X + b2 Z
denominato “ piano di regressione “ :
rappresenta un piano in detto spazio
Poiché il piano di regressione passa per il punto – baricentro dello scatter , di
coordinate ( X , Y , Z ) , la sua equazione può esprimersi in termini di scarti nella
forma :
Y - Yˆ = b1 ( X  X ) + b2 ( Z  Z )
41
ovvero :
y* = b1 x + b2 z
Prima di passare al calcolo dei valori numerici dei parametri , conviene fare
alcune riflessioni sul loro significato .
A tal fine :

se si suppone di mantenere costante Z , il parametro b1 esprime la
variazione che subisce Y quando X varia di un’unità : esso misura , cioè
, la regressione di Y su X al netto dell’influenza di Z , ed è perciò
denominato coefficiente di regressione di Y su X o coefficiente di
regressione parziale di Y su X ; conviene perciò indicarlo col simbolo
byx, z ;

se si suppone di mantenere costante X il parametro b2 esprime la
variazione che subisce Y quando Z varia di un’unità : esso misura , cioè ,
la regressione di Y su Z al netto dell’influenza di X , ed è perciò
denominato coefficiente di regressione di Y su Z o coefficiente di
regressione parziale di Y su Z ; conviene perciò indicarlo col simbolo byz,
x .
42
L’equazione del piano di regressione può allora scriversi nella forma :
Y* = Y + byx,z X + byz,x Z
ovvero :
y* = byx,z X + byz,x Z
Una seconda considerazione è necessaria per una migliore comprensione di
quanto sarà detto . Pur trovandosi di fronte ad una variabile tripla , nulla vieta di
considerare le rette di regressione ( e i coefficienti di correlazione ) di Y su X , di Y
su Z , di Z su X e di X su Z , come si trattasse di altrettante variabili doppie ; con
riferimento al modello lineare , si hanno così le funzioni :
y* = byx X ;
y* = byz Z
z* = bzx X ;
z* = bxz Z
43
cui corrispondono i coefficienti di correlazione lineare ryx , ryz , rxz .
I coefficienti di regressione byx e byz misurano la regressione lorda di Y su X e di Y su
Z , in quanto inglobano anche l’influenza di Z e di X rispettivamente , che non
figurano esplicitamente nei modelli sopra elencati .
7.3 Calcolo dei valori numerici dei parametri
Per il calcolo dei valori numerici dei parametri , può applicarsi il metodo dei minimi
quadrati , imponendo la condizione :
Σ [ byx,z xi + byz,x zi – yi ]2 = minimo
dalla cui risoluzione si desumono i seguenti valori numerici dei coefficienti netti di
regressione :
byx, z 
byx  byz bzx
1  bzx bxz
byz , x 
byz  byx bxz
1  bxz bzx
Chiaramente , i calcoli per la determinazione dei coefficienti di regressione sono
piuttosto complessi ; tuttavia , l’uso dei calcolatori elettronici permette di ottenere
facilmente e rapidamente i risultati , mediante linguaggi idonei ad essere
compresi dalle macchine .
Si può facilmente osservare la differenza sostanziale fra byx e byx,z : si evince , infatti
, che i due coefficienti sono uguali soltanto se è nulla la correlazione fra X e Z , e
quindi se è nullo il coefficiente di regressione bzx ( ovvero il coefficiente di
regressione bxz ) .
Esempio: Calcolo dei coefficienti netti di regressione lineare .
44
Si consideri la variabile tripla costituita dai seguenti caratteri , i cui valori sono
attinenti al periodo 1947-59 :
Y = produzione di frumento per ettaro ;
X = temperatura minima in gradi centigradi ;
Z = precipitazione piovosa in millimetri .
Produzione di frumento , temperatura e precipitazioni nel Tavoliere
dellePuglie , negli anni 1947-59 .
Anni
Frumento (quintali
per ettaro)
Temperature
medie minime
(gradi centigradi)
Precipitazioni
stagionali
(millimetri)
Yi
yi=Yi-
Xi
xi=Xi-
Zi
zi=Zi-
1947
9,50
-5,00
9,31
0,95
502,40
157,70
1948
12,20
-2,30
10,32
1,96
240,40
-104,30
1949
6,40
-8,10
9,08
0,72
226,10
-118,60
1950
21,50
7,00
9,65
1,29
269,60
-75,10
1951
14,30
-0,20
8,10
-0,26
374,20
29,50
1952
13,20
-1,30
8,03
-0,33
168,20
-176,50
1953
19,30
4,80
6,68
-1,68
310,00
-34,70
1954
14,40
-0,10
6,67
-1,69
534,00
189,30
1955
13,60
-0,90
6,81
-1,55
440,20
95,50
1956
15,30
0,80
7,08
-1,28
261,10
-83,60
1957
17,70
3,20
9,25
0,89
464,00
119,30
1958
14,30
-0,20
9,31
0,95
345,30
0,60
1959
16,80
2,30
8,41
0,05
346,20
1,50
SOMME
MEDIE
188,50
108,70
4481,70
14,50
8,36
344,75
I calcoli necessari per l’ applicazione dei valori numerici dei coefficienti netti di
regressione sono sviluppati nel prospetto che segue :
45
X2 i
0.90
3.84
0.52
1.66
0.77
0.11
2.82
2.86
2.40
1.64
0.79
0.90
18.51
Z2i
24869.29
10878.49
14065.96
5640.01
870.25
31152.25
1204.09
35834.49
9120.25
6988.96
14232.49
0.36
2.25
154859.14
xizi
-4.75
-4.51
-5.83
9.03
0.005
0.43
-8.06
0.17
1.39
-1.02
2.85
0.19
0.11
-10.33
ziyi
-788.50
239.89
960.66
-525.70
-5.90
229.45
-166.56
-18.93
-85.95
-66.88
381.76
0.12
3.45
156.67
X2iz2i
149.81
-204.43
-85.39
-96.83
7.67
58.24
58.30
-319.92
-148.02
107.01
106.18
0.57
0.07
-382.13
Tenendo presenti le formule sopra citate , in cui volta per volta si assumono le
variabili cui i calcoli si riferiscono , si ottiene successivamente :
byx 
10.33
 0.5581
18.51
bzx 
382.13
 20.6445
18.51
byz , x 
byz 
;
;
156.67
 0.010
154859.14
bxz 
;
382.13
 0.0025
154859.14
0.0010  0.5581  0.0025 0.0003952

 0.000416
1  0.0509
0.9491
46
;
;
382.13
rxz 
18.51 154859.14
r 2 xz  0.0509

382.13
 0.2257
4.3023  393.5215
;
;
Si ricava infine che :
byx , z 
05581  0.0010  20.6445 0.5375

 0.5663
1  0.0509
0.9491
byz , x 
;
0.0010  0.5581  0.0025 0.0003952

 0.000416 .
1  0.0509
0.9491
L’equazione del piano di regressione è dunque :
y* = - 0.5663 x – 0.000416 z .
Poiché il coefficiente di z è molto più piccolo di quello di x può concludersi che
sulla produzione del frumento la temperatura sembra essere più influente delle
precipitazioni ; il calcolo svolto ha , tuttavia , carattere di pura esemplificazione ed
47
i risultati vanno accolti con riserva , poiché sarebbe necessaria una più adeguata
specificazione del modello , tenendo conto fra l’altro delle alternanze stagionali .
48
VIII. Alcune distribuzioni di probabilità
8.1 Considerazioni iniziali
Le procedure inferenziali sono genericamente basate su di un modello
probabilistico. L'assunzione comune è che i dati osservati rappresentano un
campione di osservazioni che sono generate da una specifica distribuzione di
probabilità in grado di approssimare in termini matematici il fenomeno reale sotto
studio. Per tale motivo, esistono svariate funzioni di probabilità, ciascuna delle
quali viene comunemente associata ad alcuni specifici tipi di problemi. In questo
senso, µe una dizione del tutto inefficiente quella mediante la quale si un identica
un fenomeno con una distribuzione. Ad esempio, a stretto rigore, dire che l'altezza
di una popolazione µe una Normale µe una affermazione non corretta in quanto
piuttosto µe la variabile aleatoria X, utilizzata per rappresentare il fenomeno reale
sotto studio altezza della popolazione, che µe ad esempio approssimata, per
convenienza, dal modello Normale. Come le variabili, anche i modelli statistici,
che sono ad esse associate, possono essere suddivisi in modelli discreti e modelli
continui. Nel seguito sono discusse alcune delle più rilevanti distribuzioni di
probabilità. Tra i modelli discreti sono analizzati quello Uniforme, Bernoulli,
Binomiale e Poisson mentre tra quelli continui viene analizzata la distribuzione
Normale di Gauss, modello di riferimento per tutta la statistica parametrica. Da
notare che ovviamente, esiste una notevole quantità di modelli da poter utilizzare
nelle più diverse situazioni.
8.2 Valore atteso di una variabile casuale discreta
La media aritmetica  X di una distribuzione di probabilità è il valore atteso della
sua variabile casuale.
Questa misura riassuntiva si ottiene moltiplicando ogni possibile risultato x i per la
sua corrispondente probabilità Px i  e sommando i prodotti risultanti.
 X  EX  
N
 x P x 
i
i
i 1
dove X è la variabile casuale discreta oggetto di studio
x i è l’iesimo risultato di X
49
Px i  è la probabilità che si verifichi l’iesimo risultato di X
Volendo calcolare il valore atteso dei risultati di un lancio di un dado non
truccato, avremmo:
 X  EX  
N
 x Px   1* 6  2 * 6  3* 6  4 * 6  5 * 6  6 * 6  3,5
1
i
1
1
1
1
1
i
i 1
Risultata evidente che, lanciando un dado, non si ottiene mai un punteggio di 3,5
; tuttavia il valore atteso risulta importante allorquando affrontiamo dei giochi con
puntata, a tal proposito presentiamo il seguente gioco:
Esempio5: Quanti soldi sareste disposti ad offrire per lanciare un dado non
truccato, se doveste essere pagati, in euro, la cifra che compare sul dado?
Poiché il valore atteso del lancio di un dado è 3,5, il payoff di lungo periodo atteso
è di 3,50 € al lancio.
Quindi per ogni particolare lancio il payoff sarà 1€, 2€, …, 6€, ma dopo aver
effettuato numerosi lanci ci si deve attendere che la media del payoff sia 3,50€.
Se si desidera un gioco reale né noi né il nostro concorrente (il “banco”)
dovremmo avere dei vantaggi.
Tuttavia in ogni casinò, di solito, il payoff di lungo periodo atteso per il principiante
è negativo, altrimenti il banco non farebbe guadagni; infatti giochi come “underor-over seven”, “roulette” attraggono un gran numero di giocatori ed il profitto
atteso nel tempo è molto favorevole al banco.
8.3 Varianza e scarto quadratico medio di una variabile casuale discreta
La varianza  X2 di una variabile casuale discreta può essere definita come la
media ponderata delle differenze elevate al quadrato tra ogni possibile risultato e
la propria media aritmetica, con i pesi corrispondenti alle probabilità di ciascun
risultato.
 X2 
N
 x
i
  X  2 P x i 
i 1
dove X è la variabile casuale discreta oggetto di studio
x i è l’iesimo risultato di X
Px i  è la probabilità che si verifichi l’iesimo risultato di X
Inoltre lo scarto quadratico medio è:
5
L’esempio è stato tratto da Statistica per le scienze economiche, Bologna, 1989
50
X 
N
 x
i
  X 2 P x i 
i 1
8.4 Distribuzione uniforme
La più semplice fra tutte le distribuzioni di probabilità è la distribuzione uniforme, la
cui caratteristica fondamentale consiste nell’identica possibilità del verificarsi dei
risultati della variabile casuale oggetto di studio.
L’espressione matematica che rappresenta la probabilità che una variabile
casuale discreta segua una distribuzione uniforme è:
P( X ) 
1
(b  a)  1
dove b è il risultato più grande possibile di X
a è il risultato più piccolo possibile di X
L’esempio più classico di una distribuzione di tipo uniforme è rappresentato dal
lancio di un dado non truccato, dove:
b6
a 1
P( X ) 
1
1

(6  1)  1 6
Infatti ogni punteggio (da 1 a 6) ha la stessa probabilità di verificarsi pari a
1
6
Per calcolare la media aritmetica e lo scarto quadratico medio, nel nostro caso,
possiamo utilizzare delle formule più semplici di quelle viste in precedenze, che
comunque restano valide per tutti i casi:
 X  EX  
X 
ab
2
b  a   12  1
12
51
8.5 Distribuzione binomiale
Una delle distribuzioni di probabilità discreta più utilizzate per descrivere numerosi
fenomeni è la distribuzione binomiale. Essa gode di quattro importanti proprietà:

Le osservazioni possono essere ottenute mediante due diversi metodi di
campionamento: senza ripetizione da popolazione infinita o con ripetizione
da popolazione finita

Ciascuna osservazione è classificata come successo o insuccesso, due
categorie incompatibili

La probabilità che si verifichi il successo è p, mentre la probabilità che si
verifichi l’insuccesso è 1-p. Inoltre le due probabilità devono rimanere costanti
per tutte le osservazioni

Il risultato di un osservazione è indipendente dal risultato di ogni altra
osservazione
L’espressione matematica che rappresenta la probabilità che una variabile
casuale discreta segua una distribuzione binomiale è:


P X  xn, p 

n!
p x 1  p n  x
x!n  x !

dove P X  xn, p è la probabilità che X  x , dati n e p ;
n è la dimensione del campione
p è la probabilità che si verifichi l’evento successo
1-p è la probabilità che si verifichi l’evento insuccesso
x è il numero di successi per il campione ( X =0,1,2,…,n)
n!
x!n  x !
Dividendo l’espressione in due parti
ci indica quante sequenze o
combinazioni di x successi su n osservazioni sono possibili, mentre p x 1  p n  x è la
probabilità di una particolare sequenza.
52


Il prodotto dei due fattori ci da la probabilità di X=0,1,…,n successi per P X  xn, p =
numero di sequenze possibili moltiplicato per la probabilità di una particolare
sequenza.
La media aritmetica di una distribuzione binomiale non è altro che il prodotto dei
due parametri n e p:
 X  E X   np
Lo scarto quadratico medio di una distribuzione binomiale è:
 X  np(1  p)
Esempio: Come si evince da numerosi studi demografici, in ogni popolazione
umana, nascono più maschi che femmine, con un rapporto di 105-106 maschi
ogni 100 femmine. Sulla base di queste informazioni possiamo stabilire a priori che
la probabilità della nascita di un maschio è pari a p=0,52, mentre quella di una
femmina è 1-p=0,48.
Attraverso la distribuzione binomiale possiamo calcolare la probabilità di avere
0,1,2,3,4 figli maschi nelle famiglie con 4 figli.
p=0,52 ; n=4










P X  04;0,52 
P X  14;0,52 
P X  24;0,52 
P X  34;0,52 
P X  44;0,52 
4!
 0,52 0  0,48 40  1 1  0,48 4  0,05
0!4  0!
4!
 0,521  0,48 41  4  0,52  0,48 3  0,23
1!4  1!
4!
 0,52 2  0,48 42  6  0,52 2  0,48 2  0,37
2!4  2!
4!
 0,52 3  0,48 43  4  0,52 3  0,48   0,28
3!4  3!
4!
 0,52 4  0,48 44  1  0,52 4 1  0,28
4!4  4!
Ciò significa che la probabilità in famiglie con 4 figli di avere:
- 0 figli maschi è 0,05
- 1 figlio maschio è 0,23
53
- 2 figli maschi è 0,37
- 3 figli maschi è 0,28
- 4 figli maschi è 0,07
Il totale delle probabilità stimate deve necessariamente essere uguale a 1 (0,05 +
0,23 + 0,37 + 0,28 + 0,07 = 1,00) in quanto non esistono altri eventi possibili oltre
quelli calcolati.
Probabilità del numero di figli maschi in famiglie con 4 figli
0,4
p
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0
0
1
2
3
4
numero di figli maschi
Il grafico della pagina precedente mostra con evidenza una distribuzione
leggermente asimmetrica. La causa è il differente valore di probabilità dei due
eventi alternativi (p = 0,52; 1-p = 0,48) e del numero basso di eventi (n = 4).
Se avessimo avuto p=1-p=0,5 la distribuzione sarebbe stata simmetrica; con p e 1p diversi, diventa simmetrica all’aumentare del numero di dati.
8.6 Distribuzione di Poisson
Siméon-Denis
Nel caso in cui il numero dei dati (n) è molto grande e la probabilità
Poisson (1781-1840)
p è molto piccola, la distribuzione binomiale presenta vari
inconvenienti pratici quali l'innalzamento di frequenze molto basse a potenze
54
elevate e il calcolo di fattoriali per numeri grandi rendono il calcolo manuale
praticamente impossibile.
Per n che tende all'infinito e p che tende a 0, in modo tale che n  p sia costante, il
matematico francese S. D. Poisson (1781-1840) nel 1837 ha dimostrato che:
e  np npx
P X  xn, p 
x!


per
n
p 0
np  cos t


dove P X  xn, p è la probabilità che X  x , dati n e p ;
n è la dimensione del campione
p è la probabilità che si verifichi l’evento successo
1-p è la probabilità che si verifichi l’evento insuccesso
x è il numero di successi per il campione ( X =0,1,2,…,n)
e è la base del sistema logaritmico Neperiano, un numero irrazionale
approssimato con
2,7182818284590
La distribuzione di Poisson è una distribuzione teorica discreta definita da un solo
parametro, la media.
 X  E X     np
 X    np
Come si può facilmente dedurre dalle formule la distribuzione di Poisson ha una
particolare proprietà, che è quella di avere la media aritmetica  X uguale alla
varianza  .
Per p prossimo a 0, cioè per (1-p) vicino a 1 lo scarto quadratico medio della
distribuzione di Poisson coincide con quello della distribuzione binomiale.
La legge di distribuzione poissoniana è detta anche legge degli eventi rari, poiché
la probabilità che l’evento si verifichi è estremamente bassa. E’ chiamata pure
legge dei piccoli numeri, in quanto la frequenza assoluta di questi eventi è
espressa da un numero piccolo, anche in un numero elevato di prove.
55
Esempio di disribuzione di Poisson
0,5
p
0,45
0,4
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0
1
2
3
4
5
6
7
8
9
10
x
La distribuzione poissoniana ha una forma molto asimmetrica e la classe più
frequente o più probabile è zero, quando µ è inferiore a 1(come nel caso in
figura); è ancora asimmetrica per valori di µ inferiori a 3; ma una media uguale a
6-7 determina una distribuzione delle probabilità simmetrica ed è bene
approssimata dalla distribuzione normale o gaussiana.
56
8.7 Distribuzione normale o di Gauss
Carl Friedrich Gauss
(1777-1855)
Fino ad ora abbiamo trattato di modelli di distribuzioni di probabilità discrete, ora
passiamo a considerare alcuni modelli di distribuzione di variabili continue (come
tempo, peso, altezza…). La più importante fra tutte le distribuzioni di probabilità
continue è sicuramente la distribuzione di Gauss che rappresenta il fondamento
sul quale si poggia tutta la statistica parametrica
Individuata per la prima volta da De Moivre(1733), proposta da Gauss(1809), ed
attribuita dalla letteratura francese anche a Laplace(1812), che ne avrebbe
definito importanti proprietà prima della trattazione completa di Gauss, la
distribuzione di Gauss è anche chiamata curva normale a seguito della
convinzione, non sempre corretta, che molti fenomeni naturali, biologici e fisici
seguano la sua distribuzione.
E’ anche nota, soprattutto in fisica, come curva degli errori, poiché la distribuzione
di quest’ultimi, allorquando si misura una stessa grandezza, è molto ben
rappresentata da questa curva.
Sotto l’aspetto matematico la distribuzione di Gauss può essere considerata come
un aspetto particolare della distribuzione binomiale per n   e (né p e nè q)
tendono a zero.
La distribuzione di Gauss dipende solamente da due parametri, la media e la
varianza; ed è rappresentata dalla seguente funzione:
 x X 2
y
1
2 X2
e
2 2X
dove:  X = media aritmetica reale
 X = scarto quadratico medio reale
X = valori della variabile casuale continua per   X  
sostituendo
X X
X
con Z , la nuova variabile casuale standardizzata Z avrà
sempre una media aritmetica  Z  0 ed uno scarto quadratico medio  Z  1
caratteristiche delle distribuzione di Gauss:
-
distribuzione continua
un massimo in cui coincidono media, moda, mediana
simmetrica rispetto al punto di massimo
2 punti di flesso in cui coincidono i valori della deviazione standard  e 
2 code asintotiche
campo di esistenza da  e 
57
Per la pratica statistica è fondamentale la seguente proprietà della curva di
Gauss:
Per avere una conoscenza completa di una popolazione distribuita normalmente
è sufficiente conoscere due soli valori: uno è l’ascissa corrispondente alla sommità
della curva e si chiama media; l’altro corrisponde alla distanza, misurata a partire
dalla media, dei punti di flesso della curva, situati simmetricamente a destra e a
sinistra, e si chiama deviazione standard.
Per meglio comprendere il procedimento che porta alla standardizzazione della
variabile casuale può risultare utile il seguente schema:
58
-4
-3
-2
-1
0
1
2
3
4
Variabile standardizzata, z
-4 -3 -2 -1 
+ +2 +3 +4
Variabile originaria, x
Y = Ordinata della curva normale standardizzata in z.
Z
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
.00
.3989
.3970
.3910
.3814
.3683
.3521
.3332
.3123
.2897
.2661
.2420
.2179
.1942
.1714
.1497
.1295
.1109
.0940
.0790
.0656
.0540
.0440
.0355
.0283
.0224
.0175
.0136
.0104
.0079
.0060
.0044
.0033
.0024
.0017
.0012
.0009
.0006
.0004
.0003
.0002
.01
.3989
.3965
.3902
.3802
.3668
.3503
.3312
.3101
.2874
.2637
.2396
.2155
.1919
.1691
.1476
.1276
.1092
.0925
.0775
.0644
.0529
.0431
.0347
.0277
.0219
.0171
.0132
.0101
.0077
.0058
.0043
.0032
.0023
.0017
.0012
.0008
.0006
.0004
.0003
.0002
.02
.3989
.3961
.3894
.3790
.3653
.3485
.3292
.3079
.2850
.2613
.2371
.2131
.1895
.1669
.1456
.1257
.1074
.0909
.0761
.0632
.0519
.0422
.0339
.0270
.0213
.0167
.0129
.0099
.0075
.0056
.0042
.0031
.0022
.0016
.0012
.0008
.0006
.0004
.0003
.0002
.03
.3988
.3956
.3885
.3778
.3637
.3467
.3271
.3056
.2827
.2589
.2347
.2107
.1872
.1647
.1435
.1238
.1057
.0893
.0748
.0620
.0508
.0413
.0332
.0264
.0208
.0163
.0126
.0096
.0073
.0055
.0040
.0030
.0022
.0016
.0011
.0008
.0005
.0004
.0003
.0002
.04
.3986
.3951
.3876
.3765
.3621
.3448
.3251
.3034
.2803
.2565
.2323
.2083
.1849
.1626
.1415
.1219
.1040
.0878
.0734
.0608
.0498
.0404
.0325
.0258
.0203
.0158
.0122
.0093
.0071
.0053
.0039
.0029
.0021
.0015
.0011
.0008
.0005
.0004
.0003
.0002
.05
.3984
.3945
.3867
.3752
.3605
.3429
.3230
.3011
.2780
.2541
.2299
.2059
.1826
.1604
.1394
.1200
.1023
.0863
.0721
.0596
.0488
.0396
.0317
.0252
.0198
.0154
.0119
.0091
.0069
.0051
.0038
.0028
.0020
.0015
.0010
.0007
.0005
.0004
.0002
.0002
.06
.3982
.3939
.3857
.3739
.3589
.3410
.3209
.2989
.2756
.2516
.2275
.2036
.1804
.1582
.1374
.1182
.1006
.0848
.0707
.0584
.0478
.0387
.0310
.0246
.0194
.0151
.0116
.0088
.0067
.0050
.0037
.0027
.0020
.0014
.0010
.0007
.0005
.0003
.0002
.0002
59
.07
.3980
.3932
.3847
.3725
.3572
.3391
.3187
.2966
.2732
.2492
.2251
.2012
.1781
.1561
.1354
.1163
.0989
.0833
.0694
.0573
.0468
.0379
.0303
.0241
.0189
.0147
.0113
.0086
.0065
.0048
.0036
.0026
.0019
.0014
.0010
.0007
.0005
.0003
.0002
.0002
.08
.3977
.3925
.3836
.3712
.3555
.3372
.3166
.2943
.2709
.2468
.2227
.1989
.1758
.1539
.1334
.1145
.0973
.0818
.0681
.0562
.0459
.0371
.0297
.0235
.0184
.0143
.0110
.0084
.0063
.0047
.0035
.0025
.0018
.0013
.0009
.0007
.0005
.0003
.0002
.0001
.09
.3973
.3918
.3825
.3697
.3538
.3352
.3144
.2920
.2685
.2444
.2203
.1965
.1736
.1518
.1315
.1127
.0957
.0804
.0669
.0551
.0449
.0363
.0290
.0229
.0180
.0139
.0107
.0081
.0061
.0046
.0034
.0025
.0018
.0013
.0009
.0006
.0004
.0003
.0002
.0001
L’area sottesa dalla curva normale standardizzata è pari ad 1; ma se uno volesse
calcolare con quale probabilità x sia compreso tra due valori, ci sono molto di
aiuto le rappresentazioni tabulari degli integrali di probabilità (come quella
riportata qui sopra).
Tenendo presente che Z 
X X
X
e che quindi X   X  Z X
Se si volesse calcolare la probabilità Px1  x  x 2  :
supponiamo ce la nostra distribuzione abbia media aritmetica   10 e   3 e che
x1  5 e x 2  14
5
zi 
7
10
13 14
xi  

z1 
5  10 5
  1,66
3
3
z2 
14  10 4
  1,33
3
3
Dalla tabella degli integrali della probabilità si rileva il valore relativo all’intervallo
z i   . Per z i = 1,66 si legge un integrale di probabilità pari a 0,048457, che è
l’integrale che corrisponde all’area della curva, definita in ascisse dall’intervallo
1,66   , che è, poi, lo stesso che da -1,66   :
Il valore relativo all’intervallo 1,33   è uguale a 0,091759
P (-1,66  1,33) = 1,00 - (0,048457 + 0,091759) = 0,859784 (85, 9784 %)
60
Scarica